全国服务热线:400-6136-679

位置:南宁达内教育IT培训机构 > 学校动态 > spark全栈数据分析

spark全栈数据分析

来源:南宁达内教育IT培训机构时间:2022/4/8 11:28:24

  spark全栈数据分析

  Spark可以理解为一个大一统的技术栈,围绕Spark Core,将批处理、迭代算法、交互式查询、流处理等需求统一到一个统一的框架下,这各种处理流程整合到一起,大大减轻了大数据平台管理和运维的负担。

spark全栈数据分析

  本质上来说,Spark是对Hadoop MapReduce框架的一种优化实现,扩展了MapReduce单一的Map+Reduce模型,支持更多计算模式,也更能满足大数据处理的更多实际需求。
  另外,Spark还提供丰富的接口,除了提供基于Python、Java、Scala和SQL的简单易用的API以及内建的丰富的程序库以外,Spark还能和其他大数据工具密切配合使用。例如,Spark可以运行在Hadoop集群上,访问包括Cassandra在内的任意Hadoop数据源。
  Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。
  由于Spark的核心引擎有着速度快和通用的特点,因此Spark还支持为各种不同应用场景专门设计的组件,比如SQL和机器学习等。这些组件关系密切并且可以相互调用,这也使得开发难度降低。
  Spark Core:Spark的核心功能实现,包括:Spark Context的初始化(Driver Application通过Spark Context提交)、部署模式、存储体系、任务提交与执行、计算引擎等。
  Spark SQL:提供SQL处理能力,便于熟悉关系型数据库操作的工程师进行交互查询。
  Spark Streaming:提供流式计算处理能力,目前支持Kafka、Flume、Twitter、MQTT、ZeroMQ、Kinesis和简单的TCP套接字等数据源。
  GraphX:提供图计算处理能力。
  MLlib:提供机器学习相关的统计、分类、回归、聚类等领域的多种算法实现。
领取试听课
每天限量名额,先到先得

尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/3845/news/510179/违者必究! 以上就是南宁达内教育IT培训机构 小编为您整理 spark全栈数据分析的全部内容。

温馨提示:提交留言后老师会第一时间与您联系!热线电话:400-6136-679