全国服务热线:400-6136-679

位置:南宁达内教育IT培训机构 > 学校动态 > 大数据开发课程之流计算基础入门

大数据开发课程之流计算基础入门

来源:南宁达内教育IT培训机构时间:2022/3/16 14:22:38

  大数据开发课程之流计算基础入门

  在企业的大数据系统平台当中,实时数据处理始终是普遍存在的需求,而实时流计算引擎,就是实时数据处理的主要解决方案。从事大数据系统平台开发的工程师们,掌握流计算框架是基本要求。今天的大数据开发课程培训分享,我们主要来讲讲流计算技术入门。

大数据开发课程之流计算基础入门

  什么是流计算?
  简单来说,“流”指源源不断的数据流(Unbounded Data)。流计算则是指基于源源不断的数据流之上的计算,在计算发生时数据可能未完全抵达,甚至尚未产生。
  流计算的过程就好比工厂里的流水线作业——产品在传送带上经历多道工序加工而成,其中每一道工序分别处理从上游源源不断传送过来的加工件,处理完成后再往下游传送。流水线的多道加工工序,对应流计算过程中的多个算子;流水线的某一道工序上,有时需要等接收到上游一批加工件之后才开始加工,对应流计算里的窗口化;工厂里的多条流水线并行加工,对应流计算的并行计算……
  无论大到整个产品线的各个服务模块,还是小到每个服务模块中的具体实现步骤,“流”能够非常自然地描述业务执行的流程,它就像“分形”一样,能做任意细粒度的划分。
  如何使用流计算?
  以kafka+Spark Streaming+hbase来搭建一个准实时流计算框架,利用消息缓存组件Kafka实时记录从数据采集工具或业务系统实时接口收集到的数据,通过实时计算框架Spark Streaming进行逻辑处理,较终将数据存入hbase或者写回kafka中进行后续数据交付工作。
  1.Kafka-消息订阅和发布
  生产系统定时向kafka“生产”数据,应用系统可以自定义数据提取规则来“消费”数据,实时数据可以按分钟级/秒级的频率获取数据。
  2.Zookeeper——服务器间协调
  简单地说,zookeeper=文件系统+监听通知机制。对于Kafka这样的分布式服务,通常需要多台服务器相互协调工作,且保持一致性。
  3.Spark Streaming——Spark核心API
  Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。它可以通过Kafka、HDFS、Flume等多种渠道获取实时数据流,按照指定时间段切成一片片小的数据块,传给Spark Engine进行数据处理,较终得到一批批的结果。
  4.Hbase——分布式数据库
  Hbase不同于一般的关系型数据库,它是一个适合于非结构化数据存储的数据库。Hbase可以在一个服务器集群上运行,并且能够根据业务进行横向扩展。
  南宁达内IT培训学校,达内教育IT培训机构,能够为你提供良好的技术学习,能够更好地了解每个学习者的需求,根据每个学习者特定的需求为其配置合适的资产组合,无疑更加符合学习者的需求。每一位授课老师不仅具备多年的实际教学经验,还具备丰富的项目工作经验,因为对于这个行业来说,只有丰富的实战经验才能更好地把经验传授给学生。
  想了解更多内容,可咨询达内在线客服,现在咨询有机会获得试听课名额,咨询热线电话:400-626-3986
领取试听课
每天限量名额,先到先得

尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/3845/news/499677/违者必究! 以上就是南宁达内教育IT培训机构 小编为您整理 大数据开发课程之流计算基础入门的全部内容。

温馨提示:提交留言后老师会第一时间与您联系!热线电话:400-6136-679