位置:昆明达内教育IT培训机构 > 学校动态 > 2022年大数据必须掌握的技术栈
2022年大数据必须掌握的技术栈
来源:昆明达内教育IT培训机构时间:2022/4/12 14:24:38
2022年大数据必须掌握的技术栈
大数据在不同的数据处理阶段,有不同的技术栈,这里我们也按照这样的顺序来进行讲解:
1.数据采集和传输层
Flume
Flume,常用于日志采集系统中,支持定制各类数据发送方用于收集数据、通过自定义拦截器对数据进行简单的预处理并传输到各种数据接收方如HDFS、HBase、Kafka中。
Logstash
ELK工作栈的一员,也常用于数据采集,是开源的服务器端数据处理管道。
Sqoop
Sqoop主要通过一组命令进行数据导入导出的工具,底层引擎依赖于MapReduce,主要用于Hadoop(如HDFS、Hive、HBase)和RDBMS(如mysql、oracle)之间的数据导入导出。
Kafka
分布式消息系统。提供了类似于JMS的特性,主要应用在数据缓冲、异步通信、汇集数据、系统接偶等方面。
2.数据存储层
HBase
典型的key/value分布式存储的nosql数据库系统,主要用于海量结构化和半结构化数据存储。
Kudu
介于HDFS和HBase之间的基于列式存储的分布式数据库。兼具了HBase的实时性、HDFS的高吞吐,以及传统数据库的sql支持。
HDFS
分布式文件存储系统,非常适合大规模数据集上的应用,提供高吞吐量的数据访问,可部署在廉价的机器上。
3.数据分析层
Spark
Spark,支持内存迭代式计算的大数据分析引擎。生态体系主要包括用于批数据处理的Spark RDD、SparkSQL,用于流数据处理的SparkStreaming、Structured-Streaming,用于机器学习的Spark MLLib,用于图计算的Graphx以及用于统计分析的Spark R,支持Java、Scala、Python、R多种数据语言。
Flink
分布式的大数据处理引擎,可以对有限数据流和无线数据流进行有状态的计算。Flink在设计之初就是以流为基础发展的,然后再进入批处理领域,相对于spark而言,它是一个真正意义上的实时计算引擎。
Storm
分布式实时计算系统,Storm是一个没有批处理能力的数据流处理计算引擎,storm提供了偏底层的API,用户需要自己实现很多复杂的逻辑。
MapReduce
分布式运算程序的编程框架,适用于离线数据处理场景,内部处理流程主要划分map和reduce两个阶段。
尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/3172/news/512222/违者必究!
以上就是昆明达内教育IT培训机构 小编为您整理 2022年大数据必须掌握的技术栈的全部内容。