全国服务热线:400-035-8011

位置:昆明达内教育IT培训机构 > 学校动态 > 大数据和云计算学习资料汇总

大数据和云计算学习资料汇总

来源:昆明达内教育IT培训机构时间:2022/4/28 14:04:55

  大数据和云计算学习资料汇总

大数据和云计算学习资料汇总

  一、数据采集与预处理
  对于各种来源的数据,这些结构化和非结构化的海量数据是零散的,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。
  数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,需要更强壮的解决方案。
  Flume NG作为实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,HDFS,Hbase等)。
  Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到您较喜欢的“存储库”中。一般常用的存储库是Elasticsearch。
  Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。
  二、数据存储
  Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。
  HBase,可以认为是HDFS的封装,本质是数据存储、NoSQL数据库。HBase是一种Key/Value系统,部署在HDFS上,克服了HDFS在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。
  Phoenix,相当于一个Java中间件,帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。
  三、数据清洗
  MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。
  Oozie是用于Hadoop平台的一种工作流调度引擎,提供了RESTful API接口来接受用户的提交请求(提交工作流作业),当提交了workflow后,由工作流引擎负责workflow的执行以及状态的转换。
  Azkaban也是一种工作流的控制引擎,可以用来解决有多个hadoop或者spark等离线计算任务之间的依赖关系问题。
  四、数据查询分析
  Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的瓶颈。Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供HQL(Hive SQL)查询功能。
  Impala是对Hive的一个补充,可以实现的SQL查询。使用Impala来实现SQL on Hadoop,用来进行大数据实时查询分析。
领取试听课
每天限量名额,先到先得

尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/3172/news/519389/违者必究! 以上就是昆明达内教育IT培训机构 小编为您整理 大数据和云计算学习资料汇总的全部内容。

温馨提示:提交留言后老师会第一时间与您联系!热线电话:400-035-8011