全国服务热线:400-6263-721

位置:南宁达内IT教育培训学校 > 学校动态 > 大数据学习路线 MAPREDUCE

大数据学习路线 MAPREDUCE

来源:南宁达内IT教育培训学校时间:2022/5/11 15:41:26

  大数据学习路线分享MAPREDUCE,需求:统计大量的文本文件中的单词出现的次数

  - 1)整个运算需要分阶段

  - 阶段一:并行局部运算

  - 阶段二 :汇总处理,不同的阶段需要开发不同的程序

  - 2)阶段之间的调用

  - 3)业务程序(task程序)如何并发到集群并启动程序

  - 4)如何监控task程序的运行状态,如何处理异常

  - ::这些问题是开发分布式程序都会面临的问题,完全可以封装成框架::

  MR 的结构

  - 一个完整的MapReduce运行时有三类实例进程:

  - 1)MRAppMaster : 负责整个程序的过程调度和状态调度

  - 2)mapTask:负责map阶段的整个数据处理流程

  - 3)ReduceTask:负责reduce阶段的整个数据处理流程

  MR设计框架

  ::MAPERDUCE详细框架::

  - 1)资源如何分发? ::放到HDFS:::中不能由客户端发送,如果配置1000台机器,也不能做pipeline,所以,可以把jar放在HDFS中的一个目录下。

  - 2)虽然有上千台机器,现在job只需要20台机器即可完成,由谁决定是哪20台机器?::ResourceManager:: 作为master

  - 3)worker--NODEMANAGER,执行应用程序,监控应用程序的资源使用情况(cpu,磁盘,网络,硬盘)并且向调度器ResourceManager汇报

  ![](MAPREDUCE/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202018-09-19%20%E4%B8%8B%E5%8D%889.27.42.png)

  ::作业提交流程::

  - 1)客户端提交作业给resourcemanager

  - 2)resourcemanager返回jobid,存储路径path信息

  - 3)客户端将job.jar 、job.split(确定需要运行多少task)、job.splitinfo等资源上传到HDFS的存储路径

  - 4)上传到hdfs完成后,客户端通知resourcemanager启动job

  - 5)resourcemanager将job加入到job*等待队列*,然后nodemanager启动container,将资源下载到container内,向客户端发出请求启动master

  - 6)Appmaster向resourcemanager请求maptask的资

  - 7)resourcemanager分配资源,从hdfs下载jar到container中,master启动maptask,通过心跳机制,检查job.split

  - 8)maptask执行完成,通知Appmaster,释放maptask资源。

  ## 分片机制

  ::如何确定需要运行多少task(并行度)::

  ![](MAPREDUCE/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202018-09-20%20%E4%B8%8A%E5%8D%882.30.10.png)

  - 决定需要多大的并行度

  - map阶段并行度:客户端首先查看一下待处理数据目录下的数据量

  /data/a.txt 1G

  /data/b.txt 800M

  - 循环遍历:对每个文件看文件有多少个block,将block数量累加到计数器

  - 返回一任务规划描述文件:job.split:

  - [ ] split0: /data/a.txt 0-128M

  - [ ] split1: /data/a.txtx 128-256M

  …..

  - [ ] split8: /data/b.txt 0-128M

  写入HDFS中

  - 分片和分块不同:

  - 分片是逻辑概念,给task一个数据处理的范围

  - 存在冗余(10%),偏移量和数据大小

  - 特性:移动计算(jar包中封装的计算)而不是移动数据

  编写MR程序的步骤:

  1、用户编写程序分为三个部分:Mapper、Reducer、Driver

  2、Mapper的输入数据是kv对的形式(数据类型可自定义)

  3、Mapper的输出数据是kv对的形式(数据类型可自定义)

  4、Mapper中的业务逻辑写在map()方法中

  5、Map()方法对每一对kv值调用一次

  6、Reducer的输入数据是kv对的形式(数据类型可自定义)

  7、Reducer的输出数据是kv对的形式(数据类型可自定义)

  8、Reducer中的业务逻辑写在reduce()方法中

  9、ReduceTask进程对每一组相同的key的调用一次reduce()方法

  10、用户自定义的Mapper、Reducer类都要继承各自的父类

  11、整个程序需要一个Driver来进行提交,提交是一个描述了各种必要信息的job对象

  - 案例:wordcount

  - 需求:有一批数据文件(TB或者PB级别的数据),如何统计这些文件中的单词出现次数

领取试听课
每天限量名额,先到先得

尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/1658/news/523351/违者必究! 以上就是南宁达内IT教育培训学校 小编为您整理 大数据学习路线 MAPREDUCE的全部内容。

温馨提示:提交留言后老师会第一时间与您联系!热线电话:400-6263-721