位置：南宁达内IT教育培训学校 > 学校动态 > 大数据学习路线 MAPREDUCE

大数据学习路线 MAPREDUCE

来源：南宁达内IT教育培训学校时间：2022/5/11 15:41:26

　　大数据学习路线分享MAPREDUCE，需求：统计大量的文本文件中的单词出现的次数

　　- 1)整个运算需要分阶段

　　- 阶段一：并行局部运算

　　- 阶段二：汇总处理，不同的阶段需要开发不同的程序

　　- 2)阶段之间的调用

　　- 3)业务程序(task程序)如何并发到集群并启动程序

　　- 4)如何监控task程序的运行状态，如何处理异常

　　- ::这些问题是开发分布式程序都会面临的问题，完全可以封装成框架::

　　MR 的结构

　　- 一个完整的MapReduce运行时有三类实例进程：

　　- 1)MRAppMaster ：负责整个程序的过程调度和状态调度

　　- 2)mapTask：负责map阶段的整个数据处理流程

　　- 3)ReduceTask：负责reduce阶段的整个数据处理流程

　　MR设计框架

　　::MAPERDUCE详细框架::

　　- 1)资源如何分发? ::放到HDFS:::中不能由客户端发送，如果配置1000台机器，也不能做pipeline，所以，可以把jar放在HDFS中的一个目录下。

　　- 2)虽然有上千台机器，现在job只需要20台机器即可完成，由谁决定是哪20台机器?::ResourceManager:: 作为master

　　- 3)worker--NODEMANAGER,执行应用程序，监控应用程序的资源使用情况(cpu，磁盘，网络，硬盘)并且向调度器ResourceManager汇报

　　![](MAPREDUCE/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202018-09-19%20%E4%B8%8B%E5%8D%889.27.42.png)

　　::作业提交流程::

　　- 1)客户端提交作业给resourcemanager

　　- 2)resourcemanager返回jobid，存储路径path信息

　　- 3)客户端将job.jar 、job.split(确定需要运行多少task)、job.splitinfo等资源上传到HDFS的存储路径

　　- 4)上传到hdfs完成后，客户端通知resourcemanager启动job

　　- 5)resourcemanager将job加入到job*等待队列*，然后nodemanager启动container，将资源下载到container内，向客户端发出请求启动master

　　- 6)Appmaster向resourcemanager请求maptask的资

　　- 7)resourcemanager分配资源，从hdfs下载jar到container中，master启动maptask，通过心跳机制，检查job.split

　　- 8)maptask执行完成，通知Appmaster，释放maptask资源。

　　## 分片机制

　　::如何确定需要运行多少task(并行度)::

　　![](MAPREDUCE/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202018-09-20%20%E4%B8%8A%E5%8D%882.30.10.png)

　　- 决定需要多大的并行度

　　- map阶段并行度：客户端首先查看一下待处理数据目录下的数据量

　　/data/a.txt 1G

　　/data/b.txt 800M

　　- 循环遍历：对每个文件看文件有多少个block，将block数量累加到计数器

　　- 返回一任务规划描述文件：job.split：

　　- [ ] split0: /data/a.txt 0-128M

　　- [ ] split1: /data/a.txtx 128-256M

　　…..

　　- [ ] split8: /data/b.txt 0-128M

　　写入HDFS中

　　- 分片和分块不同：

　　- 分片是逻辑概念，给task一个数据处理的范围

　　- 存在冗余(10%)，偏移量和数据大小

　　- 特性：移动计算(jar包中封装的计算)而不是移动数据

　　编写MR程序的步骤：

　　1、用户编写程序分为三个部分：Mapper、Reducer、Driver

　　2、Mapper的输入数据是kv对的形式(数据类型可自定义)

　　3、Mapper的输出数据是kv对的形式(数据类型可自定义)

　　4、Mapper中的业务逻辑写在map()方法中

　　5、Map()方法对每一对kv值调用一次

　　6、Reducer的输入数据是kv对的形式(数据类型可自定义)

　　7、Reducer的输出数据是kv对的形式(数据类型可自定义)

　　8、Reducer中的业务逻辑写在reduce()方法中

　　9、ReduceTask进程对每一组相同的key的调用一次reduce()方法

　　10、用户自定义的Mapper、Reducer类都要继承各自的父类

　　11、整个程序需要一个Driver来进行提交，提交是一个描述了各种必要信息的job对象

　　- 案例：wordcount

　　- 需求：有一批数据文件(TB或者PB级别的数据)，如何统计这些文件中的单词出现次数

领取试听课

每天限量名额，先到先得

尊重原创文章，转载请注明出处与链接：http://www.peixun360.com/1658/news/523351/违者必究！以上就是南宁达内IT教育培训学校小编为您整理 大数据学习路线 MAPREDUCE的全部内容。

有疑问联系客服为您解答

在线咨询

QQ咨询：3307289672

电话咨询：400-6263-721

免费领取试听课

申请试听

大数据学习路线 MAPREDUCE

来源：南宁达内IT教育培训学校时间：2022/5/11 15:41:26

免费领取试听课

推荐课程更多>>

学校动态更多>>

课程分类

友情链接

大数据学习路线 MAPREDUCE

来源：南宁达内IT教育培训学校时间：2022/5/11 15:41:26

免费领取试听课

推荐课程更多>>

学校动态更多>>

课程分类 友情链接

课程分类

友情链接