全国服务热线:400-6263-721

位置:北京IT培训学院 > 学校动态 > Hadoop大数据处理框架简介

Hadoop大数据处理框架简介

来源:北京IT培训学院时间:2020/10/19 14:45:21

    Hadoop是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。初由Yahoo的工程师DougCutting和MikeCafarella在2005年合作开发。后来,Hadoop被贡献给了Apache基金会,成为Apache基金会的开源项目。

北京大数据培训课程

    Hadoop系统简介
    Hadoop是一种分析和处理大数据的软件平台,是一个用Java语言实现的Apache的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。
    Hadoop采用MapReduce分布式计算框架,根据GFS原理开发了HDFS(分布式文件系统),并根据BigTable原理开发了HBase数据存储系统。
    Hadoop和Google内部使用的分布式计算系统原理相同,其开源特性使其成为分布式计算系统的事实上的国际标准。
    Yahoo、Facebook、Amazon,以及的百度、阿里巴巴等众多互联网公司都以Hadoop为基础搭建了自己的分布式计算系统。
    Hadoop是一个基础框架,允许用简单的编程模型在计算机集群上对大型数据集进行分布式处理。它的设计规模从单一服务器到数千台机器,每个服务器都能提供本地计算和存储功能,框架本身提供的是计算机集群高可用的服务,不依靠硬件来提供高可用性。
    用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让hadoop成为流行的大数据分析系统。
    Hadoop包括以下几个框架
    1.Sqoop
    一个连接工具,用于在关系数据库、数据仓库和Hadoop之间转移数据。Sqoop利用数据库技术描述架构,进行数据的导入/导出;利用MapReduce实现并行化运行和容错技术。
    2.Flume
    提供了分布式、可靠、的服务,用于收集、汇总大数据,并将单台计算机的大量数据转移到HDFS。它基于一个简单而灵活的架构,并提供了数据流的流。它利用简单的可扩展的数据模型,将企业中多台计算机上的数据转移到Hadoop。
领取试听课
每天限量名额,先到先得

尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/1972/news/267327/违者必究! 以上就是北京IT培训学院 小编为您整理 Hadoop大数据处理框架简介的全部内容。

温馨提示:提交留言后老师会第一时间与您联系!热线电话:400-6263-721