如何配置Hadoop环境

来源：南宁达内IT教育培训学校时间：2022/11/17 12:00:09

　　如何配置Hadoop环境?

　　一、创建Hadoop用户

　　创建hadoop用户，并分配以用户名为家目录/home/hadoop，并将其加入到sudo用户组，创建好用户之后，以hadoop用户登录：

　　sudouseradd-mhadoop-s/bin/bash

　　sudoadduserhadoopsudo

　　sudopasswdhadoop#设置hadoop用户密码123123

　　二、安装JDK、Hadoop及配置环境变量

　　安装，解压JDK到/usr/lib/Java/路径下，Hadoop到/usr/local/etc/hadoop/路径下：

　　tarzxf./hadoop-2.6.*.tar.gz

　　mv./hadoop-2.6.*/usr/local/etc/hadoop#将/usr/local/etc/hadoop作为Hadoop的安装路径1212

　　解压完成之后，可验证hadoop的可用性：

　　cd/usr/local/etc/hadoop

　　./bin/hadoopversion#查看hadoop的版本信息1212

　　若在此处，会出现类似以下的错误信息，则很有可能是该安装包有问题。

　　Error:Couldnotfindorloadmainclassorg.apache.hadoop.util.VersionInfo11

　　配置环境，编辑“/etc/profile”文件，在其后添加如下信息：

　　exportHADOOP_HOME=/usr/local/etc/hadoop

　　exportJAVA_HOME=/usr/lib/java/jdk1.8.0_45

　　exportJRE_HOME=${JAVA_HOME}/jre

　　exportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

　　exportPATH=$PATH:${JAVA_HOME}/bin:${JRE_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin1234512345

　　使配置的变量生效：

　　source/etc/profile

　　Hadoop环境中管理大数据分布式存储有什么技巧?

　　统化集中式存储存在已有一段时间。但大数据并非真的适合集中式存储架构。Hadoop设计用于将计算更接近数据节点，同时采用了HDFS文件系统的大规模横向扩展功能。

　　虽然，通常解决Hadoop管理自身数据低效性的方案是将Hadoop数据存储在SAN上。但这也造成了它自身性能与规模的瓶颈。现在，如果你把所有的数据都通过集中式SAN处理器进行处理，与Hadoop的分布式和并行化特性相悖。你要么针对不同的数据节点管理多个SAN，要么将所有的数据节点都集中到一个SAN。

　　但Hadoop是一个分布式应用，就应该运行在分布式存储上，这样存储就保留了与Hadoop本身同样的灵活性，不过它也要求拥抱一个软件定义存储方案，并在商用服务器上运行，这相比瓶颈化的Hadoop自然更为。

　　Hadoop环境中管理大数据超融合和分布式有什么区别?

　　注意，不要混淆超融合与分布式。某些超融合方案是分布式存储，但通常这个术语意味着你的应用和存储都保存在同一计算节点上。这是在试图解决数据本地化的问题，但它会造成太多资源争用。这个Hadoop应用和存储平台会争用相同的内存和CPU。Hadoop运行在专有应用层，分布式存储运行在专有存储层这样会更好。之后，利用缓存和分层来解决数据本地化并补偿网络性能损失。

领取试听课

每天限量名额，先到先得

尊重原创文章，转载请注明出处与链接：http://www.peixun360.com/1658/news/575927/违者必究！以上就是南宁达内IT教育培训学校小编为您整理 如何配置Hadoop环境的全部内容。