位置:南宁达内IT教育培训学校 > 学校动态 > 如何配置Hadoop环境
如何配置Hadoop环境?
一、创建Hadoop用户
创建hadoop用户,并分配以用户名为家目录/home/hadoop,并将其加入到sudo用户组,创建好用户之后,以hadoop用户登录:
sudouseradd-mhadoop-s/bin/bash
sudoadduserhadoopsudo
sudopasswdhadoop#设置hadoop用户密码123123
二、安装JDK、Hadoop及配置环境变量
安装,解压JDK到/usr/lib/Java/路径下,Hadoop到/usr/local/etc/hadoop/路径下:
tarzxf./hadoop-2.6.*.tar.gz
mv./hadoop-2.6.*/usr/local/etc/hadoop#将/usr/local/etc/hadoop作为Hadoop的安装路径1212
解压完成之后,可验证hadoop的可用性:
cd/usr/local/etc/hadoop
./bin/hadoopversion#查看hadoop的版本信息1212
若在此处,会出现类似以下的错误信息,则很有可能是该安装包有问题。
Error:Couldnotfindorloadmainclassorg.apache.hadoop.util.VersionInfo11
配置环境,编辑“/etc/profile”文件,在其后添加如下信息:
exportHADOOP_HOME=/usr/local/etc/hadoop
exportJAVA_HOME=/usr/lib/java/jdk1.8.0_45
exportJRE_HOME=${JAVA_HOME}/jre
exportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
exportPATH=$PATH:${JAVA_HOME}/bin:${JRE_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin1234512345
使配置的变量生效:
source/etc/profile
Hadoop环境中管理大数据分布式存储有什么技巧?
统化集中式存储存在已有一段时间。但大数据并非真的适合集中式存储架构。Hadoop设计用于将计算更接近数据节点,同时采用了HDFS文件系统的大规模横向扩展功能。
虽然,通常解决Hadoop管理自身数据低效性的方案是将Hadoop数据存储在SAN上。但这也造成了它自身性能与规模的瓶颈。现在,如果你把所有的数据都通过集中式SAN处理器进行处理,与Hadoop的分布式和并行化特性相悖。你要么针对不同的数据节点管理多个SAN,要么将所有的数据节点都集中到一个SAN。
但Hadoop是一个分布式应用,就应该运行在分布式存储上,这样存储就保留了与Hadoop本身同样的灵活性,不过它也要求拥抱一个软件定义存储方案,并在商用服务器上运行,这相比瓶颈化的Hadoop自然更为。
Hadoop环境中管理大数据超融合和分布式有什么区别?
注意,不要混淆超融合与分布式。某些超融合方案是分布式存储,但通常这个术语意味着你的应用和存储都保存在同一计算节点上。这是在试图解决数据本地化的问题,但它会造成太多资源争用。这个Hadoop应用和存储平台会争用相同的内存和CPU。Hadoop运行在专有应用层,分布式存储运行在专有存储层这样会更好。之后,利用缓存和分层来解决数据本地化并补偿网络性能损失。
尊重原创文章,转载请注明出处与链接:http://www.peixun360.com/1658/news/575927/违者必究! 以上就是南宁达内IT教育培训学校 小编为您整理 如何配置Hadoop环境的全部内容。