这篇文章主要讲解了“64位linux下的Hadoop分布式集群怎么配置”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“64位linux下的Hadoop分布式集群怎么配置”吧!
搭建Hadoop总的来说分为以下步骤:
检查集群机子环境,准备合适的Hadoop部署文件,一般有以下内容:
检查Java安装(一般不用自带的openJDK,具体原因暂不清楚);
自编译Hadoop 64位部署文件(32bit Hadoop部署文件在x64机子上会有些小问题)
分布式环境下对机子进行整理,罗列其ip(更改/ect/hosts文件需要),划分其Master、Slaver职责(也可以划分更细的ResourceManager、SecondNameNode等,一般来说每个机子都充分利用,均充当DataNode)
“规划”Hadoop文件夹结构,包括安装目录、数据文件(hadoop_data)、临时文件(hadoop_tmp)等;一般来说,建议一个hadoop x.x.0目录下,分别设立hadoop x.x.0目录(解压的Hadoop部署文件存放位置)、hadoop-data(数据文件)、hadoop_tmp(临时文件);当然这是笔者自己的实践,如果不是“行业标准”,请勿见笑;
配置运行环境,这里指的是除Hadoop部署文件中配置文件之外的与系统相关的配置:
修改/etc/hosts文件;
对各Master-Slaver设置ssh无密码访问;
配置Hadoop参数:
对{Hadoop_Home}/etc/hadoop/下的配置文件进行修改,包括hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml,以及slaves文件(hadoop 2.2.0中无masters,参考 masters 和 slaves 文件)。
初次安装,参数尽量最小化配置,少配就行,之后集群优化的工作多得是;
配置支持lzo(这次正是太拘泥于细节,栽在了这个上面,其实分两个步骤):
安装lzo(因为集群需要原生lzo安装目录下的一些库);
安装hadoop-lzo(集群需要一些针对Hadoop的hadoop-lzo下的一些库);
lzop(可选,如果需要测试效果,可用该工具生成一些.lzo文件)
启动集群:
格式化NameNode:${Hadoop_Home}/bin/hdfs namenode –format
一键式启动:${Hadoop_Home}/sbin/start-all.sh(该方法官方不建议使用,但还是能用:This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh)
检查进程状况: jps(来自JDK的工具)
细化步骤:
开启守护进程
[hadoop@hadoop01 ~]$ hadoop-daemon.sh start namenode
[hadoop@hadoop01 ~]$ hadoop-daemon.sh start datanode
开启yarn守护进程
[hadoop@hadoop01 ~]$ yarn-daemon.sh start resourcemanager
[hadoop@hadoop01 ~]$ yarn-daemon.sh start nodemanager
[hadoop@hadoop01 ~]$ start-yarn.sh
感谢各位的阅读,以上就是“64位linux下的Hadoop分布式集群怎么配置”的内容了,经过本文的学习后,相信大家对64位linux下的Hadoop分布式集群怎么配置这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是天达云,小编将为大家推送更多相关知识点的文章,欢迎关注!