先安装工具:yum install -y net-tools
上传工具包
解压文件
tar -zxvf hadoop-2.7.3.tar.gz -C /opt/bigdata/
修改hadoop/etc/hadoop/hadoop-env.sh文件
修改hadoop/etc/hadoop/mapred-env.sh文件
修改hadoop/etc/hadoop/yarn-env.sh文件
指定Java安装路径
export JAVA_HOME=/opt/bigdata/jdk1.8
继续修改四个配置文件
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml
hadoop中的四个核心模块对应四个默认配置文件,指定默认的文件系统为HDFS,文件系统的访问入口,namenode所在的机器9000端口是早期Hadoop 1.x使用的,现在Hadoop 2.x使用的是8020,端口号用于节点直接内部通信,使用RPC通信机制。
修改etc/hadoop/core-site.xml文件
/tmp表示临时存储目录,系统每次重启会按照脚本预先设置好的删除里面的文件,重新自定义系统生成的文件路径,/tmp会被清空,无法保证数据文件安全性。
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/bigdata/hadoop-2.7.3/data/tmp</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://masterhbase:8082</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
修改etc/hadoop/hdfs-site.xml文件
指定HDFS文件存储的副本数个数,默认是3个,这个数字要小于datanode的节点数
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/bigdata/hadoop-2.7.3/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/bigdata/hadoop-2.7.3/dfs/data</value>
</property>
<property>
<name>dfs.web.ugi</name>
<value>hdfs,hadoop</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
修改etc/hadoop/yarn-site.xml文件
<property>
<name>yarn.resourcemanager.hostname</name>
<value>masterhbase</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>masterhbase:8088</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>masterhbase:8081</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>masterhbase:8087</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.web-proxy.address</name>
<value>masterhbase:54315</value>
</property>
修改etc/hadoop/mapred-site.xml文件(注意重命名)
mv mapred-site.xml.template mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>masterhbase:9001</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>masterhbase:10020</value>
</property>
修改etc/hadoop/slaves文件,指定从节点的机器位置,添加主机名即可
三台机器配置NTP服务
把masterhbase作为整个集群的时间同步服务器
集群中所有其他服务器都来这台服务器masterhbase同步时间
检查每台服务器所在的时区
检查当前系统时区date –R
如果时区不是+0800,执行下列语句
(1)rm -rf /etc/localtime
(2)ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
安装ntp服务
查看ntp软件包是否已安装
rpm -qa | grep ntp
如果没有那就需要安装ntp
yum install -y ntp
修改ntp的配置文件(masterhbase)
vim /etc/ntp.conf
去掉下面这行下面的#,并把网段修改成自己的网段
restrict 192.168.7.0 mask 255.255.255.0 nomodify notrap
*注释掉一下几行
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
把下面前面两行的#号去掉,如果没有,需要手动去添加
server 127.127.1.0 #local clock
fudge 127.127.1.0 stratum 10
启动ntp服务(默认是开启),检查下配置
service ntpd start
chkconfig ntpd on
同步服务器的时间(masterhbase)操作这一步时关闭ntp服务
同步服务器的时间
ntpdate cn.pool.ntp.org
第2、3台向第一台同步时间,启动masterhbase的ntp服务
如果另外两台的ntp的进程开启,那么需要关闭
service ntpd stop
chkconfig ntpd off
ntpdate masterhbase
制定周期性时间同步计划任务
每10分钟同步一次服务器时间
crontab -e
*/10 * * * * /usr/sbin/ntpdate masterhbase
修改下目录权限
chmod -R 777 /opt/bigdata/
将masterhbase中hadoop拷贝到另外两台机器
scp -r /opt/bigdata/hadoop-2.7.3 root@masterslave1:/opt/bigdata
scp -r /opt/bigdata/hadoop-2.7.3 root@masterslave2:/opt/bigdata
格式化命令(masterhbase)
bin/hdfs namenode –format
成功了
启动hadoop
sbin/start-all.sh
jps检查下进程,hadoop搭建完成
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/5465.html