hadoop:伪分布模式启动步骤分解

hadoop:伪分布模式启动步骤分解在运行伪分布式前,需先对NameNode进行格式化,在命令行中输入。伪分布式运行 MapReduce 作业的方式跟单机模式相同,只是读取文件和输

大家好,欢迎来到IT知识分享网。

1、格式化HDFS

在运行伪分布式前,需先对NameNode进行格式化,在命令行中输入

hdfs namenode -format          # 格式化hdfs

若出现successfully formatted字样,则说明格式化成功

hadoop:伪分布模式启动步骤分解

2、启动hadoop

然后启动hadoop集群

start-all.sh # 一次性启动所有服务

或使用以下命令单独启动各项服务

start-dfs.sh      #启动hdfs
start-yarn.sh     #启动mapreduce框架yarn

利用jps命令查看是否启动成功,如果出现下述进程,则证明启动成功

Jps

运行后显示有如下进程。

hadoop:伪分布模式启动步骤分解

启动完成后,我们可使用Web端口检测集群运行情况,建议使用360或Chrome浏览器。

查看ResourceManager Web界面:

打开主机浏览器,然后输入下述网址:http://192.168.1.618:8088, 在该界面我们能查看集群任务运行情况

hadoop:伪分布模式启动步骤分解

NameNode HDFS Web界面

打开主机浏览器,然后输入下述网址:http://192.168.152.128:50070,在该界面我们能查看集群hdfs基本运行情况

hadoop:伪分布模式启动步骤分解

3、 测试运行

接下来,我们仍以grep为例测试其在伪分布式上运行情况。和单机模式不同,伪分布式运行时默认读取hdfs上文件,同时也会将输出结果保存在hdfs上,因此我们要提前在hdfs上创建文件夹,更多关于hdfs的操作会在下文介绍

3.1、HDFS基本操作指令

由于伪分布式运行时,数据从HDFS上进行读取,在上传数据至HDFS之前,我们需要在HDFS中创建用户目录。

hdfs dfs -mkdir -p /user/hduser

接着,我们选取hadoop配置文件夹中的xml文件作为输入文件复制到HDFS系统中。

hdfs dfs -mkdir input
cd ~/hadoop
hdfs dfs -put ./etc/hadoop/*.xml input

查看HDFS中文件

hdfs dfs -ls input

3.2、运行grep例子

伪分布式运行 MapReduce 作业的方式跟单机模式相同,只是读取文件和输出文件保存均在HDFS中。

hadoop:伪分布模式启动步骤分解

运行过程中可在8088端口查看mapreduce任务运行情况

hadoop:伪分布模式启动步骤分解

运行完成后如下所示

hadoop:伪分布模式启动步骤分解

查看保存在HDFS中的运行结果

hdfs dfs -cat output/*

hadoop:伪分布模式启动步骤分解

当然,我们也可进一步将结果取回本地

cd ~/hadoop
rm -r ./output # 先删除本地的 output 文件夹(如果存在)
hdfs dfs -get output ./output # 将 HDFS 上的 output 文件夹拷贝到本机
cat ./output/*  #查看所有文件

到这里hadoop伪分布的安装启动就介绍完成了。伪分布的优点是在一台计算机上也可以使用Hadoop命令;缺点也是显而易见的发挥不了Hadoop设计初衷–分布式存储与分布式计算。

在下文中我将给大家介绍多节点的分布式集群搭建教程。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/83358.html

(0)
上一篇 2024-07-11 18:33
下一篇 2024-09-18 22:33

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信