注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

还东国的博客

行之苟有恒,久久自芬芳

 
 
 

日志

 
 

云计算和云存储之三分布式Hadoop的安装  

2016-03-06 18:22:26|  分类: |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

云计算和云存储之三分布式Hadoop的安装

 

上面把单机搞定了,今天接着说分布式,这个还是比较有实际使用的意义的,所以要认真的来干。

首先是按照前面讲过的,在两个从机上安装JDKSSH免登陆,如果不安装后者的话,大片的命令让你不知道啥时候儿给哪个从机输入密码,从而导致你的某个NameCode无法启动。(不启动某个节点下面会讲如何启动)

然后就是把三个虚拟机都改成NAT网络的连接方式,同时看一下它们的网关,方法是点击

编辑”-“虚拟网络编辑器然后在弹出的对话框里点击NAT然后就可以查看相应的配置了。

/etc/hosts里给每个主分机设置相应的主机名,比如master,node0,node1等等,这个大家应该比较熟悉在Win下如果想下载一些被屏蔽的网站,经常要设置这个文件。

在前面的SSH本机免密登陆成功后(三台都得设置),在两个分机的节点上分别执行下面的操作,把相关的密钥拷贝到分机,使得主机可以自动登陆两个分机。

scp fjf@192.168.xxx.xxx(这里或者是主机的名字比如前面的Host里设置的:master): ~/.ssh/id_dsa.pub  ./master_dsa.pub

意思是把主机的公钥拷贝到这个分机的当前目录上。

所以前提是你在分机上并且进入了.ssh目录。

然后再执行:

cat master_dsa.pub >> authorized_keys

这个大家应该都明白,把当前的内容重定向到后面这个文件中去,这样这个文件中就有了本地和主机的两个公钥。

注意:三台机器的用户名和密码要保持一致。

成功后,用ssh xxx.xxx.xx.xxx 成功进入就可以了。不用输入密码。

下来再配置conf下面的mastersslaves两个文件中的内容:

master:内容是“master”或者是“xxx.xxx.xxx.xxx

slaves:内容是:两个分机的IP地址或者是名字。

然后再修改core-site.xml:

将相关的localhost改成IP地址或者主机名字,如master,node0,node1.

同样修改marped-site.xml,修改方法同上。

下来开始拷贝相关的代码,利用上面的安装好的SSH

scp -r hadoop-0.20.2/ node1:~/test

这里需要注意的是几个分机的拷贝的路径一定要与主机的一致。比如今天配置的这个,就没有Test目录,所以实际上拷贝的动作是:

scp -r hadoop-0.20.2/ 192.168.140.131:~/

最后就可以启动整个分布式的Hadoop了,同单机一样:

bin/start_all.sh

弹出一大堆,只要没有错误就可以了。

这里面有一个问题,如果没有设置SSH,就会出现输入密码的问题,导致某个节点无法启动。

启动成功后,分别在三台机器上执行jps命令:

全出现单机版本时的几个进程,这就对了。

2852 NameNode

3199 SecondaryNameNode

3541 Jps

3483 TaskTracker

3024 DataNode

3307 JobTracker

伪分布式下,全部启动就是上面6个进程

如果错误,就只会有JPS进程或者很少进程。这时候儿可以用bin/hadoop xxxx.xxx.xxx..xx来查看日志的错误信息。不过可能比较难找错误。

在主机上打开浏览器执行http://localhost:50070

会发现Live Nodes会有一个值是2.

如果是1或者没有,就说明有错误。这里就遇到了只有一个的错误,按网上的同学的建议:

删除临时文件夹下的内容:tmpPE下面的东西,然后重启电脑,然后重新执行了

./bin/hadoop namenode -format

再执行:./bin/start-all.shOK了。不过,要稍等一下,可能分布式的东西启动慢一些。过一会儿再刷新网页,就OK了。

删除临时文件夹下的东西时,注意要三个点全部都删除。

或者:

“大多数都是权限问题,或者re-format的时候,先把之前format/hdfs-DataDirs/name文件夹删掉,format的时候会自动创建”

这样就可以了。

然后就可以如单机一样试一下:

bin/hadoop fs -pu ~/Download/xx.tar.gz  test1.tar.gz

bin/hadoop fs -pu ~/Download/xx.tar.gz  test2.tar.gz

尽量找一些大一些的文件,这样可以看出来效果,太小了啥也没有。

这时候在网页里点击两个活动的节点,就会看到使用的百分比和大小啥的。如果是平衡的最好,如果不平衡的分配到两个节点,可以执行下面的命令:

$bin/hadoop balancer -threshold 1

就平衡了。

  评论这张
 
阅读(186)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017