大数据实验总结

大数据实验总结

实验总要求

给五台主机,前后配置torque,mpich,mongodb,hadoop,zookeeper,hbasednode

  • torque
    有主有从
    master:lk
    slave:slave2~5web

  • mpich
    各台机器是平等的mongodb

  • mongodb
    须要分片,副本集,还有各类角色的配置svg

lk slave2 slave3 slave4 slave5
mongos mongos mongos
config server config server config server shard1 shard1
shard1 shard2 shard2 shard2 shard3
shard3 shard3 shard4 shard4 shard4

一台机器能够有不一样的角色,可是要给不一样角色配置不一样的端口工具

副本集 端口
config server 21000
mongos 20000
shard1 27001
shard2 27002
shard3 27003
shard4 27004

- hadoop,zookeeperoop

lk slave2 slave3 slave4 slave5
namenode y y n n
datanode n n y y
resourcemanager y y n n
jouralnode y y y y
zookeeper y y y n

zookeeper只在前面三台机器上安装,安装结果应该是一个leader和两个follower大数据

  • hbase
    master:lk
    backup-master:slave2
    regionservers:slave3~5

基础环境

基础环境就是全部软件安装中都须要的日志

  • 免密码登录
    方便交互code

  • 关闭防御墙
    防止各台机器在交互时候通讯受到影响server

  • /etc/hosts/etc/hostname
    给各个机器取别名,要一致

心得体会

整个环境其实搭了好久,属于边摔跤边学会走路的那种,参考了不少网上的资料,能够说是既是帮了很大的忙,又是挖了很大的坑。

由于之前没有接触过这些,因此是网上的教程把我带上路,可是由于每一个人的机器什么的都是不一样的,要求也不同,因此单纯的粘贴复制确定是不行的,要当心的把每一个点都看清楚而后再进行配置,好比,我在配置MongoDB的时候,有一个地方IP忘了改为本身机器的IP,致使浪费了不少时间。
出现问题不可怕,多去网上看看别人的解决方法就能够了

整个集群的环境,有一些关键词吧:交互通讯,主从控制等,我感受仍是在配置过程当中感觉到了这方面的思想。

torque和MongoDB是比较难搭的。torque是一个搭的,一是刚刚开始作,因此比较不熟悉,二是torque主从的搭建不同,须要理清哪些在master上面搭建,哪些在slave上面搭建;MongoDB的难点在于组件多和配置多,config server,shard分片和mongos的配置,比较繁琐。

hadoop中等难度吧,其余的mpich,hbase都不是很难

我此次实验的最大感觉是要学会看日志,日志真的颇有用,只有知道哪里错了才能对症下药

还有,要学会积累工具。在hadoop搭建的时候,看到网上基本都用到了deploy.conf,deploy.shrunRemoteCmd.sh这三个文件,经过这三个文件,能够很方便的在一台机器上实现对多台机器的操做(前提是免密登录和权限足够),就不须要在集群搭建的时候常常进行切换,对每一个机器作重复的操做。