开发环境整体版本信息以下:html
一、linux:centos 6.8,安装过程参见 http://www.cnblogs.com/zhwyxuhui/p/8983663.htmljava
二、java版本:jdk-8u172-linux-x64.tar.gznode
三、hadoop版本:hadoop-3.1.0.tar.gzpython
四、scala版本:scala-2.12.6.tgzmysql
五、python版本:Python-3.6.5.tgzlinux
六、spark版本:spark-2.3.0-bin-hadoop2.7.tgzsql
七、zookeeper版本:zookeeper-3.4.10.tar.gz数据库
八、hive版本:apache
九、kafka版本:centos
十、服务器集群:192.168.0.110(master),192.168.0.111(slave1),192.168.0.112(slave2)
1、java的安装
一、上传jdk安装包到/usr/local/lib目录下,并解压缩
二、把解压的文件夹复制到另外两台机子
三、三台服务器分别修改bigdata用户的环境变量
四、使配置生效并验证
2、hadoop的安装
一、bigdata用户家目录下建立目录bigdata,上传hadoop安装包并解压
二、进入hadoop配置文件目录,修改hadoop配置
三、修改core-site.xml,添加红色方框的内容
四、修改hdfs-site.xml,并建立对应的目录
五、修改yarn-site.xml
六、修改workers(老版本为slaves)
七、修改hadoop-env.sh,增长JAVA_HOME
八、把master上配置好的hadoop分发到每个slave上
九、只需在master上bigdata用户下配置环境变量
十、使环境变量生效并检查
十一、首次运行hdfs,须要先格式化hdfs【 hdfs namenode -format 】,而后启动hdfs【start-dfs.sh】
十二、可访问http://192.168.0.110:9870【192.168.0.110为master的ip地址,老版本hadoop的端口为50070】看下是否部署成功;如需中止hdfs,使用【stop-dfs.sh】
1三、也可输入名jps,查看是否有如下进程
1四、启动yarn【start-yarn.sh】
1五、访问http://192.168.0.110:8088/cluster,查看yarn是否正常工做,中止yarn使用【stop-yarn.sh】
1六、也可输入名jps,查看是否有如下进程
综上,hadoop集群安装完毕!
3、scala的安装
一、切换到root用户下,下载scala并上传到/usr/local/lib目录下,而后解压
二、把解压后的文件分发到slave1和slave2
scp -r scala-2.12.6 root@slave1:/usr/local/lib
scp -r scala-2.12.6 root@slave2:/usr/local/lib
三、分别在三台服务器上修改bigdata用户的环境变量
四、验证环境变量是否生效
五、运行scala命令验证是否安装成功,并按ctrl+z退出
4、python的安装
一、在集群上运行pyspark,须要先安装zlib和gcc相关的软件包
yum -y install gcc*
二、下载python安装包,并上传,而后解压
三、进入/usr/local/lib/,修改Modules/Setup.dist【老版本是Setup】,找到红色一行,并把注释去掉
四、执行./configure
五、make
六、make install
七、查看系统原有python版本,并重命名
八、修改/usr/bin/yum
九、从新创建python的软链接
七、执行python命令,检查是否安装好
5、spark的安装
一、下载并上传spark安装文件到bigdata用户家目录下的bigdata目录下,而后解压
二、配置slaves
三、配置spark-env.sh
四、把配置好的spark分发slave1和slave2上面
scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave1:~/bigdata
scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave2:~/bigdata
五、在master上配置环境变量
source ~/.bash_profile
六、启动spark
七、确认spark已经启动【jps命令,或者访问http://192.168.0.110:8080】
八、测试spark代码【ctrl+z退出】
6、zookeeper的安装
一、下载并上传zookeeper文件,而后解压
二、修改配置文件
三、建立配置文件配置的目录
四、将配置好的zookeeper分发到slave1和slave2
五、分别在3台服务器的~/bigdata/zookeeper/data目录中新增文件myid并修改
master上myid的内容为:0
slave1上myid的内容为:1
slave2上myid的内容为:2
六、分别到3台服务器中启动节点zk服务
七、查看每个服务器上的zk的状态
7、hive的安装
一、安装mysql
安装:yum install -y mysql-server
启动:service mysqld start
修改root用户密码:mysqladmin -u root password 'root'
建立数据库hive并受权:
二、下载并上传hive安装包,而后解压
三、进入配置目录【/home/bigdata/bigdata/apache-hive-2.3.3-bin/conf】,修改配置文件hive-site.xml
四、编辑hive-env.sh
五、下载mysql的jdbc驱动mysql-connector-java-5.1.44-bin.jar,上传/home/bigdata/bigdata/apache-hive-2.3.3-bin/lib
六、配置master的环境变量
source ~/.bash_profile
七、建立hive-site.xml里面配置的目录并受权
八、指定hive数据库类型并初始化
九、验证hive的mysql数据库是否安装成功【hive数据库下面是否有表】
十、运行hive前首先要确保meta store服务已经启动:先建立hive运行日志目录logs,再运行HIVE
验证:
运行HIVE
8、kafka的安装
一、下载kafka并上传,而后解压
二、建立日志目录,修改配置文件
mkdir /home/bigdata/bigdata/kafka-logs-new
三、将kafka分发到slave1 和 slave2
四、分别修改slave1和slave2上面的server.properties文件
slave1:broker.id=1
slave2:broker.id=2
五、分别在三台服务器上启动broker server
nohup bin/kafka-server-start.sh config/server.properties>~/bigdata/kafka_2.12-1.1.0/logs/server.log 2>&1 &
六、在master上建立topic
七、查看topic
八、启动producer发送消息
九、启动consumer消费消息
十、效果以下