spark开发环境搭建(linux环境)

时间 2019-11-18 标签 spark 开发环境搭建 linux 环境

开发环境整体版本信息以下：html

一、linux：centos 6.8，安装过程参见 http://www.cnblogs.com/zhwyxuhui/p/8983663.htmljava

二、java版本：jdk-8u172-linux-x64.tar.gznode

三、hadoop版本：hadoop-3.1.0.tar.gzpython

四、scala版本：scala-2.12.6.tgzmysql

五、python版本：Python-3.6.5.tgzlinux

六、spark版本：spark-2.3.0-bin-hadoop2.7.tgzsql

七、zookeeper版本：zookeeper-3.4.10.tar.gz数据库

八、hive版本：apache

九、kafka版本：centos

十、服务器集群：192.168.0.110(master)，192.168.0.111(slave1)，192.168.0.112(slave2)

1、java的安装

一、上传jdk安装包到/usr/local/lib目录下，并解压缩

二、把解压的文件夹复制到另外两台机子

三、三台服务器分别修改bigdata用户的环境变量

四、使配置生效并验证

2、hadoop的安装

一、bigdata用户家目录下建立目录bigdata，上传hadoop安装包并解压

二、进入hadoop配置文件目录，修改hadoop配置

三、修改core-site.xml，添加红色方框的内容

四、修改hdfs-site.xml，并建立对应的目录

五、修改yarn-site.xml

六、修改workers（老版本为slaves）

七、修改hadoop-env.sh，增长JAVA_HOME

八、把master上配置好的hadoop分发到每个slave上

九、只需在master上bigdata用户下配置环境变量

十、使环境变量生效并检查

十一、首次运行hdfs，须要先格式化hdfs【 hdfs namenode -format 】，而后启动hdfs【start-dfs.sh】

十二、可访问http://192.168.0.110:9870【192.168.0.110为master的ip地址，老版本hadoop的端口为50070】看下是否部署成功；如需中止hdfs，使用【stop-dfs.sh】

1三、也可输入名jps，查看是否有如下进程

1四、启动yarn【start-yarn.sh】

1五、访问http://192.168.0.110:8088/cluster，查看yarn是否正常工做，中止yarn使用【stop-yarn.sh】

1六、也可输入名jps，查看是否有如下进程

综上，hadoop集群安装完毕！

3、scala的安装

一、切换到root用户下，下载scala并上传到/usr/local/lib目录下，而后解压

二、把解压后的文件分发到slave1和slave2

scp -r scala-2.12.6 root@slave1:/usr/local/lib

scp -r scala-2.12.6 root@slave2:/usr/local/lib

三、分别在三台服务器上修改bigdata用户的环境变量

四、验证环境变量是否生效

五、运行scala命令验证是否安装成功，并按ctrl+z退出

4、python的安装

一、在集群上运行pyspark，须要先安装zlib和gcc相关的软件包

yum -y install gcc*

二、下载python安装包，并上传，而后解压

三、进入/usr/local/lib/，修改Modules/Setup.dist【老版本是Setup】，找到红色一行，并把注释去掉

四、执行./configure

五、make

六、make install

七、查看系统原有python版本，并重命名

八、修改/usr/bin/yum

九、从新创建python的软链接

七、执行python命令，检查是否安装好

5、spark的安装

一、下载并上传spark安装文件到bigdata用户家目录下的bigdata目录下，而后解压

二、配置slaves

三、配置spark-env.sh

四、把配置好的spark分发slave1和slave2上面

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave1:~/bigdata

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave2:~/bigdata

五、在master上配置环境变量

source ~/.bash_profile

六、启动spark

七、确认spark已经启动【jps命令，或者访问http://192.168.0.110:8080】

八、测试spark代码【ctrl+z退出】

6、zookeeper的安装

一、下载并上传zookeeper文件，而后解压

二、修改配置文件

三、建立配置文件配置的目录

四、将配置好的zookeeper分发到slave1和slave2

五、分别在3台服务器的~/bigdata/zookeeper/data目录中新增文件myid并修改

master上myid的内容为：0

slave1上myid的内容为：1

slave2上myid的内容为：2

六、分别到3台服务器中启动节点zk服务

七、查看每个服务器上的zk的状态

7、hive的安装

一、安装mysql

安装：yum install -y mysql-server

启动：service mysqld start

修改root用户密码：mysqladmin -u root password 'root'

建立数据库hive并受权：

二、下载并上传hive安装包，而后解压

三、进入配置目录【/home/bigdata/bigdata/apache-hive-2.3.3-bin/conf】，修改配置文件hive-site.xml

四、编辑hive-env.sh

五、下载mysql的jdbc驱动mysql-connector-java-5.1.44-bin.jar，上传/home/bigdata/bigdata/apache-hive-2.3.3-bin/lib

六、配置master的环境变量

source ~/.bash_profile

七、建立hive-site.xml里面配置的目录并受权

八、指定hive数据库类型并初始化

九、验证hive的mysql数据库是否安装成功【hive数据库下面是否有表】

十、运行hive前首先要确保meta store服务已经启动：先建立hive运行日志目录logs，再运行HIVE

验证：

运行HIVE

8、kafka的安装

一、下载kafka并上传，而后解压

二、建立日志目录，修改配置文件

mkdir /home/bigdata/bigdata/kafka-logs-new

三、将kafka分发到slave1 和 slave2

四、分别修改slave1和slave2上面的server.properties文件

slave1：broker.id=1

slave2：broker.id=2

五、分别在三台服务器上启动broker server

nohup bin/kafka-server-start.sh config/server.properties>~/bigdata/kafka_2.12-1.1.0/logs/server.log 2>&1 &

六、在master上建立topic

七、查看topic

八、启动producer发送消息

九、启动consumer消费消息

十、效果以下