linux下的Spark的安装与案例
Spark,Scala的安装与案例
操作方法
- 01
首先确定环境路径 我的是 export HADOOP_HOME=/home/chen-pc/hadoop export JAVA_HOME=/usr/lib/jvm/jdk8 export JRE_HOME=${JAVA_HOME}/jre
- 02
安装Scala 1.Scala官网下载scala-2.10.5.tgz并复制到虚拟机Ubuntu1 2.执行命令: 2.1解压到该路径 mkdir /usr/lib/scala tar zxvf scala-2.10.5.tgz mv scala-2.10.5 scala sudo mv scala /usr/lib/scala 2.2配置SCALA_HOME sudo vi /etc/profile 2.3添加如下环境 export SCALA_HOME=/usr/lib/scala/scala export PATH=.:$SCALA_HOME/bin:$PATH 2.4测试scala安装是否成功,直接输入 scala 2.5结果如图:
- 03
l 安装Spark 1.Spark官网下载spark-1.5.1-bin-hadoop2.6.tgz并复制到虚拟机Ubuntu1 经同学交流并查文档测试,spark1.6与scala2.10兼容性差所以改spark1.5 2.执行命令: 2.1解压到该路径 sudo mkdir /usr/lib/spark tar zxvf spark-1.5.1-bin-hadoop2.6.tgz mv spark-1.5.1-bin-hadoop2.6 spark sudo mv spark /usr/lib/spark 2.2配置SPARK_HOME sudo vi /etc/profile 2.3添加如下环境 export SPARK_HOME=/usr/bin/spark1.5 export PATH=.:$SPARK_HOME/bin:$PATH
- 04
修改Spark配置文件 1.复制slaves.template和 spark-env.sh.template各一份 cp spark-env.sh.template spark-env.sh cp slaves.template slaves 2.slaves,此文件是指定子节点的主机,直接添加子节点主机名即可 vim slaves 将slaves内的localhost删去, 改为master和slave如下(按照自己集群机器数量以及名字添加),保存退出 在spark-env.sh末端添加如下几行: 按照自己的实际情况将主要修改参数为 #JDK安装路径 export JAVA_HOME=/usr/lib/jvm/jdk8 #SCALA安装路径 export SCALA_HOME=/usr/lib/scala/scala #主节点的IP地址 export SPARK_MASTER_IP=10.8.163.177 #分配的内存大小 export SPARK_WORKER_MEMORY=512m #指定hadoop的配置文件目录 export HADOOP_CONF_DIR=/home/chen-pc/hadoop/etc/hadoop 3.vim ~/.bashrc 添加以下内容 #SPARK export SPARK_HOME=/usr/lib/scala/scala export PATH=${SPARK_HOME}/bin:$PATH 保存, 然后 source ~/.bashrc 使其生效 4.输入spark-shell 5.结果如下: