HADOOP安装与配置之安装配置篇
HADOOP安装与配置主要包括如下内容:
安装配置、环境变量配置、配置数据目录和namenode服务地址、 设置JobTracker 服务地址、设置分布式数据备份数、 配置主机hosts、复制已配置好的 Hadoop 到每一台计算机、配置ssh无密码登录、 复制hadoop程序、设置 namenode 特有的配置、编辑 conf/master 文件、编辑 conf/slaves 文件、格式化 namenode、启动 hadoop、测试一个分布式计算、Web 监控页面、关闭Hadoop系统、 新增加一台 datanode 到系统、Secondarynamenode配置、恢复。本章主要对HADOOP安装配置关键步骤进行说明。
操作方法
- 01
环境变量配置 设置正确的 JAVA_HOME 环境变量,比如 export JAVA_HOME=JDK conf/hadoop-env.sh 某些 Hadoop 版本在配置了 IPv6 的计算机上会监听错网络地址,所以需要增加如下一行以屏蔽 java 的 IPv6 功能: export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true
- 02
配置数据目录和namenode服务地址 编辑 conf/core-site.xml <configuration> <property> <name>hadoop.tmp.dir</name> <value>/hadoop/data/hadoop-${user.name}</value> </property> <property> <name>fs.default.name</name> <value>hdfs://192.168.0.10:9000</value> </property> </configuration> 第一段设置数据的储存位置(相应的目录当前用户应该有全权限),第二段设置 namenode 服务地址,用于跟其他计算机交流。
- 03
设置JobTracker 服务地址 编辑 conf/mapred-site.xml <configuration> <property> <name>mapred.job.tracker</name> <value>192.168.0.10:9001</value> </property> </configuration>
- 04
设置分布式数据备份数 编辑 conf/hdfs-site.xml <configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <!-- Configuring the SecondaryNameNode on a remote host --> <property> <name>dfs.http.address</name> <value>namenode.host.address:50070</value> <description> The address and the base port where the dfs namenode web ui will listen on. If the port is 0 then the server will start on a free port. </description> </property> </configuration> 这段设置一个文件数据在 Hadoop 系统里冗余多少份,一般设置为3。 这样一旦有新的文件数据写入 Hadoop,系统会随机将文件分别写入到3台datanode, 这样一旦系统中的某一台 datanode 坏掉了(比如硬盘烧了)只需要将这台计算机整台卸下,再换上一台新的计算机到网络即可,数据会自动复制以保证始终有3份数据。这也是分布式储存系统维护方便的原因。
- 05
配置主机hosts 编辑 /etc/hosts , 由于 Hadoop 有时会使用 hostname 访问系统中的其他计算机,而 hostname 有时会解析错误,所以比较笨的方法是在 /etc/hosts 里增加每一台计算机的名称和IP地址。比如: 192.168.0.10 master 192.168.0.100 data001 192.168.0.101 data002 192.168.0.102 data003