1. Installing Hadoop

  本小节会介绍在MacOS Sierra(10.12)下安装hadoop、hive以及web管理平台hue.
    步骤一、下载hadoop
    下载binary文件(.tar.gz) ,使用”tar -xzf”解压。
    解压后的文件,使用下面的bash语句,添加到环境变量中(其中XXXX代表解压后的hadoop文件的主目录),添加环境变量的步骤是可选的。

echo "export HADOOP_HOME=XXXX" >> $HOME/.bashrc
echo "PATH=$PATH:$HADOOP_HOME/bin" >> $HOME/.bashrc
source $HOME/.bashrc

    步骤二、配置hadoop
    1)首先修改”./etc/hadoop/core-site.xml”:

<configuration>
  <property>
     <name>hadoop.tmp.dir</name>  
     <value>/usrs/liuqianchao/hadoop/hdfs/tmp</value>
  </property>
  <property>
     <name>fs.default.name</name>                                     
     <value>hdfs://localhost:9000</value>                             
  </property>
<property>  
</configuration>

    其中hadoop.tmp.dir为hadoop文件系统的基本路径,如果在hdfs-sited.xml中不指定namenode和datanode的存放地址,其数据就存放在hadoop.tmp.dir中。hadoop.tmp.dir定义了NameNode的URI。
    2)接下来修改”./etc/hadoop/hdfs-site.xml”:

<configuration>
 <property>
     <name>dfs.replication</name>
     <value>1</value>
 </property>
</configuration>

    其中dfs.replication是指数据块在整个hadoop系统中备份的个数,默认情况下是3份,这里由于是单机情况下,设置成1份。此外在该文件下还可以指定dfs.name.dir、dfs.data.dir来定义namenode与datanode在本地文件系统中的存储路径,这里没有进行指定;数据会被存放在hadoop.tmp.dir指定的路径下。
    3)修改”./etc/hadoop/mapred-site.xml”:

<configuration>
   <property>
     <name>mapred.job.tracker</name>
     <value>localhost:9010</value>
   </property>
 </configuration>

    其中mapred.job.tracker定义了map-reduce执行的主机和端口。

    步骤三、启动hadoop
    在其中之前,需要进入hadoop根目录下的bin文件夹,执行”./hadoop namenode –format”来格式化工作空间;
    在完成上述操作后,便可进入hadoop根目录下的sbin文件夹,执行”./start-dfs.sh”来启动hdfs. 并通过下列本地地址来验证是否成功启动。

    HDFS status: http://localhost:50070
    Cluster Status: http://localhost:8088
    Specific Node Information: http://localhost:8042
    SecondaryNamenode http://localhost:50090