hadoop中入门配置知识点有哪些

发布时间：2021-12-07 14:24:03 作者：小新
来源：亿速云阅读：160

这篇文章给大家分享的是有关hadoop中入门配置知识点有哪些的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。

环境

本人使用的是 XUbuntu14.04 64位，在虚拟机下搭建的

安装 JDK，配置环境变量

配置 classpath，修改所有用户的环境变量

sudo vim /etc/profile
#在文件最后添加 
#set java environment
export JAVA_HOME={path}
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin 
source/etc/profile  ##使环境变量生效

配置SSH无密码吗登陆

在用户根目录创建隐藏文件夹 .ssh (没有的需要创建)

mkdir .ssh

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

验证下 ssh ，

 shh localhost

安装hadoop （我用的是2.7）

解压文件夹

sudo tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local/hadoop    # 指定目录，可根据自己的喜好选择放在哪

创建 hadooop 工作所需要的文件目录
设置环境变量（进入$HADOOP_HOME/etc/hadoop）

sudo vim /etc/profile
export HADOOP_HOME={path}
#path 后面继续跟
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

配置文件

配置 hadoop-env.sh

export JAVA_HOME=${JAVA_HOME}          # JAVA_HOME JDK 路径

配置 core-site.xml （关于Hadoop配置项的一点说明虽然只需要配置fs.defaultFS 和 dfs.replication 就可以运行（官方教程如此），不过若没有配置 hadoop.tmp.dir 参数，则默认使用的临时目录为 /tmp/hadoo-hadoop，而这个目录在重启时有可能被系统清理掉，导致必须重新执行 format 才行。所以我们进行了设置，同时也指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir，否则在接下来的步骤中可能会出错。shay为主机名，如果不知道自己的主机名可以 cat 一下 /etc/hostname）

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://shay:9000</value>
    </property>
</configuration>

配置hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
    <!-- 若有其他主机，则可以打开这个
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>shay:50090</value>
    </property>
    -->
</configuration>

配置 mapred-site.xml

<configuration>
    <property>        
        <name>mapreduce.framework.name</name>
         <value>yarn</value>
    </property>
</configuration>

配置 yarn-site.xml

<configuration>
    <property>        
        <name>yarn.nodemanager.aux-services</name>        
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>shay</value>
    </property>
</configuration>

配置 yarn-env.sh

export JAVA_HOME=${JAVA_HOME}

Hadoop 启动

执行 namenode 格式化

hdfs namenode -format

开启守护进程

start-dfs.sh        # NameNode 和 DataNode 守护进程
start-yarn.sh       # ResourceManager 和 NodeManager 守护进程

验证

jps

感谢各位的阅读！关于“hadoop中入门配置知识点有哪些”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，让大家可以学到更多知识，如果觉得文章不错，可以把它分享出去让更多的人看到吧！

hadoop中入门配置知识点有哪些

相关阅读