Hadoop3.1.2集群搭建及简单的排序，统计实现

发布时间：2020-06-24 23:30:10 作者：nineteens
来源：网络阅读：799

　　第一部分：Hadoop集群搭建

　　1. 安装虚拟机Vmware

　　基础的命令操作不细说，比如什么是根目录。。。。。

　　1.也可以从官网下载最新的VMware

　　2. 安装Linux系统

　　2.1 本教程用的是Linux为CentOS-7-x86，在VMware点击新建，安装CentOS-7-x86。

　　2.2 安装完成后，

　　进入root用户

　　开启网络

　　cd /etc/sysconfig/network-scripts

　　找到第一个，我的是ifcfg-ens33,

　　然后vi ifcfg-ens33

　　将里面的ONBOOT的值由no改为yes。

　　重启网络service network restart

　　然后ping baidu.com能ping通就好了，ctrl c停止。

　　如果输入(ping baidu.com),能ping通，即可安装成功。

　　然后 cd ~回到根目录，安装tools

　　yum search ifconfig

　　yum install net-tools.x86_64

　　查看ip

　　ifconfig

　　2.3用XShell远程登陆

　　1.新建

　　2.主机号为查到的ip

　　3.点击确定，用root用户登录，即可成功。

　　(这时候就可以在XShell粘贴复制命令了)

　　3. 下载/安装jdk

　　3.配置jdk

　　接下来的操作都在XSshell6上操作，可以直接复制。

　　以下操作从根目录开始(如果不知道当前在哪里，先cd ~即可。

　　下载jdk

　　本文档有所有所需要的资料，可以选择性下载。(也可以官网可以自行下载)。

　　下载本文档所需要的安装包，xshell里点击xftp(ctrl+Alt+F),可以直接把window里的文件传到Linux里。

　　拖到根目录下。

　　解压jdk

　　tar -zxvf jdk-8u221-linux-x64.tar.gz -C /usr/local/

　　配置环境变量(还在根目录)

　　[1 ] 打开proflie文件

　　vi /etc/profile

　　[ 2] 将光标移动至文末(shift g可以到末尾)，按i进入编辑模式，在文末添加以下内容

　　export JAVA_HOME=/usr/local/jdk1.8.0_221

　　export PATH=$PATH:$JAVA_HOME/bin

　　export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

　　[ 3] 按Esc键退出编辑，输入：wq 保存并退出文件，执行以下内容使环境变量生效

　　source /etc/profile

　　[ 4] 检查jdk是否安装配置成功

　　java -version

　　出现java版本信息，则配置成功，例如

　　java version “1.8.0_221”

　　Java™ SE Runtime Environment (build 1.8.0_221-b11)

　　Java HotSpot™ 64-Bit Server VM (build 25.221-b11, mixed mode)

　　4. 配置Hadoop

　　4.配置Hadoop

　　[下载hadoop

　　本文档有所有所需要的资料，可以选择性下载。(也可以官网可以自行下载)。

　　下载本文档所需要的安装包，xshell里点击xftp(ctrl+Alt+F),可以直接把window里的文件传到Linux里。

　　拖到根目录下。

　　解压hadoop，解压到哪个目录可以自行选择，但是要知道路径，配置环境变量时需要

　　tar -zxvf hadoop-3.1.2.tar.gz -C /usr/local/

　　配置hadoop

　　[1 ] 配置环境变量

　　vi /etc/profile

　　按i进入编辑模式，在文末添加

　　export HADOOP_HOME=/usr/local/hadoop-3.1.2

　　export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

　　按Esc退出编辑，输入 :wq 保存并退出，执行以下内容使环境变量生效

　　source /etc/profile

　　[2 ] 配置hadoop-env.sh

　　切到/usr/local/hadoop-3.1.2/etc/hadoop目录下(2-6同在此目录下)

　　cd /usr/local/hadoop-3.1.2/etc/hadoop

　　进入hadoop-env.sh

　　vi hadoop-env.sh

　　找到 limitations under the License. 在其下一行添加

　　export JAVA_HOME=/usr/local/jdk1.8.0_181

　　按Esc，输入 :wq 保存并退出

　　[ 3] 配置core-site.xml，修改为以下内容，其中第5行 zz 改为自己的主机名

　　fs.defaultFS

　　hdfs://zz:9000

　　hadoop.tmp.dir

　　/usr/local/hadoop-3.1.2/data

　　[4 ] 配置yarn-site.xml，修改为以下内容，zz 均改为自己的主机名

　　yarn.resourcemanager.hostname

　　yarn.resourcemanager.address

　　zz:8032

　　yarn.resourcemanager.scheduler.address

　　zz:8030

　　yarn.resourcemanager.resource-tracker.address

　　zz:8031

　　yarn.resourcemanager.admin.address

　　zz:8033

　　yarn.resourcemanager.webapp.address

　　zz:8088

　　yarn.nodemanager.aux-services

　　mapreduce_shuffle

　　[ 5] 配置hdfs-site.xml，修改为以下内容

　　dfs.replication

　　[6] 配置mapred-site.xml，修改为以下内容

　　mapreduce.framework.name

　　yarn

　　[7 ] 配置start-dfs.sh和stop-dfs.sh

　　切到/usr/local/hadoop-3.1.2/sbin目录(7-8在此目录)

　　cd /usr/local/hadoop-3.1.2/sbin

　　在start-dfs.sh，stop-dfs.sh第二行添加以下内容，因为是root登录的，不配置会出现错误

　　HDFS_DATANODE_USER=root

　　HDFS_DATANODE_SECURE_USER=hdfs

　　HDFS_NAMENODE_USER=root

　　HDFS_SECONDARYNAMENODE_USER=root

　　[8 ] 配置start-yarn.sh，stop-yarn.sh，在第二行添加以下内容

　　YARN_RESOURCEMANAGER_USER=root

　　HADOOP_SECURE_DN_USER=yarn

　　YARN_NODEMANAGER_USER=root

　　5. 设置免密钥登录

　　5.免密钥登录

　　[1 ] 创建公钥/私钥，一路回车

　　ssh-keygen -t rsa

　　[ 2] 创建authorized_keys文件并修改权限为600

　　cd ~/.ssh无锡妇科医院排行 http://www.0510bhyy.com/

　　touch authorized_keys

　　chmod 600 authorized_keys

　　[ 3] 将公钥追加到authorized_keys文件中

　　cat id_rsa.pub >> authorized_keys

　　尝试能否免密登录，能登陆就成功了，尝试后，输入exit退出

　　ssh 自己的主机名

　　6. 防火墙

　　6.防火墙

　　[ 1] 查看防火墙状态

　　firewall-cmd --state

　　[ 2] 关闭防火墙

　　systemctl stop firewalld.service

　　[3 ] 禁止开机时防火墙自启

　　systemctl disable firewalld.service

　　7. 启动Hadoop

　　7.启动Hadoop

　　[ 1] 格式化hadoop，不要多次格式化，多次格式化会导致DataNode无法正常启动

　　hadoop namenode -format

　　[2] 启动&停止hadoop

　　start-all.sh

　　stop-all.sh

　　启动以后可以输入jps，看有没有下面这些进程

　　[root@zz .ssh]# jps

　　8467 NodeManager

　　7860 NameNode

　　7973 DataNode

　　8589 Jps

　　8127 SecondaryNameNode

　　8351 ResourceManager

　　有的话就表示配置成功!

　　第二部分：用MapReduce解决数据排序

　　8. 搭建Hadoop-3.1.2-eclipse环境

　　9. 在eclipse上编译MapReduce程序

　　10. 打包程序，创建测试文本

　　11. 应用MapReduce进行数据排序

Hadoop3.1.2集群搭建及简单的排序，统计实现

相关阅读