搭建yarn(hadoop-2.2.0)环境详细过程

程序员文章站 2022-05-08 11:16:39

...

磨刀不误砍柴工，在这里我们先了解一个问题： MapReduce和YARN是什么关系？答：YARN并不是下一代MapReduce（MRv2），下一代MapReduce与第一代MapReduce（MRv1）在编程接口、数据处理引擎（MapTask和ReduceTask）是完全一样的，可认为MRv2重用了MRv1的这些

磨刀不误砍柴工，在这里我们先了解一个问题：

MapReduce和YARN是什么关系？

答：YARN并不是下一代MapReduce（MRv2），下一代MapReduce与第一代MapReduce（MRv1）在编程接口、数据处理引擎（MapTask和ReduceTask）是完全一样的，可认为MRv2重用了MRv1的这些模块，不同的是资源管理和作业管理系统，MRv1中资源管理和作业管理均是由JobTracker实现的，集两个功能于一身，而在MRv2中，将这两部分分开了，其中，作业管理由ApplicationMaster实现，而资源管理由新增系统YARN完成，由于YARN具有通用性，因此YARN也可以作为其他计算框架的资源管理系统，不仅限于MapReduce，也是其他计算框架，比如Spark、Storm等，通常而言，我们一般将运行在YARN上的计算框架称为“X on YARN”，比如“MapReduce On YARN”, "Spark On YARN"，“Storm On YARN”等。

Hadoop 2.0由三个子系统组成，分别是HDFS、YARN和MapReduce，其中，YARN是一个崭新的资源管理系统，而MapReduce则只是运行在 YARN上的一个应用，如果把YARN看成一个云操作系统，那么MapReduce可认为是运行在这个操作系统上的App。

2014/7/22 23:41:22

（接）上次写到MapReduce和YARN是什么关系？今天就要正式搭建环境。

搭建环境准备：具体参照《搭建Hadoop-0.20.2环境》一文中的第一步到第六步

系统：Ubuntu-12.04（其他版本也可以）

模式：伪分布式

搭建用户：hadoop

Hadoop-2.2.0下载地址：http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.2.0/
选择你需要的安装包，在这里我们选择hadoop-2.2.0.tar.gz
附Hadoop镜像链接地址：http://www.apache.org/dyn/closer.cgi/hadoop/common/

声明1：我配置hadoop-2.2.0的目录是/home/hadoop
声明2：在/home/hadoop下创建了yarn目录hadoop-2.2.0目录和hadoop数据目录都是在yarn目录下。
声明3：在下面的搭建过程中可将/home/hadoop换成你自己的目录。

步骤一：上传hadoop-2.2.0.tar.gz 并解压到/home/hadoop/yarn目录，此时在yarn目录中解压出hadoop-2.2.0目录

sudo chown -R hadoop:hadoop hadoop-2.2.0

创建Hadoop数据目录：

mkdir -p /home/hadoop/yarn/yarn_data/hdfs/namenode
mkdir -p /home/hadoop/yarn/yarn_data/hdfs/datanode

配置文件之前先大体介绍一下hadoop-2.2.0目录中的各个文件夹，注意区分与Hadoop1中的改变。

外层的启动脚本在sbin目录

内层的被调用脚本在bin目录

Native的so文件都在lib/native目录

配置程序文件都放置在libexec

配置文件都在etc目录，对应以前版本的conf目录

所有的jar包都在share/hadoop目录下面

步骤二：配置环境变量

在这里我自己没有将环境全局化所以在hadoop-2.2.0中没有配置系统环境/etc/profile
如果配置，执行执行source /etc/profile，使之生效。

步骤三：core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml配置

接下来我们的具体配置就是/home/hadoop/yarn/hadoop-2.2.0/etc/hadoop目录中进行。

core-site.xml配置

fs.default.namehdfs://localhost:9000指定NameNode的IP地址和端口号

hdfs-site.xml

dfs.replication2备份数dfs.namenode.name.dirfile:/home/hadoop/yarn/yarn_data/hdfs/namenodedfs.datanode.data.dirfile:/home/hadoop/yarn/yarn_data/hdfs/datanode

mapred-site.xml

mapreduce.framework.nameyarnmapreduce.jobhistory.addresslocalhost:10020mapreduce.jobhistory.webapp.addresslocalhost:19888

yarn-site.xml


　　yarn.resourcemanager.address
　　localhost:8032
　　yarn.resourcemanager.scheduler.address
　　localhost:8030
　　yarn.resourcemanager.resource-tracker.address
　　localhost:8031
　　yarn.resourcemanager.admin.address
　　localhost:8033
　　yarn.resourcemanager.webapp.address
　　localhost:8088yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce.shuffle.classorg.apache.hadoop.mapred.ShuffleHandler

步骤四：slaves配置

因为是伪分布式，所以我们只有localhost

步骤五：将配置好的hadoop-2.2.0分发同步到各个数据节点

因为是伪分布式，这步跳过。

步骤六：格式化NameNode

执行命令：

bin/hdfs namenode –format

或者

bin/hadoop namenode –format

步骤七：启动hdfs和yarn

启动hdfs:

sbin/start-dfs.sh

启动yarn:

sbin/start-yarn.sh

或者可以执行

sbin/start-all.sh

一起启动hdfs和yarn。

另外还要启动history服务，不然在面板中不能打开history链接。

sbin/mr-jobhistory-daemon.sh start historyserver

下面使用jps命令查看启动进程：

4504 ResourceManager
4066 DataNode
4761 NodeManager
5068 JobHistoryServer
4357 SecondaryNameNode
3833 NameNode
5127 Jps

步骤八：测试

hdfs测试：

在hdfs中创建文件：bin/hadoop fs -mkdir /wordcount
向hdfs中上传文件：bin/hadoop fs /home/hadoop/file2.txt /wordcount
查看hdfs文件目录：hdfs dfs –ls /

Yarn测试：运行WordCount测试程序，

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /wordcount /output2

具体查看结果：

bin/hadoop fs -cat /output2/*

结果显示：

hadoop  1
hello   2
java    4
jsp 1

到这里，hadoop-2.2.0环境搭建结束，配置文件根据具体需求，具体配置。可能有配置不当的地方，若有看到还望指正。

原文地址：搭建yarn(hadoop-2.2.0)环境详细过程, 感谢原作者分享。

相关标签：搭建 yarn hadoop-2.2.0 环境详细过程

上一篇： ps怎么导入两个图片

下一篇：请教php解析url的内容

搭建yarn(hadoop-2.2.0)环境详细过程

Linux下Android开发环境搭建详细步骤

Windows下搭建python开发环境详细步骤

python环境搭建详细步骤

Puppeteer环境搭建的详细步骤

Spring学习之开发环境搭建的详细步骤

Hadoop环境搭建过程中遇到的问题以及解决方法

android ndk环境搭建详细步骤

64位CentOS 6.0下搭建LAMP环境详细步骤

vue中mint-ui环境搭建详细介绍

eclipse搭建android开发环境详细步骤