欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Hadoop(一)HDFS伪分布式系统环境搭建

程序员文章站 2022-07-14 15:25:20
...

Hadoop下载链接(hadoop-2.6.0-cdh5.14.2.tar)
百度网盘:https://pan.baidu.com/s/1mcIRDaohztlsIO62WTgJpw
提取码:zw28
大数据的4v特征:
1.Volume:大数据量,90%的数据是近两年产生的。
2.Value:价值密度低,需要进行挖取获得数据价值
3.Velocity:增长速度快,数据的增长速度快,时效性高
4.Variety:数据多样化,数据种类和来源多样化:结构化数据,非结构化数据,半结构化数据

Hadoop
三大核心:
1.HDFS : 分布式存储系统
2.YARN : 资源管理调度系统负责管理和调度集群资源
3.MapReduce:分布式框架运算

四大特征
1.扩容能力:有着可靠的存储和处理千兆字节数据
2.可靠性:Hadoop自动维护数据多份副本,失败的任务会自动重新部署计算任务。
3.成本低:通过普通机器组成服务器群来分发处理数据。
4.高效性:通过分发数据,Hadoop可以并行处理

HDFS环境搭建:
一、将安装包拖到linux目录下(我是拖到opt文件目录下),然后解压
tar -zxvf hadoop-2.6.0-cdh5.14.2tar.gz

二、将文件移动到soft/hadoop260文件夹下
mv hadoop-2.6.0-cdh5.14.2 /opt/soft/hadoop260

三、来到/opt/soft/hadoop260/etc/hadoop文件夹处,一共需要修改5个配置文件
Hadoop(一)HDFS伪分布式系统环境搭建
1): hadoop-env.sh:
vi hadoop-env.sh
将虚拟机的JAVA_HOME环境变量修改为自己的文件夹下,保存退出
export JAVA_HOME=/opt/soft2/jdk180/jdk1.8.0_111

2): core-site.xml
在configuration之间加入4个property标签
`

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://192.168.56.101:9000</value> 
        </property>
        <!-- 临时文件配置-->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/soft/hadoop260/tmp</value>
        </property>
        <!-- 代理用户权限-->
        <property>
                <name>hadoop.proxyuser.root.hosts</name>
                <value>*</value>
        </property>
        <property>
                <name>hadoop.proxyuser.root.groups</name>
                <value>*</value>
        </property>
</configuration>

3): hdfs-site.xml

<!-- 设置副本数 -->
<configuration>
        <property>dfs.replication</property>
        <value>1</value>
</configuration>

4): yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.resourcemanager.localhost</name>
                <value>localhost</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

5): mapred-site.xml

<!-- 配置让yarn调度资源 -->
<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

添加配置文件

vi /etc/profile
在末尾添加

export HADOOP_HOME=/opt/soft/hadoop260/         //修改这里地址
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

更新系统配置信息

source /etc/profile

将节点信息格式化硬盘,建立标准索引

# 对目录格式化 hadoop namenode -format

用jps检查进程,查看到5个节点进程已启动之后,访问虚拟机ip+50070端口查看