欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Mapreduce概述和WordCount程序

程序员文章站 2022-08-31 12:41:07
一、Mapreduce概述 Mapreduce是分布式程序编程框架,也是分布式计算框架,它简化了开发! Mapreduce将用户编写的业务逻辑代码和自带默认组合整合成一个完整的分布式运算程序,并发的运行在hadoop集群上。 二、Mapreduce优缺点 优点:1.易于编程:只用实现几个接口即可完成 ......

一、mapreduce概述

  mapreduce是分布式程序编程框架,也是分布式计算框架,它简化了开发!

  mapreduce将用户编写的业务逻辑代码和自带默认组合整合成一个完整的分布式运算程序,并发的运行在hadoop集群上。

 

二、mapreduce优缺点

  优点:1.易于编程只用实现几个接口即可完成一个并发的程序。

     2.良好的拓展性:再不行当前程序运行的情况下,可以通过增加节点来解决用户/数据扩展,计算量增加的问题。

     3.高容错性:可以运行在廉价的集群机器上。

     4.适合处理pb级别以上的离线处理。

  缺点:1.不擅长做实时计算、流式计算。

     2.不支持dag(有向图)计算,有依赖的程序(spark支持)。

     3.每次把计算结果写入磁盘当中,造成磁盘io,性能较低。

 

三、mapreduce编程思想

  需求:统计一个200m的单词文件,查询出每个单词出现的次数。

  思想:1.将200m的文件切分为两块,128m和72m;

     2.将两块文件分别交给两个maptask处理,对数据进行读取,切分,封装,然后传输到reducetask;

     3.reducetask将数据再次整合,累加,输出到结果文件中。

  注意:mapreduce中的所有maptask都是并行运行的,reducetask也是,

    但是reducetask的运行要依赖maptask的输出。

 

四、wordcount程序

/**
 * @author: princesshug
 * @date: 2019/3/24, 0:52
 * @blog: https://www.cnblogs.com/hellobigtable/
 */
public class wordcountmapper extends mapper<longwritable, text,text, intwritable> {
    @override
    protected void map(longwritable key, text value, context context) throws ioexception, interruptedexception {
        //读取数据
        string line = value.tostring();

        //切分数据
        string[] fields = line.split(" ");

        //传输数据
        for (string f:fields){
            context.write(new text(f),new intwritable(1));
        }
    }
}

public class wordcountreducer extends reducer<text, intwritable,text,intwritable> {
    @override
    protected void reduce(text key, iterable<intwritable> values, context context) throws ioexception, interruptedexception {
        //累加
        int sum = 0;
        for (intwritable i:values){
            sum += i.get();
        }
        //输出
        context.write(key,new intwritable(sum));
    }
}

public class wordcountdriver {
    public static void main(string[] args) throws ioexception, classnotfoundexception, interruptedexception {
        //配置,job对象
        configuration conf = new configuration();
        job job = job.getinstance();

        //设置运行类
        job.setjarbyclass(wordcountdriver.class);

        //设置mapper,reducer类
        job.setmapperclass(wordcountmapper.class);
        job.setreducerclass(wordcountreducer.class);

        //设置mapper输出数据类型
        job.setmapoutputkeyclass(text.class);
        job.setmapoutputvalueclass(intwritable.class);

        //设置reducer输出数据类型
        job.setoutputkeyclass(text.class);
        job.setoutputvalueclass(intwritable.class);

        //设置输入输出流
        fileinputformat.setinputpaths(job,new path("g:\\mapreduce\\wordcount\\in"));
        fileoutputformat.setoutputpath(job,new path("g:\\mapreduce\\wordcount\\out"));

        //提交任务
        if (job.waitforcompletion(true)){
            system.out.println("运行完成!");
        }else {
            system.out.println("运行失败!");
        }

    }

}