阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云 。更多精彩内容请单击此处 。

文章插图
摘要:MapReduce是Hadoop的核心,是Google提出的一个软件架构 , 用于大规模数据集(大于1TB)的并行运算 。概念“Map(映射)”和“Reduce(化简)”,及他们的主要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性 。本文分享自华为云社区《【云小课】EI第42课 MRS基础原理之Mapreduce介绍》,作者:Hello EI
MapReduce是Hadoop的核心,是Google提出的一个软件架构 , 用于大规模数据集(大于1TB)的并行运算 。概念“Map(映射)”和“Reduce(化简)” , 及他们的主要思想 , 都是从函数式编程语言借来的 , 还有从矢量编程语言借来的特性 。

文章插图
MapReduce是面向大数据并行处理的计算模型、框架和平台 。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对 , 指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组 。

文章插图
MapReduce是用于并行处理大数据集的软件框架 。MapReduce的根源是函数性编程中的map和reduce函数 。Map函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对 。Reduce函数接受Map函数生成的列表,然后根据它们的键缩小键/值对列表 。MapReduce起到了将大事务分散到不同设备处理的能力 , 这样原本必须用单台较强服务器才能运行的任务,在分布式环境下也能完成 。
MapReduce结构MapReduce通过实现YARN的Client和ApplicationMaster接口集成到YARN中,利用YARN申请计算所需资源 。

文章插图
HDFS是Hadoop分布式文件系统,具有高容错和高吞吐量的特性 , 可以部署在价格低廉的硬件上,存储应用程序的数据,适合有超大数据集的应用程序 。
而MapReduce是一种编程模型,用于大数据集(大于1TB)的并行运算 。在MapReduce程序中计算的数据可以来自多个数据源,如Local FileSystem、HDFS、数据库等 。最常用的是HDFS,可以利用HDFS的高吞吐性能读取大规模的数据进行计算 。同时在计算完成后,也可以将数据存储到HDFS 。
MapReduce是运行在YARN之上的一个批处理的计算框架 。MRv1是Hadoop 1.0中的MapReduce实现,它由编程模型(新旧编程接口)、运行时环境(由JobTracker和TaskTracker组成)和数据处理引擎(MapTask和ReduceTask)三部分组成 。该框架在扩展性、容错性(JobTracker单点)和多框架支持(仅支持MapReduce一种计算框架)等方面存在不足 。MRv2是Hadoop 2.0中的MapReduce实现,它在源码级重用了MRv1的编程模型和数据处理引擎实现,但运行时环境由YARN的ResourceManager和ApplicationMaster组成 。其中ResourceManager是一个全新的资源管理系统,而ApplicationMaster则负责MapReduce作业的数据切分、任务划分、资源申请和任务调度与容错等工作 。
如何在MRS集群中提交一个MapReduce分析作业应用开发完成后,用户可通过MRS云服务管理控制台直接提交Mapreduce作业 , 也可以通过集群客户端提交 。
首先参考MRS快速入门中的“创建集群”章节购买一个MRS集群 , 例如购买MRS 3.1.0版本集群 , 该集群已开启Kerberos认证 。
通过界面提交MapReduce作业1、登录MRS管理控制台 。
2、选择“集群列表 > 现有集群”,单击集群名称,进入集群信息页面 。
3、在“概览”页签的基本信息区域 , 单击“IAM用户同步”右侧的“同步”进行IAM用户同步 。
4、单击“作业管理” , 进入“作业管理”页签 。
5、单击“添加”,进入“添加作业”页面 。在“添加作业”页面配置以下信息 。

文章插图
作业类型:MapReduce作业名称:test01
执行程序路径:单击“HDFS”,并选择待执行的jar文件 。例如:hdfs://hacluster/tmp/hadoop-mapreduce-examples-
推荐阅读
- 2022支付宝庄园小课堂答案9.3
- 京东云开发者|关于“React 和 Vue 该用哪个”我真的栓Q
- 支付宝庄园小课堂今天答案是什么
- 2022支付宝庄园小课堂9月6日答案
- 京东云开发者|ElasticSearch降本增效常见的方法
- 云原生之旅 - 6)不能错过的一款 Kubernetes 应用编排管理神器 Kustomize
- 二 沁恒CH32V003: Ubuntu20.04 MRS和Makefile开发环境配置
- 支付宝庄园小课堂9月7日正确答案
- Windows下自动云备份思源笔记到Gitee
- 支付宝庄园小课堂9月8日正确答案