关于MapReduce说法错误的是()
A.数据处理过程分为Map和Reduce两个阶段
B.Map阶段是由一系列Map任务组成的
C.Reduce阶段是由一系列Reduce任务组成的
D.Map任务繁忙时,可以借助执行Reduce任务的机器来执行Map任务
第1题:
A.MapReduce属于共享式集群架构,容错性好
B.传统并行计算框架比MapReduce硬件更加便宜
C.传统并行计算框架适用于实时、细粒度计算
D.MapReduce适用于数据密集型,传统并行计算框架适用于计算密集型
第2题:
关于委托作品下列说法错误的是( )。
第3题:
A.链接多个MapReduce作业时,序列文件是首选格式
B.FileInputFormat中实现的getSplits()可以把输入数据划分为分片,分片数目和大小任意定义
C.想完全禁止输出,可以使用NullOutputFormat
D.每个reduce需将它的输出写入自己的文件中,输出无需分片
第4题:
MapReduce的Map函数产生很多的()
第5题:
mapreduce是基于()运行的计算框架
第6题:
关于域名的说法,()是错误的。
第7题:
第8题:
Hive最终将数据存储在HDFS中
HiveSQL其本质是执行MapReduce任务
Hive是Hadoop平台的数据仓库工具
Hive对HBase有强依赖
第9题:
对
错
第10题:
链接多个MapReduce作业时,序列文件是首选格式
把输入数据划分为分片,分片数目和大小任意定义
想完全禁止输出,可以使用Null Output Format
每个reduce需将它的输出写入自己的文件中,输出无需分片
第11题:
性能上提升高于100倍(全内存计算)
Spark的中间数据放在内存中,对于迭代运算、批处理计算的效率更高,延迟更低。
提供更多的数据集操作类型,编程模型更灵活,开发效率更高。
更低的容错能力(血统机制)。
Spark用十分之一的资源,获得10倍与Mapreduce的性能。
第12题:
第13题:
A.Shuffle过程中为每个Map任务分配一个缓存
B.Shuffle过程中分区默认采用哈希函数
C.Shulle过程的合并会改变最终结果
D.Shuffle过程在Reduce端首先从Map端领取结果,然后执行归并操作,最后输送给Reduce任务进行处理。
第14题:
A.MapReduce是一种计算框架
B.MapReduce来源于google的学术论文
C.MapReduce程序只能用java语言编写
D.MapReduce隐藏了并行计算的细节,方便使用
第15题:
A.Job和JobControl类可以管理非线性作业之间的依赖
B.ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成
C.使用ChainReducer时,每个mapper和reducer对象都有一个本地JobConf对象
D.ChainReducer.addMapper()方法中,一般对键/值对发送设置成值传递,性能好且安全性高
第16题:
以下哪个组件和Tachyon是类似的组件()
第17题:
有关MapReduce的输入输出,说法错误的是().
第18题:
若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算()。
第19题:
易于编程
良好的扩展性
实时计算
高容错性
第20题:
JobTracker可以有多个,因此不存在单点故障问题
TaskTracker通过周期性心跳向JobTracker表明自己还活着
MapTask失败后,能够被重新调度到其他节点上执行
ReduceTask失败后,能够被重新调度到其他节点上执行
第21题:
IBM
Apache
Oracle
第22题:
第23题:
第24题:
易于编程
高速度
良好的扩展性
高容错性