itgle.com
更多“Hadoop的两大核心是HDFS和MapReduce,HDFS用来存储数据,MapReduce用来处理数据。”相关问题
  • 第1题:

    以下哪个是HDFS的局限性。()

    A.延迟高

    B.只允许对文件执行追加操作,不能执行随机写操作

    C.用MapReduce处理大量小文件时,会产生过多的Map任务,线程管理开销会大大增加

    D.拥有复杂的数据模型


    标准答案:ABC

  • 第2题:

    下面哪个程序负责HDFS数据存储( )。

    A、NameNodeB、Jobtracker

    B、Datanode

    C、Secondary namenode

    D、tasktracker


    正确答案:B

  • 第3题:

    hadoop中的hdfs是分布式()

    • A、计算框架
    • B、存储系统
    • C、中介系统
    • D、网络系统

    正确答案:B

  • 第4题:

    Hadoop分布式文件系统(HDFS)具有()的特性。

    • A、适合数据批量处理
    • B、数据处理能力极强
    • C、最大化吞吐率
    • D、允许计算向数据迁移
    • E、适合多线程问题

    正确答案:A,C,D

  • 第5题:

    Hive架构建立在Hadoop之上的,所有Hive中数据都是存储在HDFS中


    正确答案:正确

  • 第6题:

    下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是().

    • A、FSDataInputStream扩展了DataInputStream以支持随机读
    • B、为实现细粒度并行,输入分片应该越小越好
    • C、一台机器可能被指派从输入文件的任意位置开始处理一个分片
    • D、输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割

    正确答案:B

  • 第7题:

    MapReduce执行过程中,数据存储位置不是在GFS上的是()

    • A、Map处理结果
    • B、Reduce处理结果
    • C、日志

    正确答案:B

  • 第8题:

    多选题
    Hadoop的HDFS是一种分布式文件系统,适合以下哪种场景的数据存储和管理?()
    A

    大量小文件存储

    B

    高容错,高吞吐量

    C

    低延迟读取

    D

    流式数据访问


    正确答案: C,B
    解析: 暂无解析

  • 第9题:

    单选题
    关于Hive和Hadoop其他组件的关系,以下描述错误的是?()
    A

    Hive最终将数据存储在HDFS中

    B

    HiveSQL其本质是执行MapReduce任务

    C

    Hive是Hadoop平台的数据仓库工具

    D

    Hive对HBase有强依赖


    正确答案: D
    解析: 暂无解析

  • 第10题:

    多选题
    Hadoop分布式文件系统(HDFS)具有()的特性。
    A

    适合数据批量处理

    B

    数据处理能力极强

    C

    最大化吞吐率

    D

    允许计算向数据迁移

    E

    适合多线程问题


    正确答案: E,C
    解析: 暂无解析

  • 第11题:

    问答题
    MapReduce 是处理大数据的有力工具,但不是每个任务都可以使用MapReduce 来进行处理。试述适合用MapReduce来处理的任务或者数据集需满足怎样的要求。

    正确答案: 适合用MapReduce来处理的数据集,需要满足一个前提条件:待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。
    解析: 暂无解析

  • 第12题:

    单选题
    Hadoop中哪个模块负责HDFS的数据存储?()
    A

    NameNode

    B

    DataNode

    C

    ZooKeeper

    D

    JobTraoker


    正确答案: B
    解析: 暂无解析

  • 第13题:

    Hadoop的HDFS是一种分布式文件系统,适合高容错、高吞吐量场景的数据存储和管理。()

    此题为判断题(对,错)。


    参考答案:对

  • 第14题:

    hadoop中的hdfs实现底层是通过以下哪个选项实现的()

    • A、block的划分
    • B、磁盘的copy
    • C、数据的划分
    • D、磁盘的分裂

    正确答案:A

  • 第15题:

    在Bigtable中,()主要用来存储子表数据以及一些日志文件

    • A、GFS
    • B、Chubby
    • C、SSTable
    • D、MapReduce

    正确答案:A

  • 第16题:

    Hive?是建立在Hadoop?之上的,所有?Hive?的数据都是存储在HDFS?中的


    正确答案:正确

  • 第17题:

    Spark可以使用Hadoop的YARN和ApacheMesos作为它的资源管理和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等


    正确答案:正确

  • 第18题:

    随着谷歌()和()的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。

    • A、Map,iGoogle
    • B、Docs,GoogleFileSystem
    • C、YouTube,GooleMobile
    • D、MapReduce,GoogleFileSystem

    正确答案:D

  • 第19题:

    下面哪个程序负责HDFS数据存储()。

    • A、NameNode
    • B、Jobtracker
    • C、Datanode
    • D、secondaryNameNode

    正确答案:C

  • 第20题:

    问答题
    Spark的出现是为了解决Hadoop MapReduce的不足,试列举Hadoop MapReduce的几个缺陷,并说明Spark具备哪些优点。

    正确答案: (1)Hadoop存在以下缺点:
    ①表达能力有限;②磁盘IO开销大;③延迟高
    (2)Spark主要有如下优点:
    ①Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多种数据集操作类型,编程模型比MapReduce更灵活;
    ②Spark提供了内存计算,中间结果直接存放内存中,带来更高的迭代运算效率;
    ③Spark基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制。
    解析: 暂无解析

  • 第21题:

    单选题
    下面关于HDFS架构关键设计要点错误的是()。
    A

    支持回收站机制,以及副本数的动态设置机制

    B

    数据存储以数据块为单位,存储在操作系统的HDFS文件系统上

    C

    提供JAVAAPI,HTTP方式,SHELL方式访问HDFS数据

    D

    HDFS对外仅呈现多个统一的文件系统


    正确答案: A
    解析: 暂无解析

  • 第22题:

    问答题
    试述MapReduce和Hadoop的关系。

    正确答案: 谷歌公司最先提出了分布式并行编程模型MapReduce, Hadoop MapReduce是它的开源实现。谷歌的MapReduce运行在分布式文件系统GFS上,与谷歌类似,HadoopMapReduce运行在分布式文件系统HDFS上。相对而言,HadoopMapReduce 要比谷歌MapReduce 的使用门槛低很多,程序员即使没有任何分布式程序开发经验,也可以很轻松地开发出分布式程序并部署到计算机集群中。
    解析: 暂无解析

  • 第23题:

    单选题
    哪个是HDFS(Hadoop Distributed File System)适合做的?()
    A

    大量小文件存储

    B

    流式数据访问

    C

    随机写入

    D

    低延迟读取


    正确答案: A
    解析: 暂无解析

  • 第24题:

    单选题
    下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是().
    A

    FSDataInputStream扩展了DataInputStream以支持随机读

    B

    为实现细粒度并行,输入分片应该越小越好

    C

    一台机器可能被指派从输入文件的任意位置开始处理一个分片

    D

    输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割


    正确答案: C
    解析: 暂无解析