itgle.com
更多“数据预处理需要做哪些工作? ”相关问题
  • 第1题:

    1、下面哪些方法能够对数据进行预处理?

    A.数据清洗

    B.数据集成

    C.数据变换

    D.数据规约


    问卷调查;网络爬虫;查阅书籍文献;传感器采集

  • 第2题:

    1、对数据收集完后,需要对数据进行必要的预处理,进行预处理主要包括哪些内容?


    错误

  • 第3题:

    在数据预处理过程中,为什么要进行数据抽取?在数据抽取过程中,需要遵循哪些原则,需要考虑哪些问题?


    数据预处理: 在数据挖掘具体工作开始之前对数据进行必要的数据清理、集成等工作; 从对不同的源数据进行预处理的功能来分,数据预处理主要包括数据清理、数据集成、数据变换、数 据归约等 4 个基本功能。 必要性: 在海量的原始数据中 , 存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。为此,在数据挖掘算法执行之前,必须对收集到的原始数据进行预处理,以改进数据的质量,提高数据挖掘过程的 效率、精度和性能。

  • 第4题:

    新摩尔定律的含义是什么?大数据预处理的方法有哪些?


    集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍。

  • 第5题:

    1,常用的大数据采集工具有哪些? 2,简要阐述数据预处理原理。 3,数据清洗油哪些方法? 4,阐述常用的ETL工具。


    (1)Apache Chukwa,一个针对大型分布式系统的数据采集系统,其构建在Hadoop之上,使用HDFS作为存储。 (2)Flume,一个功能完备的分布式日志采集、聚合和传输系统。在Flume中,外部输入称为Source(源),系统输出称为Sink(接收端),Channel(通道)将源和接收端链接在一起。 (3)Scrible,facebook开源的日志收集系统。 (4)Kafka,当下流行的分布式发布、订阅消息系统,也可用于日志聚合。不仅具有高可拓展性和容错性,而且具有很高的吞吐量。特点是快速的、可拓展的、分布式的、分区的和可复制的。