大数据中的 EDA

Posted 2023-04-18

技术标签:

【中文标题】大数据中的 EDA【英文标题】：EDA in Big data 【发布时间】：2014-06-17 05:34:07 【问题描述】：

在大数据上可以进行哪些数据准备操作？例如：合并、汇总、转置、追加 - 所有这些都可以在 Hadoop 上完成吗？所有数据处理都可以做什么？我们可以对大数据进行单变量和双变量分析吗？需要多少时间？数据处理如 - 缺失值处理、异常值处理。在异常值处理中 - 使用的最重要的方法是什么 - IQR、百分位数等？我们可以在大数据上做箱线图、运行序列图等吗？我们可以绘制直方图吗？我们能否在大数据上绘制自相关图、单位根图、白噪声图等？

【问题讨论】：

请阅读有关大数据的更多信息。 【参考方案1】：

大数据平台 (Hadoop) 与传统数据库之间的根本区别在于，大数据平台在读取时应用架构 - 而我们在传统数据库中预先定义架构。因此，在传统数据库中，我们只能插入那些适合已知模式的数据。 Hadoop 的核心是一个名为 HDFS 的文件系统，并使用 map-reduce 算法在文件系统上进行分布式计算。通常我们不会问，我们需要什么样的准备才能将文件复制到您的计算机上。您首先复制它 - 因为我们正在复制到 NTFS、FAT、HFSX、ZFS 等文件系统中。同样，HDFS 是一个文件系统。 Hive 等工具为您提供了 Hadoop 的 SQL 接口。但是，在后台，Hive 正在获取原始文件并在读取时应用模式。由于处理快速且分布式，因此这不是问题。这就是为什么——我们通常不将 Hadoop 用于实时事务处理系统。

虽然您可以执行除删除之外的大多数转换，但通常不应该在基于 Hadoop 的系统中进行大量转换。您提供原始数据并使用 Hive 等工具或编写自己的 map-reduce 代码来访问它。它们在访问时运行。因此，您所做的预处理级别应该相对较小。

您可以在 Hadoop 上使用多种可视化工具来绘制您正在寻找的图。

有关更多分析算法 - 请参阅 apache mahout。 http://mahout.apache.org/users/basics/algorithms.html

【讨论】：

【参考方案2】：

您可以根据要使用的平台执行所有这些操作。大数据是一个非常大的术语，并且存在大量框架来提供对大数据的计算和可视化。因此，对您问题的回答将取决于您要使用的平台。

【讨论】：

是的，您可以使用 Hadoop。您无需编写核心 Map-Reduce 代码，您可以使用 Hive 和 Pig 等工具。但是，这些工具不支持更新。如果您想使用更新，您可能需要探索提供更新机制的 HBase 或 Cassandra。【参考方案3】：

对于数据准备，您可以使用 Hive。对于其他一切，我建议您使用 SparkR。有大量的函数、库可以帮助您进行单变量（缺失值和异常值处理）和双变量分析。您可以绘制图表并执行回归分析。 R 是为统计计算而构建的，使用 Spark，您可以在 BigData 上执行相同的操作。关于速度，它很快:) 你可以在这里阅读关于 SparkR 的内容https://rpubs.com/wendyu/sparkr

【讨论】：

以上是关于大数据中的 EDA的主要内容，如果未能解决你的问题，请参考以下文章