大数据中的 EDA
Posted
技术标签:
【中文标题】大数据中的 EDA【英文标题】:EDA in Big data 【发布时间】:2014-06-17 05:34:07 【问题描述】:-
在大数据上可以进行哪些数据准备操作?例如:合并、汇总、转置、追加 - 所有这些都可以在 Hadoop 上完成吗?
所有数据处理都可以做什么?我们可以对大数据进行单变量和双变量分析吗?需要多少时间?数据处理如 - 缺失值处理、异常值处理。在异常值处理中 - 使用的最重要的方法是什么 - IQR、百分位数等?
我们可以在大数据上做箱线图、运行序列图等吗?
我们可以绘制直方图吗?
我们能否在大数据上绘制自相关图、单位根图、白噪声图等?
【问题讨论】:
请阅读有关大数据的更多信息。 【参考方案1】:大数据平台 (Hadoop) 与传统数据库之间的根本区别在于,大数据平台在读取时应用架构 - 而我们在传统数据库中预先定义架构。因此,在传统数据库中,我们只能插入那些适合已知模式的数据。 Hadoop 的核心是一个名为 HDFS 的文件系统,并使用 map-reduce 算法在文件系统上进行分布式计算。通常我们不会问,我们需要什么样的准备才能将文件复制到您的计算机上。您首先复制它 - 因为我们正在复制到 NTFS、FAT、HFSX、ZFS 等文件系统中。同样,HDFS 是一个文件系统。 Hive 等工具为您提供了 Hadoop 的 SQL 接口。但是,在后台,Hive 正在获取原始文件并在读取时应用模式。由于处理快速且分布式,因此这不是问题。这就是为什么——我们通常不将 Hadoop 用于实时事务处理系统。
虽然您可以执行除删除之外的大多数转换,但通常不应该在基于 Hadoop 的系统中进行大量转换。您提供原始数据并使用 Hive 等工具或编写自己的 map-reduce 代码来访问它。它们在访问时运行。因此,您所做的预处理级别应该相对较小。
您可以在 Hadoop 上使用多种可视化工具来绘制您正在寻找的图。
有关更多分析算法 - 请参阅 apache mahout。 http://mahout.apache.org/users/basics/algorithms.html
【讨论】:
【参考方案2】:您可以根据要使用的平台执行所有这些操作。大数据是一个非常大的术语,并且存在大量框架来提供对大数据的计算和可视化。因此,对您问题的回答将取决于您要使用的平台。
【讨论】:
是的,您可以使用 Hadoop。您无需编写核心 Map-Reduce 代码,您可以使用 Hive 和 Pig 等工具。但是,这些工具不支持更新。如果您想使用更新,您可能需要探索提供更新机制的 HBase 或 Cassandra。【参考方案3】:对于数据准备,您可以使用 Hive。 对于其他一切,我建议您使用 SparkR。有大量的函数、库可以帮助您进行单变量(缺失值和异常值处理)和双变量分析。您可以绘制图表并执行回归分析。 R 是为统计计算而构建的,使用 Spark,您可以在 BigData 上执行相同的操作。 关于速度,它很快:) 你可以在这里阅读关于 SparkR 的内容https://rpubs.com/wendyu/sparkr
【讨论】:
以上是关于大数据中的 EDA的主要内容,如果未能解决你的问题,请参考以下文章
YYDS!几行Python代码,就实现了全面自动探索性数据分析
YYDS!几行Python代码,就实现了全面自动探索性数据分析
区区几行代码,就能全面实现 Python 自动探索性数据分析