上传和排序大型数据集(400GB+)的最简单/非技术友好的方法是啥?

Posted

技术标签:

【中文标题】上传和排序大型数据集(400GB+)的最简单/非技术友好的方法是啥?【英文标题】:What is the easiest/non-technical friendly way to upload and sort through a large dataset (400GB+)?上传和排序大型数据集(400GB+)的最简单/非技术友好的方法是什么? 【发布时间】:2013-06-29 18:00:11 【问题描述】:

希望首先按日期标签对(主要是文本)数据进行排序(例如,按季度分隔数据,即使分成不同的文件)。然后想对数据执行标准函数,如条件和。如果没有丰富的编程/数据库背景,但愿意花几天时间学习,我最好的解决方案是什么?

【问题讨论】:

你的数据是什么格式的?纯文本? XML? 使用 Hadoop 和任何数据库如 Hbase 等...对文件进行排序。 格式为纯文本。是否有任何易于使用/非技术性的软件包,一旦我在云中获得它,我可以使用它来帮助对其进行分类? 【参考方案1】:

听起来您希望能够对您的数据进行一些查询。我会研究一个 SQL 数据库解决方案。最困难的部分是将您的数据输入数据库。

AWS 的所有关系数据库都可以从文本文件中导入: 微软的 SQL Server:http://msdn.microsoft.com/en-us/library/ms178129.aspx 甲骨文:http://docs.oracle.com/cd/B28359_01/text.111/b28304/aload.htm mysql:http://dev.mysql.com/doc/refman/5.0/en/mysqlimport.html

我会完全根据哪个更容易加载您的文件来做出决定。如果你的预算有限,你可以下载 MySQL,而不是做整个云计算。假设您有足够的磁盘空间来托管数据库,请将其保存在本地计算机上。

完成后,它们都支持 SQL,这使您可以非常轻松地查询数据。如果您不想编写自己的 SQL,可以使用工具通过拖放创建查询。但作为一名程序员,我强烈建议您编写自己的查询,或者回到这里寻求一些查询帮助。

【讨论】:

谢谢jtseng。出于好奇,您会推荐哪些程序来通过拖放 (GUI) 在 SQL 数据库上创建查询?有没有办法在我的所有数据都上传到云中时有一个 GUI/拖放界面(即通过云从我的计算机拖放,所以计算速度比我在我自己的计算机上的内存中的任何东西都快)?谢谢 @user2535088 我实际上从未使用过,所以我无法提出好的建议。这是我在 Google 上找到的列表:sourceforge.net/projects/sqleo、quackit.com/sql_server/sql_server_2008/tutorial/…、devart.com/dbforge/sql/querybuilder 祝你好运。也许你可以让朋友写几个查询,或者在这里找到类似的查询。

以上是关于上传和排序大型数据集(400GB+)的最简单/非技术友好的方法是啥?的主要内容,如果未能解决你的问题,请参考以下文章

Python Pandas 改进了目前需要约 400 分钟运行的大型数据集的计算时间

MySQL (Workbench) 对大型数据集 (30GB) 的操作分组

用于下载和上传大小分别为300-400 GB的媒体文件的内容

如何在 R/Python 中迭代/循环一个大型(>2GB)JSON 数据集? [复制]

在 python 中处理大型数据集的最佳方法

(预)处理存储在 json 中的大型数据集的最有效方法是啥?