从普通数据库表创建大数据[关闭]

Posted

技术标签:

【中文标题】从普通数据库表创建大数据[关闭]【英文标题】:Big data creation from normal database table [closed] 【发布时间】:2013-04-01 02:19:12 【问题描述】:

我们的应用程序包含一个包含我们每天都在引用的事务数据的表。它有数百万行。显然查询该表非常慢。

有什么方法可以从该表创建大数据并使用 hadoop 和相关技术查询结果?

【问题讨论】:

“它有数百万行。显然查询该表非常慢” - 那么你可能做错了什么。你有合适的索引吗?” 【参考方案1】:

您可以使用 Apache Sqoop,将大型数据库导入 Hadoop。 每天最后(或根据您自己的计划),您可以将已完成的交易导入您加载的现有数据库中。因此,您每天都会通过这种方式将事务添加到 Hadoop 内部的现有数据中。

您需要了解的技术

Sqoop : 从数据库导入数据 Hive:提供类似 SQL 的接口来查询该数据 Search Apache Hive Oozie : 安排每天导入数据的工作。搜索 Apache oozie Sqoop 具有执行增量加载的功能,您可以使用它。

除了 Hive,你还可以使用 Impala 来查询数据,速度非常快

【讨论】:

以上是关于从普通数据库表创建大数据[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

2022年最新Python大数据之Excel基础

大数据之hive:hive分区表

oracle 大表怎么建索引

mysql学习笔记

帮助访问 2007 sql 表? [关闭]

MySQL快速生成100W条测试数据