使用 Tableau 或 PowerBI 直接查询具有 1b 行数据的数据库
Posted
技术标签:
【中文标题】使用 Tableau 或 PowerBI 直接查询具有 1b 行数据的数据库【英文标题】:Directly query databases with 1b rows of data using Tableau or PowerBI 【发布时间】:2017-10-26 00:29:39 【问题描述】:我偶尔会看到有人或公司展示从 Tableau 或 PowerBI 查询 db/cube/etc 时响应不到 5 秒,有时甚至不到 1 秒。他们怎么做到的?数据是否针对鳃进行了优化?他们使用的是海量数据库吗?
在一个相关问题上,我一直在尝试使用 Tableau 针对 SQL DW 分析一个 100m 行的小得多的数据集,但仍然需要将近一分钟的时间来计算。我应该尝试其他技术吗?也许是分析服务或大数据技术?
这些通常是一次性的数据分析任务,因此我不必担心数据增长。
【问题讨论】:
很遗憾没有办法客观地回答这个问题。我们对某人的数据库引擎、数据库背后的资源(一个服务、一组虚拟机)、模式、查询等一无所知。我们只是在猜测。还有你的相关问题:同样的事情。数据集大小(行数)与您的查询、环境等无关。 谢谢大卫。如果这有帮助,这里有一个更具体的例子。 2b 行纽约出租车数据示例。 youtube.com/watch?v=m1jnG1zIvTo 除了使用 S4,我将如何获得这种性能?我想trips 表中仍然必须有2b 行,所以它不能只是优化数据模型。 看看下面的一些。 onlinehelp.tableau.com/current/pro/desktop/en-us/…interworks.com/blog/bfair/2015/02/23/… 感谢您的建议。我肯定会尝试优化数据,但奇怪的是我的单个表可能有 20 列并且没有连接。现在我知道我可以从中创建六个查找表,并将大约 20 个字符字符串转换为整数,但与 2b 行相比,它真的会有那么大的不同吗?我想我需要做功课并找出答案。我只是确保我不会错过任何明显的东西,例如“哦,他们在 Hadoop 之上运行 AS,这就是它如此之快的原因!” 所以我尝试将我的 70m 行数据更改为所有整数,为 5 个维度创建星型模式,并创建一个仅包含维度键和度量值的事实表。表现一般都不错,但不是我预期的大幅上升。我必须在嵌入式 Tableau 和连接到 SQL 的 Tableau 中做同样的事情来比较,但到目前为止还没有给人留下深刻的印象。即使我将所有内容都放在 AS 的缓存中,仍然对如何快速查询 2b 行内容感到困惑。 【参考方案1】:Tableau 中的实时连接速度仅与基础数据源一样快。如果查看日志 (C:\Users\username\Documents\My Tableau Repository\Logs\log.txt),您将看到向数据库发出的 sql 表。在服务器本身上运行该查询......应该花费大约相同的时间。旁注:Tableau 在下一版本中提供了一个新的数据引擎。它被称为“超”。这应该允许您以非常好的性能从 2b 行创建提取。您现在可以下载测试版...更多信息here
【讨论】:
以上是关于使用 Tableau 或 PowerBI 直接查询具有 1b 行数据的数据库的主要内容,如果未能解决你的问题,请参考以下文章
现在市场上有PowerBi或者Tableau可以做很好的图表,那还有人用Python来制作可视化图表吗?有啥优点?