在 FROM 子句中创建大型虚拟表

Posted 2023-04-18

技术标签:

【中文标题】在 FROM 子句中创建大型虚拟表【英文标题】：Creating a large virtual table in FROM clause 【发布时间】：2014-06-03 18:28:15 【问题描述】：

背景

我有一个 Java 应用程序，它定期从一个数据库 (mysql) 获取结果集，并尝试在另一个数据库中查找匹配项（具体为 Postgres / PostGIS）。

问题

目前，应用程序查询 Postgres 数据库一次，结果集中的 MySQL 记录（可能超过数万条）。我正在尝试更改算法，以便应用程序生成一个查询，如果找到任何匹配项，该查询会产生多个结果。描述我的目标的另一种方式是，如果这两个表存在于同一个数据库系统中，则查询的行为应该类似于典型的 JOIN。

当前解决方案

为了解决这个问题，我在FROM 子句中创建了一个虚拟表。但是，我知道如何从值列表中执行此操作的唯一方法是编写单独的 SELECT 语句和 UNION。结果似乎有效，虽然我没有测试数千条记录的性能，但使用数百个这样的SELECT-UNION 语句似乎没有任何巨大影响。这是整个查询的相关部分，以说明我到目前为止所做的事情：

SELECT *, ST_Distance_Sphere(latlng, geom) as distance 
FROM rwis_sites 
    INNER JOIN 
(SELECT 1100 as unit_id, ST_GeomFromText('POINT(-81.19701 32.09279)', 4326) as geom UNION
 SELECT 1100 as unit_id, ST_GeomFromText('POINT(-81.19682 32.09224)', 4326) as geom 
  UNION
 SELECT 1100 as unit_id, ST_GeomFromText('POINT(-81.1968 32.09213)', 4326) as geom 
  UNION
... just a few more...hundred...thousand...
 SELECT 2266 as unit_id, ST_GeomFromText('POINT(-97.98719 29.57656)', 4326) as geom 
  UNION
 SELECT 2266 as unit_id, ST_GeomFromText('POINT(-97.98815 29.57602)', 4326) as geom
) virtualTable 
ON ST_Distance_Sphere(latlng, geom) < 10000 
ORDER BY ST_Distance_Sphere(latlng, geom) ASC limit 1

由于“虚拟表”是以编程方式生成的，因此我的工作量很小。

问题

但是，我担心这是否是一种“愚蠢”的方法（更不用说我尚未检测到的任何性能问题），最终我想知道：有没有更好的方法来创建类似的东西而无需数千SELECT-UNION 声明？

【问题讨论】：

你能不能从 MySQL 中导出所需的数据到一个描述的文件中，然后使用 PostgreSQL COPY 命令导入到一个 PostgreSQL 临时表中。从那里使用您创建的导入表查询您的主表。 @Bob 哦，好吧，这是一个有趣的想法。我会调查的；只要它可以从 Java 应用程序以编程方式完成，并且不会对性能产生负面影响。谢谢你的想法。 【参考方案1】：

这是动态创建values 表的更好方法

select *
from (
  values
    (1100::int, 'POINT(-81.19701 32.09279)'::geography(Point)),
    (1100::int, 'POINT(-81.19682 32.09224)'::geography(Point))
) as t(unit_id, geom)

但更好的办法可能是使用foreign data wrapper 将您的mysql 表带入PG。

编辑

如果 0.1° 只是 slightly more (mind cos(32.09)) 比 10000 m，您可能想尝试从主表中预筛选记录。

【讨论】：

嗯，很好，非常好。到目前为止，我没有发现这种方法有任何明显的性能差异，但它看起来更干净，而且我可能避免了 Marlin 提到的UNION 的性能问题。我将进一步研究数据包装器，我没有意识到这存在。谢谢！您不能从“动态表”的空间索引中受益，因此如果两个表都有很多记录，它可能会很慢。你在rwis_sites(latlng) 上有一个空间索引，正如 Marlin Pierce 提到的，对吧？虽然它通常与 ST_DWithin 一起使用。如果您的客户端库支持它，如果您传递 Well Known Binary 而不是要转换为地理的文本，也可能会更好。 Prepared statement 如果您经常调用它可能会有所帮助。【参考方案2】：

首先，我建议使用“UNION ALL”而不是“UNION”。当您使用 UNION 时，它会尝试删除重复项，这是您不需要它做的工作。由于您有数千个值，因此检查重复项会变得很慢。

除了 SELECT 之外，我想不出另一种方法来在一个 SQL 语句中填充虚拟表。您可能会尝试在一个 SQL 语句中填充一个临时表，然后在一秒钟内执行连接。但是，这会带来交易问题，因此您可能希望坚持使用它的方式。

作为另一个有助于性能的提示，您的内部联接正在评估

ST_Distance_Sphere(latlng, geom) < 10000

对于 rwis_sites 中的每条记录和虚拟表中的（可能数千条）记录的每种组合，它无法使用索引来优化它。如果您在点的一个轴上建立索引，请在连接中使用 10000 的范围，并将 ST_Distance_Sphere 移动到 where 子句，它可能会运行得更快。矛盾的是，您正在添加更多工作，但如果它首先检查范围，它可以使用索引来取消许多组合的资格，并且仅在点沿一个轴靠近时检查实际距离。

【讨论】：

感谢UNION ALL 提示。 Re: 临时表，我也想过；还没有尝试过，但它可能会起作用，并且在我需要扩展进程数量之前，事务问题现在可能不是问题。回复：距离连接性能，我对一件事感到困惑：你说“在你的连接中使用 10000 的范围，并将 ST_Distance_Sphere” 移动到 where 子句......，我不太清楚您建议加入的内容。 "use a range of 10000" 部分让我失望，你的意思是在两个子句中执行相同的ST_Distance... 吗？事务问题源于使用临时表，因为您的 Web 服务器将创建多个线程。如果您删除临时表中的所有行并插入新行，如果多个线程交错调用删除插入和选择，它可能会变得混乱。对于范围注释，我当然不是说重复相同的条件。索引一个轴，例如经度。在连接中，使用“-97.98815 - R 和 -97.98815 + R 之间的长”代替“ST_Distance_Sphere(latlng, geom)

以上是关于在 FROM 子句中创建大型虚拟表的主要内容，如果未能解决你的问题，请参考以下文章