MySQL 语法混淆 - 合并简单数据以实现优雅的单行插入

Posted

技术标签:

【中文标题】MySQL 语法混淆 - 合并简单数据以实现优雅的单行插入【英文标题】:MySQL syntax confusion - Merging together simple data for a graceful single-row insertion 【发布时间】:2021-09-29 10:07:32 【问题描述】:

我正在构建一个 mysql 表来为客户汇总一组特定信息。我已经使用简单的INNER JOIN 命令在具有共享键/列的记录上成功组装和过滤了大部分内容,但是数据的旋转/转置,即使是固定大小,仍然导致我的查询出现一些语法混乱.这张表t_snapshots的schema如下:

+-------------+---------------------+------+-----+---------------------+----------------+
| Field       | Type                | Null | Key | Default             | Extra          |
+-------------+---------------------+------+-----+---------------------+----------------+
| id          | int(11)             | NO   | PRI | NULL                | auto_increment | 
| value_type  | tinyint(1) unsigned | YES  |     | NULL                |                |
| ch1_id      | varchar(20)         | YES  |     | NULL                |                |
| ch1_val     | float               | NO   |     | 0                   |                |
| ch2_id      | varchar(20)         | YES  |     | NULL                |                |
| ch2_val     | float               | NO   |     | 0                   |                |
| ch3_id      | varchar(20)         | YES  |     | NULL                |                |
| ch3_val     | float               | NO   |     | 0                   |                |
| ch4_id      | varchar(20)         | YES  |     | NULL                |                |
| ch4_val     | float               | NO   |     | 0                   |                |
| timestamp   | datetime            | NO   | MUL | current_timestamp() |                |
+-------------+---------------------+------+-----+---------------------+----------------+

简单地说,我想从t_other_data0.ch[n] 中选择最近更新的值发送到t_snapshots.ch[n]_val,并从t_id_pool.unit_id 中为每个唯一的t_id_pool.channel_num 选择最近更新的id 发送到t_snapshots.ch[n]_idt_id_pool.channel_num 与列 t_snapshots.ch[n]_val 的 n 值相关:

--EDIT--:理想情况下,来自源表t_other_data0 的样本数据从t_id_pool 中查找channel_num=1,2,3,4 的最新unit_id 值并输出到表t_snapshots

t_other_data0 收集最新的过程数据。在这种情况下,将选择具有 id 5-8 的行,因为它们跨越所有不同的 value_type 和最新的 timestamp。:

Table: t_other_data0
+----+------+------+------+------+------------+---------------------+
| id | ch1  | ch2  | ch3  | ch4  | value_type | timestamp           |
+----+------+------+------+------+------------+---------------------+
|  1 | 1.65 | 3.25 | 1.98 | 2.17 |          1 | 2021-07-22 16:26:40 |
|  2 | 3.12 | 2.33 | 6.42 | 3.22 |          2 | 2021-07-22 16:26:40 |
|  3 | 2.22 | 2.24 | 3.34 | 1.17 |          3 | 2021-07-22 16:26:40 |
|  4 | 1.52 | 1.34 |  1.9 | 2.01 |          4 | 2021-07-22 16:26:40 |
|  5 |  3.2 | 3.21 | 5.42 | 2.13 |          1 | 2021-07-22 16:26:50 |
|  6 | 1.55 | 1.92 | 4.32 | 4.12 |          2 | 2021-07-22 16:26:50 |
|  7 | 2.31 | 1.93 | 2.36 |  3.4 |          3 | 2021-07-22 16:26:50 |
|  8 | 1.78 | 2.17 | 5.62 | 2.34 |          4 | 2021-07-22 16:26:50 |
+----+------+------+------+------+------------+---------------------+

因为这些永久频道会更改它们所绑定的临时设备,所以我们使用来自t_id_pool 的最新unit_id 来确定每个channel_num 的当前unit_id

Table: t_id_pool
+----+---------------------+-------------+---------+
| id | timestamp           | channel_num | unit_id |
+----+---------------------+-------------+---------+
|  1 | 2021-07-22 09:39:09 |           1 | S4251   |
|  2 | 2021-07-22 09:38:09 |           2 | S3552   |
|  3 | 2021-07-22 09:38:09 |           3 | S0001   |
|  4 | 2021-07-22 09:38:09 |           4 | S1001   |
|  5 | 2021-07-22 09:39:10 |           1 | P5251   |
|  6 | 2021-07-22 09:38:10 |           2 | P4552   |
|  7 | 2021-07-22 09:38:10 |           3 | P1001   |
|  8 | 2021-07-22 09:38:10 |           4 | P2001
+----+---------------------+-------------+---------+

输出到t_snapshots:

Table: t_snapshots
+-----+---------------------+------------+--------+---------+--------+---------+--------+---------+--------+---------+
| id  | timestamp           | value_type | ch1_id | ch1_val | ch2_id | ch2_val | ch3_id | ch3_val | ch4_id | ch4_val |
+-----+---------------------+------------+--------+---------+--------+---------+--------+---------+--------+---------+
| 211 | 2021-07-14 16:26:50 |          1 | P5251  |     3.2 | P4552  |    3.21 | P1001  |    5.42 | P2001  |    2.13 |
| 212 | 2021-07-14 16:26:50 |          2 | P5251  |    1.55 | P4552  |    1.92 | P1001  |    4.32 | P2001  |    4.12 |
| 213 | 2021-07-14 16:26:50 |          3 | P5251  |    2.31 | P4552  |    1.93 | P1001  |    2.36 | P2001  |     3.4 |
+-----+---------------------+------------+--------+---------+--------+---------+--------+---------+--------+---------+



 

【问题讨论】:

与我们分享来自t_id_pool 表的一些示例(假)数据。还有这些示例数据,SELECT 查询中的预期结果如何。 @FaNo_FN 进行编辑以根据要求描述源表和理想输出 id=4 被选中?因为它似乎不是最新的timestamp。另外,我没有在输出中看到任何 id=4 行数据。 我想知道为什么t_other_data.id=8 不见了。我开始a fiddle 但没时间了。 mariadb-10.4 dbfiddle<> 本来会更好,但目前它不适合我。 关于 id=4 是正确的。在我的示例中,我的意思是选择了 id 为 5-8 的行。我已经更正了这一点,以及拼写错误的表名。 【参考方案1】:

t_other_data0 似乎是一个数据透视表。因此,我认为第一步是将其取消旋转,然后将其与t_id_pool 表连接以获取最新的unit_id,然后再次重新旋转它。也许这样的查询可以工作:

SELECT 0 id, tod.timestamp, value_type,
       MAX(case when channel_num=1 THEN unit_id else 0 END) AS ch1_id,
       SUM(case when channel_num=1 then chan_val else 0 END) as ch1_val,
       MAX(CASE WHEN channel_num=2 THEN unit_id ELSE 0 END) AS ch2_id,
       SUM(CASE WHEN channel_num=2 THEN chan_val ELSE 0 END) AS ch2_val,
       MAX(CASE WHEN channel_num=3 THEN unit_id ELSE 0 END) AS ch3_id,
       SUM(CASE WHEN channel_num=3 THEN chan_val ELSE 0 END) AS ch3_val,
       MAX(CASE WHEN channel_num=4 THEN unit_id ELSE 0 END) AS ch4_id,
       SUM(CASE WHEN channel_num=4 THEN chan_val ELSE 0 END) AS ch4_val
FROM   (SELECT value_type, ch1 AS chan_val, 1 AS chan_num, timestamp
        FROM   (SELECT *, Row_number() OVER (partition BY value_type ORDER BY id DESC) rn
                FROM t_other_data0) AS A
        WHERE  rn = 1 UNION ALL
        SELECT value_type, ch2, 2,
               timestamp
        FROM   (SELECT *, Row_number() OVER (partition BY value_type ORDER BY id DESC) rn
                FROM t_other_data0) AS A
        WHERE  rn = 1 UNION ALL
        SELECT value_type, ch3, 3,
               timestamp
        FROM   (SELECT *, Row_number() OVER (partition BY value_type ORDER BY id DESC) rn
                FROM t_other_data0) AS A
        WHERE  rn = 1 UNION ALL
        SELECT value_type, ch4, 4,
               timestamp
        FROM   (SELECT *, Row_number() OVER (partition BY value_type ORDER BY id DESC) rn
                FROM t_other_data0) AS A
        WHERE  rn = 1) AS tod
       JOIN (SELECT id, timestamp, channel_num, unit_id, 
                    Row_number() OVER (partition BY channel_num ORDER BY timestamp DESC) rn
             FROM t_id_pool) AS tip
         ON tod.chan_num = tip.channel_num AND tip.rn = 1
    GROUP BY tod.timestamp, value_type;

这里使用的函数之一是ROW_NUMBER(),其目的是在最新的value_typechannel_number 时间戳上分配行号1。至于表t_other_data0,我使用的是UNION ALL,在ch1, ch2, ch3 &amp; ch4 列之后总共有4 个查询。根据我采用的列,我为每个人分配了一个硬编码的chan_num

我不确定id 列要填充什么,但我认为由于查询的主要目的是将INSERT 放入另一个表,那么id 列可能是自动递增的。

不幸的是 dbfiddle.uk 从昨天开始就不能使用了,所以这里的小提琴是针对 MySQL v8.0 而不是 MariaDB 10.3。 https://www.db-fiddle.com/f/xf1VmfYMbnGcabJS7dS6A1/1 。小提琴中的结果将为t_other_data.id=8 增加一行(@danblack 在评论中提到)并且不包括id=4,因为您的条件是“从 t_other_table0 收集最新的流程数据”。但是从您的预期输出来看,您似乎没有包含id=4,所以您的描述中可能有一些错误。

【讨论】:

很好的例子。感谢您花时间将所有内容放入 Fiddle 并展示示例。现在,使用 unions 和 joins 来完成这项工作,语法对我来说更有意义。据我所知,似乎已经很好地转移到了 MDB 10.3;尚未测试我将其适应生产数据池的执行时间,但期待尝试一下! 到目前为止,我似乎遇到的唯一问题是在 MySQL 5.7 环境 (Amazon Aurora) 中。在“(分区”附近获得 1064,但据我所知,我认为这是合法的。 不幸的是,MySQL 5.7 不支持ROW_NUMBER()。有一种方法可以为旧版本生成行号。让我回复你。 看这个小提琴@user8585939 dbfiddle.uk/… 回过头来看,您是否会针对t_other_data0(假设>10M)内的非常大的数据集进行任何优化?

以上是关于MySQL 语法混淆 - 合并简单数据以实现优雅的单行插入的主要内容,如果未能解决你的问题,请参考以下文章

用C++优雅的实现对象到文件的序列化/反序列化

mysql 语法

mysql数据类型/注意事项/int(20)混淆

MySQL简单查询和单表查询

Node 和 MySQL:无法结束连接 -> 异步混淆

有没有一种优雅的方法来告诉 eslint 以确保我们没有使用任何 ES6 语法/函数?