当一组相关的 Oracle 表没有时间信息时，按天对它们进行分区

Posted 2023-04-14

技术标签:

【中文标题】当一组相关的 Oracle 表没有时间信息时，按天对它们进行分区【英文标题】：Partitioning a related set of Oracle tables by day when they don't all have Time information 【发布时间】：2015-02-12 21:14:34 【问题描述】：

我有一组看起来像这样的表：

Time_Table（比较小）：

Time      (TIMESTAMP)
timeId    (NUMBER)
Data...   (NUMBER)

Table2（大，每个 time_table 行大约 30 行）：

timeId    (NUMBER)
table2Id  (NUMBER)
Data...   (NUMBER)

Table3（非常大，每 table2 行大约 10 行，目前几百天后有 14 亿行）：

timeId    (NUMBER)
table2Id  (NUMBER)
table3Id  (NUMBER)
Data...   (NUMBER)

我的查询至少总是在 timeId 上加入，并且每个查询都被分解为几天（10 天的阅读将导致 10 个较小的查询）。每天都有新数据写入所有表。我们需要从这些表中存储（和查询）多年的数据。

当时间信息只能通过 JOIN 获知时，如何将这些表划分为每日块？我应该以不依赖于时间的方式来看待分区吗？这可以自动完成，还是必须手动完成？

Oracle 11.2 版

【问题讨论】：

您使用的是什么版本的 Oracle？答案在 10.2、11.2 和 12.1 中可能会有所不同。请显示数据类型和示例数据。 @OldProgrammer 所有类型都是数字，时间是时间戳。 @JustinCave，我们使用的是 v11.2 那么table3每天有多少行？一天十行似乎微不足道。 【参考方案1】：

参考分区在这里可能会有所帮助。它允许子表的分区方案由父表决定。

架构

--drop table table3;
--drop table table2;
--drop table time_table;

drop table time_table;
create table Time_Table
(
    time   TIMESTAMP,
    timeId NUMBER,
    Data01 NUMBER,
    constraint time_table_pk primary key (timeId)
)
partition by range (time)
(
    partition p1 values less than (date '2000-01-02'),
    partition p2 values less than (date '2000-01-03'),
    partition p3 values less than (date '2000-01-04')
);

create table table2
(
    timeId   number,
    table2Id number,
    Data01   number,
    constraint table2_pk primary key (table2ID),
    constraint table2_fk foreign key (timeId) references time_table(timeId)
);


create table table3
(
    timeId   number not null,
    table2Id number,
    table3Id number,
    Data01   number,
    constraint table3_pk primary key (table3ID),
    constraint table3_fk1 foreign key (timeId) references time_table(timeId),
    constraint table3_fk2 foreign key (table2ID) references table2(table2ID)
) partition by reference (table3_fk1);

执行计划

Pstart 和 Pstop 表明即使分区谓词仅在小父表上设置，也正确修剪了大子表。

explain plan for
select *
from table3
join time_table using (timeId)
where time = date '2000-01-02';

select * from table(dbms_xplan.display);

Plan hash value: 832465087

-----------------------------------------------------------------------------------------------------
| Id  | Operation              | Name       | Rows  | Bytes | Cost (%CPU)| Time     | Pstart| Pstop |
-----------------------------------------------------------------------------------------------------
|   0 | SELECT STATEMENT       |            |     1 |    91 |     3   (0)| 00:00:01 |       |       |
|   1 |  PARTITION RANGE SINGLE|            |     1 |    91 |     3   (0)| 00:00:01 |     2 |     2 |
|   2 |   NESTED LOOPS         |            |     1 |    91 |     3   (0)| 00:00:01 |       |       |
|*  3 |    TABLE ACCESS FULL   | TIME_TABLE |     1 |    39 |     2   (0)| 00:00:01 |     2 |     2 |
|*  4 |    TABLE ACCESS FULL   | TABLE3     |     1 |    52 |     1   (0)| 00:00:01 |     2 |     2 |
-----------------------------------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   3 - filter("TIME_TABLE"."TIME"=TIMESTAMP' 2000-01-02 00:00:00')
   4 - filter("TABLE3"."TIMEID"="TIME_TABLE"."TIMEID")

Note
-----
   - dynamic sampling used for this statement (level=2)
   - automatic DOP: skipped because of IO calibrate statistics are missing

警告

参考分区有一些怪癖。它不适用于 11g 中的间隔分区，因此您必须手动为父表定义每个分区。外键也无法禁用，这可能需要修改一些脚本。和任何很少使用的功能一样，它也有一些错误。

【讨论】：

我不推荐该解决方案，因为它需要 GLOBAL 索引并且仅支持 2 级主详细信息。它还需要 FK，这对于仓库来说可能是个问题（APPEND 插入不起作用）。相反，我可以建议重新设计。什么是时间ID？它是来自序列的价值吗？为什么？时间是天然的独特价值 - 使用它而不是无意义的生成数字。 @Rusty 你说得对，引用分区有一些明显的缺点。尽管APPEND does work 即使有外键。如果仅添加一列并且表已经“胖”，则非规范化可能是更好的解决方案。我们曾经使用时间戳作为PK，但实际上可以有重复的时间，这是有效的数据。我还能保留“TimeId”但将 Time 复制到其他表中吗？ @SamuelO'Malley 当然，这可能是有道理的。对于仅使用时间戳的简单情况，它使查询和分区修剪更容易。它还允许在其他查询中使用其他时间维度值。不过，它确实需要大约 10GB 的存储空间来存储额外的一列。 @Jon Heller - 根据 Oracle 规范 docs.oracle.com/cd/E11882_01/server.112/e41084/… ：目标表上不能定义任何触发器或引用完整性约束。所以附加提示将被忽略。【参考方案2】：

drop table time_table;
create table Time_Table
(
    time   TIMESTAMP,
--    timeId NUMBER, Why you need ID when you have timestamp?????
    Data01 NUMBER,
    constraint time_table_pk primary key (time) -- not timeID!!!
)
partition by range (time)
(
    partition p1 values less than (date '2000-01-02'),
    partition p2 values less than (date '2000-01-03'),
    partition p3 values less than (date '2000-01-04')
);

create table table2
(
    time     timestamp not null,
    table2ID number,
    Data01   number
)
partition by range (time)
(
    partition p1 values less than (date '2000-01-02'),
    partition p2 values less than (date '2000-01-03'),
    partition p3 values less than (date '2000-01-04')
);


create table table3
(
    time     timestamp not null,
    table2Id number,
    table3Id number,
    Data01   number
) 
partition by range (time)
(
    partition p1 values less than (date '2000-01-02'),
    partition p2 values less than (date '2000-01-03'),
    partition p3 values less than (date '2000-01-04')
);

【讨论】：

在将 TimeID 保留为 PK 的情况下是否可行？实际上，我们确实得到了具有相同时间戳但不同 ID 的行。我根本不会使用从序列生成的值。它使数据无法在环境之间传输。您需要使用锁定机制来防止重复。等待时间少于 1 微秒。另一个提示如何获取始终唯一的时间戳值。返回 systimestamp 值 - 通常它在 Unix 上的精度为 6，在 Windows 上为 3。将其修剪为 3 位数。然后，您可以在插入中使用会话级别全局变量计数器或 rownum 中的值作为选择操作。获取 MOD(rownum, 1000000) 并将此值添加到 systimestamp。因此，您可以在 1 毫秒内生成 100 万个唯一值。这应该足够了。示例：l_log_rec.log_time := l_log_rec.log_time + to_dsinterval('PT0.'||to_char(g_counter, 'fm000000009')||'S') 这是一个很好的提示，但不幸的是，我正在编写的 Times（和 Ids）来自我无法修改的系统中的诊断数据。事件可以在完全相同的时间发生（不是偶然，而是实际上是双重事件）。

以上是关于当一组相关的 Oracle 表没有时间信息时，按天对它们进行分区的主要内容，如果未能解决你的问题，请参考以下文章