在关系数据库中存储“元数据”的正确方法是啥?

Posted

技术标签:

【中文标题】在关系数据库中存储“元数据”的正确方法是啥?【英文标题】:What is the proper way to store 'metadata' in relational database?在关系数据库中存储“元数据”的正确方法是什么? 【发布时间】:2013-02-01 20:38:44 【问题描述】:

我有一个名为assets 的表,其中资产可以属于一个用户、团队或部门,并且可能属于每个用户、团队或部门的多个。我的问题是资产是高度可变的,并且可能具有与它们相关联的属性,每个属性都不同。

例如。这些可能是资产:

1.)
type:workbench
cost:200
vendor:Acme Co.
color:black
2.)
type:microscope
serial_no:BH-00102
purchase_date:1337800923
cost:2040

这可能会持续到成百上千种不同类型的资产。

如何以易于查询的标准化方式存储此类数据,而无需在每次添加新资产类型时更改我的表?一些字段也存在于所有资产中,例如成本。

到目前为止,我认为我应该拥有:

assets
id,cost,purchase_date,asset_type_id

asset_types
id,name

division_assets
division_id,asset_id

user_assets
user_id,asset_id

但我不知道将变化的数据放在哪里

【问题讨论】:

一个属性可以与资产数量相关吗? 某些属性适用于所有资产,但所有其他属性不适用于个别资产类型。 你要搜索那些变量属性吗?另外,请阅读EAV 如果你使用 Postgres,你可以使用 hstore 模块,它非常有效。 @TiagoMartinsPeres:在 2022 年,使用 jsonb 可能会更好 【参考方案1】:

我建议这样做:

assets (

   id
   asset_type_id
   vendor_id
   cost
   purchase_date

)

asset_poperties (

    id
    asset_id
    asset_property_type_id
    value

)

asset_property_types (

     id
     property_type

)

asset_types (

   id
   asset_type

)

vendors (

   id
   vendor

)

【讨论】:

这不允许可变字段 因此,发生变化的属性进入 assets 表,而常见的属性存储在单独的表中(asset_types、vendors 等),并通过外键链接到 assets 表。跨度> 但是用户可以添加附加不同数据的资产类型,但我不希望用户能够改变数据库的结构。 您可以创建一个像asset_properties 这样的附加表,其中包含字段id、asset_property_type、value,然后将其链接到资产表。 我想过,但它会产生非常尴尬的查询。【参考方案2】:

您可以为asset_metadata添加另一个表

asset_metadata
asset_metadata_id,asset_id,metadata_name,metadata_value

如果你想对元数据进行规范化和分类,可以这样规范化:

asset_metadata
asset_metadata_id,asset_id,metadata_name_id,metadata_value

metadata_name
metadata_name_id,metadata_name_text

【讨论】:

【参考方案3】:

我建议将成本等常见属性放在常规列中。然后再添加一列,在其中放置所有其他可变资产属性的序列化集合。

CREATE TABLE assets (
  asset_id INT AUTO_INCREMENT PRIMARY KEY,
  cost NUMERIC(9,2),
  purchase_date DATE,
  variables TEXT
);

您可以将集合序列化为 JSON 或 XML 或任何您想要的。使用您的应用程序代码最容易处理的任何内容。

INSERT INTO assets VALUES (123, 49.95, CURDATE(), 'color: black; vendor: Acme Co.');

优点是您可以随时向文本 blob 添加新属性。缺点是不能读取或写入单个属性,必须将整个集合视为一个块。

但您可以索引单个属性以使其可搜索。您需要为每个要搜索的属性创建一个新表(但这可能是所有属性的一小部分):

CREATE TABLE asset_color (
  asset_id INT NOT NULL,
  color VARCHAR(10),
  PRIMARY KEY (asset_id, color),
  KEY(color)
);

并非所有资产都记录在此表中,只有那些具有颜色的资产。

然后您可以对所有具有颜色属性的资产进行索引搜索:

SELECT assets.*
FROM assets INNER JOIN asset_color USING (asset_id);

您还可以对具有颜色属性且颜色为黑色的资产进行索引搜索:

SELECT assets.*
FROM assets INNER JOIN asset_color USING (asset_id)
WHERE color = 'black';

真的没有办法设计一个允许变量属性的规范化数据库。所有范式首先要求表是一个关系。并且根据定义,关系必须具有一组固定的属性。

其他人推荐 EAV 表,但 EAV 中的“值”列不符合具有类型的关系列的定义(其他后果是约束在 EAV 表中不起作用) .因此EAV表不是关系,也不能满足任何范式。

【讨论】:

将序列化的属性放入单个列也不是规范化的:它违反了第一范式(原子值)。无论如何,用规范化形式的关系数据库解决这个问题是不可能的。【参考方案4】:

当我过去遇到这种情况时,“最佳”答案总是会根据我想要在数据库中执行多少处理,以及在客户端代码中执行多少而有所不同。

对于它的价值,过去对我来说最有效的方法通常是每个可选属性都有一个表(特别是每个实体类型不是一个表)。所以,在你上面的例子中

assets (as per your example)
asset_types (as per you example)
division_assets (as per your example)
user_assets (as per your example)
colours
  asset_id, colour
weights
  asset_id, weight
serial_numbers
  asset_id, serial_number

当然,根据您需要做出的权衡,这对您来说可能是一个糟糕的选择。就我个人而言,我喜欢尽可能明确地保持数据架构,包括数据类型和约束,因此下次出现新属性时,我无需更改表。

【讨论】:

【参考方案5】:

您可以创建两个新表:

1) 在下表中定义多个资产属性(尽可能多的资产)

asset_id

资产属性

资产价值

2) 资产属性表

attribute_id

资产属性

逻辑是asset_attributes 需要首先在asset_attribute 表中定义,然后它可以与任何资产一起使用(链接/标记)(作为外键,来自UI 上的下拉列表)和适当的输入的值。

希望这会有所帮助。

【讨论】:

以上是关于在关系数据库中存储“元数据”的正确方法是啥?的主要内容,如果未能解决你的问题,请参考以下文章

请问hadoop的hdfs文件系统和本地windows文件系统或linux文件系统是啥关系啊,谢谢

在 NHibernate 中定义多对多关系以允许删除但避免重复记录的正确方法是啥

在 Prisma 中命名关系的正确方法是啥?是不是有我应该遵循的指导方针或约定?

数据仓库工具Hive——元数据管理与存储

在关系数据库中存储(和访问)历史 1:M 关系的最佳方式是啥?

如何在 DTO 中定义 ObjectId 以及在 NestJS Mongoose 中获取关系数据的正确查询是啥?