如何匹配不相等的数据集和不明确的常用术语?

Posted

技术标签:

【中文标题】如何匹配不相等的数据集和不明确的常用术语?【英文标题】:How to match unequal data sets with unclear common terms? 【发布时间】:2013-12-08 23:36:22 【问题描述】:

我有两组数据,列表 A 和列表 B。

列表 A 被定义为主列表。此列表中的所有内容都必须在决赛中得到考虑。假设它有 500 行数据,如 DBA、地址、城市、国家等。列表 B 有 6,000 行类似信息。

第一个问题是列表 B 中可能有多个匹配项连接回列表 A。它们都需要在最终匹配输出中捕获,并包含 DBA、地址、ID # 等信息,因此可能按行格式化.

第二个问题是它们可能没有一个明确的通用术语。地址可以用多种不同的方式拼写,而且通常是外语。 DBA、城市等也是如此。

第三个问题是,也不能保证列表 B 上的所有项目都匹配列表 A。

关于如何解决这个问题的想法?我已经手动做了一段时间了。我将参与列表 A 中的 DBA 或地址,然后在列表 B 中执行 Ctrl+F。如果有多个匹配项,我将在列表 A 中添加一行并将列表 B 中的所有匹配项放在那里.正如你所想象的那样,这很痛苦,我希望有一种更有效的方法来做到这一点。提前感谢您的帮助!

【问题讨论】:

【参考方案1】:

第一步是为每个列表创建一个公共键。

您可以使用诸如“查找”之类的公式来搜索地址的子字符串并基于此创建指标列。将一些指标放在一起,以创建一个唯一的键,可能带有人名或类似的东西。

一旦您在每个列表中都有一个唯一键,您就可以使用 excel vlookup 函数来匹配列表。

【讨论】:

以上是关于如何匹配不相等的数据集和不明确的常用术语?的主要内容,如果未能解决你的问题,请参考以下文章

数据集和数据库有啥区别?

为啥合并不相等匹配的行不适用于本地数据集?

处理大型数据集和内存限制 [关闭]

R:如何将数据框拆分为训练集、验证集和测试集?

SSIS - 比较文本文件和非oledb连接以提供匹配和不匹配的输出

如何将数据集拆分为训练集和验证集类之间的保持比率?