Python-使用Magellan进行数据匹配总结

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python-使用Magellan进行数据匹配总结相关的知识,希望对你有一定的参考价值。

  参考:http://www.biggorilla.org/zh-hans/walkt/

 

    使用Magellan进行数据匹配过程如下:

    假设有两个数据源为A和B,

              A共有四列数据:(A_Column1,A_Column2,A_Column3,A_Column4)

    B共有五列数据: (B_Column1,B_Column2,B_Column3,B_Column4,B_Column5)

    假设A_Column1和B_Column1是相关的,而A_Column2和B_Column2相关的

 

    1、首先建立合并列表

 

      分别在A和B数据中建立一个混合列mixture

      在A中 mixture = A_Column1 + A_Column2 就是把 A_Column1 和 A_Column2两列的数据合并到mixture列里面,

      同理,在B中 mixture = B_Column1+ B_Column2

      技术分享

 

    2、寻找一个候选集

      这个过程就是使用重叠系数连接两个表,我们可以使用混合列创建所需的候选集(我们称之为C)。

      技术分享

      注意:这个过程中threshold这个参数代码这要C这个集合中要创建一列_sim_score ,表示相似度分数,如何经过匹配_sim_score 的数据小于0.65,那么就是不合格的,说白了就是相识度很小,

    threshold这个设置的过多大,导致可能C的集合很小,值越大代表数据相识度越大 ,threshold最大值是1,代表匹配数据完全一样,值越小代表数据相识度越小,因此这个值要根据选择的匹配列数进行设置。

 

    3、指定要素

      就是指定在py_entitymatching程序包中哪些列对应于各个数据帧中的要素

      技术分享

    

    4、拦截工具故障排除

      确保候选集足够松动,能够容纳并不十分接近的电影配对。如果不是这样,那么可能我们已经清除了可能潜在匹配的配对

      技术分享

 

    5、从候选集采样

      目标是从候选集中获取一个样本,并手动标记抽样候选者;也就是指定候选配对是否是正确的匹配。

      技术分享

      要在导出的labeled.csv文件中增加一个label列,根据_sim_score列的数据和实际数据情况,来人为的判断是否是正确的匹配,如果是则在label列中填入数值1,否则,填入数值0

      这个label.csv数据集合实际上作为下面机器学习一个训练集,因此这个label列数据之间影响下面机器学习的效果。

 

 

 

 

      

 

以上是关于Python-使用Magellan进行数据匹配总结的主要内容,如果未能解决你的问题,请参考以下文章

防止SQLite Magellan破坏您的应用程序

防止SQLite Magellan破坏您的应用程序

Python中正则表达式的匹配规则总结

使用 C# 中的 Microsoft Point of Services 从 Magellan 9800i 扫描仪秤设备产生手动哔声

Foundation 麦哲伦(Magellan)导航

安全研究员披露 Chrome 的 Magellan 2.0 漏洞