如何为用户提供的国名预测正确的国名?

Posted

技术标签:

【中文标题】如何为用户提供的国名预测正确的国名?【英文标题】:How to predict correct country name for user provided country name? 【发布时间】:2016-05-03 23:12:43 【问题描述】:

我正计划对我的数据进行一些数据调整。

情况-我有一个包含country 字段的数据。它包含用户输入的国家/地区名称(它可能包含拼写错误或同一国家/地区的不同国家/地区名称,例如美国/美国/美国代表美国)。我有一个正确的国家名称列表。

我想要什么- 预测它指的是哪个最近的国家。例如-如果给出U.S.,那么它将更改为USA(我们列表中的正确国家名称)。

有什么方法可以使用 Java 或 opennlp 或任何其他方法吗?

【问题讨论】:

【参考方案1】:

您可以使用 Getty API 。它会给你国家名称的缩写。只需使用此 API。

您也可以使用Levenshtein Distance 获取最接近的国家/地区名称。

试试这个。会帮助你的。

【讨论】:

Levenshtein 距离很有用!!但问题是,对于像USA 这样的国家,如果数据有United States,那么距离将远远超过应有的距离!! @AyushBanka:那个时候,你可以使用我在回答中添加的 API。这个Git code 可以帮助你。您可以添加您的。【参考方案2】:

您可以在您的文本框或选择中尝试 Google 的自动完成位置 api。 如果您将使用此 api,那么您将在键入时获得像自动完成智能一样的谷歌。 visit link

【讨论】:

我想用我得到的数据在后端进行数据调整。我不确定自动完成是否会有所帮助。如果我错了,请纠正我【参考方案3】:

如果您有经过清理的城市或州信息,那么您可以查找国家/地区。

您还可以在国家名称列表中定义别名,并将别名指向首选符号。例如,US、United States、USA 都是 U.S.A 的别名。您可以使程序附加到别名数据库,以便在使用时改进。您可能已经对数据进行了多次传递,并且还涉及到一定数量的手动工作。

【讨论】:

以上是关于如何为用户提供的国名预测正确的国名?的主要内容,如果未能解决你的问题,请参考以下文章

无法使用 ktrain 模型预测前端流光,请提供有关如何为预测功能提供输入的建议

程序员的算法趣题Q14: 国名接龙

BASHEBA上海2017.9.12展会各国名设计师评语

R:如何为预测模型制作混淆矩阵?

[词性] 七冠词二

个数是如何用大数据做行为预测的?