如何为用户提供的国名预测正确的国名?
Posted
技术标签:
【中文标题】如何为用户提供的国名预测正确的国名?【英文标题】:How to predict correct country name for user provided country name? 【发布时间】:2016-05-03 23:12:43 【问题描述】:我正计划对我的数据进行一些数据调整。
情况-我有一个包含country
字段的数据。它包含用户输入的国家/地区名称(它可能包含拼写错误或同一国家/地区的不同国家/地区名称,例如美国/美国/美国代表美国)。我有一个正确的国家名称列表。
我想要什么- 预测它指的是哪个最近的国家。例如-如果给出U.S.
,那么它将更改为USA
(我们列表中的正确国家名称)。
有什么方法可以使用 Java 或 opennlp 或任何其他方法吗?
【问题讨论】:
【参考方案1】:您可以使用 Getty API 。它会给你国家名称的缩写。只需使用此 API。
或
您也可以使用Levenshtein Distance 获取最接近的国家/地区名称。
试试这个。会帮助你的。
【讨论】:
Levenshtein 距离很有用!!但问题是,对于像USA
这样的国家,如果数据有United States
,那么距离将远远超过应有的距离!!
@AyushBanka:那个时候,你可以使用我在回答中添加的 API。这个Git code 可以帮助你。您可以添加您的。【参考方案2】:
您可以在您的文本框或选择中尝试 Google 的自动完成位置 api。 如果您将使用此 api,那么您将在键入时获得像自动完成智能一样的谷歌。 visit link
【讨论】:
我想用我得到的数据在后端进行数据调整。我不确定自动完成是否会有所帮助。如果我错了,请纠正我【参考方案3】:如果您有经过清理的城市或州信息,那么您可以查找国家/地区。
您还可以在国家名称列表中定义别名,并将别名指向首选符号。例如,US、United States、USA 都是 U.S.A 的别名。您可以使程序附加到别名数据库,以便在使用时改进。您可能已经对数据进行了多次传递,并且还涉及到一定数量的手动工作。
【讨论】:
以上是关于如何为用户提供的国名预测正确的国名?的主要内容,如果未能解决你的问题,请参考以下文章