使用自然语言处理从推文中提取地址

Question

我正在构建一个Twitter机器人，它将收听如下推文：

Hey @twitterbot, I'm looking for restaurants around 123 Main Street, New York

或者，另一个例子：

@twitterbot, what's near Yonge & Dundas, Toronto? I'm hungry!

然后，它将回复您希望这些问题返回的数据类型。我已经解决了大部分问题，但我仍然坚持不应该那么难的事情;从推文中提取地址。

我将转发地址到地理编码服务以获取lat / lng，因此我不需要以任何方式格式化或准备地址;我只需要将它与不相关的文字隔离开来，比如“我正在寻找周围的餐馆”或“我很饿！”。

是否有任何NLP工具可以在一个文本块中执行此地址识别？有关于另一种方式的建议吗？因为谷歌的地理编码器处理如此广泛的地址格式（甚至像'伊顿中心，多伦多'作为一个地址），我不能使用正则表达式来解决这个问题。

换句话说，我只想删除任何不属于地址的文本。

我正在寻找的地址需要在美国/加拿大工作。

StackOverflow上有一些类似的问题，但没有一个能解决我能找到的这个问题。因为谷歌的地理编码器是如此宽容，解决方案不一定是完美的，它只需要摆脱足够的模糊，以便谷歌知道我想说什么。

我对NLP很新，所以我很欣赏有关这个主题的任何指导。

Answer 1

另一答案