如何提取数字(以及比较形容词或范围)

Posted

技术标签:

【中文标题】如何提取数字(以及比较形容词或范围)【英文标题】:How to extract numbers (along with comparison adjectives or ranges) 【发布时间】:2017-12-20 22:02:50 【问题描述】:

我在 Python 中从事两个 NLP 项目,两者都有类似的任务,即从句子提取数值和比较运算符,如下所示:

"... greater than $10 ... ",
"... weight not more than 200lbs ...",
"... height in 5-7 feets ...",
"... faster than 30 seconds ... "

我找到了两种不同的方法来解决这个问题:

使用非常复杂的正则表达式。 使用Named Entity Recognition(以及一些正则表达式)。

如何从这些句子中解析出数值?我认为这是 NLP 中的常见任务。


所需的输出类似于:

输入:

“大于 10 美元”

输出:

'value': 10, 'unit': 'dollar', 'relation': 'gt', 'position': 3

【问题讨论】:

使用 CogComp-quantifier 包:github.com/CogComp/cogcomp-nlp/tree/master/pipeline 它可以提取数量,并标准化它们的单位。 Facebook 小鸭很适合这个任务github.com/facebookincubator/duckling 【参考方案1】:

我可能会将其作为分块任务来处理,并将nltk 的词性标注器与其正则表达式分块器结合使用。这将允许您根据句子中单词的词性而不是单词本身来定义正则表达式。对于给定的句子,您可以执行以下操作:

import nltk

# example sentence
sent = 'send me a table with a price greater than $100'

我要做的第一件事是稍微修改你的句子,这样你就不会过多地混淆词性标注器。以下是您可以进行的一些更改示例(使用非常简单的正则表达式),但您可以尝试看看是否还有其他更改:

$10 -> 10 dollars
200lbs -> 200 lbs
5-7 -> 5 - 7 OR 5 to 7

所以我们得到:

sent = 'send me a table with a price greater than 100 dollars'

现在你可以从你的句子中得到词性:

sent_pos = nltk.pos_tag(sent.split())
print(sent_pos)

[('send', 'VB'), ('me', 'PRP'), ('a', 'DT'), ('table', 'NN'), ('with', 'IN'), ('a', 'DT'), ('price', 'NN'), ('greater', 'JJR'), ('than', 'IN'), ('100', 'CD'), ('dollars', 'NNS')]

我们现在可以创建一个chunker,它将根据(相对)简单的正则表达式来分块您的 POS 标记文本:

grammar = 'NumericalPhrase: <NN|NNS>?<RB>?<JJR><IN><CD><NN|NNS>?'
parser = nltk.RegexpParser(grammar)

这定义了一个语法分析器,该语法将数字短语(我们称之为短语类型)分块。它将您的数字短语定义为:可选名词,后跟可选副词,后跟比较形容词,介词,数字和可选名词。 这只是关于如何定义短语的建议,但我认为这比在单词本身上使用正则表达式要简单得多。

要获取您的短语,您可以:

print(parser.parse(sent_pos))
(S
  send/VB
  me/PRP
  a/DT
  table/NN
  with/IN
  a/DT
  (NumericalPhrase price/NN greater/JJR than/IN 100/CD dollars/NNS))  

或者只得到你可以做的短语:

print([tree.leaves() for tree in parser.parse(sent_pos).subtrees() if tree.label() == 'NumericalPhrase'])

[[('price', 'NN'),
  ('greater', 'JJR'),
  ('than', 'IN'),
  ('100', 'CD'),
  ('dollars', 'NNS')]]

【讨论】:

以上是关于如何提取数字(以及比较形容词或范围)的主要内容,如果未能解决你的问题,请参考以下文章

英语语法

英语语法

中文方面比较好的依存句法分析工具都有哪些

English trip V1 - 23. Big and Bigger Teacher:Corrine Key: adjective comparisons 形容词 比较级

求助各位英语专家,关于英语的一些疑惑,啥是比较级?啥是最高级?

decimal是啥类型