UIMA ruta 中的模糊性

Posted

技术标签:

【中文标题】UIMA ruta 中的模糊性【英文标题】:Fuziness In UIMA ruta 【发布时间】:2018-01-24 07:11:30 【问题描述】:

在单词匹配的情况下是否有任何模糊选项,或者忽略一些特殊情况。

例如:

STRINGLIST AMIMALLIST = "LION","TIGER","MONKEY";
DECLARE ANIMAL;


Document -> MARKFAST(ANIMAL, AMIMALLIST, true);

我需要将单词与列表匹配,以防遇到一些特殊字符,例如

Tiger-MONKEY$

根据documentation有不同的评估员知道如何使用吗? 或者我可以使用 SCOREMARKSCORE

【问题讨论】:

@PeterKluegl 你能帮忙吗? 是的,我会在接下来的几天里添加答案。 【参考方案1】:

这里有几个方面需要考虑。一般来说,UIMA Ruta 不支持字典查找中的模糊性。 SCOREMARKSCORE 是语言元素,可用于在顺序规则中引入一些启发式评分(不是真正的模糊性)。在您在问题中提供的示例中,您实际上并不需要模糊匹配。

UIMA Ruta 中的字典查找适用于 RutaBasic 注释。这些注释由 UIMA Ruta 自己自动创建和维护(不应直接由其他分析引擎或规则更改)。 RutaBasic 注释代表注释所指的最小片段。默认情况下,RutaEngine 的播种器为单词(W -> CWSWCAP)和许多其他标记(如 SPECIAL)创建注释 - 或 $。这意味着还有一个 RutaBasic 注释,并且字典查找可以区分这些标记。因此,Tiger 和 Monkey 应该被注释,并且您问题中的示例应该实际工作(我测试过)。您可能需要一些后期处理才能将SPECIAL 包含在ANIMAL 中。

我不得不提一下,在字典查找(Multi Tree Word List,TRIE)中还有一个使用编辑距离的功能。然而,这个功能已经好几年没有维护了。它还应该支持特定替换的不同权重。我不知道这算不算模糊。

免责声明:我是 UIMA Ruta 的开发人员

【讨论】:

以上是关于UIMA ruta 中的模糊性的主要内容,如果未能解决你的问题,请参考以下文章

markdown Obetener la ruta(path)relativa

xml web config para rutas de react

&“Hoja de ruta ”para acciones bÃ。

java 如何使用某些注释来过滤某些其他注释的列表。 (UIMA和DKPro。)

Apache UIMA Java SDK 2.9.0 版本发布

java 简要说明如何使用Apache UIMA CAS对象的默认JSON序列化。