如何转换WebAnno名称实体注释以在OpenNLP中使用?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何转换WebAnno名称实体注释以在OpenNLP中使用?相关的知识,希望对你有一定的参考价值。
基于此问题,我需要以XMI格式导出并使用DKPro Core转换为Brat格式:
https://github.com/webanno/webanno/issues/328
我试过这段代码,但没有成功
public void convert() throws Exception {
SimplePipeline.runPipeline(CollectionReaderFactory
.createReaderDescription(XmiReader.class, XmiReader.PARAM_SOURCE_LOCATION, "/tmp", XmiReader.PARAM_PATTERNS,
XmiReader.INCLUDE_PREFIX + "*.xmi"), AnalysisEngineFactory
.createEngineDescription(BratWriter.class, BratWriter.PARAM_TARGET_LOCATION, "/tmp"));
}
答案
brat格式的方言可能在DKPro Core BratWriter产生的内容与OpenNLP所期望的内容之间有所不同 - brat文件格式非常灵活。
如果您在WebAnno中使用内置的命名实体层,那么我会提出一个替代路线:
- 继续使用XMI导出
- 使用DKPro Core 1.9.0-SNAPSHOT加载XMI并将其提供给
OpenNlpNamedEntityRecognizerTrainer
组件
这应该避免需要额外的转换步骤。
披露:我是WebAnno和DKPro Core开发人员。
建议不起作用:
- 在WebAnno中导出为
CoNLL 2002
- OpenNLP supports training the NER tool directly from CoNLL 2002 files。
- =>
Conll02NameSampleStream
仅支持某些语言和命名实体类型......叹息
以上是关于如何转换WebAnno名称实体注释以在OpenNLP中使用?的主要内容,如果未能解决你的问题,请参考以下文章
如何注释我的方法以在 Android 中返回 Visibility 类型 int? [复制]
如何添加链接以在 SonataAdminBundle 中的关系字段上显示关系实体的操作