分段多语言并行文本
Posted
技术标签:
【中文标题】分段多语言并行文本【英文标题】:Segment multilanguage parallel text 【发布时间】:2014-05-25 06:46:13 【问题描述】:我有多语言文本,其中包含翻译成多种语言的消息。 例如:
English message
Russian message
Ukrainian message
顺序不准确。 我想设计一种有监督/无监督的学习算法来自动进行分割,并提取每个翻译以创建一个并行的数据语料库。
您能推荐任何论文/方法吗? 我无法获得用于谷歌搜索的正确关键字。
【问题讨论】:
您能否详细说明您的目标和/或举个例子?我不确定我是否了解您要查找的内容。 给定一个包含 3 种语言消息的文件,我会得到 3 个包含相应语言消息的文件(称为 en、ru、ua)。在我看来,聚类算法可能会起作用。 【参考方案1】:解决问题的最基本方法是从文档中生成bag of words。总而言之,一个词袋是一个矩阵,其中每一行是文档中的一行,每一列是一个不同的词。
例如,如果您的文档是这样的:
hello world
привет мир
привіт світ
你会得到这个矩阵:
hello | world | привет | мир | привіт | світ
l1 | 1 | 1 | 0 | 0 | 0 | 0
l2 | 0 | 0 | 1 | 1 | 0 | 0
l3 | 0 | 0 | 0 | 0 | 1 | 1
然后您可以根据需要应用分类算法(例如 k-means 或 svm)。
有关更多详细信息,我建议阅读this paper,它提供了一个很好的技术总结。
关于谷歌搜索的关键字,我会说text analysis
、text mining
或information retrieval
是一个好的开始。
【讨论】:
【参考方案2】:您为什么不尝试一些语言识别软件?他们报告的准确率 > 90%:
langid.py https://github.com/saffsd/langid.py TextCat http://odur.let.rug.nl/~vannoord/TextCat/ 扁面条http://www.jmis-web.org/articles/v16_n3_p71/index.html【讨论】:
以上是关于分段多语言并行文本的主要内容,如果未能解决你的问题,请参考以下文章
QML程序实现动态切换多语言(ListModel/ListElement中的文本的多语言处理)