语言模型训练工具srilm

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了语言模型训练工具srilm相关的知识,希望对你有一定的参考价值。

参考技术A

srilm是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。
srilm支持语言模型的估计和评测。估计是从训练数据(训练集)中得到一个模型,包括最大似然估计及相应的平滑算法;而评测则是从测试集中计算其困惑度。

其中,-vocab train.dict中 train.dict为词典文件,每行一个词,格式如下:

-text train.txt 中 train.txt为语料库文件,每行中的词用空格隔开,表示分词结果,格式如下:

-order 最大的n元模型,3表示unigram,bigram,trigram
-write train.count 统计文件写到train.count中
-unk 表示没有在词典中的词用<unk>表示
train.count中的内容如下(每行格式为:ngram 词频):

其中,-read train.count 读取上一步生成的统计文件
-lm train.lm 生成最高为trigram的语言模型train.lm
-interpolate 利用差值算法
生成的语言模型train.lm为ARPA格式的语言模型,如下:

上面的两个步骤可以直接生成,如下:

上面已经生成了语言模型train.lm,利用它来测试数据的困惑度

测试数据的格式同语料数据,每个句子内部用空格隔开表示分词。
结果如下:

参考

以上是关于语言模型训练工具srilm的主要内容,如果未能解决你的问题,请参考以下文章

[转] 如何用kaldi训练好的模型做特定任务的在线识别

win10下安装Cygwin配置gcc编译环境

SRILM语言模型格式解读

SRILM的安装方法

自然语言处理大模型大语言模型BLOOM推理工具测试

NLP经典案例Transformer 构建语言模型