A Statistical Model for Scientific Readability-paper
Posted rosyyy
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了A Statistical Model for Scientific Readability-paper相关的知识,希望对你有一定的参考价值。
monosyllable 单音节词
数据不公开: educational Web pages ,A total of 91 Web pages。Pages were grouped into three readability levels: KindergartenGrade2, Grade3-Grade5, and Grade6-Grade8
2. READABILITY METRICS
第一个是个初级中级学习者
第二个会比别的给的难度分更高
第三个用的更广
3. STATISTICAL LANGUAGE MODELS
线性模型广泛用于模型的组合,EM算法用来寻找最佳参数
线性插值公式来组合语言模型和句子长度模型:前者用ngram,后者考虑句长
1)unigram语言模型假设生成一个词的概率适合上下文无关的。虽然unigram模型在人类语言上效果不好,但是它们适合很多应用,有可以在小数据上训练的优点。
2)通过看某个特征的值是否和难度成正比或反比,来判断特征重要与否,最后得出句长特征很重要,公式法中单音节不适合该数据集;然后假设符合正态分布
4 实验
KF这种公式法只能得出最终属于哪个等级,但是我们的数据集并不含有这些等级。我们统计的方法可以给出概率这种soft metric。
以上是关于A Statistical Model for Scientific Readability-paper的主要内容,如果未能解决你的问题,请参考以下文章
The R Project for Statistical Computing
QBUS2810 Statistical Modelling for Business
Ten Simple Rules for Effective Statistical Practice
Ten Simple Rules for Effective Statistical Practice