论文分享:日本2011年构想的问题推荐系统

Posted 五百年的执着

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文分享:日本2011年构想的问题推荐系统相关的知识,希望对你有一定的参考价值。

Recommendation for English multiple-choice cloze questions based on expected test scores

http://ants.iis.sinica.edu.tw/3bkmj9ltewxtsrrvnoknfdxrm3zfwrr/64/Recommendation for English multiple-choice cloze questions based on expected test scores.pdf

写在前面

文章的作者是来自NTT(日本第一大通讯公司)以及名古屋大学的岩田智晴、小尻智子、山田武、以及渡边丰秀(姓应该是没错的,名不一定)四位太君。

不得不说日本确实跟中国一样,拥有优秀的内卷传统,他们在2011年就开始设计一个问题推荐系统了。而且他们也很明白现实:
标题里面大大的 based on expected test scores,这不就是为努力想卷过别人的莘莘学子量身定做的嘛!

这篇文章虽然模型比较 outdate 了(别忘了,那还是2011年),我感觉这篇文章比起上一篇来讲,有好几十倍的价值。这篇文章的独特性将会在下一段中进行详述。

这篇文章虽然引用数少,不过这个期刊(International Journal of Knowledge-based and Intelligent Engineering Systems)好像有很高的IF(10.3),但是不晓得为什么中科院给他分在2区和3区了。看了一下外网,CiteScore上貌似也评价很高,不是很理解。不过这也都不重要了。

所以他在干什么

这篇文章的背景是TOEIC(这是啥)考试中的完形填空题。他们做了一个假设:学生会反复的做相同类型的题目,来获取知识。这个假设是很合理的。

但是,他们指出了一个重要的区别:做大量的题目可以让学生尽量好的掌握知识点,但是如果只是想要考试考得好,那么不需要特别大量的题目。

由于他们的希望是提高学生的考试成绩,他们毫无疑问的选择了后一种方式。这样做确实可以提高学习效率,不过很可能牺牲了知识点的掌握程度。

他们也发现,现有的推荐系统大多是考虑学生的preference,而非知识掌握程度,因此这样的系统是无助于提高学生成绩的。并且,他们也假定,由于题目数量很多,因此我们不去额外说明题目之间的关系,而是根据多个学生的历史数据来推断:如果两个学生做错了同一道题,那么他们很可能是都没有掌握这道题的知识;如果有多道题目拥有相同的知识,学生做不出来其中一道题,那么学生在训练过其他题目之后,就有可能能做出来。

算法

为了衡量学生的学习情况,他们将effective question定义为“学习之前做不对,学习之后就能做对”的问题。因此,这个问题优化的目标也就是希望考试前后的提升能尽量大。

定义 z z 为要学习的问题(即,被系统推荐的问题)的指示向量, x x y y 为考试前后做对与否的指示向量(1:做对,-1:做错,0:没做)。那么,可以写出考试成绩提高程度的期望:

E(z)=iVSiP(i)P(xi=1)P(yi=1|xi=1,z)(1) E ( z ) = i V S i P ( i ) P ( x i = 1 ) P ( y i = 1 | x i = 1 , z ) ( 1 )

其中, Si S i 是第i个问题的分值(可以用来衡量重要程度), P(i) P ( i ) 是第i个问题在之后的考试中出现的概率,而后面的条件概率则代表了在学习了推荐的问题之后,原来做不对的问题现在做对了的概率。

推荐算法则比较简单:用贪心法选出能令(1)式期望最大的一个题目。

其中 z+j z + j 表示了添加了这个问题之后新的z向量。

另外,(1)式中的条件概率则通过比较简单的LR模型进行学习:

P(yni=1|xni=1,zn)=11+exp((μi+θTizn)) P ( y n i = 1 | x n i = 1 , z n ) = 1 1 + exp ( ( μ i + θ T i z n ) )

其中, θij θ i j 代表了第j个问题对第i个问题的影响(相关性),而 μi μ i 代表了做对第i题的容易程度(我可能理解错了,原文:represents the ease with which the answer to question i is improved)。这个LR模型他们证明了是一个凸优化问题,因此可以求得全局最优解。

通过与随机推荐进行对比,貌似还是有相当程度的提升的。


Abstract

Students studying for TOEIC who aim for a high test score usually train themselves by repeatedly solving problems that have the same type. To help them elevate their test score quickly, it is important to enhance learning efficiency and recommend questions that are just enough to cover the knowledge they do not understand yet. In this paper, we proposed an algorithm that works on TOEIC cloze questions, to recommend a set of questions that can maximize the increment of their expected test scores, based on other students' historical data. This algorithm works by learning the internal relationship between different questions, based on students' test score before learning and their expected score learned by LR model. This approach has been seen significant improvements over random and traditional methods. Also, this approach can be used not limited to English cloze questions, but also can be applied to other fields.

Conclusion

In order to promote learning efficiency and help students quickly enhance test scores on English cloze questions, we proposed an algorithm that maximizes the increment of students' expected test scores, based on other their historical data of answered questions and correctness. Although using a simple LR model to profile students' improvements and hidden relationship among questions, experiments have proved that there is significant improvement over random and traditional methods by applying our algorithm. Also, according to the response of students who used our recommendation system, they considered our system useful and did help them in tests. Hopefully, this approach can be applied in other fields including maths and physics, and we're looking for further research on this topic.


以上是关于论文分享:日本2011年构想的问题推荐系统的主要内容,如果未能解决你的问题,请参考以下文章

用TF2.0 复现经典推荐系统论文

深度学习推荐系统CTR预估工业界实战论文整理分享

最新最全推荐系统相关优秀研究论文整理分享

600页!分享《推荐系统学习手册》(附下载及入门经验)

吐血整理 | 史上最全推荐系统资料合集

三年四大顶会,深度推荐系统18篇论文只有7个可以复现