文本分类之fastText
Posted bluebluesea
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本分类之fastText相关的知识,希望对你有一定的参考价值。
1.理论
https://zhuanlan.zhihu.com/p/25928551
关键是你要总结住啊。任何技术都有它关键的点,创新点吧或者有效点,这点你要知道你要掌握。
2.论文《Bag of Tricks for Efficient Text Classification》
概览:模型直接学习句子的表示,我们表明,通过合并其他统计信息(例如使用n-gram袋),我们可以减小线性模型与深度模型之间的准确性差距,而数量级的速度更快。
将句子中的词向量取均值,然后softmax得到句子的label进行文本分类,这样虽然没有考虑词序,说明句子和句意之间也许没有那么复杂的非线性关系。
上图中所示的是d维的一层隐层结构,那hidden里到底是什么结构呢???论文中有提到它has 10 hidden units,也就是10个神经元的意思吧,hidden也取了50和200。
3.fasttext官方教程学习
https://fasttext.cc/docs/en/supervised-tutorial.html,我觉得还是能从这里学到很多内容的!
但是这个它的底层使用C写的,所以就很快,然后很难看懂啊!
总体的意思是说不必要进行那么多的非线性转换。
4.层次softmax
以上是关于文本分类之fastText的主要内容,如果未能解决你的问题,请参考以下文章
FastText:自然语言处理的利器——一个快速文本表示和分类库