文本分类之fastText

Posted bluebluesea

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本分类之fastText相关的知识,希望对你有一定的参考价值。

1.理论  

https://zhuanlan.zhihu.com/p/25928551

关键是你要总结住啊。任何技术都有它关键的点,创新点吧或者有效点,这点你要知道你要掌握。

 2.论文《Bag of Tricks for Efficient Text Classification》

概览:模型直接学习句子的表示,我们表明,通过合并其他统计信息(例如使用n-gram袋),我们可以减小线性模型与深度模型之间的准确性差距,而数量级的速度更快。

技术图片

 

将句子中的词向量取均值,然后softmax得到句子的label进行文本分类,这样虽然没有考虑词序,说明句子和句意之间也许没有那么复杂的非线性关系。

上图中所示的是d维的一层隐层结构,那hidden里到底是什么结构呢???论文中有提到它has 10 hidden units,也就是10个神经元的意思吧,hidden也取了50和200。

3.fasttext官方教程学习 

 https://fasttext.cc/docs/en/supervised-tutorial.html,我觉得还是能从这里学到很多内容的! 

 但是这个它的底层使用C写的,所以就很快,然后很难看懂啊!

总体的意思是说不必要进行那么多的非线性转换。

4.层次softmax

 

以上是关于文本分类之fastText的主要内容,如果未能解决你的问题,请参考以下文章

FastText:自然语言处理的利器——一个快速文本表示和分类库

掌握fasttext工具进行文本分类训练词向量的过程

掌握fasttext工具进行文本分类训练词向量的过程

Datawhale-新闻文本分类-task4-基于深度学习的文本分类1-fastText

FastText 使用预训练的词向量进行文本分类

文本分类-FastText