gensim简介
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了gensim简介相关的知识,希望对你有一定的参考价值。
参考技术A Gensim是一个用于从文档中自动提取语义主题的Python库,足够智能,堪比无痛人流。Gensim可以处理原生,非结构化的数值化文本(纯文本)。Gensim里面的算法,比如Latent Semantic Analysis(潜在语义分析LSA),Latent Dirichlet Allocation,Random Projections,通过在语料库的训练下检验词的统计共生模式(statistical co-occurrence patterns)来发现文档的语义结构。这些算法是非监督的,也就是说你只需要一个语料库的文档集。
当得到这些统计模式后,任何文本都能够用语义表示(semantic representation)来简洁的表达,并得到一个局部的相似度与其他文本区分开来。
数字化文档的集合,被用于自动推断文档的结构和主题等。由此,corpus也称作training corpus,被推断的这些潜在结构用于给新的文档分配主题,无需人为介入,比如给文档打标签,不存在的。
在向量空间模型中,每个文档被表示成了一组特征,比如,一个单一的特征可能被视为一个问答对。
通常,大部分问题的答案都是0,为了节约空间,我们会从文档表示中省略他们,只写成(2, 2.0), (3, 5.0) (去掉 (1, 0.0)). 既然问题提前知道,那文档中所有稀疏表示的丢失特征都是0.
Gensim不会指定任何特定的Corpus格式,不管Corpus是怎样的格式,迭代时回一次产生这些Sparse Vector
我们用model将一个文档的表示转换成另一个。Gensim中文档表示成向量,所以model可以看成是两个向量空间的转换。转换的细节从training corpus中学习
python3之gensim库的安装
对于学习自然语言解析的同学,使用python过程中一定用到gensim库,但是安装过程中却很不顺利,在这里,我给大家提供一个办法简介安装gensim的方法:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gensim(这是个国内的镜像,下载很方便)
以上是关于gensim简介的主要内容,如果未能解决你的问题,请参考以下文章