LDA 实战技巧
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了LDA 实战技巧相关的知识,希望对你有一定的参考价值。
参考技术A 1. 如果缓解单机速度和内存问题,利用优质“少量”数据学习模型。减少corpus数量,减少词数量。预处理主要包括:1)过滤长度太短的doc ; 2)剔除相似的doc;3)去除一些TF/DF较低 的词;4)按照词性等去停用词,去除标点、数字、过长的词 等;5)合并doc,缓解短文本问题。(非本项目)。对于数据中特殊停用词的处理方法,通常的做法是运行一遍LDA,观察各个话题,挑出各个话题中的停用词,把他们滤除,再运行一遍LDA。
2. 以Perplexity为观察标准,topic个数K,由小变大,观察大概多少合适。 一个经验设置是K × 词典的大小 约等于 语料库中词的总数(没尝试)。
3. 以Perplexity为观察标准,观察每迭代N次后,指标的变化。 确保迭代次数足够多。前期的迭代返回一些无用的(极其相似的)话题,但是继续迭代多次后结果明显改善。我们注意到这对EM算法尤其有效。
4. alpha是一个对称的Dirichlet分布的参数,值越大意味着越平滑(更正规化)。alpha越大,先验起的作用就越大,推导的topic分布就越倾向于在每个topic上的概率都差不多。
5. SparkLda : To get a DistributedLDAModel instead of a LocalLDAModel, you need to use the Expectation-Maximization (EM) optimizer instead of the default Online Variational Bayes (online) one.
6. SparkLda : 特征变换类的Pipeline API 对于LDA的文字预处理工作极其有用;重点查看Tokenizer,StopwordsRemover和CountVectorizer接口。
7. Topic Model的训练也是数据拟合,找出latent topic最大训练语料库的似然概率,当不同类的数据不平衡时,数量量少的主题可能会被数据量多的主题主导,导致数据量少的被忽略。LDA本来就倾向于拟合高频的topic。LDA很多奇怪的结果大多都是因为词的共现导致的,一种衡量词共现的指标是PMI。
8. 数据量大后,LDA和PLSA的效果差不多,但是PLSA更容易并行化。LDA和PLSA的最大区别在于LDA对于Doc的Topic分布加上了一层先验,Doc-topic分布是当作模型变量,而LDA则只有一个超参数,Doc-Topic分布则是隐藏变量。在预测的时候,plsa是求一个似然概率,lda则是有两项,先验乘以似然。
9. LDA在文本领域中,把word抽象成topic。类似,LDA也可以用在其它任务中,我们在信用评估中,直接把每个用户当成一个文档,文档中的词是每个关注的人,得到的topic相当于是一个用户group,相当于对用户进行聚类。还有,把微博中的@/rt的人当作word。http://www.machinedlearnings.com/2011/03/lda-on-social-graph.html
003-LDA
主题模型
主题模型理理论
直观版
标准版
公式版
实战
一眼看穿『希拉?里里邮件门』
什么是主体模型?
理论解释
理理解整个过程,涉及到?比较复杂数学推导。
一般来说,从公式1?一直推导到公式100,
大部分同学会在公式10左右的时候,就关了了直播,洗洗睡了了
所以,我今天?用3个不不同版本的讲解,从简单到复杂,
来让?大家?一步步理理解主体模型。
据我推测,?大部分?人是可以撑过前两个版本的。
这样,就算第三个版本太过枯燥,你也可以安?心的洗洗睡,?无妨。
么么
直观版
假设某企业想要招聘?一个?工程师,
他们收到了了?一把的简历,
他们想直接通过简历来看谁是?大?牛,谁是彩笔
简历里里通常会包含这些个人特征:
这三个要素,构成了了这家企业的?人?力力总监判断的基础:
这位人力总监要做的事是:
拿出一份简历
记录下每份简历包含的特征
然而,他并不不知道,这一切代表着什什么
于是他开始猜
拿起一份简历A,
他看到里面说A参加过七?月课程
他就猜这位童鞋的?水平应该很高,八成应该是个好工程师
但是他又看到A的学历只是小学毕业,心里又有了了两成的担忧
他又看到B
又看到C
等等。。。
当然,这个猜,只是猜,没有任何证据可以证实。
但是这位人力总监是久经职场的老司机,他通过经验统计来调整自己的猜想:
- 选一份『张三』的简历,选一个特征『条纹衬衫』
- 为什什么『张三』有可能喜欢穿『条纹衬衫』?也许是因为穿条纹衬衫是优秀
程序员的信仰
- 也就是说,越多的优秀程序员穿『条纹衬衫』,越让人力总监猜想『张三』
的其他个特征也符合优秀程序员的喜好,并且『张三』本人穿『条纹衬衫』
是一个优秀的程序员自我修养的体现
- 继续猜,继续拿『张三』和『条纹衬衫』两个元素。人力总监转念一想,也
有可能爱穿条纹的都是彩笔。
- 于是他按照上面的逻辑,再看看『张三』穿『条纹衬衫』是『彩笔』的可能
性有多少
- 把所有的简历和所有的特征都做个组合,都来猜一下是彩笔还是大牛
久经沙场之后,老司机人力总监掌握了了如下信息:
对于是不是优秀程序员的分类,它通过人头统计大概有了了数
这让他在以后看到新简历的时候,一眼就知道他是不是个优秀程序员
对于每个特征C,他也能说出大概百分之多少的人拥有特征C可以说明他们是优秀的程序员。
总结成公式就是:
以上,就是我们用现实的例子模拟的LDA模型来区分简历好坏在文本的主题分类中,我们的例子和实际之间的联系如下:
什么是LDA?
Latent Dirichlet Allocation:
是一种无监督的贝叶斯模型
是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。
是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。
— wikipedia
什么是贝叶斯模型?
理论
模型
- 用概率作为『可信度』
- 每次看到新数据,就更更新『可信度』
- 需要一个模型来解释数据的生成
先验,后验与似然
标准版
我们用LDA找寻的就是之前例子里总监大人统计出来的经验:
一份简历的每个特征都是因为本人有一定概率是好/坏程序员,并从好/坏这个分类中以一定概率选择某些特征而组成的
一篇文章的每个词都是以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语而组成的
P(单词 | 文档) = P(单词 | 主题) * P(主题 | 文档)
LDA生成过程
对于语料料库中的每篇文档,LDA定义了如下生成过程(generative process):
1.对每一篇文档,从主题分布中抽取一个主题;
2.从上述被抽到的主题所对应的单词分布中抽取一个单词;
3.重复上述过程直至遍历文档中的每一个单词。
稍微具体点儿讲:
(w代表单词;d代表?文档;t代表主题;?大写代表总集合,?小写代表个体。)
标准版
D中每个文档d看作?一个单词序列列<w1,w2,...,wn>,wi表示第i个单词。
D中涉及的所有不同单词组成一个词汇表大集合V (vocabulary),LDA以文档集合D
作为输入,希望训练出的两个结果向量量(假设形成k个topic,V中?一共m个词):
对每个D中的文档d,对应到不不同Topic的概率θd<pt1,...,ptk>,其中,pti表示d对应T中第i个topic的概率。计算方法是直观的,pti=nti/n,其中nti表示d中对应第i个topic的词的数目,n是d中所有词的总数。
对每个T中的topict,生成不不同单词的概率φt<pw1,...,pwm>,其中,pwi表示t生成V中第i个单词的概率。计算方法同样很直观,pwi=Nwi/N,其中Nwi表示对应到topict的V中第i个单词的数目,N表示所有对应到topict的单词总数。
用人话说:
pti=某个词在某个主题中的数目/某个词在某个文档中的数目
pwi=某个词在某个主题中的数量/某个词在所有文档中的数量
所以,LDA的核心公式如下:
P(w|d)=P(w|t)*P(t|d)
直观的看这个公式,就是以Topic作为中间层,可以通过当前的θd和φt给出了文档d中出现单词w的概率。其中p(t|d)利用θd计算得到,p(w|t)利用φt计算得到。
实际上,利用当前的θd和φt,我们可以为一个文档中的一个单词计算它对应任意一个Topic时的p(w|d),然后根据这些结果来更新这个词应该对应的topic。然后,如果这个更新改变了了这个单词所对应的Topic,就会反过来影响θd和φt
LDA学习过程
LDA算法开始时,先随机地给θd和φt赋值(对所有的d和t)。然后:
1.针对一个特定的文档ds中的第i单词wi,如果令该单词对应的topic为tj,可以把上述公式改写为:Pj(wi | ds)=P(wi | tj)*P(tj | ds) = φt*θd
2.现在我们可以举T中的topic,得到所有的pj(wi | ds)。然后可以根据这些概率值结果为ds中的第i个单词wi选择一个topic。最简单的想法是取令pj(wi | ds)最大的tj(注意,这个式子里只有j是变量量)
3.然后,如果ds中的第i个单词wi在这里选择了一个与原先不同的topic(也就是说,这个时候i在遍历ds中所有的单词,而tj理当不变),就会对θd和φt有影响了了。它们的影响又会反过来影响对上面提到的p(w | d)的计算。对D中所有的d中的所有w进行一次p(w | d)的计算并重新选择topic看作一次迭代。这样进行n次循环迭代之后,就会收敛到LDA所需要的结果了。
用人话说:
P(单词|文档)=P(单词|主题)*P(主题|文档)
最终要求的是:P(主题|文档)
已知的是:P(单词|文档)
1,一个文档中,某个词对应一个主题。
2,选择所有主题中的每一个主题进行计算,得到所有的P(单词|文档),然后根据这个概率,为这个词选择一个主题。
3,第二步为这个词选择的主题,不是原先的主题,那么就更新P(单词|主题),P(主题|文档),更新他两的同时也会根据公式得到新的P(单词|文档),知道更新的P(单词|文档)与已知的P(单词|文档)相同,那么P(单词|主题)和P(主题|文档)就可以确定下来
要求的不就是P(主题|文档)么。
搞不懂这些培训机构为什么不说人话!!!
公式版:
现在,我们对LDA的玩法基本了了解了了,
我们终于可以安静的刷刷公式了了(注:尿点时刻):
这一部分的解释,可以参照七月在线创始人July的CSDN博客:
http://blog.csdn.net/v_july_v/article/details/41209515
正经的理理解LDA,分为下述5个步骤:
一个函数:gamma函数
四个分布:二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理理念:共轭先验和贝叶斯框架
两个模型:pLSA、LDA
一个采样:Gibbs采样
共轭分布与共轭先验:
Gamma函数
阶乘函数在实数上的推广。
我们知道,对于整数?而言:
对于实数:
二项分布(Binomial distribution)
二项分布是从伯努利利分布推进的。伯努利利分布,又称两点分布或0-1分布,是一个离散型的随机分布,其中的随机变量量只有两类取值,非正即负{+,-}。而二项分布即重复n次的伯努利利试验,记为 。简言之,只做一次实验,是伯努利利分布,重复做了了n次,是二项分布。二项分布的概率密度
函数为:
多项分布,是二项分布扩展到多维的情况
多项分布是指单次试验中的随机变量量的取值不不再是0-1的,而是有多种离散值可能(1,2,3...,k)。比如投掷6个?面的骰子实验,N次实验结果服从K=6的多项分布。当然啦,他们加起来的P应该是等于1的。
多项分布的概率密度函数为:
Beta分布,二项分布的共轭先验分布
给定参数a>0和b>0,取值范围为[0,1]的随机变量量 x 的概率密度函数:
其中:
Dirichlet分布,是beta分布在高维度上的推?广
其中
贝叶斯派的思考方式:
几个主题模型(循序渐进):
Unigram model
Mixture of unigrams model
该模型的生成过程是:给某个文档先选择一个主题z,再根据该主题生成文档,该文档中的所有词都来自一个主题。假设主题有z1,z2,z3,...zk,生成文档的概率为:
PLSA模型
刚刚的mix unigram模型里里面,一篇文章只给了了一个主题。但是现实生活中,一篇文章可能有多个主题,只不不过是『出现的?几率』不一样。
我们定义:
我们的文本生成模型就是:
(还记得什什么是文本生成模型嘛?返回标准版part回顾一下)
我们通过观测,得到了『知道主题是什么,我就用什么单词』的文本生成模型,那么,根据贝叶斯定律律,我们就可以反过来推出『看见用了了什么单词,我就知道主题是什么』
LDA模型
LDA就是在pLSA的基础上加层?贝叶斯框架,即LDA就是pLSA的?贝叶斯版本
PLSA与LDA对比
PLSA
LDA
pLSA跟LDA的本质区别就在于它们去估计未知参数所采用的思想不不同,前者?用的是频率派思想,后者用的是贝叶斯派思想。
LDA模型应用:一眼看穿希拉里的邮件
我们拿到希拉里泄露的邮件,跑一把LDA,看看她平时都在聊什么。
首先,导入我们需要的一些库
import numpy as np import pandas as pd import re
然后,把希婆的邮件读取进来。
这里我们用pandas。不熟悉pandas的朋友,可以用python标准库csv
df = pd.read_csv("../input/HillaryEmails.csv") # 原邮件数据中有很多Nan的值,直接扔了。 df = df[[‘Id‘,‘ExtractedBodyText‘]].dropna()
文本预处理:
上过我其他NLP课程的同学都知道,文本预处理这个东西,对NLP是很重要的。
我们这里,针对邮件内容,写一组正则表达式:
(不熟悉正则表达式的同学,直接百度关键词,可以看到一大张Regex规则表)
def clean_email_text(text): text = text.replace(‘ ‘," ") #新行,我们是不需要的 text = re.sub(r"-", " ", text) #把 "-" 的两个单词,分开。(比如:july-edu ==> july edu) text = re.sub(r"d+/d+/d+", "", text) #日期,对主体模型没什么意义 text = re.sub(r"[0-2]?[0-9]:[0-6][0-9]", "", text) #时间,没意义 text = re.sub(r"[w][email protected][.w]+", "", text) #邮件地址,没意义 text = re.sub(r"/[a-zA-Z]*[://]*[A-Za-z0-9-_]+.+[A-Za-z0-9./%&=?-_]+/i", "", text) #网址,没意义 pure_text = ‘‘ # 以防还有其他特殊字符(数字)等等,我们直接把他们loop一遍,过滤掉 for letter in text: # 只留下字母和空格 if letter.isalpha() or letter==‘ ‘: pure_text += letter # 再把那些去除特殊字符后落单的单词,直接排除。 # 我们就只剩下有意义的单词了。 text = ‘ ‘.join(word for word in pure_text.split() if len(word)>1) return text
好的,现在我们新建一个colum,并把我们的方法跑一遍:
docs = df[‘ExtractedBodyText‘] docs = docs.apply(lambda s: clean_email_text(s))
好,来看看长相:
docs.head(1).values
array([ ‘Thursday March PM Latest How Syria is aiding Qaddafi and more Sid hrc memo syria aiding libya docx hrc memo syria aiding libya docx March For Hillary‘], dtype=object)
我们直接把所有的邮件内容拿出来。
doclist = docs.values
LDA模型构建:
好,我们用Gensim来做一次模型构建
首先,我们得把我们刚刚整出来的一大波文本数据
[[一条邮件字符串],[另一条邮件字符串], ...]
转化成Gensim认可的语料库形式:
[[一,条,邮件,在,这里],[第,二,条,邮件,在,这里],[今天,天气,肿么,样],...]
引入库:
from gensim import corpora, models, similarities import gensim
为了免去讲解安装NLTK等等的麻烦,我这里直接手写一下停止词列表:
这些词在不同语境中指代意义完全不同,但是在不同主题中的出现概率是几乎一致的。所以要去除,否则对模型的准确性有影响
stoplist = [‘very‘, ‘ourselves‘, ‘am‘, ‘doesn‘, ‘through‘, ‘me‘, ‘against‘, ‘up‘, ‘just‘, ‘her‘, ‘ours‘, ‘couldn‘, ‘because‘, ‘is‘, ‘isn‘, ‘it‘, ‘only‘, ‘in‘, ‘such‘, ‘too‘, ‘mustn‘, ‘under‘, ‘their‘, ‘if‘, ‘to‘, ‘my‘, ‘himself‘, ‘after‘, ‘why‘, ‘while‘, ‘can‘, ‘each‘, ‘itself‘, ‘his‘, ‘all‘, ‘once‘, ‘herself‘, ‘more‘, ‘our‘, ‘they‘, ‘hasn‘, ‘on‘, ‘ma‘, ‘them‘, ‘its‘, ‘where‘, ‘did‘, ‘ll‘, ‘you‘, ‘didn‘, ‘nor‘, ‘as‘, ‘now‘, ‘before‘, ‘those‘, ‘yours‘, ‘from‘, ‘who‘, ‘was‘, ‘m‘, ‘been‘, ‘will‘, ‘into‘, ‘same‘, ‘how‘, ‘some‘, ‘of‘, ‘out‘, ‘with‘, ‘s‘, ‘being‘, ‘t‘, ‘mightn‘, ‘she‘, ‘again‘, ‘be‘, ‘by‘, ‘shan‘, ‘have‘, ‘yourselves‘, ‘needn‘, ‘and‘, ‘are‘, ‘o‘, ‘these‘, ‘further‘, ‘most‘, ‘yourself‘, ‘having‘, ‘aren‘, ‘here‘, ‘he‘, ‘were‘, ‘but‘, ‘this‘, ‘myself‘, ‘own‘, ‘we‘, ‘so‘, ‘i‘, ‘does‘, ‘both‘, ‘when‘, ‘between‘, ‘d‘, ‘had‘, ‘the‘, ‘y‘, ‘has‘, ‘down‘, ‘off‘, ‘than‘, ‘haven‘, ‘whom‘, ‘wouldn‘, ‘should‘, ‘ve‘, ‘over‘, ‘themselves‘, ‘few‘, ‘then‘, ‘hadn‘, ‘what‘, ‘until‘, ‘won‘, ‘no‘, ‘about‘, ‘any‘, ‘that‘, ‘for‘, ‘shouldn‘, ‘don‘, ‘do‘, ‘there‘, ‘doing‘, ‘an‘, ‘or‘, ‘ain‘, ‘hers‘, ‘wasn‘, ‘weren‘, ‘above‘, ‘a‘, ‘at‘, ‘your‘, ‘theirs‘, ‘below‘, ‘other‘, ‘not‘, ‘re‘, ‘him‘, ‘during‘, ‘which‘]
人工分词:
这里,英文的分词,直接就是对着空白处分割就可以了。
中文的分词稍微复杂点儿,具体可以百度:CoreNLP, HaNLP, 结巴分词,等等
分词的意义在于,把我们的长长的字符串原文本,转化成有意义的小元素:
texts = [[word for word in doc.lower().split() if word not in stoplist] for doc in doclist]
这时候,我们的texts就是我们需要的样子了:
texts[0]
建立语料库
用词袋的方法,把每个单词用一个数字index指代,并把我们的原文本变成一条长长的数组:
dictionary = corpora.Dictionary(texts) corpus = [dictionary.doc2bow(text) for text in texts]
给你们看一眼:
corpus[13]
这个列表告诉我们,第14(从0开始是第一)个邮件中,一共6个有意义的单词(经过我们的文本预处理,并去除了停止词后)
其中,36号单词出现1次,505号单词出现1次,以此类推。。。
接着,我们终于可以建立模型了:
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)
我们可以看到,第10号分类,其中最常出现的单词是:
lda.print_topic(10, topn=5)
‘0.007*kurdistan + 0.006*email + 0.006*see + 0.005*us + 0.005*right‘
我们把所有的主题打印出来看看
lda.print_topics(num_topics=20, num_words=5)
接下来:
通过
lda.get_document_topics(bow)
或者
lda.get_term_topics(word_id)
两个方法,我们可以把新鲜的文本/单词,分类成20个主题中的一个。
但是注意,我们这里的文本和单词,都必须得经过同样步骤的文本预处理+词袋化,也就是说,变成数字表示每个单词的形式。
以上是关于LDA 实战技巧的主要内容,如果未能解决你的问题,请参考以下文章
使用LDA(Linear Discriminant Analysis)进行降维(dimention reduction)详解和实战
128在线民宿 UGC 数据挖掘实战--基于 LDA 模型的评论主题挖掘