陈慧:贝叶斯分类对东莞seo动态链接位的一些启发

Posted SEO课程

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了陈慧:贝叶斯分类对东莞seo动态链接位的一些启发相关的知识,希望对你有一定的参考价值。


    陈慧:2008年以来,一直致力于东莞seo行业,到2013年已有四五年的东莞seo经验,曾在3158致富网、爱帮网工作过,2012年至今在美团。

    感觉东莞seo没有什么的朋友往往都只是停留在东莞seo的表面,在实际工作中也只是常规性地为页面堆砌一下关键词,然后就群发外链,其实如果大家进一步接触一下大型数据网站的东莞seo工作,就会了解东莞seo真的挺复杂。比如在设计内链、控制内容方面,不是只丢给技术部门“控制相关”的要求就可以了,技术人员不是万能的,他们可以帮你实现一些效果,但是并不一定能够了解你的真正需求,此时就需要东莞seo人员给技术人员一定的算法框架的建议。

    业内一般建议东莞seo新人只了解搜索引擎简单原理就可以了,不必深入研究搜索引擎使用的各种算法,这只是为了让大家能够更快捷地入门而已,当你深入这个行业的时候,不可避免地就会面临各种“相关”、 “有意义”、  “有价值”等内容、链接和页面的提取、推荐或设计的工作,这些往往也是需要东莞seo人员去研究和设计的,技术人员只是辅助实现而已。所以有时候站内的一些产品或设计做的不到位,不要只埋怨技术部门,其实根本上是东莞seo人员产品设计的不到位。

    陈慧对各种算法有比较深入的研究,并一直研究如何把这些算法切实应用到日常的东莞seo工作中,因此笔者特地邀请陈慧为本书分享了这样的一篇文章,希望读者可以了解到东莞seo工作的另一面,对东莞seo有一个更深入的认识。做东莞seo项目中,如何给一大批页面分类?如何给一大批词分类?如图15-9所示有一个链接位。

    这块链接位除了相关性计算之外,怎样把最有价值的那批词挖掘出来,动态运营起来?换个角度想,其实也是对关键词的一个分类,只要把高价值的关键词分类出来就可以。

    通过对贝叶斯的认识,在分类这块,或许可以给我们更多的启发和思考。

    贝叶斯分类有两种实现方法,分别是朴素贝叶斯分类器和贝叶斯信念网络。这里介绍的是朴素贝叶斯分类器。

    贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

    先验概率是指根据以往经验和分析得到的概率。

    后验概率,简单地说,是根据先验概率,通过贝叶斯公式,得到的概率。

    贝叶斯公式:P(BIA)=P(A\B)×P(B)/P(A)

    尸但陋):事件A发生的条件下,事件B发生的概率。即上面所说的后验概率。

    P(A\B):类条件概率,事件占发生的条件下,事件彳发生的概率。

    P(B):事件B发生的概率,可以根据已有的数据计算得到的先验概率。

    P(A):事件A发生的概率。

    全概率公式,如图15-10所示。

    设实验E的样本空间为S,A为E的事件,B1,B2,… Bn为S的一个划分,且P(Bi)>O(i=1,2,…,n),则P(A )=P(A\B1)×P(B1)+ P(AIB2)×P(B2)+…+P(AIBn)×P(Bn).

    无限个划分下的贝叶斯公式:

若B1,B2 - -为一系列互不相容的事件,且则对任一事件A,有

陈慧:贝叶斯分类对东莞seo动态链接位的一些启发

    这里的分母部分,就是全概率公式P(A)=P(AlBl)XP(B1)+P(AIB2)×P(B2)+…+P(AIBn)  XP(Bn)

中,刀趋于无穷大的情况。

    当i=6,k=ll时,即事件彳发生,事件B6发生的概率。

    当i=9,k=ll时,即事件彳发生,事件B9发生的概率。


陈慧:贝叶斯分类对东莞seo动态链接位的一些启发

    比较图15-11所示两个概率的大小,由于分母相同,只需要比较分子。又因为,朴素贝叶斯分类器在估计类条件概率时假设属性之间条件独立,所以,P (AIBi)可以连乘,当彳包含多个参数,其分子P (AIBi)×P(Bi) =P (Al=xlIBi) XP (Al=x2lBi)×……×P(An=xnIBi》<P (Bi).

    下面举个例子来更好地说明这个公式。

    假设有10个样本数据,包含性别、职位、学历、年龄、薪水5个参数,数据如表15-7所示。

陈慧:贝叶斯分类对东莞seo动态链接位的一些启发

    求:职位是东莞seo工程师,学历为本科,年龄在25-30岁,薪水为10000元女性的概率大还是为男性的概率大?

    尸(职位=东莞seo工程师I性别=女)=1/3

    P(学历=本科r陛别=女)=1/3

    P(年龄=25-301性别=女)=1/3

    P(薪水=10000工程师I性别=女)=1/3

    P(职位=东莞seo工程师l性别=男)=1/7

    P(学历=本科P陛别=男)=3/7

    P(年龄=25-30[性别=男)=4/7

    P(薪水=10000工程师l性别=男)=1/7

    P(性别=女)=3/10

    JP(性别=男)=7/10

    尸(性别=女l职位是东莞seo工程师,学历为本科,年龄在25-30,薪水为10000)

    =[P(职位=东莞seo工程师I性别=女)XP(学历=本科I性别=女)XP(年龄=25-301性别=女)XP(薪水=10000工程师I性别=女)XP(性别=女)]/P(职位是东莞seo工程师,学历为本科,年龄在25-30,薪水为10000)

    = [1/3×1/3×1/3×1/3×3110]IP(职位是东莞seo工程师,学历为本科,年龄在25-30,薪水为10000)  =0.0037/p(职位是东莞seo工程师,学历为本科,年龄在25-30,薪水为10000)

    P(性别=男l职位是东莞seo工程师,学历为本科,年龄在25-30,薪水为10000)=[P(职位=东莞seo工程师I性别=男)XP(学历=本科I性别=男)XP(年龄=25-301性别=男)XP(薪水=10000工程师I性别=男)XP(性别=男)UP(职位是东莞seo工程师,学历为本科,年龄在25-30,薪水为10000)= [1/7×3/7×4/7×1/7×7/10]/P(职位是东莞seo工程师,学历为本科,年龄在25-30,薪水为10000)=0.035/P(职位是东莞seo工程师,学历为本科,年龄在25-30,薪水为10000)0.0037<0.035

    所以,职位是东莞seo工程师,学历为本科,年龄在25-30岁,薪水为10 000元男性的概率大。

    如果需要把符合这个条件的页面进行分类,那么这个页面就分到男性。

    这就是通过朴素贝叶斯分类的方法,得到的分类。这种通过计算条件概率来分类的方法,可以运用到很多项目中。

    比如,可以延伸到一批页面分类,每个页面由Ⅳ个参数组成,根据已有的数据,计算先验概率,然后通过贝叶斯公式,计算后验概率,哪个类别的后验概率最大,就分到哪个分类下。具体运用在这里就不说了。

    除了页面的分类,关键词的分类,也一样可以运用上。回到文章开头说的,如何选出高价值关键词动态放在链接位上?

    首先,需要对高价值关键词进行定义,不同的网站对高价值关键词定义的维度可能不同,这里举一个最简单的定义方法。

    比如把关键词月visits>=100定义为高价值关键词,月visits<100,且>=20定义为中价值关键词,月visits<20定义为低价值关键词。

    然后,需要找出高价值关键词的影响因素,比如百度排名、百度日均搜索量等。有如表15-8所示的样本。

陈慧:贝叶斯分类对东莞seo动态链接位的一些启发

    为了简化计算,需要对以上数据进行处理,比如将排名、搜索量包括月visits划分到不同的区间内,如表15-9所示。

陈慧:贝叶斯分类对东莞seo动态链接位的一些启发

(注:以上区间的划分只看了这10个样本数据,不是实际区间,是个假设)。

  为更好地说明问题,把相同参数的相同区间用同样的字母和标号显示,如表15-10所示。

    Al、A2、A3、A4与Bl、B2、B3、B4、B5、B6、B7 -共有28种区间组合,比如AIB1、AIB2等组合,分别计算各组合的高、中两个概率,比较两个概率的大小,如果是高价值的概率大,把这两个区间组合分到高价值关键词分类库。最后再把所有的高价值区间组合按概率大小排序。

    程序动态计算,不管排名和搜索量怎么变化,高价值关键词都会在高价值关键词库中。实现常见的东莞seo需求,例如聚类、相关以及内容核心关键词提取等,每个网站根据自身的数据情况都会有各种不同的方法,希望陈慧这篇文章能够带给读者更多的思路。

    最后附上陈慧的个人微博:http://t.qq.com/chenhui8com,陈慧会在微博中分享不少干货。另外,读者对文章中的内容有任何疑问,或有其他东莞seo问题需要交流,都可以通过微博同陈慧进行联系。


更多精彩,敬请期待



以上是关于陈慧:贝叶斯分类对东莞seo动态链接位的一些启发的主要内容,如果未能解决你的问题,请参考以下文章

朴素贝叶斯

机器学习--朴素贝叶斯分类,以及拉普拉斯校准

R语言:朴素贝叶斯算法实现对中文垃圾邮件的分类

从Scratch在Python中的朴素贝叶斯分类

朴素贝叶斯分类:拉普拉斯修正

贝叶斯算法