seo数据采集及页面自动生成机制

Posted mana66ccff

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了seo数据采集及页面自动生成机制相关的知识,希望对你有一定的参考价值。

  1. 先收集一批核心关键词作为词根
  2. 围绕词根进行挖词(百度下拉及相关)
  3. 过滤违禁词,自定义黑名单,重复词
  4. 统计扩展词与对应词根的相似度,(python备选:jieba词库)归类,相似值>=0.45的为同类词
  5. 相关且有搜索量的词,进入该行业频道的词表,生成的页面给予最大的资源支持;相关但无搜索量的,给予较小的资源支持;不相关但有搜索量的,进入初始搜索词表,该词不归属于任何一个行业;不相关还没搜索量的,直接删除。
  6. 初始搜索词表中的词,依次通过相似度计算出与该词最相关的N个搜索词,作为“相关推荐”板块的链接调用的逻辑。
  7. 针对行业频道词表的词,依次抓取每个关键词的相关信息,信息来源如抓取各类搜索引擎搜索结果的正文、各类门户搜索结果的正文等等,尽量避免抓取百度搜索结果页,或百度内容
  8. 过滤违禁、黑名单、重复内容
  9. 剩余内容写入内容数据表。(可通过相关判断进行组合排列)

以上是关于seo数据采集及页面自动生成机制的主要内容,如果未能解决你的问题,请参考以下文章

SEO之建立有效页面数据库:目的定义流程应用

Vue开发网站seo优化方法

PHP随机静态页面生成系统源码 雨尘SEO系统v1.3

基于angularJs的单页面应用seo优化及可抓取方案原理分析

织梦自定义副标题管理支持批量导入权重词随机插入到内容及标题里(超级SEO插件养站排名必备)

分享常见的几种页面静态化的方法