seo数据采集及页面自动生成机制

Posted 2022-03-14 mana66ccff

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了seo数据采集及页面自动生成机制相关的知识，希望对你有一定的参考价值。

先收集一批核心关键词作为词根
围绕词根进行挖词（百度下拉及相关）
过滤违禁词，自定义黑名单，重复词
统计扩展词与对应词根的相似度，（python备选：jieba词库）归类，相似值>=0.45的为同类词
相关且有搜索量的词，进入该行业频道的词表，生成的页面给予最大的资源支持；相关但无搜索量的，给予较小的资源支持；不相关但有搜索量的，进入初始搜索词表，该词不归属于任何一个行业；不相关还没搜索量的，直接删除。
初始搜索词表中的词，依次通过相似度计算出与该词最相关的N个搜索词，作为“相关推荐”板块的链接调用的逻辑。
针对行业频道词表的词，依次抓取每个关键词的相关信息，信息来源如抓取各类搜索引擎搜索结果的正文、各类门户搜索结果的正文等等，尽量避免抓取百度搜索结果页，或百度内容
过滤违禁、黑名单、重复内容
剩余内容写入内容数据表。（可通过相关判断进行组合排列）

以上是关于seo数据采集及页面自动生成机制的主要内容，如果未能解决你的问题，请参考以下文章