用于检查网站是不是具有搜索引擎友好 URL 的 Ruby 代码
Posted
技术标签:
【中文标题】用于检查网站是不是具有搜索引擎友好 URL 的 Ruby 代码【英文标题】:Ruby code to check if a website has search engine friendly URLs用于检查网站是否具有搜索引擎友好 URL 的 Ruby 代码 【发布时间】:2012-07-03 16:24:54 【问题描述】:我正在 Rails 中开发一个应用程序,它需要检查输入的网站是否生成了搜索引擎友好的 URL。我想到的一个解决方案是使用 nokogiri 来解析网站的 html 并查看链接标签查找 URL 并查看它们是否对搜索引擎友好。有没有其他方法可以做到这一点?任何帮助都会非常棒。
【问题讨论】:
如果您真的想查看页面中的所有链接,nokogiri 是您的最佳选择。您打算如何区分对 SEO 友好的网址和非 SEO 友好的网址? 我不知道该怎么做。我会按照@Casper 的建议先研究 Anemone。你有其他方法可以解决这种情况吗?谢谢 很遗憾没有,我只是好奇 ;-) 【参考方案1】:这里有两个问题:
您如何正式(以编程方式)定义什么是“搜索引擎友好的 URL”。我假设你已经有一些方法可以做到这一点。这样就剩下...
如何检查网站上的所有链接。
因此,对于 (2),我会查看 Anemone 之类的内容,这样您就可以轻松抓取完整的网站:
Anemone 是一个 Ruby 库,可让您快速轻松地编写爬取网站的程序。它提供了一个简单的 DSL,用于在站点的每个页面上执行操作、跳过某些 URL 并计算到站点上给定页面的最短路径。
多线程设计使 Anemone 速度更快。 API 使它变得简单。 Ruby 的表现力使其功能强大。
对于简单的抓取,Anemone 甚至会为您提供页面上所有链接的数组,因此您甚至不需要 Nokogiri。对于更复杂的东西,也许您想将 Anemone 与 Mechanize 和 Nokogiri 之类的东西结合起来。这取决于您的要求。
【讨论】:
感谢您分享有关海葵宝石的信息,这对我非常有用。我还没有真正找到解决(1)问题的方法,所以如果您对此有帮助请也分享一下。 @JimmyThakkar - 感谢您的 cmets。不幸的是,我对 SEO 链接没有任何好主意。这不是一个容易解决的问题。我要做的是首先在纸上写下一个好的 SEO 链接是什么。 IE。首先在纸上创建一个定义!之后,您可以尝试为其制定算法。但首先你需要明确规则。也许在页面上寻找匹配的关键字等。但是人们可以很快地看到一个链接是否是 SEO。因此,只需实施 (2),您就可以列出链接并在短短几秒钟内快速扫描 100 多个链接。 @JimmyThakkar 你能想出解决(1)问题的方法吗?以上是关于用于检查网站是不是具有搜索引擎友好 URL 的 Ruby 代码的主要内容,如果未能解决你的问题,请参考以下文章