如何爬取所有wordpress页面
Posted
技术标签:
【中文标题】如何爬取所有wordpress页面【英文标题】:how to crawl all wordpress pages 【发布时间】:2012-10-10 13:59:51 【问题描述】:我想抓取所有的 wordpress 博客。有没有什么快速的方法可以列出 wordpress.com 下的所有二级域名?比如http://developer.wordpress.com/
如果我们能得到所有二级域地址的列表,那么爬取所有数据集应该很容易和快速。
我们可以通过 1) dns 查找网站的所有二级域名。 2) 还是通过其他黑客技术?
感谢您回答这个问题!
【问题讨论】:
可能与此问题重复 - ***.com/questions/131989/… 是的,但它是不同的。我们可以用其他方式抓取所有页面吗? DNS 查找方法不起作用,因为网站的 dns 禁用了子域的 dig 选项。 我对这个领域一无所知,所以请不要激怒我,但是不能通过谷歌搜索 site:wordpress.com 以编程方式编译结果吗? 对不起,我只是想知道如何解决这个问题。 google api 的唯一问题是它们每天只允许 100 个查询。 :-( Google 不再为 site:wordpress.com 等查询提供完整的结果。您可能会在moz.com/researchtools/ose 获得更完整的列表(您可能还违反了 WordPress 的 TOS)。 【参考方案1】:您可以在一些实时搜索的在线应用程序上使用 google dorks 轻松找到子域,例如 http://www.iseebug.com/find-sub-domain-online-search-domain/ 还有像http://iseebug.com/sandVox/这样的在线爬虫
【讨论】:
以上是关于如何爬取所有wordpress页面的主要内容,如果未能解决你的问题,请参考以下文章