种子网址爬行整个Youtube
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了种子网址爬行整个Youtube相关的知识,希望对你有一定的参考价值。
我正在尝试使用Apache Nutch抓取整个youtube.com。问题是我需要大量的种子网址,以确保几乎所有的Youtube网址都被抓取。但我找不到youtube的任何站点地图或网址列表。例如,要抓取apple.com
,我可以提供Apple网站的stiemap作为种子的网址 - http://www.apple.com/sitemap.xml
目前我唯一的种子是 - https://www.youtube.com
。而我的regex-urlfilter.txt
包含 -
+^https://www.youtube.com/?(watch\\?([^#\\&\\?]*).*)?$
我试过像filetype:xml site:youtube.com
这样的好搜索,但没有出现。
任何人都可以帮我找到一种方法来获取种子来抓取youtube.com吗?
答案
这是我得到的站点地图:https://www.youtube.com/yt/sitemap.xml
来自robots.txt。尝试按照从一个主页到另一个主页的传出链接
并迭代地做。
以上是关于种子网址爬行整个Youtube的主要内容,如果未能解决你的问题,请参考以下文章