种子网址爬行整个Youtube

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了种子网址爬行整个Youtube相关的知识,希望对你有一定的参考价值。

我正在尝试使用Apache Nutch抓取整个youtube.com。问题是我需要大量的种子网址,以确保几乎所有的Youtube网址都被抓取。但我找不到youtube的任何站点地图或网址列表。例如,要抓取apple.com,我可以提供Apple网站的stiemap作为种子的网址 - http://www.apple.com/sitemap.xml

目前我唯一的种子是 - https://www.youtube.com。而我的regex-urlfilter.txt包含 -

+^https://www.youtube.com/?(watch\\?([^#\\&\\?]*).*)?$

我试过像filetype:xml site:youtube.com这样的好搜索,但没有出现。

任何人都可以帮我找到一种方法来获取种子来抓取youtube.com吗?

答案

这是我得到的站点地图:https://www.youtube.com/yt/sitemap.xml

来自robots.txt。尝试按照从一个主页到另一个主页的传出链接

并迭代地做。

以上是关于种子网址爬行整个Youtube的主要内容,如果未能解决你的问题,请参考以下文章

如何获取YouTube视频的直接网址

php 用于随机加载youtube网址并生成iframe的简短代码。

如何编写爬虫?

JAVA爬虫入门

python:获取频道的所有 youtube 视频网址

如何修复空白片段?