Scraper 不提供完整的 html 内容 [关闭]

Posted 2023-02-21

技术标签:

【中文标题】Scraper 不提供完整的 html 内容 [关闭]【英文标题】：Scraper does not provide full html content [closed] 【发布时间】：2022-01-24 02:48:12 【问题描述】：

我正在尝试对该网页进行刮板https://www.renfe.com/es/es/cercanias/cercanias-cadiz/lineas

我想获取那里出现的不同火车站（Cádiz、San Severiano、Segunda Aguada、...、Aeropuerto de Jerez），但 BeutifulSoup 和 urllib 都没有帮助我，因为他们不下载完整的 html，而是他们下载了由于某种原因不包含电台信息的视图源内容。

有什么想法吗？

提前谢谢大家。

【问题讨论】：

这能回答你的问题吗？ Web-scraping javascript page with Python 【参考方案1】：

您所追求的数据很可能是之后通过 JavaScript 文件插入到 HTML 中的。

因此，您最有可能收集的是原始 HTML 文件，因为 JavaScript 尚未运行（如果您只是请求 HTML 文件，则不会运行）。

可悲的是，我不知道该怎么做，因为这不是微不足道的，而且完全取决于您的环境和使用环境。还是觉得值得一说。为了解决这个问题，我有时会做的是检查 JavaScript 中是否有任何我可以手动调用的 API 调用。但这可能很耗时，而且往往是一个很长的镜头。

但是如果你使用的是“美汤”，也许this 可能是什么？

祝你好运！

【讨论】：

非常感谢您的回答。您附上的视频实际上非常有帮助：当我设法完全解决它时，我会更新一个正确的答案。

以上是关于Scraper 不提供完整的 html 内容 [关闭]的主要内容，如果未能解决你的问题，请参考以下文章