Scraper 不提供完整的 html 内容 [关闭]

Posted

技术标签:

【中文标题】Scraper 不提供完整的 html 内容 [关闭]【英文标题】:Scraper does not provide full html content [closed] 【发布时间】:2022-01-24 02:48:12 【问题描述】:

我正在尝试对该网页进行刮板https://www.renfe.com/es/es/cercanias/cercanias-cadiz/lineas

我想获取那里出现的不同火车站(Cádiz、San Severiano、Segunda Aguada、...、Aeropuerto de Jerez),但 BeutifulSoup 和 urllib 都没有帮助我,因为他们不下载完整的 html,而是他们下载了由于某种原因不包含电台信息的视图源内容。

有什么想法吗?

提前谢谢大家。

【问题讨论】:

这能回答你的问题吗? Web-scraping javascript page with Python 【参考方案1】:

您所追求的数据很可能是之后通过 JavaScript 文件插入到 HTML 中的。

因此,您最有可能收集的是原始 HTML 文件,因为 JavaScript 尚未运行(如果您只是请求 HTML 文件,则不会运行)。

可悲的是,我不知道该怎么做,因为这不是微不足道的,而且完全取决于您的环境和使用环境。还是觉得值得一说。为了解决这个问题,我有时会做的是检查 JavaScript 中是否有任何我可以手动调用的 API 调用。但这可能很耗时,而且往往是一个很长的镜头。

但是如果你使用的是“美汤”,也许this 可能是什么?

祝你好运!

【讨论】:

非常感谢您的回答。您附上的视频实际上非常有帮助:当我设法完全解决它时,我会更新一个正确的答案。

以上是关于Scraper 不提供完整的 html 内容 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

Html5 Egret游戏开发 成语大挑战选关界面

Web Scraper 高级用法——抓取属性信息 | 简易数据分析 16

iOS 上的 Pythonista URL Scraper

带有 dd 和 dt 条件的 web scraper chrome 扩展

使用RuiJi Scraper将文章导入WordPress

使用Web Scraper 插件,不需要编程,也能爬网