Scraper 不提供完整的 html 内容 [关闭]
Posted
技术标签:
【中文标题】Scraper 不提供完整的 html 内容 [关闭]【英文标题】:Scraper does not provide full html content [closed] 【发布时间】:2022-01-24 02:48:12 【问题描述】:我正在尝试对该网页进行刮板https://www.renfe.com/es/es/cercanias/cercanias-cadiz/lineas
我想获取那里出现的不同火车站(Cádiz、San Severiano、Segunda Aguada、...、Aeropuerto de Jerez),但 BeutifulSoup 和 urllib 都没有帮助我,因为他们不下载完整的 html,而是他们下载了由于某种原因不包含电台信息的视图源内容。
有什么想法吗?
提前谢谢大家。
【问题讨论】:
这能回答你的问题吗? Web-scraping javascript page with Python 【参考方案1】:您所追求的数据很可能是之后通过 JavaScript 文件插入到 HTML 中的。
因此,您最有可能收集的是原始 HTML 文件,因为 JavaScript 尚未运行(如果您只是请求 HTML 文件,则不会运行)。
可悲的是,我不知道该怎么做,因为这不是微不足道的,而且完全取决于您的环境和使用环境。还是觉得值得一说。为了解决这个问题,我有时会做的是检查 JavaScript 中是否有任何我可以手动调用的 API 调用。但这可能很耗时,而且往往是一个很长的镜头。
但是如果你使用的是“美汤”,也许this 可能是什么?
祝你好运!
【讨论】:
非常感谢您的回答。您附上的视频实际上非常有帮助:当我设法完全解决它时,我会更新一个正确的答案。以上是关于Scraper 不提供完整的 html 内容 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章
Web Scraper 高级用法——抓取属性信息 | 简易数据分析 16