抓取javascript生成的网页

Posted 2021-04-06

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了抓取javascript生成的网页相关的知识，希望对你有一定的参考价值。

将javascript内容转换为html以将其用于脚本时，我遇到了问题。我使用了多种方法作为phantomjs或python QT库，它们都很好地获得了大部分内容，但问题是页面内部有javascript按钮，如下所示：

Pls see screenshot here

现在，当我从脚本加载此页面时，这些按钮将不会默认为任何值，因此下面的所有SELL / NEUTRAL / BUY值都返回0。从脚本加载页面时有没有办法设置这些值？

包含所有值的示例页面是：https://www.tradingview.com/symbols/NEBLBTC/technicals/

任何帮助将不胜感激。

答案

如果你试图通过scrapy或cURL或urrlib的衍生来实现这一点，我担心你不能这样做。 Python有另外一个外部包，如selenium，允许你与页面的javascript交互，但selenium的问题太慢，如果你想要类似于scrapy的东西，你可以检查网站的工作原理（因为我可以看到它的工作原理） ajax或websockets）并通过urllib获取您想要的信息，就像使用API一样。

如果您理解我或我误解了您的问题，请告诉我

另一答案

我使用的seleneum非常适合这项工作，它确实很慢，但符合我的目的。我还使用了seleneum firefox插件来生成python脚本，因为找到与我必须按下的按钮完全一致的代码非常具有挑战性。

以上是关于抓取javascript生成的网页的主要内容，如果未能解决你的问题，请参考以下文章

用于 javascript 生成内容的 Python 网页抓取

抓取javascript生成的网页

如何抓取 HTTPS javascript 网页

网页抓取具有动态 javascript 内容的网站

如何用python+selenium+phantomjs获得一个网页的动态生成的html代码

如何抓取网页中的动态数据