如何使用 Selenium/Python 获取由 JavaScript 编写的 html 内容 [重复]

Posted

技术标签:

【中文标题】如何使用 Selenium/Python 获取由 JavaScript 编写的 html 内容 [重复]【英文标题】:How can I get html content written by JavaScript with Selenium/Python [duplicate] 【发布时间】:2013-04-11 00:25:00 【问题描述】:

我正在使用 Selenium 进行网络爬虫,我想在 Selenium 模拟点击假链接后获取由 javascript 编写的元素(例如链接)。

我试过get_html_source(),但它不包含JavaScript编写的内容。

我写的代码:

    def test_comment_url_fetch(self):
        sel = self.selenium 
        sel.open("/rmrb")
        url = sel.get_location()
        #print url
        if url.startswith('http://login'):
            sel.open("/rmrb")
        i = 1
        while True:
            try:
                if i == 1:
                    sel.click("//div[@class='WB_feed_type SW_fun S_line2']/div/div/div[3]/div/a[4]") 
                    print "click"
                else:
                    XPath = "//div[@class='WB_feed_type SW_fun S_line2'][%d]/div/div/div[3]/div/a[4]"%i
                    sel.click(XPath)
                    print "click"
            except Exception, e:
                print e
                break
            i += 1
        html = sel.get_html_source()
        html_file = open("tmp\\foo.html", 'w')
        html_file.write(html.encode('utf-8'))
        html_file.close()

我使用 while 循环单击一系列虚假链接,这些链接触发 js-actions 以显示额外内容,而这些内容正是我想要的。但是 sel.get_html_source() 没有给出我想要的。

有人可以帮忙吗?非常感谢。

【问题讨论】:

请包含您已经编写的代码,并指出其中的哪一部分给您带来了问题 【参考方案1】:

由于我通常对获取的节点进行后处理,因此我直接在浏览器中使用execute_script 运行 JavaScript。例如获取所有 a-tags:

js_code = "return document.getElementsByTagName('a')"
your_elements = sel.execute_script(js_code)

编辑:execute_scriptget_eval 是等价的,只是 get_eval 执行隐式返回,在 execute_script 中必须明确说明。

【讨论】:

非常感谢。虽然正确的方法是sel.get_eval(js_code)。我发现了这个Question 这是否解决了您的问题?【参考方案2】:

你不能在你的 selenium 环境中调用浏览器对象吗?例如:

self.browser.find_elements_by_tag_name("div")

应该返回一个 div 数组。也可以按class、id等查找。

编辑下面是创建“浏览器”对象的代码。

from selenium import webdriver #The browser object
self.browser = webdriver.Firefox() #I Use firefox, but can do chrome, IE, and safari i believe

那么您应该可以使用find_elements_by_tag_name 进行如上所示的操作。

【讨论】:

对不起,我没有给出我班级的全部代码。这里的'self'是unittest.TestCase的一个对象,没有'browser'属性。 'sel' 是 selenium 的对象,我试过但它也没有'浏览器'。 @Friedmannn 我在帖子中包含了用于创建浏览器对象的代码。只需额外的 2 行即可导入和定义它。享受吧。 哦,我明白了。我去试试【参考方案3】:

您需要使用可以执行 Javascript 的浏览器引擎,例如 PhantomJS。 Javascript 的更改仅对可以执行 Javascript 并为要触发的事件提供 DOM/Runtime 的客户端可见。

也非常接近:Executing Javascript from Python

【讨论】:

谢谢,但是 Selenium RC 只是控制一个真正的浏览器,我不能从中得到它吗?

以上是关于如何使用 Selenium/Python 获取由 JavaScript 编写的 html 内容 [重复]的主要内容,如果未能解决你的问题,请参考以下文章

使用 Selenium Python API 绑定从 Chrome 获取 console.log 输出

selenium:python如何绕过登录页面登录网页

如何通过 Selenium Python 点击​​一个元素

Selenium Python - 获取Web浏览器的当前URL?

selenium+python,如何判断一个页面已经加载完成?

使用 Selenium (Python) 获取输入框的值