python 用啥模块处理网页的javascript

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 用啥模块处理网页的javascript相关的知识,希望对你有一定的参考价值。

python 用什么模块处理网页中的 javascript代码 用途:解析javascript中的网址

lxml 配合 html5lib
可以很好的解析 html DOM
但对于js的解析 据我所知现在没有什么很成熟的模块能做这个

解析js肯定不是正则能办得到的, 比较现实的方案是
从webkit下手, 但光这一个库就有10+M
(利用webkit自己解析js等解析完之后读取html dom, 什么时候解析完,什么内容需要解析,什么内容不应该解析是使用的难点)

如果你碰到的js代码比较简单
可以自己看看js代码然后使用python模拟js代码得到网址

其中使用webkit是最难的(不是简单显示界面,需要自己hook)
模拟js其次
lxml是最普遍的了
(这个解析一般的html必须配合其他html解析库,自带的那个html解析不是很健壮碰到稍微差点的页面就不能正确解析)
另外html DOM 里面 beautifulsoup 是一个比较老道的使用正则实现解析HTML DOM的库.追问

最近看到有控制整个IE或者firefox的模块
想问下如何修改user-agent 就是浏览器自定义头部信息
没有的话 有其他简单的解决方案吗 换种编程语言也行
要实现的功能 能实现浏览器大部分功能 能自定义useragent

追答

user-agent什么的都是简单 header信息 随便什么语言都能轻易修改

Mechanize
这个模块 perl和python都有
我以前做perl的时候一般就用lwp
python 也就urllib2

一般应用都够了.

urllib2 要添加自定义头部
自己构建就行了
request = urllib2.Request(url)
req.add_header("user-agent":"xxoo")

具体参考官方文档

控制整个IE那应该是内嵌一个IE 不能控制,最多只能让IE打开某个页面后退什么的.

内嵌firefox还是有的
python xpcom
还有webkit 的pythonwebkit

这些内嵌游览器的我从没用过.
模拟游览器到用过几次

参考技术A 如果要处理js,可以用webkit ,苹果谷歌浏览器的内核,有源码,做爬虫可以用python scrapy,但是只能处理静态页面,无法模拟点击之类的,而webkit可以,但是网上的资料很少,祝你成功。 参考技术B javascript中的地址信息也是文字串的话可以用正则表达式提取 参考技术C 先解析出html文档DOM结构,得到script节点,然后正则表达式得到网址

python线程用啥模块好?

参考技术A

在Python中可使用的多线程模块主要有两个,thread和threading模块。thread模块提供了基本的线程和锁的支持,建议新手不要使用。threading模块允许创建和管理线程,提供了更多的同步原语。

thread模块函数:

    start_new_thread(function, args[, kwargs]):启动新的线程以执行function,返回线程标识。

    allocate_lock():返回LockType对象。

    exit():抛出SystemExit异常,如果没有被捕获,线程静默退出。

    LockType类型锁对象的方法:

    acquire([waitflag]):无参数,无条件获得锁,如果锁已经被其他线程获取,则等待锁被释放。如果使用整型参数,参数为0,如果锁可获取,则获取且返回True,否则返回False;参数为非0,与无参数相同。

    locked():返回锁的状态,如果已经被获取,则返回True,否则返回False。

    release():释放锁。只有已经被获取的锁才能被释放,不限于同一个线程。

threading模块提供了更好的线程间的同步机制。threading模块下有如下对象:

    Thread

    Lock

    RLock

    Condition

    Event

    Semaphore

    BoundedSemaphore

    Timer

threading模块内还有如下的函数:

    active_count()

    activeCount():返回当前alive的线程数量

    Condition():返回新的条件变量对象

    current_thread()

    currentThread():返回当前线程对象

    enumerate():返回当前活动的线程,不包括已经结束和未开始的线程,包括主线程及守护线程。

    settrace(func):为所有线程设置一个跟踪函数。

    setprofile(func):为所有纯种设置一个profile函数。

更多Python知识请关注Python自学网

以上是关于python 用啥模块处理网页的javascript的主要内容,如果未能解决你的问题,请参考以下文章

python线程用啥模块好?

python非线性规划用啥模块

没有common模块可以用啥代替

网页表单中提交的密码等信息是用啥方法加密的?具体说一下.

建立java与python的接口,让java能调用python脚本。请问可以用啥方式?

python用啥软件写代码