python 用啥模块处理网页的javascript
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 用啥模块处理网页的javascript相关的知识,希望对你有一定的参考价值。
python 用什么模块处理网页中的 javascript代码 用途:解析javascript中的网址
lxml 配合 html5lib可以很好的解析 html DOM
但对于js的解析 据我所知现在没有什么很成熟的模块能做这个
解析js肯定不是正则能办得到的, 比较现实的方案是
从webkit下手, 但光这一个库就有10+M
(利用webkit自己解析js等解析完之后读取html dom, 什么时候解析完,什么内容需要解析,什么内容不应该解析是使用的难点)
如果你碰到的js代码比较简单
可以自己看看js代码然后使用python模拟js代码得到网址
其中使用webkit是最难的(不是简单显示界面,需要自己hook)
模拟js其次
lxml是最普遍的了
(这个解析一般的html必须配合其他html解析库,自带的那个html解析不是很健壮碰到稍微差点的页面就不能正确解析)
另外html DOM 里面 beautifulsoup 是一个比较老道的使用正则实现解析HTML DOM的库.追问
最近看到有控制整个IE或者firefox的模块
想问下如何修改user-agent 就是浏览器自定义头部信息
没有的话 有其他简单的解决方案吗 换种编程语言也行
要实现的功能 能实现浏览器大部分功能 能自定义useragent
user-agent什么的都是简单 header信息 随便什么语言都能轻易修改
Mechanize
这个模块 perl和python都有
我以前做perl的时候一般就用lwp
python 也就urllib2
一般应用都够了.
urllib2 要添加自定义头部
自己构建就行了
request = urllib2.Request(url)
req.add_header("user-agent":"xxoo")
具体参考官方文档
控制整个IE那应该是内嵌一个IE 不能控制,最多只能让IE打开某个页面后退什么的.
内嵌firefox还是有的
python xpcom
还有webkit 的pythonwebkit
这些内嵌游览器的我从没用过.
模拟游览器到用过几次
python线程用啥模块好?
参考技术A在Python中可使用的多线程模块主要有两个,thread和threading模块。thread模块提供了基本的线程和锁的支持,建议新手不要使用。threading模块允许创建和管理线程,提供了更多的同步原语。
thread模块函数:
start_new_thread(function, args[, kwargs]):启动新的线程以执行function,返回线程标识。
allocate_lock():返回LockType对象。
exit():抛出SystemExit异常,如果没有被捕获,线程静默退出。
LockType类型锁对象的方法:
acquire([waitflag]):无参数,无条件获得锁,如果锁已经被其他线程获取,则等待锁被释放。如果使用整型参数,参数为0,如果锁可获取,则获取且返回True,否则返回False;参数为非0,与无参数相同。
locked():返回锁的状态,如果已经被获取,则返回True,否则返回False。
release():释放锁。只有已经被获取的锁才能被释放,不限于同一个线程。
threading模块提供了更好的线程间的同步机制。threading模块下有如下对象:
Thread
Lock
RLock
Condition
Event
Semaphore
BoundedSemaphore
Timer
threading模块内还有如下的函数:
active_count()
activeCount():返回当前alive的线程数量
Condition():返回新的条件变量对象
current_thread()
currentThread():返回当前线程对象
enumerate():返回当前活动的线程,不包括已经结束和未开始的线程,包括主线程及守护线程。
settrace(func):为所有线程设置一个跟踪函数。
setprofile(func):为所有纯种设置一个profile函数。
更多Python知识请关注Python自学网
以上是关于python 用啥模块处理网页的javascript的主要内容,如果未能解决你的问题,请参考以下文章