将正则表达式与斜纹一起使用
Posted
技术标签:
【中文标题】将正则表达式与斜纹一起使用【英文标题】:Using Regular Expression with Twill 【发布时间】:2012-07-27 04:42:46 【问题描述】:我目前正在使用 urllib2 和 BeautifulSoup 来打开和解析 html 数据。但是,我遇到了一个在页面呈现后使用 javascript 加载图像的网站的问题(我正在尝试查找页面上某个图像的图像源)。
我认为 Twill 可能是一个解决方案,我正在尝试打开页面并使用带有“find”的正则表达式来返回我正在寻找的 html 字符串。我在让它工作时遇到了一些麻烦,而且似乎找不到任何关于如何的文档或示例。
任何有关如何执行此操作或解决此问题的帮助或建议将不胜感激。
【问题讨论】:
【参考方案1】:斜纹布不适用于 javascript(请参阅 http://twill.idyll.org/browsing.html)
如果你想处理 javascript,请使用 webdriver
【讨论】:
【参考方案2】:我宁愿在页面源代码上使用 CSS 选择器或“真正的”正则表达式。斜纹布是 AFAIK 尚未开发。您是否尝试过使用 CSS 选择器的 BS 或 PyQuery?
【讨论】:
以上是关于将正则表达式与斜纹一起使用的主要内容,如果未能解决你的问题,请参考以下文章
正则表达式:如何将 re.sub 与可变数量的元素一起使用?