识别网页具有动态内容
Posted
技术标签:
【中文标题】识别网页具有动态内容【英文标题】:Identify a webpage has dynamic content 【发布时间】:2012-02-10 17:23:24 【问题描述】:我用python编写代码,对html、mysql、javascript或其他数据库类型语言知之甚少。
我正在使用 pythons urllib 模块来检索网络源代码,我想知道是否有一种方法可以识别网页是否具有动态内容。我的意思是动态内容,任何自主更改不是源自用户输入的源代码。例如,如果该网页上的广告每 10 分钟更改一次。即使我两次加载页面并比较源代码,它也不会发现页面实际上是动态的。我很想知道我是否可以在源代码中寻找任何“关键字”来识别网页正在使用动态内容。
谢谢
更新:
我不声称对 javascript 有任何了解,但我在一个我知道是动态的页面中发现了以下代码,但通常不会显示它:
document.write('<script language="JavaScript" src="http://ad.doubleclick.net...
document.write
能否成为识别动态页面的好关键字
【问题讨论】:
广告通常是Adobe Flash,即使内容发生变化,它们的URL也是一样的。 如果你定义的“动态”意味着“有脚本”然后在文档中寻找脚本元素...否则,从动态的定义重新开始 我试图通过举例来定义动态。任何暗示自主更改源代码的关键字 您的示例会将任何带有广告的网站归类为“动态”。您的工作定义与大多数 Web 开发人员截然不同。 【参考方案1】:这是一件非常困难的事情。基本上你会寻找 ajax 请求,看看它会把你带到哪里。如果要解析动态内容,则必须使用 javascript 解释器或类似加载类型的浏览器。我看不到其他解决方案。
祝你好运。
【讨论】:
以上是关于识别网页具有动态内容的主要内容,如果未能解决你的问题,请参考以下文章