识别网页具有动态内容

Posted

技术标签:

【中文标题】识别网页具有动态内容【英文标题】:Identify a webpage has dynamic content 【发布时间】:2012-02-10 17:23:24 【问题描述】:

我用python编写代码,对htmlmysqljavascript或其他数据库类型语言知之甚少。

我正在使用 pythons urllib 模块来检索网络源代码,我想知道是否有一种方法可以识别网页是否具有动态内容。我的意思是动态内容,任何自主更改不是源自用户输入的源代码。例如,如果该网页上的广告每 10 分钟更改一次。即使我两次加载页面并比较源代码,它也不会发现页面实际上是动态的。我很想知道我是否可以在源代码中寻找任何“关键字”来识别网页正在使用动态内容。

谢谢

更新:

我不声称对 javascript 有任何了解,但我在一个我知道是动态的页面中发现了以下代码,但通常不会显示它:

document.write('<script language="JavaScript" src="http://ad.doubleclick.net...

document.write 能否成为识别动态页面的好关键字

【问题讨论】:

广告通常是Adobe Flash,即使内容发生变化,它们的URL也是一样的。 如果你定义的“动态”意味着“有脚本”然后在文档中寻找脚本元素...否则,从动态的定义重新开始 我试图通过举例来定义动态。任何暗示自主更改源代码的关键字 您的示例会将任何带有广告的网站归类为“动态”。您的工作定义与大多数 Web 开发人员截然不同。 【参考方案1】:

这是一件非常困难的事情。基本上你会寻找 ajax 请求,看看它会把你带到哪里。如果要解析动态内容,则必须使用 javascript 解释器或类似加载类型的浏览器。我看不到其他解决方案。

祝你好运。

【讨论】:

以上是关于识别网页具有动态内容的主要内容,如果未能解决你的问题,请参考以下文章

网页抓取 - 如何识别网页上的主要内容

如何识别在 iframe 中动态创建的文档内容

java工作复习——使用title属性识别网页的文字内容识别 处理 操作新弹出的浏览器窗口

Flink 和动态模板识别

如何使用 Python 识别抓取网页中的完整句子

虹软人脸识别3.0 - 图像数据结构介绍(Android)