为啥Python写的爬虫有时候抓取的数据是乱

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了为啥Python写的爬虫有时候抓取的数据是乱相关的知识,希望对你有一定的参考价值。

参考技术A 1. 使用chrome浏览器,打开示例页面
2. 在帖子标题处,右键选择"审查元素",可以看到标题的源代码

3. 进行简单的分析,我们需要获取的是title后面的内容,根据页面实际内容,我们编写相应的正则表达式:
title_re=re.compile('<h1 class="core_title_txt " title="(.*?)"')
4. 同理,我们对帖子内容进行"审查元素",得到内容的源代码

5. 编写相应的正则表达式如下:
content_re=re.compile('<div id="post_content_\d*" class="d_post_content j_d_post_content ">(.*?)</div>')
6. 这样通过urllib2打开页面后,使用上述的正则表达式进行匹配,再对标题和文本内容进行相应的处理即可

以上是关于为啥Python写的爬虫有时候抓取的数据是乱的主要内容,如果未能解决你的问题,请参考以下文章

为啥都说爬虫PYTHON好

Python为啥会被叫爬虫?

python爬虫抓取信息的问题

[Python爬虫] 之三:Selenium 调用IEDriverServer 抓取数据

python爬虫抓取到的数据用网页打开时是乱码,怎么解决

使用selenium爬虫抓取数据