为啥Python写的爬虫有时候抓取的数据是乱
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了为啥Python写的爬虫有时候抓取的数据是乱相关的知识,希望对你有一定的参考价值。
参考技术A 1. 使用chrome浏览器,打开示例页面2. 在帖子标题处,右键选择"审查元素",可以看到标题的源代码
3. 进行简单的分析,我们需要获取的是title后面的内容,根据页面实际内容,我们编写相应的正则表达式:
title_re=re.compile('<h1 class="core_title_txt " title="(.*?)"')
4. 同理,我们对帖子内容进行"审查元素",得到内容的源代码
5. 编写相应的正则表达式如下:
content_re=re.compile('<div id="post_content_\d*" class="d_post_content j_d_post_content ">(.*?)</div>')
6. 这样通过urllib2打开页面后,使用上述的正则表达式进行匹配,再对标题和文本内容进行相应的处理即可
以上是关于为啥Python写的爬虫有时候抓取的数据是乱的主要内容,如果未能解决你的问题,请参考以下文章