爬取CVPR 2018过程中遇到的坑

Posted darkexisted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬取CVPR 2018过程中遇到的坑相关的知识,希望对你有一定的参考价值。

爬取 CVPR 2018 过程中遇到的坑

使用语言及模块

  • 语言: Python 3.6.6
  • 模块: re requests lxml bs4

过程

一开始都挺顺利的,先获取到所有文章的链接再逐个爬取获取内容,
中间有一部分的是用正则进行匹配出想要的内容,写完了就想全部跑一遍试试吧。
爬到一半出错了,看了一下是这篇出问题了。
好吧,那就f12看看什么情况。
技术分享图片
emmmmm....
跟之前的差不多啊...
直接复制下来匹配试试
技术分享图片
。。。都能匹配到啊。。。
技术分享图片
直到....emmmm....看看不print出来的是啥玩意...
技术分享图片
xa0 ??? 大哥你谁啊,怎么跑进来了呢???

xa0

xa0是什么?
技术分享图片

最后

最后修改了一下正则...
嗯..解决了
















以上是关于爬取CVPR 2018过程中遇到的坑的主要内容,如果未能解决你的问题,请参考以下文章

python3 requests爬取gbk时候遇到编码的坑

爬虫遇到的坑🕳

Python scrapy 常见问题及解决 遇到的坑

01_Python爬蟲入門遇到的坑__反爬蟲策略01

01_Python爬蟲入門遇到的坑__反爬蟲策略01

python print 方法 打印 unicode 遇到的坑