爬虫日记(71):用OCR来对抗字体反爬

Posted caimouse

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫日记(71):用OCR来对抗字体反爬相关的知识,希望对你有一定的参考价值。

在开发爬虫的过程中,经常会遇到一些网站,用浏览器查看是正常的,但是当你去查看html的源码时,就会与显示的不一样,如下面的网站:

这段是在浏览器里查看的,接着来查看一下HTML源码里显示的:

可以看到这一段文字,已经被自定义的字体进行分割,不可能直接得到原文了,它的对应关系如下:

以上是关于爬虫日记(71):用OCR来对抗字体反爬的主要内容,如果未能解决你的问题,请参考以下文章

大数据反爬日记01

大数据反爬日记01

大数据反爬日记01

爬虫日记(88):Scrapy的Downloader类

爬虫日记1——百度口碑医学教育网

Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家,字体反爬之二