爬虫日记(71)：用OCR来对抗字体反爬

Posted 2021-05-19 caimouse

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫日记(71)：用OCR来对抗字体反爬相关的知识，希望对你有一定的参考价值。

在开发爬虫的过程中，经常会遇到一些网站，用浏览器查看是正常的，但是当你去查看html的源码时，就会与显示的不一样，如下面的网站：

这段是在浏览器里查看的，接着来查看一下HTML源码里显示的：

可以看到这一段文字，已经被自定义的字体进行分割，不可能直接得到原文了，它的对应关系如下：

以上是关于爬虫日记(71)：用OCR来对抗字体反爬的主要内容，如果未能解决你的问题，请参考以下文章

大数据反爬日记01

大数据反爬日记01

大数据反爬日记01

爬虫日记(88)：Scrapy的Downloader类

爬虫日记1——百度口碑医学教育网

Python爬虫入门教程 64-100 反爬教科书级别的网站-汽车之家，字体反爬之二