网络爬虫时是怎么自动解析html

Posted 2023-03-25

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了网络爬虫时是怎么自动解析html相关的知识，希望对你有一定的参考价值。

网络爬虫提取，基本上也是依靠正则表达式进行提取。至于爬网页时候的正则表达式怎么写,需要你根据不同的页面书写不同的规则。参考技术A 简要说一下自己的思路
1，有两个代理可用（618IP代理，618爬虫代理服务器），所以爬的时候随机选取一个
2，复制安装下载后，随机选一个
3，爬一次随机睡眠3～6s 这样IP池有百万，可以无限一直爬

以上是关于网络爬虫时是怎么自动解析html的主要内容，如果未能解决你的问题，请参考以下文章

爬虫学习 05.Python网络爬虫之三种数据解析方式