《C# 爬虫 破境之道》:第一境 爬虫原理 — 第一节:整体思路
Posted mikecheers
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《C# 爬虫 破境之道》:第一境 爬虫原理 — 第一节:整体思路相关的知识,希望对你有一定的参考价值。
在构建本章节内容的时候,笔者也在想一个问题,究竟什么样的采集器框架,才能算得上是一个“全能”的呢?就我自己以往项目经历而言,可以归纳以下几个大的分类:
- 根据通讯协议:HTTP的、HTTPS的、TCP的、UDP的;
- 根据数据类型:纯文本的、json的、压缩包的、图片的、视频的;
- 根据更新周期:不定期更新的、定期更新的、增量更新的;
- 根据数据来源:单一数据源、多重数据源、多重数据源混合;
- 根据采集点分布:单机的,集群的;
- 根据反爬虫策略:控制频率的,使用代理的,使用特定UA的;
- 根据配置:可配置的,不可配置的;
以上的分类,也有可能不够全面,不过应该可以涵盖主流数据采集的分类了。
为了方便阐述一个爬虫的工作原理,我们从上面找到一条最简单路径,来进行阐述(偷奸耍滑?非也,大道化简,万变不离其宗:)
OK,一个小目标,单机、单一数据源、定期更新、纯文本、HTTP的爬虫,来一只。
在第一境的后面各节中,我们就来逐步实现这个小目标,同时,也来探究一下其中的原理。只有掌握了这些,才能通过继续扩展,衍生出强大的爬虫:)
以上是关于《C# 爬虫 破境之道》:第一境 爬虫原理 — 第一节:整体思路的主要内容,如果未能解决你的问题,请参考以下文章
《C# 爬虫 破境之道》:第一境 爬虫原理 — 第一节:整体思路
《C# 爬虫 破境之道》:第一境 爬虫原理 — 第五节:数据流处理的那些事儿
《C# GDI+ 破境之道》:第一境 GDI+基础 —— 第三节:画圆形