爬虫的基本知识

Posted 2021-03-02 ahmy

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫的基本知识相关的知识，希望对你有一定的参考价值。

# 聚焦爬虫的设计思路:
1.确定url, 发起请求, 获取响应---> 抓包, requests, urllib, aiohttp, scrapy
2.数据解析 --> 目标数据, xpath, re正则, bs4, pyquery
3.数据持久化 --> 文件系统, 数据库 --> mysql, MongoDB, redis--> 介绍, 数据类型, 常用操作:增删改查, 主从复制, 集群的搭建

# 聚焦爬虫
针对某一领域抓取特定数据的爬虫程序(主题爬虫, 垂直领域爬取)
某一领域: 电商; 金融量化分析--> 股票网站, 金融咨询类
特定数据: 响应数据中的一本分, 目标数据 ---> 数据解析来实现的

# 通用爬虫: 爬虫程序. 爬取数据为搜索引擎提供检索服务
# 通用爬虫架构: 如下图
# 使搜索引擎获取到你的网站:
1).主动提交: https://ziyuan.baidu.com/linksubmit/url
2).设置友情链接
3).搜索引擎与DNS服务商合作
# SEO排名
1).花钱--->百度竞价
2).pagerank(流量点击率)
# 缺点: 抓取的内容多, 但是多数无用; 不能精准解析数据

# robots协议:
1.作用: 约定了网站哪些页面不允许哪些爬虫爬取
2.代表除了以上规定的爬虫, 其他任何和爬虫不允许爬取我任何页面(包括聚焦爬虫)
User-agent: *
Disallow: /

以上是关于爬虫的基本知识的主要内容，如果未能解决你的问题，请参考以下文章

python应用之爬虫实战1 爬虫基本原理