别人的Python爬虫代码能读懂,自己却还是不能自由去爬?社群日报
Posted 梦想橡皮擦
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了别人的Python爬虫代码能读懂,自己却还是不能自由去爬?社群日报相关的知识,希望对你有一定的参考价值。
文章目录
- 1. 学 Python 的书籍,推荐一本
- 2. 从读懂代码,到自由去爬,中间隔着一层“熟练度”。
- 3. 老生常谈,Python爬虫到底违不违法
- 4. 异常:AttributeError:module 'execjs' has no attribute 'compline'
- 5. Python中哪个函数能直接显示某一个日期是那一年中的第几天?
- 6. 一个类的属性继承另一个类的属性,这种写法叫什么?
- 7. scrapy框架相关问题
- 8. 爬虫学到啥程度算出师
- 9. 跑个数据,要爬取100页的数据,突然报错,然后再行就一个都下载不下来,这个是被封IP的现象吗?
- 10. 爬虫120例的第3例猫咪图,增加了反爬
- 11. 爬虫100例,正在复盘更新中,已经更新了50+案例啦。
1. 学 Python 的书籍,推荐一本
入门阶段一般推荐《Python从入门到实践》+《Python完全学习手册》即可,如果还有疑问,可以加入 Python 事业部(78技术人社群) 参与攻读计划。
2. 从读懂代码,到自由去爬,中间隔着一层“熟练度”。
程序员的能力中有一项非常重要,它叫做逻辑能力,这个能力一般会衍生为我们一直说的项目经验,一个成熟的程序员在实战中摔打出来的经验是很重要的,这也是为什么只学习语法无法彻底掌握编程的原因。
为了练习实战经验,Python事业部(78技术人社区)设计了一个《企业项目实战》打卡任务,可以重度参与进来。
《C榜追踪器》第8天,搭建 django 框架,调用 sqlite 文件
3. 老生常谈,Python爬虫到底违不违法
下述内容不要爬:
- 付费资源不要爬
- 个人隐私不要爬
- 逆向,解密不要干
- 姓名,手机,身份证通通不要爬
4. 异常:AttributeError:module ‘execjs’ has no attribute ‘compline’
群友出现如下异常。
execjs
是一个执行javascript代码的库,该库出现这个问题,可以查看一下是否在前文出现了 execjs
变量,并将其指向了其它内容。
5. Python中哪个函数能直接显示某一个日期是那一年中的第几天?
具体代码如下所示:
import time
localtime = time.localtime(time.time())
print(localtime)
print(localtime.tm_year)
print(localtime.tm_mon)
print(localtime.tm_mday)
print(localtime.tm_yday)
6. 一个类的属性继承另一个类的属性,这种写法叫什么?
7. scrapy框架相关问题
scrapy框架在第一个中间件的 process_request
中添加请求头后,为什么是返回 None
?而不是返回添加请求头的新 request
?
接着传给下一个中间件的不就是没有请求头的 request
吗?这个新的怎么传给下载器?
这个问题可以在《Python爬虫120例》的 纯纯的爬虫知识,python scrapy 下载中间件知多少,找到答案。
8. 爬虫学到啥程度算出师
爬虫出师:
- 学会Python基础语法
- 掌握 requests、bs4、lxml、pyquery 等基础框架
- 掌握 Scrapy 类大型框架
- 掌握多线程,多进程,并发等技术
- 掌握集群,分布式等技术
- 常见的反爬手段要清楚
9. 跑个数据,要爬取100页的数据,突然报错,然后再行就一个都下载不下来,这个是被封IP的现象吗?
不是,如群友所说,大概率是数据异常值问题。
10. 爬虫120例的第3例猫咪图,增加了反爬
11. 爬虫100例,正在复盘更新中,已经更新了50+案例啦。
有群友询问《爬虫100例》其中的案例过期问题,这个已经在更新中啦,具体参见图片后内容。
复盘系列文章:
以上是关于别人的Python爬虫代码能读懂,自己却还是不能自由去爬?社群日报的主要内容,如果未能解决你的问题,请参考以下文章