爬虫学习笔记
Posted 小航哥
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫学习笔记相关的知识,希望对你有一定的参考价值。
一、
安装python 虚拟环境 (将使用python2/3的项目分开)
1、安装virtualenvcmd
cmd命令:pip install virtualenv
2、因为下载开发包很慢,所以下载开发包的第三方镜像--python豆瓣源(百度)
安装djangio
cmd命令:pip install -i https://pypi.douban.com/simple/ django
3、新建virtualenv
cmd命令:E:\virtualenv_test>virtualenv scrapytest
该目录下就会出现scrapytest虚拟环境,里面是python最初的包
E:\virtualenv_test\scrapytest\Scripts>activate.bat
4、利用Phython3.5新建一个虚拟环境
启用(scrapypy3) E:\virtualenv_test\scrapytest\Scripts\scrapypy3\Scripts>deactivate.bat
退出(scrapypy3) E:\virtualenv_test\scrapytest\Scripts\scrapypy3\Scripts>deactivate.bat
5、安装 virtualenvwrapper(虚拟环境管理器)
E:\virtualenv_test\scrapytest\Scripts\scrapypy3\Scripts>pip install virtualenvwrapper
1、配置系统变量 WORKON_HOME=E:\Evns
2、C:\Users\lenovo>pip install virtualenvwrapper-win
3、C:\Users\lenovo>workon
显示E:\Evns下的虚拟环境(一个文件夹)
6、快速创建虚拟环境
C:\Users\lenovo>mkvirtualenv py2scrapy
退出输入deactivate
进入输入workon py2scrapy
7、安装request sccrapy
缺包参考:www.lfd.uci.edu/~gohlke/pythonlibs/
1\pip request
2\(py2scrapy) G:\python3.5>pip install -i https://pypi.douban.com/simple scrapy
我用的是python3.5 32位
8、创建一个python2.7的版本
mkvirtualenv --python=路径+python.exe
这样就可以在workon目录下建立不同python版本的虚拟环境
二、三、
1、unicode与utf-8
1)unicode把所有的语言统一到一个编码规则里
2)可变长的编码“utf-8”,把英文变成一个字节,汉字三个字节
2、文件存储用utf-8,内存存储用unicode
1) 虽然unicode编码比utf-8占空间,但是在内存处理上,unicode更简单,因为utf-8一会一个字节一会两个字节,不好处理
从文件读取数据到内存,就是把utf-8转化为unicode编码
python2 有两种编码格式
s = "abc" string
su = u"abc" unicode
s = "我用PYTHON" 在windows下是gb2312编码/在linux下是utf-8编码
2) 要想使用s.encode(""),s必须为unicode
s.decode("")--把s转为unicode字符串,参数--需要指明原来是什么编码
python 字符串在内存是用unicode编码
windows 字符串编码是“gb2312”
3、python3 把所有的东西视为unicode,
四、
1、创建虚拟环境
命令:mkvirtualenv article_spider
2、安装scrapy
命令:pip install -i https://pypi.douban.com/simple scrapy
1)报错:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
2)解决:(article_spider) C:\Users\lenovo>pip install G:\python3.5\Twisted-17.5.0-cp35-cp35m-win32.whl
3)参考:http://blog.csdn.net/nima1994/article/details/74931621?locationNum=10&fps=1 (我安装的是32位的)
4)重新安装
3、手动创建项目,在工作目录下
命令:C:\Users\lenovo>cd E:\PyCharmWorkspace
命令:C:\Users\lenovo>e:
命令:E:\PyCharmWorkspace>workon article_spider
命令:(article_spider) E:\PyCharmWorkspace>scrapy startproject ArticleSpider(项目名称)
4、pycharm导进来
1、open
2、导入虚拟环境
file-setting-project interpreater-选择你创建的虚拟环境下script-python.exe
3、创建模板
命令:(article_spider) E:\PyCharmWorkspace>cd ArticleSpider
命令:(article_spider) E:\PyCharmWorkspace\ArticleSpider>scrapy genspider jobbole blog.jobbole.com
4、创建main文件
5、执行spider命令
命令:scrapy crawl jobbole
错误:ImportError: No module named ‘win32api‘
解决:pip install -i htts://pypi.douban.com/simple pypiwin32
6、修改seeting.py(必须改)
ROBOTSTXT_OBEY = False 将true改为false
若为true会自动过滤掉不符合ROBOTS规则的url
以上是关于爬虫学习笔记的主要内容,如果未能解决你的问题,请参考以下文章