爬虫学习笔记

Posted 小航哥

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫学习笔记相关的知识,希望对你有一定的参考价值。

一、        
安装python 虚拟环境    (将使用python2/3的项目分开)
    1、安装virtualenvcmd
            cmd命令:pip install virtualenv
    2、因为下载开发包很慢,所以下载开发包的第三方镜像--python豆瓣源(百度)
        安装djangio
            cmd命令:pip install -i https://pypi.douban.com/simple/  django
    3、新建virtualenv
            cmd命令:E:\virtualenv_test>virtualenv scrapytest
                该目录下就会出现scrapytest虚拟环境,里面是python最初的包
            
            E:\virtualenv_test\scrapytest\Scripts>activate.bat
    4、利用Phython3.5新建一个虚拟环境
        启用(scrapypy3) E:\virtualenv_test\scrapytest\Scripts\scrapypy3\Scripts>deactivate.bat
        退出(scrapypy3) E:\virtualenv_test\scrapytest\Scripts\scrapypy3\Scripts>deactivate.bat
    5、安装 virtualenvwrapper(虚拟环境管理器)
            E:\virtualenv_test\scrapytest\Scripts\scrapypy3\Scripts>pip install virtualenvwrapper
        1、配置系统变量 WORKON_HOME=E:\Evns
        2、C:\Users\lenovo>pip install virtualenvwrapper-win
        3、C:\Users\lenovo>workon
            显示E:\Evns下的虚拟环境(一个文件夹)
    6、快速创建虚拟环境
        C:\Users\lenovo>mkvirtualenv py2scrapy
        退出输入deactivate
        进入输入workon py2scrapy
    7、安装request sccrapy
        缺包参考:www.lfd.uci.edu/~gohlke/pythonlibs/
        1\pip request
        2\(py2scrapy) G:\python3.5>pip install -i       https://pypi.douban.com/simple scrapy
            我用的是python3.5 32位
    8、创建一个python2.7的版本
            mkvirtualenv --python=路径+python.exe
            这样就可以在workon目录下建立不同python版本的虚拟环境
        
二、三、
1、unicode与utf-8
    1)unicode把所有的语言统一到一个编码规则里
    2)可变长的编码“utf-8”,把英文变成一个字节,汉字三个字节    
2、文件存储用utf-8,内存存储用unicode
    1)    虽然unicode编码比utf-8占空间,但是在内存处理上,unicode更简单,因为utf-8一会一个字节一会两个字节,不好处理
        从文件读取数据到内存,就是把utf-8转化为unicode编码
        python2 有两种编码格式
        s = "abc" string
        su = u"abc" unicode
        s = "我用PYTHON" 在windows下是gb2312编码/在linux下是utf-8编码
        
    2)    要想使用s.encode(""),s必须为unicode
        s.decode("")--把s转为unicode字符串,参数--需要指明原来是什么编码
        python 字符串在内存是用unicode编码
        windows 字符串编码是“gb2312”
3、python3 把所有的东西视为unicode,
四、
1、创建虚拟环境
    命令:mkvirtualenv article_spider
2、安装scrapy
    命令:pip install -i  https://pypi.douban.com/simple scrapy
        1)报错:error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
        2)解决:(article_spider) C:\Users\lenovo>pip install G:\python3.5\Twisted-17.5.0-cp35-cp35m-win32.whl
        3)参考:http://blog.csdn.net/nima1994/article/details/74931621?locationNum=10&fps=1 (我安装的是32位的)
        4)重新安装
3、手动创建项目,在工作目录下
    命令:C:\Users\lenovo>cd E:\PyCharmWorkspace
    命令:C:\Users\lenovo>e:
    命令:E:\PyCharmWorkspace>workon article_spider
    命令:(article_spider) E:\PyCharmWorkspace>scrapy startproject ArticleSpider(项目名称)
4、pycharm导进来
    1、open
    2、导入虚拟环境
        file-setting-project interpreater-选择你创建的虚拟环境下script-python.exe
    3、创建模板
        命令:(article_spider) E:\PyCharmWorkspace>cd ArticleSpider
        命令:(article_spider) E:\PyCharmWorkspace\ArticleSpider>scrapy genspider jobbole blog.jobbole.com
    4、创建main文件
    5、执行spider命令
        命令:scrapy crawl jobbole
        错误:ImportError: No module named ‘win32api‘
        解决:pip install -i htts://pypi.douban.com/simple pypiwin32
    6、修改seeting.py(必须改)
        ROBOTSTXT_OBEY = False 将true改为false
        若为true会自动过滤掉不符合ROBOTS规则的url

以上是关于爬虫学习笔记的主要内容,如果未能解决你的问题,请参考以下文章

Python学习笔记之爬虫1

python3爬虫学习笔记

Scrapy爬虫学习笔记 - 爬虫基础知识

colly爬虫库学习笔记

colly爬虫库学习笔记

colly爬虫库学习笔记