Python学习笔记之爬虫1

Posted peterzhang1520389703

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python学习笔记之爬虫1相关的知识,希望对你有一定的参考价值。

 爬虫的操作步骤:
技术分享图片

 

爬虫三步走

  • 爬虫第一步:使用requests获得数据:
    1.导入requests
    2.使用requests.get获取网页源码
  • import requests
    r = requests.get(‘https://book.douban.com/subject/1084336/comments/‘).text
    

      

      

  • 爬虫第二步:使用BeautifulSoup4解析数据:
    1.导入bs4
    2.解析网页数据
    3.寻找数据
    4.for循环打印
from bs4 import BeautifulSoup
soup = BeautifulSoup(r,‘lxml‘)
pattern = soup.find_all(‘p‘,‘comment-content‘)
for item in pattern:
print(item.string)

  

  • 爬虫第三步:使用pandas保存数据:
    1.导入pandas
    2.新建list对象
    3.使用to_csv写入
import pandas
comments = []
for item in pattern:
comments.append(item.string)
df = pandas.DataFrame(comments)
df.to_csv(‘comments.csv‘)

   

完整的爬虫

import requests
r = requests.get(‘https://book.douban.com/subject/1084336/comments/‘).text
 
from bs4 import BeautifulSoup
soup = BeautifulSoup(r,‘lxml‘)
pattern = soup.find_all(‘p‘,‘comment-content‘)
for item in pattern:
print(item.string)
 
import pandas
comments = []
for item in pattern:
comments.append(item.string)
df = pandas.DataFrame(comments)
df.to_csv(‘comments.csv‘)

代码运行结果:

技术分享图片

  











以上是关于Python学习笔记之爬虫1的主要内容,如果未能解决你的问题,请参考以下文章

《Python爬虫学习系列教程》学习笔记

学习笔记:python3,代码片段(2017)

python 爬虫基础之urllib

python:网络爬虫的学习笔记

Python学习笔记系列之000:Python简介

转载 《Python爬虫学习系列教程》学习笔记