python 爬虫

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 爬虫相关的知识,希望对你有一定的参考价值。

网页访问常用到库:

requests(网页请求)

BeautifulSoup(从网页抓取数据)

selenium(模拟浏览器行为)

PhantomJS(虚拟浏览器)

import requests
from bs4 import BeautifulSoup
from selenium import webdriver

res = requests.get(url)
res.encoding = utf-8
soup = BeautifulSoup(res.text, html.parser)

 

import requests
from bs4 import BeautifulSoup
from selenium import webdriver

res = requests.get(url)
res.encoding = ‘utf-8‘
soup = BeautifulSoup(res.text, ‘html.parser‘)

定时爬取数据:

import time

time.sleep(10)

断线重连解决方法:

引入新函数reloading()

def reloading()
  try:

  except:
    reloading()

  





以上是关于python 爬虫的主要内容,如果未能解决你的问题,请参考以下文章

Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段

python爬虫学习笔记-M3U8流视频数据爬虫

爬虫遇到头疼的验证码?Python实战讲解弹窗处理和验证码识别

python网络爬虫

Python 利用爬虫爬取网页内容 (div节点的疑惑)

为啥我的python爬虫界面与博主不一样