Beautifulsoup分解
Posted 窃语
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Beautifulsoup分解相关的知识,希望对你有一定的参考价值。
from urllib.request import Request, ProxyHandler from urllib.request import build_opener from bs4 import BeautifulSoup import redis urlfront = "http://www.xicidaili.com" url = "http://www.xicidaili.com/nn/1" r = redis.Redis(host=‘127.0.0.1‘, port=6379,db=0) # def spider_IP(url): # 获取整个页面 def get_allcode(url): # 设置代理IP proxy = {‘https‘: ‘110.73.0.45:8123‘} proxy_support = ProxyHandler(proxy); opener = build_opener(proxy_support) # 设置访问http协议头,模拟浏览器 opener.addheaders = [ (‘User-agent‘, ‘Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6‘)] r = opener.open(url) html = r.read().decode("UTF-8"); # print(html) return str(html) # 根据URl用beautifulsoup提取,可以写方法 def find_ip(s): soup = BeautifulSoup(s, ‘html.parser‘); aList = soup.find_all(name="tr",class_="odd") for items in aList: link = items.find_all("td") print("%s:%s" %(link[1].get_text(),link[2].get_text())) find_ip(get_allcode(url))
以上是关于Beautifulsoup分解的主要内容,如果未能解决你的问题,请参考以下文章
如果标签存在,beautifulsoup 从片段中获取最后一个标签
Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段