python 爬虫之BeautifulSoup 库的基本使用

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 爬虫之BeautifulSoup 库的基本使用相关的知识,希望对你有一定的参考价值。

import urllib2
url = ‘http://www.someserver.com/cgi-bin/register.cgi
values = {}
values[‘name‘] = ‘Michael Foord‘
values[‘location‘] = ‘Northampton‘
values[‘language‘] = ‘Python‘

data = urllib.urlencode(values) #数据进行编码生成get方式的请求字段
req = urllib2.Request(url,data) #作为data参数传递到Request对象中 POST方式访问
response = urllib2.urlopen(req) 返回一个类文件对象
the_page = response.read()
soup = BeautifulSoup(the_page,"html.parser") 通过类文件the_page 创建beautifulsoup对象,soup的内容就是页面的源码内容
构造好BeautifulSoup对象后,借助find()和find_all()这两个函数,可以通过标签的不同属性轻松地把繁多的html内容过滤为你所想要的
url_name = line.get(‘href‘) 获取a标签的url信息
Title = line.get_text().strip() 获取a标签的文本内容

以上是关于python 爬虫之BeautifulSoup 库的基本使用的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫练习之requests+BeautifulSoup库,提取影片信息,并保存至excel

python爬虫练习之requests+BeautifulSoup库,提取影片信息,并保存至excel

python爬虫之解析库Beautiful Soup

python爬虫之selenium+BeautifulSoup库,爬取搜索内容并保存excel

python爬虫之selenium+BeautifulSoup库,爬取搜索内容并保存excel

python爬虫之BeautifulSoup