beautifulsoup 怎样抓取 select 标签里面的 option 的文本

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了beautifulsoup 怎样抓取 select 标签里面的 option 的文本相关的知识,希望对你有一定的参考价值。

参考技术A 1.你要抓取的option等内容,很明显,是标签script内部的内容(content/text)
-》
所以没法用BeautifulSoup当做标签(的属性)去抓取
2.想要当做属性处理
一种办法:
在获得你所说的:
<option
value="0000049">[0000049]ANNA</option>
后,再去把(用html标签括起来)组合成html,然后再用BeautifulSoup去当做html处理
->
就可以获得option这个标签了
->
就可以获得option的string了
3.当然,对于你这样的情况,相对来说,用(你已经用了的)正则,比用bs,效率更高。
4.关于beautifulSoup,可参考:
Python专题教程:BeautifulSoup详解

beautifulsoup库简单抓取网页--获取所有链接例子


简介:

   通过BeautifulSoup 的 find_all方法,找出所有a标签中的href属性中包含http的内容,这就是我们要找的网页的一级链接( 这里不做深度遍历链接) 

   并返回符合上述条件的a标签的href属性的内容,这就是我们要找的某个网页的所带有的一级链接


#!/opt/yrd_soft/bin/python

import re
import urllib2
import requests
import lxml
from bs4 import BeautifulSoup

url = ‘http://www.baidu.com‘

#page=urllib2.urlopen(url)
page=requests.get(url).text
pagesoup=BeautifulSoup(page,‘lxml‘)
for link  in pagesoup.find_all(name=‘a‘,attrs={"href":re.compile(r‘^http:‘)}):
    #print type(link)
    print link.get(‘href‘)


本文出自 “linux与网络那些事” 博客,请务必保留此出处http://khaozi.blog.51cto.com/952782/1793072

以上是关于beautifulsoup 怎样抓取 select 标签里面的 option 的文本的主要内容,如果未能解决你的问题,请参考以下文章

BeautifulSoup抓取百度贴吧

python爬虫:使用urllib.request和BeautifulSoup抓取新浪新闻标题链接和主要内容

beautifulsoup库简单抓取网页--获取所有链接例子

23-python用BeautifulSoup用抓取a标签内所有数据

爬虫初体验:Python+Requests+BeautifulSoup抓取广播剧

抓取需要使用 BeautifulSoup 登录的网站