Python中BeautifulSoup中对HTML标签的提取

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python中BeautifulSoup中对HTML标签的提取相关的知识,希望对你有一定的参考价值。

一开始使用了beautifulSoup的get_text()进行字符串的提取,后来一直提取失败,并提示错误为TypeError: ‘NoneType‘ object is not callable

返回了none类型,可能是对Span标签内容的提取产生错误,于是采用name.string进行字符的提取,成功。

# -*- coding: utf-8 -*-
"""
Created on Wed Jan 11 17:21:54 2017

@author: PE-Monitor
"""
import urllib2
import BeautifulSoup
import sys

reload(sys)
sys.setdefaultencoding(utf-8)
responce = urllib2.urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
html =BeautifulSoup.BeautifulSoup(responce)
nameList=html.findAll(span,{class:{green}})
for name in nameList:
     print(name.string)
    
    

 

以上是关于Python中BeautifulSoup中对HTML标签的提取的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫---beautifulsoup

Python 爬虫 BeautifulSoup4 库的使用

TypeError:'ResultSet'对象不可调用 - 带有BeautifulSoup的Python

Beautifulsoup

Lxml

都说python是万能的,这次用python看溧阳摄影圈,真不错