使用 Beautiful Soup 在 python 中解析网页
Posted
技术标签:
【中文标题】使用 Beautiful Soup 在 python 中解析网页【英文标题】:Parsing web page in python using Beautiful Soup 【发布时间】:2012-06-29 09:08:59 【问题描述】:我在从网站获取数据时遇到了一些麻烦。网站源码在这里:
view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO
有这样的:
INFORMACJE O FILMIE
Tytuł.................................................. .....: La mer à boireOcena ..................................... .....: IMDB - 6.3/10 (24)Produkcja ...................... ......: FrancjaGatunek...................................... .: DramatCzas 特鲁瓦尼亚…………………………………………………………………………………………………… 98 min.Premiera.................................................: 22.02.2012 - ŚwiatReżyseria.......................................: Jacques MaillotScenariosz...... ....................................: 皮埃尔·乔森,雅克·马洛阿克托兹...... ..................................:丹尼尔·奥特伊、莫德·怀勒、扬·特雷古埃、 阿兰·贝格尔
我想从这个网站获取数据以获得一个 Python 字符串列表:
[[Tytuł, "La mer à boire"]
[Ocena, "IMDB - 6.3/10 (24)"]
[Produkcja, Francja]
[Gatunek, Dramat]
[Czas trwania, 98 min.]
[Premiera, "22.02.2012 - Świat"]
[Reżyseria, "Jacques Maillot"]
[Scenariusz, "Pierre Chosson, Jacques Maillot"]
[Aktorzy, "Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel"]]
我使用 BeautifulSoup 编写了一些代码,但我不能再进一步了,我只是不知道从网站源代码中获取什么以及如何转换为字符串... 请帮忙!
我的代码:
# -*- coding: utf-8 -*-
#!/usr/bin/env python
import urllib2
from bs4 import BeautifulSoup
try :
web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
soup = BeautifulSoup(web_page)
c = soup.find('span', 'class':'vi').contents
print(c)
except urllib2.HTTPError :
print("HTTPERROR!")
except urllib2.URLError :
print("URLERROR!")
【问题讨论】:
html 是结构化的 - 如果您查看页面的源代码,您会注意到模式(查找类/或 div 后面的 h2 等...),然后尝试工作找出您需要什么逻辑来提取数据,如果您在编写代码时仍有问题,有人将能够提供帮助 好点:)我是这样写的:||c = soup.find('span', 'class':'vi').contents||但它只找到第一个“跨度”元素,但其余元素呢?如何将它们取出并转换为字符串值? 看看soup.findAll
【参考方案1】:
使用 BeautifulSoup 的秘诀是找到 HTML 文档的隐藏模式。例如,你的循环
for ul in soup.findAll('p') :
print(ul)
方向正确,但它会返回所有段落,而不仅仅是您要查找的段落。但是,您要查找的段落具有类i
的有用属性。在这些段落中,您可以找到两个跨度,一个具有 i
类,另一个具有 vi
类。我们很幸运,因为这些跨度包含您要查找的数据:
<p class="i">
<span class="i">Tytuł............................................</span>
<span class="vi">: La mer à boire</span>
</p>
所以,首先获取给定类的所有段落:
>>> ps = soup.findAll('p', 'class': 'i')
>>> ps
[<p class="i"><span class="i">Tytuł... <LOTS OF STUFF> ...pan></p>]
现在,使用list comprehensions,我们可以生成一个对列表,其中每对包含段落中的第一个和第二个跨度:
>>> spans = [(p.find('span', 'class': 'i'), p.find('span', 'class': 'vi')) for p in ps]
>>> spans
[(<span class="i">Tyt... ...</span>, <span class="vi">: La mer à boire</span>),
(<span class="i">Ocena... ...</span>, <span class="vi">: IMDB - 6.3/10 (24)</span>),
(<span class="i">Produkcja.. ...</span>, <span class="vi">: Francja</span>),
# and so on
]
现在我们有了 span,我们可以从中获取文本:
>>> texts = [(span_i.text, span_vi.text) for span_i, span_vi in spans]
>>> texts
[(u'Tytu\u0142............................................', u': La mer \xe0 boire'),
(u'Ocena.............................................', u': IMDB - 6.3/10 (24)'),
(u'Produkcja.........................................', u': Francja'),
# and so on
]
那些文字仍然不好,但很容易纠正它们。要删除第一个中的点,我们可以使用rstrip()
:
>>> u'Produkcja.........................................'.rstrip('.')
u'Produkcja'
:
字符串可以用lstrip()
删除:
>>> u': Francja'.lstrip(': ')
u'Francja'
要将其应用于所有内容,我们只需要另一个列表推导:
>>> result = [(text_i.rstrip('.'), text_vi.replace(': ', '')) for text_i, text_vi in texts]
>>> result
[(u'Tytu\u0142', u'La mer \xe0 boire'),
(u'Ocena', u'IMDB - 6.3/10 (24)'),
(u'Produkcja', u'Francja'),
(u'Gatunek', u'Dramat'),
(u'Czas trwania', u'98 min.'),
(u'Premiera', u'22.02.2012 - \u015awiat'),
(u'Re\u017cyseria', u'Jacques Maillot'),
(u'Scenariusz', u'Pierre Chosson, Jacques Maillot'),
(u'Aktorzy', u'Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel'),
(u'Wi\u0119cej na', u':'),
(u'Trailer', u':Obejrzyj zwiastun')]
就是这样。我希望这个循序渐进的例子能让你更清楚地使用 BeautifulSoup。
【讨论】:
天哪,非常感谢您的解释:)我会做更多的练习。我想,问题解决了。谢谢大家:)【参考方案2】:这将为您提供您想要的列表,您必须编写一些代码来摆脱尾随的 '....' 并转换字符串。
import urllib2
from bs4 import BeautifulSoup
try :
web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
soup = BeautifulSoup(web_page)
LIST = []
for p in soup.findAll('p'):
s = p.find('span', "class" : 'i' )
t = p.find('span', "class" : 'vi' )
if s and t:
p_list = [s.string,t.string]
LIST.append(p_list)
除了 urllib2.HTTPError : 打印(“HTTP错误!”) 除了 urllib2.URLError : print("URLERROR!")
【讨论】:
以上是关于使用 Beautiful Soup 在 python 中解析网页的主要内容,如果未能解决你的问题,请参考以下文章
python 之beautiful soup 4 warning
使用 Beautiful Soup 在 python 中解析网页