如何在Python中抓取时同时打印段落和标题?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在Python中抓取时同时打印段落和标题?相关的知识,希望对你有一定的参考价值。

我是python的初学者。我目前正在使用Beautifulsoup来抓一个网站。

str='' #my_url
source = urllib.request.urlopen(str);
soup = bs.BeautifulSoup(source,'lxml');
match=soup.find('article',class_='xyz');
for paragraph in match.find_all('p'):
    str+=paragraph.text+"
"

我的标签结构 -

<article class="xyz" >
<h4>dr</h4>
<p>efkl</p>
<h4>dr</h4>
<p>efkl</p>
<h4>dr</h4>
<p>efkl</p>
<h4>dr</h4>
<p>efkl</p>         
</article>

我得到这样的输出(因为我能够提取段落) -

 efkl
 efkl
 efkl
 efkl

我想要的输出(我想要标题和段落) -

 dr
 efkl
 dr
 efkl
 dr
 efkl
 dr
 efkl     

我希望我的输出还包含标题和段落。如何修改代码,使其包含段落之前的标题(就像在原始HTML中一样)。

答案

你可以用不同的方法剥掉同一个苹果来达到目的。以下是其中一些:

使用.find_next()

from bs4 import BeautifulSoup

content="""
<article class="xyz" >
<h4>dr</h4>
<p>efkl</p>
<h4>dr</h4>
<p>efkl</p>
<h4>dr</h4>
<p>efkl</p>
<h4>dr</h4>
<p>efkl</p>         
</article>
"""
soup = BeautifulSoup(content,"lxml")

for items in soup.find_all(class_="xyz"):
    data = '
'.join(['
'.join([item.text,item.find_next("p").text]) for item in items.find_all("h4")])
    print(data)

使用.find_previous_sibling()

for items in soup.find_all(class_="xyz"):
    data = '
'.join(['
'.join([item.find_previous_sibling("h4").text,item.text]) for item in items.find_all("p")])
    print(data)

常用方法:列表中使用的多个标签:

for items in soup.find_all(class_="xyz"):
    data = '
'.join([item.text for item in items.find_all(["h4","p"])])
    print(data)

所有这三种方法都产生相同的结果:

dr
efkl
dr
efkl
dr
efkl
dr
efkl

以上是关于如何在Python中抓取时同时打印段落和标题?的主要内容,如果未能解决你的问题,请参考以下文章

关于网页数据抓取HXR,python写法,这个post的data要如何写?

python打印表格式数据,留出正确的空格和段落星号或注释

python: 带有 BeautifulSoup 的 Google 搜索刮板

在 Python 中使用 Selenium 导航并使用 BeautifulSoup 进行抓取

在 Python 中抓取网站(Futbin)时如何更改平台?

我如何在动画中显示所有带有大量文本的段落?