如何使用 beautifulsoup 从(可能)损坏的 html 中过滤掉 .mp3 链接? (JSON)

Posted

技术标签:

【中文标题】如何使用 beautifulsoup 从(可能)损坏的 html 中过滤掉 .mp3 链接? (JSON)【英文标题】:How do I filter out .mp3 links using beautifulsoup from (possibly) broken html? (JSON) 【发布时间】:2018-01-04 13:07:12 【问题描述】:

我想构建一个小工具来帮助家庭成员从网站上下载播客。

为了获得指向文件的链接,我首先需要将它们过滤掉(使用 bs4 + python3)。 这些文件在这个网站上(爱沙尼亚语):Download Page "Laadi alla" = "Download"

到目前为止,我的代码如下: (大部分来自***上的示例)

from bs4 import BeautifulSoup

import urllib.request
import re

url = urllib.request.urlopen("http://vikerraadio.err.ee/listing/mystiline_venemaa#?page=1&pagesize=902&phrase=&from=&to=&path=mystiline_venemaa&showAll")
content = url.read()
soup = BeautifulSoup(content, "lxml")

links = [a['href'] for a in soup.find_all('a',href=re.compile('http.*\.mp3'))]
print ("Links:", links)

不幸的是,我总是只得到两个结果。 输出:

Links: ['http://heli.err.ee/helid/exp/ERR_raadiouudised.mp3', 'http://heli.err.ee/helid/exp/ERR_raadiouudised.mp3']

这些不是我想要的。 我最好的猜测是该页面的 html 和 bs4 有点损坏/解析器无法找到其他任何东西。 我尝试了不同的解析器,结果没有任何变化。 也许我也做错了什么。

例如,我的目标是将各个链接放在列表中。 我稍后会自己过滤掉所有重复/不需要的条目。

简单说明一下,以防万一:这是一个公共广播,所有内容都是合法托管的。

我的新代码是:

for link in soup.find_all('d2p1:DownloadUrl'): 
    print(link.text) 

我很不确定标签是否被正确选择。

这个问题中列出的示例都没有真正起作用。有关工作代码,请参阅下面的答案。

【问题讨论】:

页面是使用 javascript 呈现的,请参阅我对***.com/questions/45259232/… 的回答,了解如何抓取使用 JavaScript 呈现的网页 【参考方案1】:

请注意,页面中的列表是通过API 连接的。因此,我建议您请求具有 200 个 .mp3 链接的 API 链接,而不是请求 HTML 页面。

请按照以下步骤操作:

    请求 API 链接,而不是 HTML 页面链接 检查响应,它是 JSON。因此,提取您需要的字段 帮助您的家人,无时无刻 :)

解决方案

import requests, json
from bs4 import BeautifulSoup

myurl = 'http://vikerraadio.err.ee/api/listing/bypath?path=mystiline_venemaa&page=1&pagesize=200&phrase=&from=&to=&showAll=false'
r = requests.get(myurl)
abc = json.loads(r.text)

all_mp3 = 
for lstngs in abc['ListItems']:
    for asd in lstngs['Podcasts']:
        all_mp3[asd['DownloadUrl']] = lstngs['Header']

all_mp3

all_mp3 是您所需要的。 all_mp3 是一个字典,其中 download urls 作为键,mp3 名称 作为值.

【讨论】:

我已经尽力了,但我就是不知道该怎么做。我的新代码是:for link in soup.find_all('d2p1:DownloadUrl'): print(link.text) 我很不确定标签是否选择正确。 @Manuauto:响应是 JSON(键值对),这意味着您必须使用 Key 提取需求(值)。我鼓励你尝试工作。我相信您已经尝试并发布了您需要的解决方案。请检查上面的更新回复 谢谢。这段代码工作得很好。我自己无法对其进行编程。现在我将向它添加更多功能,知道如何扩展它。最重要的是,首先如何获取数据。

以上是关于如何使用 beautifulsoup 从(可能)损坏的 html 中过滤掉 .mp3 链接? (JSON)的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 BeautifulSoup 从 HTML 中去除评论标签?

如何使用 BeautifulSoup 从网站中获取所有标题?

如何使用 beautifulSoup 从网站中提取和下载所有图像?

如何使用Python中的BeautifulSoup从HTML链接解析嵌套表?

我如何从 BeautifulSoup 中获取 CData

如何使用 BeautifulSoup 从 Metacritic 网站中提取电影类型