美丽的汤和提取价值

Posted

技术标签:

【中文标题】美丽的汤和提取价值【英文标题】:Beautiful soup and extracting values 【发布时间】:2015-05-08 05:01:53 【问题描述】:

如果您能给我一些指导,告诉我如何在使用 beautifulsoup 时获取下面的出生日期“1723 年 6 月 16 日”,我将不胜感激。现在使用我的代码,我设法获取了您在下面的结果中看到的值,但是我只需要获取 1723 年 6 月 16 日的值。有什么建议吗?

我的代码:

birth = soup.find("table","class":"infobox")

test = birth.find(text='Born')

next_cell = test.find_parent('th').find_next_sibling('td').get_text()

print next_cell 

结果:

16 June 1723 NS (5 June 1723 OS)Kirkcaldy, Scotland,Great Britain

【问题讨论】:

您的数据可能更容易从td 标记中的子标记中提取。是否可以显示该表格的 html 出生 出生 1723 年 6 月 16 日 NS 【参考方案1】:

添加这个而不是最后一个打印语句

print ' '.join(str(next_cell).split()[:3])

【讨论】:

以上是关于美丽的汤和提取价值的主要内容,如果未能解决你的问题,请参考以下文章

美丽的汤和桌子刮 - lxml 与 html 解析器

美丽的汤和uTidy

美丽的汤 - 提取信息

如何使用美丽的汤从脚本标签中提取 json?

提取两个不同标签之间的文本 美丽的汤

使用美丽的汤从标签中提取“href”