有没有更简单的方法来抓取 br 标签?

Posted

技术标签:

【中文标题】有没有更简单的方法来抓取 br 标签?【英文标题】:Is there an easier way to webscrape br tags? 【发布时间】:2020-10-26 02:38:52 【问题描述】:

我一直在寻找正确提取地址数据的方法。

这是我的python脚本摘录:

addr = soup.find('div', class_='col-md-4')<br/>
print(addr)<br/>
print(addr.text)

结果:

<div class="col-md-4">45120 Waxpool Road<br/>20166 Dulles, VA<br/>USA</div>

45120 Waxpool Road20166 Dulles, VAUSA

需要按如下方式创建/打印结果以分隔地址、城市、州、邮编....: 蜡池路 45120 号 杜勒斯 弗吉尼亚州 20166 美国

有什么想法吗?

【问题讨论】:

【参考方案1】:

我的做法是先使用addr 中的getting the innerhtml 使用decode_contents(),然后使用.split(&lt;br/&gt;) 拆分生成的文本。

innerHtml = addr.decode_contents()
addr_list = innerHtml.split('<br/>')
print(addr_list)

输出:

['45120 Waxpool Road', '20166 Dulles, VA', 'USA']

【讨论】:

【参考方案2】:

您可能还必须使用find 找到&lt;br&gt; 标签,然后拆分您的文本。

请看一下这个question。可能对你有帮助。

希望它有效。

【讨论】:

以上是关于有没有更简单的方法来抓取 br 标签?的主要内容,如果未能解决你的问题,请参考以下文章

在文本区域中将新行更改为 <br>

页面中部分标签简单描述

有没有更简单的方法来过滤非字母字符? C++

有没有更简单的方法来进行布尔转换?

beautifulsoup库简单抓取网页--获取所有链接例子

Python - 使用 BeautifulSoup 从 URL 列表中抓取文本的最简单方法