有没有更简单的方法来抓取 br 标签?
Posted
技术标签:
【中文标题】有没有更简单的方法来抓取 br 标签?【英文标题】:Is there an easier way to webscrape br tags? 【发布时间】:2020-10-26 02:38:52 【问题描述】:我一直在寻找正确提取地址数据的方法。
这是我的python脚本摘录:
addr = soup.find('div', class_='col-md-4')<br/>
print(addr)<br/>
print(addr.text)
结果:
<div class="col-md-4">45120 Waxpool Road<br/>20166 Dulles, VA<br/>USA</div>
45120 Waxpool Road20166 Dulles, VAUSA
需要按如下方式创建/打印结果以分隔地址、城市、州、邮编....: 蜡池路 45120 号 杜勒斯 弗吉尼亚州 20166 美国
有什么想法吗?
【问题讨论】:
【参考方案1】:我的做法是先使用addr
中的getting the innerhtml 使用decode_contents()
,然后使用.split(<br/>)
拆分生成的文本。
innerHtml = addr.decode_contents()
addr_list = innerHtml.split('<br/>')
print(addr_list)
输出:
['45120 Waxpool Road', '20166 Dulles, VA', 'USA']
【讨论】:
【参考方案2】:您可能还必须使用find
找到<br>
标签,然后拆分您的文本。
请看一下这个question。可能对你有帮助。
希望它有效。
【讨论】:
以上是关于有没有更简单的方法来抓取 br 标签?的主要内容,如果未能解决你的问题,请参考以下文章