Python爬虫编程思想(59): 用Beautiful Soup CSS选择器获取属性值与文本

Posted 蒙娜丽宁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫编程思想(59): 用Beautiful Soup CSS选择器获取属性值与文本相关的知识,希望对你有一定的参考价值。

        由于select方法同样会返回Tag对象的集合,所以可以使用Tag对象的方式获取节点属性值和文本内容。获取属性值可以使用attrs,也可以直接使用[...]方式引用节点的属性。获取节点的文本内容可以使用get_text方法,也可以使用string属性。

下面的例子使用CSS选择器选取特定的a节点,并获取a节点的href属性值和文本内容。

from bs4 import BeautifulSoup
html = \'\'\'
<div>
    <ul>
        <li class="item1" value1="1234" value2 = "hello world">
            <a href="https://geekori.com"> geekori.com</a>
        </li>
        <li class="item">
           <a href="https://www.jd.com"> 京东商城</a>
           <a href="https://www.google.com">谷歌</a>
        </li>        
    </ul>
    <ul>
        <li class="item3"&g

以上是关于Python爬虫编程思想(59): 用Beautiful Soup CSS选择器获取属性值与文本的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫编程思想:网络爬虫的基本原理

Python爬虫编程思想(83):用Python操作SQLite数据库

Python爬虫编程思想(83):用Python操作SQLite数据库

Python爬虫编程思想(122):抓取移动App数据--用mitmproxy监听App的请求与响应数据

Python爬虫编程思想(97):用Selenium模拟浏览器的单击动作

Python爬虫编程思想(11):用urllib请求基础验证页面