爬虫入门总结

Posted justsong

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫入门总结相关的知识,希望对你有一定的参考价值。

 1 #爬虫
 2 #自己写给自己看的,排版不是很好,请不要介意
 3 
 4 import requests
 5 res = requests.get(http://...)#注意是get
 6 res.encoding = utf-8#防治中文乱码
 7 print(res.text())
 8 #print(type(res))
 9 
10 
11 from bs4 import BeautifulSoup#BeautifulShop 大写的S
12 html_sample = ...
13 soup = Beautifulsoup(html_sample,html.parser)#指定过滤器
14 print(soup.text)
15 #使用select找出含有h1标签的元素
16 header = soup.select(h1)
17 print(header)#[<h1 id="title">Hello World</h1>]
18 print(header[0])#<h1 id="title">Hello World</h1>
19 print(header[0].text)#Hello World
20 #使用select找出含有a标签的元素
21 alink = soup.select(a)
22 print(alink)#[<a class="link" href="#">This is link1</a>,<a class="link" href="#">This is link2</a>]
23 for link in alink:
24     print(link.text)#This is link1 This is link2
25 #使用select找出所有id为title的元素(id前需加#)
26 alink = soup.select(#title)
27 print(alink)#[<h1 id=‘title‘>Hello World</h1>]
28 #使用select找出所有class为link的元素(class前需加.)
29 for link in soup.select(.link):
30     print(link)#<a class="link" herf="#">This is link1</a>  <a class="link" herf="#">This is link2</a>
31 #使用select找出所有a tag 的herf连结
32 alinks = soup.select(a)
33 for link in alinks:
34     print(link)#<a class="link" herf="# link1">This is link1</a>  <a class="link" herf="# link2">This is link2</a>
35     print(link[herf])# # link1  # link2
36     #属性为字典
37 #范例
38 a = <a href="#" qoo=123 abc=456> This is a link</a>
39 soup = BeautifulSoup(a,html.parser)
40 print(soup.select(a))#[<a href="#‘ qoo=123 abc=456> This is a link</a>]
41 print(soup.select(a)[0])#<a href="#‘ qoo=123 abc=456> This is a link</a>
42 print(soup.select(a)[0][abc])#456

 

以上是关于爬虫入门总结的主要内容,如果未能解决你的问题,请参考以下文章

scrapy按顺序启动多个爬虫代码片段(python3)

刚入门Python的小伙伴,这是腾讯大牛工作中总结的爬虫经验!

scrapy主动退出爬虫的代码片段(python3)

Python 入门网络爬虫之精华版

最详细的Python爬虫入门教程,一篇文章入门爬虫不是儿戏!

python爬虫入门