简单的爬虫

Posted nmucomputer

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了简单的爬虫相关的知识,希望对你有一定的参考价值。

对某一视频共享网站电影名进行爬取

 1 # Author:Winter Liu
 2 import time
 3 import urllib.request
 4 import re
 5 
 6 start_time = time.time()
 7 html_start = https://yanghuanyu.com/dy
 8 result = []
 9 for i in range(2,31):
10     response = urllib.request.urlopen(html_start)
11     buff = response.read()
12     html = buff.decode(utf-8)
13     # with open(‘hpage.txt‘,‘w‘,encoding=‘UTF-8‘) as f:
14     #     f.write(html)
15     print(html_start)
16     data = re.findall(r[.+][dddd][.+][.+], html)
17     data = list(set(data))
18     print(data)
19     result.extend(data)
20     html_start = "https://yanghuanyu.com/dy/page/"+str(i)
21 print(len(result))
22 print(result)
23 
24 end_time = time.time()
25 print(end_time  - start_time)

 

以上是关于简单的爬虫的主要内容,如果未能解决你的问题,请参考以下文章

爬虫遇到头疼的验证码?Python实战讲解弹窗处理和验证码识别

为啥这段代码会泄露? (简单的代码片段)

NIH周三讲座视频爬虫

代码片段 - Golang 实现简单的 Web 服务器

创建自己的代码片段(CodeSnippet)

Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段