python爬runoob目录链接栏

Posted 2021-03-22 zhuyu123

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬runoob目录链接栏相关的知识，希望对你有一定的参考价值。

import re
import requests
url=‘https://www.runoob.com/python3/python3.html‘
response=requests.get(url)
html=response.text
response.encoding=‘utf-8‘
dl=re.findall(r‘<div class="design" id="leftcolumn">.*?</div>‘,html,re.S)[0]
tree=re.findall(r‘title="(.*?)".*?href="(.*?)"‘,dl)
lst=[]
def get_data(link):
    lst.append(link)
    ht=requests.get(link)
    print(‘已下载‘,len(lst),‘条‘)
for tree_info in tree:
    url=‘https://www.runoob.com/python3{}
‘.format(tree_info[1])
    with open(‘D:Desktop测试html.txt‘,‘a‘) as f:
        f.write(url)
    get_data(url)

以上是关于python爬runoob目录链接栏的主要内容，如果未能解决你的问题，请参考以下文章