读取指定页面中的超链接-Python 3.7

Posted fenmoyu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了读取指定页面中的超链接-Python 3.7相关的知识,希望对你有一定的参考价值。

#!/usr/bin/env python
#coding: utf-8
from bs4 import BeautifulSoup
import urllib
import urllib.request
import sys
from imp import reload
reload(sys)
#sys.setdefaultencoding("utf-8")

# the url of the page
url = ‘https://www.wikipedia.org/‘

def findAllLink(url):
‘‘‘
Get hyperlinks from web pages
‘‘‘
# agreement, domain name
proto, rest = urllib.request.splittype(url)
domain = urllib.request.splithost(rest)[0]

# read the page
html = urllib.request.urlopen(url).read()

# Extract hyperlinks
a = BeautifulSoup(html).findAll(‘a‘)

# filter
alist = [i.attrs[‘href‘] for i in a if i.attrs[‘href‘][0] != ‘j‘]
# 将形如#comment-text的锚点补全成http://www.ruanyifeng.com/blog/2015/05/co.html,将形如/feed.html补全为http://www.ruanyifeng.com/feed.html
alist = map(lambda i: proto + ‘://‘ + domain + i if i[0] == ‘/‘ else url + i if i[0] == ‘#‘ else i, alist)
return alist

if __name__ == ‘__main__‘:
       for i in findAllLink(url):
       print(i)

以上是关于读取指定页面中的超链接-Python 3.7的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 python 更改 pdf 中的超链接?

需上传文件的软件取消了所有的超链接,怎么可以实现跳转到指定的页面呢?

使用OPEN XML SDK 读取EXCEL中的超链接Hyperlink

如何使 XLRD 读取 XLSX 单元格中的超链接?

为啥文档中的超链接会导致找不到页面

从位于远程的超链接读取信息(知道通过超链接它将是 csv 文件,但找不到通用方法)[关闭]