如何抓取 https 页面？ [复制]

Posted 2023-02-22

技术标签:

【中文标题】如何抓取 https 页面？ [复制]【英文标题】：How do I scrape an https page? [duplicate] 【发布时间】：2014-06-18 10:57:43 【问题描述】：

我正在使用带有 'lxml' 和 'requests' 的 python 脚本来抓取网页。我的目标是从页面中获取一个元素并下载它，但内容位于 HTTPS 页面上，并且在尝试访问页面中的内容时出现错误。我确信我必须包含某种证书或身份验证，但我正在努力寻找合适的资源。我正在使用：

page = requests.get("https://[example-page.com]", auth=('[username]','[password]'))

错误是：

requests.exceptions.SSLError: [Errno 185090050] _ssl.c:340: error:0B084002:x509 certificate routines:X509_load_cert_crl_file:system lib

【问题讨论】：

这应该有助于***.com/questions/10667960/… 【参考方案1】：

在 GET 请求中添加 verify=False 即可解决问题。

page = requests.get("https://[example-page.com]", auth=('[username]','[password]'), verify=False)

【讨论】：

很高兴它有帮助。可以将您自己的答案标记为正确，我不知道这个问题还有多少其他内容，尽管它可能会被标记为重复 :)

以上是关于如何抓取 https 页面？ [复制]的主要内容，如果未能解决你的问题，请参考以下文章