python网络爬虫小案例适合初学者入门

Posted 2022-07-18 weixin_ancenhw

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python网络爬虫小案例适合初学者入门相关的知识，希望对你有一定的参考价值。

1、首先利用PyCharm 工具在Terminal窗口中下载requests工具类，如果国内该工具下载不下来，可借用清华源代理进行下载，如下：
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests

输入命令：

(vis) D:\\pythonTest\\test01>pip3 install requests
Collecting requests
  Downloading requests-2.28.1-py3-none-any.whl (62 kB)
     ---------------------------------------- 62.8/62.8 kB 84.2 kB/s eta 0:00:00
Collecting urllib3<1.27,>=1.21.1
  Downloading urllib3-1.26.10-py2.py3-none-any.whl (139 kB)
     ---------------------------------------- 139.2/139.2 kB 16.2 kB/s eta 0:00:00
Collecting certifi>=2017.4.17
  Downloading certifi-2022.6.15-py3-none-any.whl (160 kB)
     ---------------------------------------- 160.2/160.2 kB 22.3 kB/s eta 0:00:00
Collecting charset-normalizer<3,>=2

2、下载完成后，只需导入requests库文件，就可以使用里面的方法。

import requests
query=input("请输入需要查询的编程语言:")
url = f'https://www.sogou.com/web?query=query'

codelange = 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/103.0.0.0 "
                  "Safari/537.36"
# 请求头，处理反爬虫
resp = requests.get(url, headers=codelange)
print(resp.text)

codelange 定义该对象主要是用来解决搜狗网络反爬虫的问题，如果不设置。则会在抓取网页时提示：此验证码用于确认这些请求是您的正常行为，而不是自动程序发出的，需要您协助验证。

以上命令在python文件中即可完成搜狗网站的抓取。

以上python代码复制到文档中，即可在控制台中显示爬虫结果！

以上是关于python网络爬虫小案例适合初学者入门的主要内容，如果未能解决你的问题，请参考以下文章