Python爬取表单数据
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬取表单数据相关的知识,希望对你有一定的参考价值。
参考技术A我们在一些没有反爬虫机制的生物网站上,可以利用Python做一些“省力”的事情,比方说ID的转换
我们以uniprot为例,进入它的转换页面 传送门 ,页面:
这里介绍下 urllib 这个Python库,该库功能非常强大,可以爬取动态网页
根据这个思路,我们看看该网站的网页结构:
url 为ID转换的网址,params是你要爬取的内容,存储为字典形式,那么字典的键值代表HTML表单(form)里面 name 的内容:
比方说 from:
字典的键值与form的name标签的内容对应
to也是一样的:
至于 "format": "tab" 是指我们把爬下来的网页转换为 tab 格式
当然,这招适用于表单提交的爬虫,如果爬取的内容过多,不妨写个函数:
参考: 传送门
python爬取疫情数据
今天网上浏览了如何爬取pyhton数据
如下是我浏览的比较有用的地址:
Python实现爬取全国疫情数据_舰长之家的博客-CSDN博客
python爬取数据库信息_Python3爬虫学习之MySQL数据库存储爬取的信息详解_weixin_39841825的博客-CSDN博客
以上是关于Python爬取表单数据的主要内容,如果未能解决你的问题,请参考以下文章
scrapy 爬取知乎问题答案 ,并异步写入数据库(mysql)