Python爬取表单数据

Posted 2023-04-22

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬取表单数据相关的知识，希望对你有一定的参考价值。

参考技术A

我们在一些没有反爬虫机制的生物网站上，可以利用Python做一些“省力”的事情，比方说ID的转换

我们以uniprot为例，进入它的转换页面传送门，页面：

这里介绍下 urllib 这个Python库，该库功能非常强大，可以爬取动态网页

根据这个思路，我们看看该网站的网页结构：

url 为ID转换的网址，params是你要爬取的内容，存储为字典形式，那么字典的键值代表HTML表单（form）里面 name 的内容：
比方说 from：

字典的键值与form的name标签的内容对应
to也是一样的：

至于 "format": "tab" 是指我们把爬下来的网页转换为 tab 格式

当然，这招适用于表单提交的爬虫，如果爬取的内容过多，不妨写个函数：

参考：传送门

今天网上浏览了如何爬取pyhton数据

如下是我浏览的比较有用的地址：

以上是关于Python爬取表单数据的主要内容，如果未能解决你的问题，请参考以下文章