Python - 使用 Python 3 urllib 发出 POST 请求

Posted

技术标签:

【中文标题】Python - 使用 Python 3 urllib 发出 POST 请求【英文标题】:Python - make a POST request using Python 3 urllib 【发布时间】:2016-07-28 19:22:26 【问题描述】:

我正在尝试向以下页面发出 POST 请求:http://search.cpsa.ca/PhysicianSearch

为了模拟单击“搜索”按钮而不填写任何表单,从而将数据添加到页面。我通过在 Chrome 开发者工具中查看网络选项卡时单击按钮获得了 POST 标头信息。我发布这个而不是仅仅复制其他类似问题的解决方案的原因是我相信我可能没有得到正确的标题信息。

它的格式是否正确,我是否获取了正确的信息?我以前从未发出过 POST 请求。

这是我拼凑起来的:

import urllib.parse
import urllib.request


data = urllib.parse.urlencode('Host': 'search.cpsa.ca', 'Connection': 'keep-alive', 'Content-Length': 23796,
                                     'Origin': 'http://search.cpsa.ca', 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
                                     'Cahce-Control': 'no-cache', 'X-Requested-With': 'XMLHttpRequest',
                                     'X-MicrosoftAjax': 'Delta=true', 'Accept': '*/*',
                                     'Referer': 'http://search.cpsa.ca/PhysicianSearch',
                                     'Accept-Encoding': 'gzip, deflate',
                                     'Accept-Language': 'en-GB,en-US;q=0.8,en;q=0.6',
                                     'Cookie': 'ASP.NET_SessionId=kcwsgio3dchqjmyjtwue402c; _ga=GA1.2.412607756.1459536682; _gat=1')


url = "http://www.musi-cal.com/cgi-bin/query?%s"

data = data.encode('ascii')
with urllib.request.urlopen("http://search.cpsa.ca/PhysicianSearch", data) as f:
    print(f.read().decode('utf-8'))

此解决方案输出页面的 html,但不包含我想从 POST 请求中检索的任何数据。

【问题讨论】:

POST 数据应与您提交的表单的输入元素的名称属性和值相对应。您可以通过检查表单的 html 来获取名称属性。您将请求标头用作 POST 数据 - 这不起作用。另外,考虑使用 requests 包(docs.python-requests.org/en/master),它比 urllib2 更友好。 如何指定表格?还是我只需要指定数据的键值对? 在 chrome 中,像之前一样查看网络选项卡中的 POST 请求,然后转到标题选项卡的底部 - 无论是 POST 请求还是 GET,您都会看到名称和值带有查询参数的请求 我这样做了,一个 POST 请求正在发生,但它实际上并没有抓取页面。这是 requests.text 给我的:1|#||4|50|pageRedirect||%2fError.aspx%3faspxerrorpath%3d%2fPhysicianSearch| 【参考方案1】:

这就是你的做法。

from urllib import request, parse
data = parse.urlencode(<your data dict>).encode()
req =  request.Request(<your url>, data=data) # this will make the method "POST"
resp = request.urlopen(req)

【讨论】:

如果我想发出一个空正文的 POST 请求怎么办? request.Request(..., method='POST')。 docs.python.org/3/library/…【参考方案2】:

谢谢 C 熊猫。你真的让我很容易学习这个模块。

我发布了我们传递的字典并没有为我编码。我不得不做一个小改动 -

from urllib import request, parse
import json

# Data dict
data =  'test1': 10, 'test2': 20 

# Dict to Json
# Difference is  "test":10, "test2":20 
data = json.dumps(data)

# Convert to String
data = str(data)

# Convert string to byte
data = data.encode('utf-8')

# Post Method is invoked if data != None
req =  request.Request(<your url>, data=data)

# Response
resp = request.urlopen(req)

【讨论】:

真的应该是评论 如果服务接受的内容类型是严格的,并且是json,那么还需要:req.add_header('Content-Type', 'application/json')***.com/a/9746432/158328 您可以将您对data 执行的3 个操作组合在一个命令中:request.urlopen(url='your url', data=bytes(json.dumps(dict_obj), encoding='utf-8'))【参考方案3】:

上面的代码用一些额外的 \" 对 JSON 字符串进行了编码,这给我带来了很多问题。这看起来是一种更好的方法:

from urllib import request, parse

url = "http://www.example.com/page"

data = 'test1': 10, 'test2': 20
data = parse.urlencode(data).encode()

req = request.Request(url, data=data)
response = request.urlopen(req)

print (response.read())

【讨论】:

【参考方案4】:

当我使用 urlencode 时它失败了。所以我使用以下代码在 Python3 中进行 POST 调用:

from urllib import request, parse

data = b'"parameter1": "test1", "parameter2": "test2"'
req = request.Request("http://www.musi-cal.com/cgi-bin/query?%s", data)
resp = request.urlopen(req).read().decode('utf-8')
print(resp)

【讨论】:

【参考方案5】:

request.Request() 中设置method="POST"


发送没有正文的 POST 请求:

from urllib import request

req = request.Request('https://postman-echo.com/post', method="POST")
r = request.urlopen(req)
content = r.read()
print(content)

发送带有 json body 的 POST 请求:

from urllib import request
import json

req = request.Request('https://postman-echo.com/post', method="POST")
req.add_header('Content-Type', 'application/json')
data = 
    "hello": "world"

data = json.dumps(data)
data = data.encode()
r = request.urlopen(req, data=data)
content = r.read()
print(content)

【讨论】:

我的问题是我在request.Request 的构造过程中传递了data kwarg,就像在request.Request(..., data=...) 中一样,应该将数据传递给urllib.request.urlopen

以上是关于Python - 使用 Python 3 urllib 发出 POST 请求的主要内容,如果未能解决你的问题,请参考以下文章

在 Python 中使用 BeautifulSoup 从脚本标签中提取文本

Python爬虫初学-urllib3

python爬虫---urllib库的基本用法

Python3中urllib使用与源代码

如何只允许数字作为输入? - Python [重复]

python爬虫入门-urllib模块