使用 python 请求进行 Web 抓取的 JWT 不记名授权
Posted
技术标签:
【中文标题】使用 python 请求进行 Web 抓取的 JWT 不记名授权【英文标题】:JWT Bearer Authorization for web scraping using python requests 【发布时间】:2021-06-29 23:58:36 【问题描述】:这是我在 *** 上的第一篇文章,请多多包涵。
我正在编写一个通过 REST API 发出请求然后返回值的函数,但我在身份验证部分遇到了问题。
身份验证是一个 JWT 不记名令牌,是检索数据所必需的(虽然我不需要登录,所以在这方面它是一个未经授权的 API)。
def get__price(jwt, cookie):
headers =
'authority': 'www.dextools.io',
'pragma': 'no-cache',
'cache-control': 'no-cache',
'accept': 'application/json',
'authorization': f'Bearer jwt', # HERE IS THE VAR I NEED
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/89.0.4389.90 Safari/537.36',
'content-type': 'application/json',
'sec-gpc': '1',
'sec-fetch-site': 'same-origin',
'sec-fetch-mode': 'cors',
'sec-fetch-dest': 'empty',
'referer': 'https://www.dextools.io/app/uniswap/pair-explorer/0x0d4a11d5eeaac28ec3f61d100daf4d40471f1852',
'accept-language': 'en-GB,en-US;q=0.9,en;q=0.8',
#'cookie': f'__cfduid=cookie; ai_user=hizb^|2021-04-03T00:16:45.460Z; ai_session=5vAmv^|1617443356577.045^|1617443356577.045',
params = (
('v', '1.9.1'),
('pair', '0x0d4a11d5eeaac28ec3f61d100daf4d40471f1852'),
('ts', '1617443384-0')
)
try:
response = requests.get('https://www.dextools.io/api/uniswap/1/pairexplorer', headers=headers, params=params)
except Exception as e:
print(f"ERROR: e")
我尝试向网站 https://www.dextools.io
发出请求并获取任何 JWT 令牌,但使用 Sessions 似乎不起作用。
也许它并不重要,但是当我转到 developer tools > Local Storage > (website url) > t
时,我可以在浏览器上找到这个 JWT 令牌,其中 t
包含我的 eyJxxxxxxxxxxxxxxx 令牌。
任何帮助将不胜感激,谢谢。
【问题讨论】:
【参考方案1】:您好,看到网站的网络请求,我可以通过以下代码获取数据,但如果网站阻止它,您可能需要获取新密码。下面生成的 jwt 令牌有效期为 6 到 8 分钟,您可以在此之前重新使用 jwt 令牌,然后您需要通过调用该登录 url 来获取新的 jwt 令牌,如下面的代码中所述。
代码:
import time
import requests
s = requests.session()
headersdict =
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36',
'Referer': 'https://www.dextools.io/app/uniswap/pair-explorer/0x0d4a11d5eeaac28ec3f61d100daf4d40471f1852',
'Origin': 'https://www.dextools.io'
s.headers.update(headersdict)
payload = "id": "anyone", "password": "TfY6WC6F4L4+S6xwvPo8QoHlYZ50rK2DrJnEAWBoMqU="#you can use this password to generate new jwt tokens if it blocks you check network requests and get this password again but i dont think they will block it that way.
s1 = s.post("https://www.dextools.io/back/user/login", json=payload)
jwt = s1.headers["X-Auth"]
headersdict =
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36',
'Referer': 'https://www.dextools.io/app/uniswap/pair-explorer/0x0d4a11d5eeaac28ec3f61d100daf4d40471f1852',
'Origin': 'https://www.dextools.io',
'authorization': f'Bearer jwt'
s.headers.update(headersdict)
params = (
('v', '1.9.1'),
('pair', '0x0d4a11d5eeaac28ec3f61d100daf4d40471f1852'),
('ts', f'time.time()-0')
)
response = s.get('https://www.dextools.io/api/uniswap/1/pairexplorer', params=params)
print(response.text)
输出:
如果您有任何问题,请告诉我:)
【讨论】:
以上是关于使用 python 请求进行 Web 抓取的 JWT 不记名授权的主要内容,如果未能解决你的问题,请参考以下文章
用于大容量 Web 抓取的 Python 线程与 Gevent
如何使用 Web 套接字从 GDAX 抓取比特币价格,以便实时更改价值?