使用 python 请求进行 Web 抓取的 JWT 不记名授权

Posted

技术标签:

【中文标题】使用 python 请求进行 Web 抓取的 JWT 不记名授权【英文标题】:JWT Bearer Authorization for web scraping using python requests 【发布时间】:2021-06-29 23:58:36 【问题描述】:

这是我在 *** 上的第一篇文章,请多多包涵。

我正在编写一个通过 REST API 发出请求然后返回值的函数,但我在身份验证部分遇到了问题。

身份验证是一个 JWT 不记名令牌,是检索数据所必需的(虽然我不需要登录,所以在这方面它是一个未经授权的 API)。

def get__price(jwt, cookie):

    headers = 
        'authority': 'www.dextools.io',
        'pragma': 'no-cache',
        'cache-control': 'no-cache',
        'accept': 'application/json',
        'authorization': f'Bearer jwt', # HERE IS THE VAR I NEED
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/89.0.4389.90 Safari/537.36',
        'content-type': 'application/json',
        'sec-gpc': '1',
        'sec-fetch-site': 'same-origin',
        'sec-fetch-mode': 'cors',
        'sec-fetch-dest': 'empty',
        'referer': 'https://www.dextools.io/app/uniswap/pair-explorer/0x0d4a11d5eeaac28ec3f61d100daf4d40471f1852',
        'accept-language': 'en-GB,en-US;q=0.9,en;q=0.8',
        #'cookie': f'__cfduid=cookie; ai_user=hizb^|2021-04-03T00:16:45.460Z; ai_session=5vAmv^|1617443356577.045^|1617443356577.045',
        

    params = (
        ('v', '1.9.1'),
        ('pair', '0x0d4a11d5eeaac28ec3f61d100daf4d40471f1852'),
        ('ts', '1617443384-0')
    )

    try:
        response = requests.get('https://www.dextools.io/api/uniswap/1/pairexplorer', headers=headers, params=params)
    except Exception as e:
        print(f"ERROR: e")

我尝试向网站 https://www.dextools.io 发出请求并获取任何 JWT 令牌,但使用 Sessions 似乎不起作用。

也许它并不重要,但是当我转到 developer tools > Local Storage > (website url) > t 时,我可以在浏览器上找到这个 JWT 令牌,其中 t 包含我的 eyJxxxxxxxxxxxxxxx 令牌。

任何帮助将不胜感激,谢谢。

【问题讨论】:

【参考方案1】:

您好,看到网站的网络请求,我可以通过以下代码获取数据,但如果网站阻止它,您可能需要获取新密码。下面生成的 jwt 令牌有效期为 6 到 8 分钟,您可以在此之前重新使用 jwt 令牌,然后您需要通过调用该登录 url 来获取新的 jwt 令牌,如下面的代码中所述。

代码:

import time
import requests

s = requests.session()

headersdict = 
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36',
    'Referer': 'https://www.dextools.io/app/uniswap/pair-explorer/0x0d4a11d5eeaac28ec3f61d100daf4d40471f1852',
    'Origin': 'https://www.dextools.io'
s.headers.update(headersdict)
payload = "id": "anyone", "password": "TfY6WC6F4L4+S6xwvPo8QoHlYZ50rK2DrJnEAWBoMqU="#you can use this password to generate new jwt tokens if it blocks you check network requests and get this password again but i dont think they will block it that way.
s1 = s.post("https://www.dextools.io/back/user/login", json=payload)
jwt = s1.headers["X-Auth"]

headersdict = 
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36',
    'Referer': 'https://www.dextools.io/app/uniswap/pair-explorer/0x0d4a11d5eeaac28ec3f61d100daf4d40471f1852',
    'Origin': 'https://www.dextools.io',
    'authorization': f'Bearer jwt'
s.headers.update(headersdict)
params = (
    ('v', '1.9.1'),
    ('pair', '0x0d4a11d5eeaac28ec3f61d100daf4d40471f1852'),
    ('ts', f'time.time()-0')
)
response = s.get('https://www.dextools.io/api/uniswap/1/pairexplorer', params=params)
print(response.text)

输出:

如果您有任何问题,请告诉我:)

【讨论】:

以上是关于使用 python 请求进行 Web 抓取的 JWT 不记名授权的主要内容,如果未能解决你的问题,请参考以下文章

Python - 使用HTML标记进行Web抓取

使用 Python 进行屏幕抓取

用于大容量 Web 抓取的 Python 线程与 Gevent

如何使用 Web 套接字从 GDAX 抓取比特币价格,以便实时更改价值?

Python使用lxml模块和Requests模块抓取HTML页面的教程

python web抓取(如果使用所有标量值,则必须传递索引)