网页抓取不同日期的excel文件

Posted

技术标签:

【中文标题】网页抓取不同日期的excel文件【英文标题】:Web scrape excel file in different date 【发布时间】:2022-01-22 14:15:37 【问题描述】:

我是美汤的新手。谁能建议如何抓取过去 14 天的 excel 文件?我的理解是循环日期并保存文件。谢谢

https://www.hkexnews.hk/reports/sharerepur/sbn.asp

【问题讨论】:

【参考方案1】:
import requests
from bs4 import BeautifulSoup

res=requests.get("https://www.hkexnews.hk/reports/sharerepur/sbn.asp")
soup=BeautifulSoup(res.text,"lxml")

现在我们将使用find 方法在表中查找数据并使用find_all 获取所有td 标签并将数据附加到列表lst

main_data=soup.find("table").find_all("td")
lst=[]
for data in main_data:
    try:
        url=data.find("a").get('href')[1:]
        main_url="https://www.hkexnews.hk/reports/sharerepur"+url
        lst.append(main_url)
    except AttributeError:
        pass

现在遍历lst 并调用单独的 URL 将数据下载到 excel 文件。

for url in range(len(lst)):
    resp=requests.get(lst[url])
    output = open(f'test_url.xls', 'wb')
    output.write(resp.content)
    output.close()
    print(url)

图片:(正在本地创建的文件)

【讨论】:

以上是关于网页抓取不同日期的excel文件的主要内容,如果未能解决你的问题,请参考以下文章

网页抓取信息(php正則表達式php操作excel)

VBA如何批量抓取数据

临时用VB做了个抓取网页数据,但是网页返回的中文是unicode编码,怎么转为中文。

如何用python抓取这个网页的内容?

如何用Java抓取网页的具体内容

请教网页里的特定数据怎么抓取?