网页抓取不同日期的excel文件
Posted
技术标签:
【中文标题】网页抓取不同日期的excel文件【英文标题】:Web scrape excel file in different date 【发布时间】:2022-01-22 14:15:37 【问题描述】:我是美汤的新手。谁能建议如何抓取过去 14 天的 excel 文件?我的理解是循环日期并保存文件。谢谢
https://www.hkexnews.hk/reports/sharerepur/sbn.asp
【问题讨论】:
【参考方案1】:import requests
from bs4 import BeautifulSoup
res=requests.get("https://www.hkexnews.hk/reports/sharerepur/sbn.asp")
soup=BeautifulSoup(res.text,"lxml")
现在我们将使用find
方法在表中查找数据并使用find_all
获取所有td
标签并将数据附加到列表lst
。
main_data=soup.find("table").find_all("td")
lst=[]
for data in main_data:
try:
url=data.find("a").get('href')[1:]
main_url="https://www.hkexnews.hk/reports/sharerepur"+url
lst.append(main_url)
except AttributeError:
pass
现在遍历lst
并调用单独的 URL 将数据下载到 excel 文件。
for url in range(len(lst)):
resp=requests.get(lst[url])
output = open(f'test_url.xls', 'wb')
output.write(resp.content)
output.close()
print(url)
图片:(正在本地创建的文件)
【讨论】:
以上是关于网页抓取不同日期的excel文件的主要内容,如果未能解决你的问题,请参考以下文章