如何使用 iterrows 通过函数循环数据帧,该函数需要 3 个参数来填充新数据帧
Posted
技术标签:
【中文标题】如何使用 iterrows 通过函数循环数据帧,该函数需要 3 个参数来填充新数据帧【英文标题】:How use iterrows to loop dataframe through function that takes 3 arguments to populate new dataframe 【发布时间】:2019-10-02 00:03:44 【问题描述】:我有什么:
1) GPS 坐标列表:纬度、经度和 ID。
2) 一个定义的函数来抓取过去 24 小时每小时的温度和湿度数据。它返回一个包含 3 列的数据框:温度、湿度、ID 和作为 DatetimeIndex 的每小时数据。该函数接受 3 个参数:lat、lon、ID。
我想要什么:
编辑函数以在每次 iterrows 传递时加入 ID 列这是适用于一组 lat/lon/ID 的函数:
# grab only weather of interest
attributes = [u'temperature', u'humidity']
# 24 hours ago #round to closest hour
date = dt.datetime.now().replace(microsecond=0,second=0,minute=0) -
dt.timedelta(hours=24)
#initalize
times = []
data =
for attr in attributes:
data[attr] = []
def scrape_weather(LAT, LON, Id):
for offset in range(1,2): #i.e 1 day
forecast = forecastio.load_forecast(api_key, LAT, LON,
time=date+dt.timedelta(offset), units = 'ca' )
h = forecast.hourly()
d = h.data
for p in d:
times.append(p.time)
try:
for i in attributes:
data[i].append(p.d[i])
except:
print(KeyError)
df2 = pd.DataFrame(data)
df1 = pd.DataFrame(times)
df1.reset_index(drop=True, inplace=True)
df2.reset_index(drop=True, inplace=True)
dfweather = pd.concat([df1, df2], axis=1)
dfweather['ID'] = Id
dfweather = dfweather.set_index(pd.DatetimeIndex(dfweather[0]))
dfweather = dfweather.drop([0], axis=1)
return dfweather
当使用 lat/lon/Ids 传递数据框的单列时,这可以正常工作
scrape_weather(df.at[0,'latitude'],df.at[0,'longitude'], df.at[0,'Id'])
但是当我通过时
for index, row in dummy_gps.iterrows():
test = scrape_weather(row['longitude'],row['latitude'], row['Id'])
预期的结果如下所示:
temperature humidity ID
2019-05-14 07:00:00 22.58 0.34 1
2019-05-14 08:00:00 20.50 0.42 1
....
2019-05-14 07:00:00 22.58 0.34 2
2019-05-14 08:00:00 20.50 0.42 2
....
但是 ID 是错误的,只有一个 ID 被复制粘贴到每个人身上,如下所示:
temperature humidity ID
2019-05-14 07:00:00 22.58 0.34 2
2019-05-14 08:00:00 20.50 0.42 2
....
2019-05-14 07:00:00 22.58 0.34 2
2019-05-14 08:00:00 20.50 0.42 2
....
所以我不确定天气刮板功能在哪里添加 ID 逻辑以确保每个 ID 都与每个预测相关联
【问题讨论】:
【参考方案1】:新答案
import pandas as pd
import forecastio
import datetime as dt
def scrape_weather(row):
forecast = forecastio.load_forecast(api_key,
lat = row['latitude'],
lng = row['longitude'],
time = date,
units = 'ca' )
h = forecast.hourly()
d = h.data
dfweather = pd.DataFrame('times': [p.time for p in d],
'temps': [p.temperature for p in d],
'humidity': [p.humidity for p in d],
'gatewayID': row['Id']
)
return dfweather
# Sample dataframe
id_col = [1, 2, 3, 4, 5, 6, 7]
lng = ['86.44511', '-121.13295', '-162.74005', '22.34765', '-152.18709', '-152.18709', '-107.65340']
lat = ['-18.67825', '-20.84215', '57.31227', '6.15070', '-27.72616', '-27.72616', '6.15863']
df = pd.DataFrame('Id':id_col, 'latitude':lat, 'longitude':lng)
api_key = ###############################
# 24 hours ago #round to closest hour
date = dt.datetime.now().replace(microsecond=0,second=0,minute=0) - dt.timedelta(hours=24)
out = df.apply(scrape_weather, axis=1)
out = pd.concat([df for df in out])
旧答案
如果我理解正确,你能做这样的事情吗?
df = pd.DataFrame('LAT':[1,2,3],'LON':[1,2,3],'ID':[1,2,3])
def scrape_weather(row):
temperature = row['LAT'] # change this to what you need to do
humidity = row['LON'] # change this to what you need to do
id = row['ID'] # change this to what you need to do
return temperature, humidity, id
new_df = pd.DataFrame(columns=['temp', 'hum', 'id'])
new_df['temp'], new_df['hum'], new_df['id'] = df.apply(scrape_weather, axis=1)
这给了我
temp hum id
0 1 2 3
1 1 2 3
2 1 2 3
【讨论】:
好主意。谢谢。让我试一试。并且会回来 嗨 Bertil,你能看看我修改过的帖子吗?使用 iterrows 我设法得到了我几乎想要的结果,除了 ID 没有得到正确处理。 它有效,谢谢 - 我不得不使用相同的尝试 - 除了在每个“temps = [p.temperature for p in d]”周围返回 keyError 来处理丢失数据的小时。再次感谢!以上是关于如何使用 iterrows 通过函数循环数据帧,该函数需要 3 个参数来填充新数据帧的主要内容,如果未能解决你的问题,请参考以下文章
如何优化一个函数,该函数包含for循环和数据帧中的2000万行