如何将两个数据框中的列传递给 Haversine 函数?

Posted

技术标签:

【中文标题】如何将两个数据框中的列传递给 Haversine 函数?【英文标题】:How to pass columns in two data frames to Haversine Function? 【发布时间】:2021-02-20 20:10:56 【问题描述】:

我不熟悉经纬度的东西。我发现了一个看起来很有趣的半正弦函数。我尝试将两个数据框输入到函数中,但出现错误。

这是函数。

import numpy as np

lon1 = df["longitude_fuze"]
lat1 = df["latitude_fuze"]
lon2 = df["longitude_air"]
lat2 = df["latitude_air"]

# Haversine
from math import radians, cos, sin, asin, sqrt
def haversine(lon1, lat1, lon2, lat2):
    """
    Calculate the great circle distance between two points 
    on the earth (specified in decimal degrees)
    """
    # convert decimal degrees to radians 
    lon1, lat1, lon2, lat2 = map(radians, [lon1, lat1, lon2, lat2])
    # haversine formula 
    dlon = lon2 - lon1 
    dlat = lat2 - lat1 
    a = sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2
    c = 2 * asin(sqrt(a)) 
    km = 6367 * c
    return km

我正在尝试将它添加到数据框中的列中,就像这样。

df['haversine_dist'] = haversine(lon1,lat1,lon2,lat2)

函数编译正常,但是当我尝试调用它时,我得到了这个错误。

df['haversine_dist'] = haversine(lon1,lat1,lon2,lat2)
Traceback (most recent call last):

  File "<ipython-input-38-cc7e470610ee>", line 1, in <module>
    df['haversine_dist'] = haversine(lon1,lat1,lon2,lat2)

  File "<ipython-input-37-f357b0fc2e88>", line 16, in haversine
    lon1, lat1, lon2, lat2 = map(radians, [lon1, lat1, lon2, lat2])

  File "C:\Users\ryans\anaconda3\lib\site-packages\pandas\core\series.py", line 129, in wrapper
    raise TypeError(f"cannot convert the series to converter")

TypeError: cannot convert the series to <class 'float'>

这是我正在测试的两个数据框。

# Import pandas library 
import pandas as pd 
  
# initialize list of lists 
data = [['NY', 'Uniondale', 'Nassau', '40.72', '-73.59'], 
        ['NY', 'Uniondale', 'Nassau', '40.72', '-73.59'],
        ['NY', 'Uniondale', 'Nassau', '40.72', '-73.59'],
        ['NY', 'NY', 'New York', '40.76', '73.98'],
        ['NY', 'NY', 'New York', '40.76', '73.98']] 
  
# Create the pandas DataFrame 
df_result = pd.DataFrame(data, columns = ['state', 'city', 'county','latitude_fuze','longitude_fuze']) 
# print dataframe. 
df_result


data = [['New York', 'JFK', '40.63', '-73.60'], 
        ['New York', 'JFK', '40.64', '-73.78'],
        ['Los Angeles', 'LAX', '33.94', '-118.41'],
        ['Chicago', 'ORD', '40.98', '73.90'],
        ['San Francisco', 'SFO', '40.62', '73.38']] 
  
# Create the pandas DataFrame 
df_airports = pd.DataFrame(data, columns = ['municipality_name', 'airport_code', 'latitude_air','longitude_air']) 
# print dataframe. 
df_airports

我在这个链接找到了这个函数。

https://kanoki.org/2019/12/27/how-to-calculate-distance-in-python-and-pandas-using-scipy-spatial-and-distance-functions/

【问题讨论】:

【参考方案1】:

我在这里看到两个问题:

    经度和纬度仍然是数据框中的字符串,因此您可能会遇到数据类型的问题。

    这里使用的haversine 的实现不适用于经度和纬度的类数组对象。


数据类型问题可以通过astype 轻松解决。例如,您可以使用lon1 = df["longitude_fuze"].astype(float)。或者更好的是,直接在数据框中更改类型:

dt_dict = "longitude_fuze": float, "latitude_fuze": float, 
           "longitude_air": float, "latitude_air": float
df = df.astype(dt_dict)

对于支持类数组参数的 hoversine 函数,由于它相当简单,我建议重新实现它,使其与 numpy 兼容。我继续为你做了:

import numpy as np

def haversine_array(lon1, lat1, lon2, lat2):
    """
    Calculate the great circle distance between two points 
    on the earth (specified in decimal degrees)
    """
    # convert decimal degrees to radians 
    lon1, lat1, lon2, lat2 = map(lambda x: x/360.*(2*np.pi), [lon1, lat1, lon2, lat2])
    # haversine formula 
    dlon = lon2 - lon1 
    dlat = lat2 - lat1 
    a = np.sin(dlat/2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2
    c = 2 * np.arcsin(np.sqrt(a)) 
    km = 6367 * c
    return km


把它放在一起:

import pandas as pd
import numpy as np

def haversine_array(lon1, lat1, lon2, lat2):
    """
    Calculate the great circle distance between two points 
    on the earth (specified in decimal degrees)
    """
    # convert decimal degrees to radians 
    lon1, lat1, lon2, lat2 = map(lambda x: x/360.*(2*np.pi), [lon1, lat1, lon2, lat2])
    # haversine formula 
    dlon = lon2 - lon1 
    dlat = lat2 - lat1 
    a = np.sin(dlat/2)**2 + np.cos(lat1) * np.cos(lat2) * np.sin(dlon/2)**2
    c = 2 * np.arcsin(np.sqrt(a)) 
    km = 6367 * c
    return km

# initialize list of lists 
data = [['NY', 'Uniondale', 'Nassau', '40.72', '-73.59'], 
        ['NY', 'Uniondale', 'Nassau', '40.72', '-73.59'],
        ['NY', 'Uniondale', 'Nassau', '40.72', '-73.59'],
        ['NY', 'NY', 'New York', '40.76', '73.98'],
        ['NY', 'NY', 'New York', '40.76', '73.98']] 
  
# Create the pandas DataFrame 
df_result = pd.DataFrame(data, columns = ['state', 'city', 'county','latitude_fuze','longitude_fuze']) 
data = [['New York', 'JFK', '40.63', '-73.60'], 
        ['New York', 'JFK', '40.64', '-73.78'],
        ['Los Angeles', 'LAX', '33.94', '-118.41'],
        ['Chicago', 'ORD', '40.98', '73.90'],
        ['San Francisco', 'SFO', '40.62', '73.38']]
df_airports = pd.DataFrame(data, columns = ['municipality_name', 'airport_code', 'latitude_air','longitude_air'])

# note the conversion to float

lon1 = df_result["longitude_fuze"].astype(float)
lat1 = df_result["latitude_fuze"].astype(float)
lon1 = df_result["longitude_fuze"].astype(float)
lon2 = df_airports['longitude_air'].astype(float)
lat2 = df_airports['latitude_air'].astype(float)

# using the haversine implementation above

df_result['haversine_dist'] = haversine_array(lon1, lat1, lon2, lat2)

现在你会得到:

>>> df_result['haversine_dist']
0      10.036708
1      18.314266
2    3987.270064
3      25.354970
4      52.895712
Name: haversine_dist, dtype: float64

希望有所帮助!

【讨论】:

谢谢,但是当我运行它时,我看到所有的haversine结果都是一样的;都是 52.895712。它看起来像是在循环,但它只使用最后一项进行计算。我在这里错过了什么? 我已经更新了答案并重命名了 hasrsine 函数的 numpy 实现。希望现在这也适用于您。 是的,完美!我在这个网站上检查过。 movable-type.co.uk/scripts/latlong.html【参考方案2】:

这是因为您传递的是系列数据,而是需要传递单个值..

# Below variables are going to have series data
lon1 = df["longitude_fuze"]
lat1 = df["latitude_fuze"]
lon2 = df["longitude_air"]
lat2 = df["latitude_air"]

相反,您可以选择特定索引处的值,例如索引 0 处的值:

lon1 = df["longitude_fuze"].iloc[0]
lat1 = df["latitude_fuze"].iloc[0]
lon2 = df["longitude_air"].iloc[0]
lat2 = df["latitude_air"].iloc[0]

有了这些值,现在你可以调用你的函数了:

df['haversine_dist'] = haversine(lon1,lat1,lon2,lat2)

如果您想评估这些列中所有值的值,您甚至可以循环执行此操作:

for i in df.index:
    lon1 = df["longitude_fuze"].iloc[i]
    lat1 = df["latitude_fuze"].iloc[i]
    lon2 = df["longitude_air"].iloc[i]
    lat2 = df["latitude_air"].iloc[i]

    df.loc[i, 'haversine_dist'] = haversine(lon1,lat1,lon2,lat2)

【讨论】:

当我运行它时,df['haversine_dist'] 中的所有行都是相同的数字;都是 52.895712。逻辑看起来是正确的,最终的解决方案没有任何意义。它只对索引中的最后一项进行计算。 确保对函数的调用在循环内,我认为你在循环外这样做 也有小错误,我已经修复了

以上是关于如何将两个数据框中的列传递给 Haversine 函数?的主要内容,如果未能解决你的问题,请参考以下文章

如何将数据框列传递给scala函数

如何在执行 SELECT... 语句时将表列传递给 plpgsql 函数

如何使用 spark.sql 将表列传递给 rand 函数?

将 Pandas 列传递给函数时出现“ValueError:Series 的真值不明确”

在 pyspark 中,我想将值的数据帧列传递给函数并在该数据列中操作说,第 5 个值

将列传递给 UDF