如何处理数据集中的 GeoLocation 列
Posted
技术标签:
【中文标题】如何处理数据集中的 GeoLocation 列【英文标题】:how to handle GeoLocation columns in dataset 【发布时间】:2019-04-21 15:31:05 【问题描述】:我正在做预测内收概率的药物。我对 GeoLocation 列有一些问题,而且我不知道如何处理 GeoLocation,请帮助我如何显示特定位置的人的概率。 我的专栏是这样的: 这是我的 googlecolab 链接:https://colab.research.google.com/drive/1qM8LkkVex6cHRVXwqI40b44ofk7CmQVi
train['GeoLocation'].head(8)
0 (29.760427, -95.369803)
1 (29.760427, -95.369803)
2 (39.493240390000494, -117.07184056399967)
3 (40.79373015200048, -77.86070029399963)
4 (37.77493, -122.419416)
5 (39.952584, -75.165222)
6 (32.715738, -117.161084)
7 (39.360700171000474, -111.58713063499971)
Name: GeoLocation, dtype: object
【问题讨论】:
说它是为了“机器学习”并不能真正帮助解释你想用这些数据做什么。我肯定将这些数据分成两列,以便您可以更轻松地使用它,但您需要更清楚。 你有什么“问题”?您正在使用的整套数据是什么?你能显示一个输入和一个预期的输出吗?您的问题中的信息太少.. 请确切地说明您遇到了什么问题:什么“不起作用”? 您好,我的问题是如何将 GeoLocation 对象数据转换为数字 【参考方案1】:我假设您正在使用 Pandas 数据框来存储地理位置。如果您有兴趣对坐标进行操作(例如两个之间的距离、最近的城市、地址提取等),您可以直接使用python client library to access Google Maps APIs 或者您可以使用一些包装库来轻松执行简单的任务。你也可以看看其他的地图服务,但是 IMO 和过去的经验,谷歌地图是最精确的。
附:请提供问题的更多细节。你到底想做什么?
我想你已经知道了,一个地理定位字段由-(纬度,经度)组成,它可以精确地存储所需的位置。
【讨论】:
以上是关于如何处理数据集中的 GeoLocation 列的主要内容,如果未能解决你的问题,请参考以下文章