如何处理数据集中的 GeoLocation 列

Posted

技术标签:

【中文标题】如何处理数据集中的 GeoLocation 列【英文标题】:how to handle GeoLocation columns in dataset 【发布时间】:2019-04-21 15:31:05 【问题描述】:

我正在做预测内收概率的药物。我对 GeoLocation 列有一些问题,而且我不知道如何处理 GeoLocation,请帮助我如何显示特定位置的人的概率。 我的专栏是这样的: 这是我的 googlecolab 链接:https://colab.research.google.com/drive/1qM8LkkVex6cHRVXwqI40b44ofk7CmQVi

   train['GeoLocation'].head(8)
     0                      (29.760427, -95.369803)
1                      (29.760427, -95.369803)
2    (39.493240390000494, -117.07184056399967)
3      (40.79373015200048, -77.86070029399963)
4                      (37.77493, -122.419416)
5                      (39.952584, -75.165222)
6                     (32.715738, -117.161084)
7    (39.360700171000474, -111.58713063499971)
Name: GeoLocation, dtype: object

【问题讨论】:

说它是为了“机器学习”并不能真正帮助解释你想用这些数据做什么。我肯定将这些数据分成两列,以便您可以更轻松地使用它,但您需要更清楚。 你有什么“问题”?您正在使用的整套数据是什么?你能显示一个输入和一个预期的输出吗?您的问题中的信息太少.. 确切地说明您遇到了什么问题:什么“不起作用”? 您好,我的问题是如何将 GeoLocation 对象数据转换为数字 【参考方案1】:

我假设您正在使用 Pandas 数据框来存储地理位置。如果您有兴趣对坐标进行操作(例如两个之间的距离、最近的城市、地址提取等),您可以直接使用python client library to access Google Maps APIs 或者您可以使用一些包装库来轻松执行简单的任务。你也可以看看其他的地图服务,但是 IMO 和过去的经验,谷歌地图是最精确的。

附:请提供问题的更多细节。你到底想做什么?

我想你已经知道了,一个地理定位字段由-(纬度,经度)组成,它可以精确地存储所需的位置。

【讨论】:

以上是关于如何处理数据集中的 GeoLocation 列的主要内容,如果未能解决你的问题,请参考以下文章

如何处理多类文本分类中不在训练集中的测试集标签?

如何处理不均衡数据

如何处理 django 查询集中的变量字符串?

如何处理 TypeORM 中的 blob 列

SQLServer中游标是如何处理数据的?

当数据库为表中的一列返回空值时如何处理错误