数据分析:比较两个数据集以设计用于人口分割的有用特征

Posted

技术标签:

【中文标题】数据分析:比较两个数据集以设计用于人口分割的有用特征【英文标题】:Data analysis : compare two datasets for devising useful features for population segmentation 【发布时间】:2020-09-26 00:04:57 【问题描述】:

假设我有两个 pandas 数据框,一个包含一般人群的数据,另一个包含相同的目标群体数据。

我认为这是一个非常常见的人口细分用例。我探索数据的第一个想法是使用例如执行一些可视化。 seaborn Facetgrid 或 barplot & scatterplot 或类似的东西,以大致了解趋势和差异。 然而,我发现这个操作并不像我想象的那么简单,因为 seaborn 是用来分析一个数据集而不是比较两个数据集。

我发现这个 SO answer 提供了一个解决方案。但是我想知道如果数据框很大并且无法进行 concat 操作,人们会怎么做?

据我所知,Datashader 似乎没有提供这些功能?

感谢您提供有关如何执行此类任务的任何想法

【问题讨论】:

【参考方案1】:

当数据对于 pandas 来说太大时,我会使用库 Dask。 Dask 是由创建 pandas 的同一个人制作的,它更先进一些,因为它是一个大数据工具,但它具有一些相同的功能,包括 concat。我发现 dask 很容易使用,并且在我有几十列和几千万行的几个项目中使用它。

【讨论】:

以上是关于数据分析:比较两个数据集以设计用于人口分割的有用特征的主要内容,如果未能解决你的问题,请参考以下文章

多元回归:理解机器学习

用于三维点云语义分割的标注工具和城市数据集

用于三维点云语义分割的标注工具和城市数据集

如何在Python中比较两个SQLite数据集并搜索相似之处?

如何使用 Python Pandas 比较两个不同大小的数据集?

Toronto-3D:用于城市道路语义分割的大规模移动激光雷达数据集