数据分析:比较两个数据集以设计用于人口分割的有用特征
Posted
技术标签:
【中文标题】数据分析:比较两个数据集以设计用于人口分割的有用特征【英文标题】:Data analysis : compare two datasets for devising useful features for population segmentation 【发布时间】:2020-09-26 00:04:57 【问题描述】:假设我有两个 pandas 数据框,一个包含一般人群的数据,另一个包含相同的目标群体数据。
我认为这是一个非常常见的人口细分用例。我探索数据的第一个想法是使用例如执行一些可视化。 seaborn Facetgrid 或 barplot & scatterplot 或类似的东西,以大致了解趋势和差异。 然而,我发现这个操作并不像我想象的那么简单,因为 seaborn 是用来分析一个数据集而不是比较两个数据集。
我发现这个 SO answer 提供了一个解决方案。但是我想知道如果数据框很大并且无法进行 concat 操作,人们会怎么做?
据我所知,Datashader 似乎没有提供这些功能?
感谢您提供有关如何执行此类任务的任何想法
【问题讨论】:
【参考方案1】:当数据对于 pandas 来说太大时,我会使用库 Dask
。 Dask 是由创建 pandas 的同一个人制作的,它更先进一些,因为它是一个大数据工具,但它具有一些相同的功能,包括 concat
。我发现 dask 很容易使用,并且在我有几十列和几千万行的几个项目中使用它。
【讨论】:
以上是关于数据分析:比较两个数据集以设计用于人口分割的有用特征的主要内容,如果未能解决你的问题,请参考以下文章
如何在Python中比较两个SQLite数据集并搜索相似之处?