交互式条件直方图桶切片数据可视化

Posted

技术标签:

【中文标题】交互式条件直方图桶切片数据可视化【英文标题】:interactive conditional histogram bucket slicing data visualization 【发布时间】:2017-01-02 13:13:07 【问题描述】:

我有一个看起来像这样的 df:

df.head()
Out[1]:
        A   B   C
city0   40  12  73
city1   65  56  10
city2   77  58  71
city3   89  53  49
city4   33  98  90

可以通过以下代码创建示例 df:

df = pd.DataFrame(np.random.randint(100,size=(1000000,3)), columns=list('ABC'))

indx = ['city'+str(x) for x in range(0,1000000)]
df.index = indx

我想做的是:

a) 为 A 列确定适当的直方图存储桶长度,并将每个城市分配给 A 列的存储桶

b) 为 B 列确定适当的直方图存储桶长度,并将每个城市分配给 B 列的存储桶

也许生成的 df 看起来像(或者在 pandas 中是否有更好的内置方式?)

    df.head()
    Out[1]:
            A   B   C  Abkt Bbkt
    city0   40  12  73  2  1
    city1   65  56  10  4  3
    city2   77  58  71  4  3
    city3   89  53  49  5  3
    city4   33  98  90  2  5

其中 Abkt 和 Bbkt 是直方图桶标识符:

1-20 = 1
21-40 = 2
41-60 = 3
61-80 = 4
81-100 = 5

最终,我想更好地了解每个城市在 A、B 和 C 列方面的行为,并能够回答以下问题:

a) A 列(或 B)的分布是什么样的 - 即哪些存储桶填充最多/最少。

b) 以 A 列的特定切片/存储桶为条件,B 列的分布是什么样的 - 即哪些存储桶填充最多/最少。

c) 以 A 列和 B 列的特定切片/桶为条件,C 的行为是什么样的。

理想情况下,我希望能够可视化数据(热图、区域标识符等)。我是一个相对的 pandas/python 新手,不知道可以开发什么。

如果 SO 社区可以提供代码示例,说明我可以如何做我想做的事(或者如果有更好的 pandas/numpy/scipy 内置方法,我会提供更好的方法),我将不胜感激。

此外,任何指向资源的指针都可以帮助我更好地总结/切片/切块我的数据,并能够在我进行分析时在中间步骤进行可视化。

更新:

我正在关注 cmets 中的一些建议。

我试过了:

1) df.hist()

ValueError: The first argument of bincount must be non-negative

2)df[['A']].hist(bins=10,range=(0,10))

array([[<matplotlib.axes._subplots.AxesSubplot object at 0x000000A2350615C0>]], dtype=object)

#2 不应该显示一个情节吗?而不是生成未渲染的对象?我正在使用jupyter notebook

我需要在Jupyter Notebook 中打开/启用什么来渲染直方图对象吗?

更新 2:

我通过in Ipython notebook, Pandas is not displying the graph I try to plot.解决了渲染问题

更新3:

根据 cmets 的建议,我开始浏览 pandas visualization、bokeh 和 seaborn。但是,我不确定如何在绘图之间创建联系。

假设我有 10 个变量。我想探索它们,但由于 10 是一次探索的大数目,假设我想在任何给定时间探索 5 (r,s,t,u,v)。

如果我想要一个带有边际分布图的交互式 hexbin 来检查 r & s 之间的关系,我如何在给定交互式区域选择/r&s 切片(多边形)的情况下查看 t、u 和 v 的分布。

我在这里找到了带有边际分布图的 hexbin hexbin plot:

但是:

1) 如何进行交互(允许选择多边形)

2) 如何将 r & s 的区域选择链接到其他图,例如 t、u 和 v 的 3 个直方图(或任何其他类型的图)。

这样,我可以更严格地浏览数据并深入探索其中的关系。

【问题讨论】:

使用df.hist() 可以快速简便地找出列的分布情况。至于“可以发展什么”?好吧,几乎任何事情,但它将在很大程度上取决于您的数据集。一个开始的地方可能是pandas visualization page 我不断收到 ValueError: 对于 df.hist(),bincount 的第一个参数必须为非负数,df[['A']].hist(bins=10,range=(0, 20)) 等。 我通过以下方式解决了渲染问题:***.com/questions/10511024/… 对于可视化(尤其是热图),我推荐seaborn。 对于#1 的问题,可能是您的数据框中有infs,例如github.com/JosPolfliet/pandas-profiling/issues/6 【参考方案1】:

作为一个代表不足的新手,我无法发表评论,所以我把它放在这里作为“答案”,尽管它不应该被视为一个;这些只是与 cmets 相同的一些不完整的建议。

与其他人一样,我喜欢seaborn,尽管我不确定这些情节是否以您所寻求的方式互动。虽然我没有使用过bokeh,但我的理解是它提供了更多的交互方式,但不管包如何,当你超越 3 和 4 个变量时,你只能塞进这么多(家庭)图表。

至于直接在你的表中,前面提到的df.hist()(lanery)是一个好的开始。一旦你有了这些垃圾箱,你就可以使用 immensely powerful df.groupby() 函数。我已经使用 pandas 两年了,这个功能仍然让我大吃一惊。虽然不是交互式的,但它肯定会帮助您根据需要对数据进行切片和切块。

【讨论】:

【参考方案2】:

为了得到你想要的交互效果,你必须把你关心的所有列合并在一起。

我能想到的最简洁的方法是将stack 转换为单个series,然后使用pd.cut

考虑您的样本df

df_ = pd.cut(df[['A', 'B']].stack(), 5, labels=list(range(5))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'
pd.concat([df, df_], axis=1)


让我们构建一个更好的示例并使用seaborn 来查看可视化

df = pd.DataFrame(dict(A=(np.random.randn(10000) * 100 + 20).astype(int),
                       B=(np.random.randn(10000) * 100 - 20).astype(int)))

import seaborn as sns

df.index = df.index.to_series().astype(str).radd('city')

df_ = pd.cut(df[['A', 'B']].stack(), 30, labels=list(range(30))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'

sns.jointplot(x=df_.Abkt, y=df_.Bbkt, kind="scatter", color="k")


或者一些相关的数据怎么样

mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 100000)
df = pd.DataFrame(data, columns=["A", "B"])

df.index = df.index.to_series().astype(str).radd('city')

df_ = pd.cut(df[['A', 'B']].stack(), 30, labels=list(range(30))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'

sns.jointplot(x=df_.Abkt, y=df_.Bbkt, kind="scatter", color="k")


互动bokeh

不用太复杂

from bokeh.io import show, output_notebook, output_file

from bokeh.plotting import figure
from bokeh.layouts import row, column
from bokeh.models import ColumnDataSource, Select, CustomJS

output_notebook()

# generate random data
flips = np.random.choice((1, -1), (5, 5))
flips = np.tril(flips, -1) + np.triu(flips, 1) + np.eye(flips.shape[0])

half = np.ones((5, 5)) / 2
cov = (half + np.diag(np.diag(half))) * flips
mean = np.zeros(5)

data = np.random.multivariate_normal(mean, cov, 10000)
df = pd.DataFrame(data, columns=list('ABCDE'))

df.index = df.index.to_series().astype(str).radd('city')

# Stack and cut to get dependent relationships
b = 20
df_ = pd.cut(df.stack(), b, labels=list(range(b))).unstack()

# assign default columns x and y.  These will be the columns I set bokeh to read
df_[['x', 'y']] = df_.loc[:, ['A', 'B']]

source = ColumnDataSource(data=df_)

tools = 'box_select,pan,box_zoom,wheel_zoom,reset,resize,save'

p = figure(plot_width=600, plot_height=300)
p.circle('x', 'y', source=source, fill_color='olive', line_color='black', alpha=.5)

def gcb(like, n):
    code = """
    var data = source.get('data');
    var f = cb_obj.get('value');
    data['01'] = data[f];
    source.trigger('change');
    """
    return CustomJS(args=dict(source=source), code=code.format(like, n))

xcb = CustomJS(
    args=dict(source=source),
    code="""
    var data = source.get('data');
    var colm = cb_obj.get('value');
    data['x'] = data[colm];
    source.trigger('change');
    """
)

ycb = CustomJS(
    args=dict(source=source),
    code="""
    var data = source.get('data');
    var colm = cb_obj.get('value');
    data['y'] = data[colm];
    source.trigger('change');
    """
)

options = list('ABCDE')
x_select = Select(options=options, callback=xcb, value='A')
y_select = Select(options=options, callback=ycb, value='B')


show(column(p, row(x_select, y_select)))

【讨论】:

stackunstack 是非常好的解决方案 ;) 不错的编辑 :) 您是否按照我在解决方案中的描述查看了HoloView?因为bokeh 不允许它(还没有?),所以拥有一个交互式 hexbin 可能很有用。如果您不打算尝试,我会在这个周末尝试(我对 dataviz 很陌生,我很想尝试新事物)。另外,如果您有任何关于 noobz 的教程或练习,您可以分享一下! @MaxChrétien 我没听说过HoloView。我去看看。 你的两个答案都很棒。我很感谢你。但是,我想知道,我们如何确保 @ Bokeh 的人们知道这篇文章并渴望交互式 hexbin 图。同样,@seaborn 的人们是否有计划让他们的情节互动? seaborn hexbin 情节很漂亮。 stanford.edu/~mwaskom/software/seaborn/examples/…。我对交互机制的偏好将允许用户从边缘分布中选择 a) 切片和/或 b) 从图中选择六边形。我想将选择链接到另一个显示更多信息的图。【参考方案3】:

这是一个使用bokehHoloViews 的新解决方案。它应该对交互部分做出更多响应。

当谈到 dataviz 时,我尽量记住 简单就是美丽

我使用faker 库来生成随机城市名称,以使以下图表更加逼真。

即使最重要的部分是库的选择,我也会把我所有的代码都放在这里。

import pandas as pd
import numpy as np
from faker import Faker

def generate_random_dataset(city_number, 
                        list_identifier,
                        labels,
                        bins,
                        city_location='en_US'):

    fake = Faker(locale=city_location)

    df = pd.DataFrame(data=np.random.uniform(0, 100, len(list_identifier)]), 
                      index=[fake.city() for _ in range(city_number)], 
                      columns=list_identifier)

    for name in list_identifier:
        df[name + 'bkt'] =  pd.Series(pd.cut(df[name], bins, labels=labels))

    return df

list_identifier=list('ABC')
labels = ['Low', 'Medium', 'Average', 'Good', 'Great']
bins = np.array([-1, 20, 40, 60, 80, 101])

df = generate_random_dataset(30, list_identifier, labels, bins)

df.head()

将输出:

有时,当您的数据集很小时,展示一个带有颜色的简单图表就足够了。

from bokeh.charts import Bar, output_file, show
from bokeh.layouts import column

bar = []
for name in list_identifier:
    bar.append(Bar(df, label='index', values=name, stack=name+'bkt',
               title="percentage of " + name, legend='top_left', plot_width=1024))

output_file('cities.html')

show(column(bar))

将创建一个包含图表的新 html 页面(城市)。请注意,使用bokeh 生成的所有图表都是交互式的。

bokeh 最初无法绘制 hexbin。但是,HoloViews 可以。因此,它允许在ipython notebook 中绘制交互式绘图。

语法很简单,你只需要一个两列的矩阵并调用 hist 方法:

import holoviews as hv
hv.notebook_extension('bokeh')

df = generate_random_dataset(1000, list_identifier, list(range(5)), 5)

points = hv.Points(np.column_stack((df.A, df.B)))
points.hist(num_bins=5, dimension=['x', 'y'])

为了与@piRSquared 解决方案进行比较,我偷了一些代码(顺便说一句谢谢 :) 以显示具有某种相关性的数据:

mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 100000)
df = pd.DataFrame(data, columns=["A", "B"])

df.index = df.index.to_series().astype(str).radd('city')

df_ = pd.cut(df[['A', 'B']].stack(), 30, labels=list(range(30))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'

points = hv.Points(np.column_stack((df_.Abkt, df_.Bbkt)))
points.hist(num_bins=5, dimension=['x', 'y'])

请考虑访问HoloViewstutorial。

【讨论】:

这很棒。谢谢你。我想知道是否有可能创建一个看起来与 seaborn 相似的 hexbin 图。这个情节很漂亮。我对交互机制的偏好将允许用户从边缘分布中选择 a) 切片和/或 b) 从图中选择六边形。我想将选择链接到另一个显示更多信息的图。这可能吗? stanford.edu/~mwaskom/software/seaborn/examples/…. 我不知道这是否可能,因为我是 Holoview 的新手。如果我找到解决方案,我会在这个周末看看并编辑这个答案! 目前尚无法使用 python 绘制像 seaborn 这样的十六进制图,但正在讨论中。 github.com/bokeh/bokeh/issues/4342 但是,该功能在 Rrbokeh r-bloggers.com/plotting-lots-of-data-with-rbokeh 中可用

以上是关于交互式条件直方图桶切片数据可视化的主要内容,如果未能解决你的问题,请参考以下文章

python数据可视化数据挖掘机器学习深度学习 常用库IDE等

最完整的学习 Matplotlib 数据可视化

使用Plotly绘制常见5种动态交互式图表

Python交互图表可视化Bokeh:5 柱状图| 堆叠图| 直方图

使用Plotly绘制常见5种动态交互式图表

怎么用matlab显示一张图片和它的灰度直方图?