Seaborn load_dataset

Posted

技术标签:

【中文标题】Seaborn load_dataset【英文标题】: 【发布时间】:2015-07-31 21:54:20 【问题描述】:

我正在尝试按照 example 使用 Seaborn 进行分组箱线图工作

我可以让上面的例子工作,但是行:

tips = sns.load_dataset("tips")

根本没有解释。我找到了tips.csv 文件,但似乎找不到关于load_dataset 具体功能的足够文档。我试图创建自己的 csv 并加载它,但无济于事。我还重命名了提示文件,它仍然有效......

我的问题是:

load_dataset 实际上在哪里寻找文件?我真的可以将它用于我自己的箱线图吗?

编辑:我设法使用自己的 DataFrame 制作了自己的箱线图,但我仍然想知道 load_dataset 是否用于神秘教程示例之外的任何其他内容。

【问题讨论】:

load_dataset 只是 seaborn 文档的一个便利功能。 【参考方案1】:

load_dataset 在https://github.com/mwaskom/seaborn-data 上查找在线 csv 文件。这是文档字符串:

从在线存储库加载数据集(需要互联网)。

参数


名称:str 数据集的名称(name.csv on https://github.com/mwaskom/seaborn-data)。您可以获取列表 可用数据集使用 :func:get_dataset_names

kws : 字典,可选 传递给 pandas.read_csv

如果您想修改该在线数据集或引入您自己的数据,您可能必须使用pandas。 load_dataset实际上返回了一个pandas DataFrame对象,你可以通过type(tips)确认。

如果您已经在名为tips2.csv 的csv 文件中创建了自己的数据,并将其保存在与脚本相同的位置,请使用此文件(在安装pandas 之后)将其加载:

import pandas as pd

tips2 = pd.read_csv('tips2.csv')

【讨论】:

奇怪的是load_dataset 文档实际上并没有说明它返回的内容。我知道这对那些使用过几次的人来说是显而易见的,但是一个人怎么能不记录这个基本事实呢? https://seaborn.pydata.org/generated/seaborn.load_dataset.html【参考方案2】:

只是为了添加到“selwyth”的答案中。

import pandas as pd
Data=pd.read_csv('Path\to\csv\')
Data.head(10)

成功完成这些步骤后。 现在绘图实际上是这样工作的。

假设您要绘制条形图。

sns.barplot(x=Data.Year,y=Data.Salary) //year and salary attributes were present in my dataset.

这实际上适用于 seaborn 中的每个绘图。

此外,我们将没有资格在 Seaborn Git 上添加我们自己的数据集。

【讨论】:

【参考方案3】:

从here 下载所有用于您的example 的csv 文件(压缩)。

将 zip 文件解压缩到本地目录并从同一目录启动您的 jupyter notebook。 在 jupyter notebook 中运行以下命令:

import pandas as pd
tips = pd.read_csv('seaborn-data-master/tips.csv')

您现在可以使用您的示例了!

【讨论】:

以上是关于Seaborn load_dataset的主要内容,如果未能解决你的问题,请参考以下文章

Python seaborn大更新,带来全新绘图方式seaborn.objects

Python数据分析-可视化“大佬”之Seaborn

seaborn使用FacetGrid函数可视化山脊图(Ridgeline Plot with Seaborn)

seaborn可视化水平箱图(Horizontal Boxplot in Python with Seaborn)

Seaborn绘图

数据可视化的利器-Seaborn简易入门