使用 pandas 导入数据集

Posted

技术标签:

【中文标题】使用 pandas 导入数据集【英文标题】:Dataset import using pandas 【发布时间】:2019-08-17 01:55:10 【问题描述】:

我从 github (json) 导入了一个数据集,它是一个包含许多子文件夹的文件夹,在子文件夹下有许多文档文件,但现在我已将数据集下载到本地驱动器,我不知道如何从我的本地驱动器导入数据集文件夹。我确实知道使用 pandas 导入 csv 文件,但因为我的数据集是我上面提到的文件夹。有人可以告诉我如何在不影响以下代码的情况下从我的本地驱动器导入它。当然,我正在使用 python。请检查显示从 github 导入的数据集的代码。 '20_newsgroup' 是我本地驱动器中文件夹的名称。

# Import Dataset
df = pd.read_json('https://raw.githubusercontent.com/selva86/datasets/master/newsgroups.json')
df = df.loc[df.target_names.isin(['soc.religion.christian', 'rec.sport.hockey', 'talk.politics.mideast', 'rec.motorcycles']) , :]
print(df.shape)  #> (2361, 3)
df.head()

# Convert to list
data = df.content.values.tolist()
data_words = list(sent_to_words(data))
print(data_words[:1])

【问题讨论】:

Pandas read_json(path_or_buff,args) 采用文件路径、URL 或字节缓冲区。有效的 url 使用以下方案,包括 http、ftp、s3、gcs 和 file。您的情况不支持 https 方案。 啊!是的,一个错误。死链接。已更正 【参考方案1】:
df = pd.read_json('newsgroups.json')

应该足够了。 (或者pd.read_json('some/directory/newsgroups.json'),如果它不在当前目录中。)

【讨论】:

非常感谢。实际上,我的情况是我从 UCI 数据集站点下载了数据集“新闻组”,该站点与任何其他文件夹一样是一个文件夹,我想导入该文件夹,但您的方法也可以正常工作。我从 github 网站下载了 json 文件,它可以工作。谢谢【参考方案2】:

关于从一个目录上传多个文件,我想看看这是否能回答你的问题:https://***.com/a/30540662/9524722

【讨论】:

以上是关于使用 pandas 导入数据集的主要内容,如果未能解决你的问题,请参考以下文章

机器学习100天:002 数据预处理之导入数据集

机器学习100天:002 数据预处理之导入数据集

Python - Pandas - 导入 Excel 文件,遍历每一行,添加新值,并添加到数据框

无法让熊猫打开 CSV [Python, Jupyter, Pandas]

将数据从 BigQuery 导入 SQL Server [关闭]

Pandas 模块中的数据类型转换