『Sklearn』自带数据集API

Posted 叠加态的猫

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了『Sklearn』自带数据集API相关的知识,希望对你有一定的参考价值。

自带数据集类型如下:

# 自带小型数据集
# sklearn.datasets.load_<name>
# 在线下载数据集
# sklearn.datasets.fetch_<name>
# 计算机生成数据集
# sklearn.datasets.make_<name>
# svmlight/libsvm格式数据集
# sklearn.datasets.load_svmlight_file(path)
# mldata.org在线下载网站数据集
# sklearn.datasets.fetch_mldata(path)

以鸢尾花数据为例,介绍一下自带数据集的使用。

基本使用:

import sklearn
import matplotlib.pyplot as plt

# 载入数据集
iris = sklearn.datasets.load_iris()  # 鸢尾花数据
# 打印数据集中的类型
print(iris.keys())
# dict_keys([\'target\', \'data\', \'feature_names\', \'DESCR\', \'target_names\'])
# target:标签
# data  :数据
# feature_names :特征名称,list,按照data中排序生成
# target_names   : 标签名称,list,按照target中排序生成

print(iris.target.shape)
print(iris.data.shape)
print(iris.feature_names)
print(iris.target_names)
# (150,)
# (150, 4)
# [\'sepal length (cm)\', \'sepal width (cm)\', \'petal length (cm)\', \'petal width (cm)\']
# [\'setosa\' \'versicolor\' \'virginica\']

使用一个特征绘制柱状图:

x_index = 3
colors = [\'blue\', \'red\', \'green\']

for label, color in zip(range(len(iris.target_names)), colors):
    plt.hist(iris.data[iris.target==label, x_index],
             label = iris.target_names[label], color=color)
plt.xlabel(iris.feature_names[x_index])
plt.legend(loc=\'upper right\')
plt.show()

使用两个特征绘制散点图:

x_index = 0
y_index = 1
colors = [\'blue\', \'red\', \'green\']

for label, color in zip(range(len(iris.target_names)), colors):
    plt.scatter(iris.data[iris.target == label, x_index],
                iris.data[iris.target == label, y_index],
                label=iris.target_names[label],   # 图例内容
                color=color)
plt.xlabel(iris.feature_names[x_index])
plt.ylabel(iris.feature_names[y_index])
plt.legend(loc=\'upper right\')                    # 显示图例
plt.show()

 

其他自带小型数据集(load的)均同理,以后遇到教程使用时不用再慌了。

 

以上是关于『Sklearn』自带数据集API的主要内容,如果未能解决你的问题,请参考以下文章

sklearn提供的自带数据集

sklearn知识点汇总

Sklearn:如何在庞大的数据集上应用降维?

python使用反向传播(backpropagation)算法在sklearn库自带的缩小版MINIST手写数据集(1797张图片)上进行训练并测试

python使用反向传播(backpropagation)算法在sklearn库自带的缩小版MINIST手写数据集(1797张图片)上进行训练并测试

sklearn数据集