sklearn乳腺癌数据集数据含义

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了sklearn乳腺癌数据集数据含义相关的知识,希望对你有一定的参考价值。

参考技术A 1. 介绍乳腺癌数据集

现在我们已经建立了逻辑回归工作原理的基础,并且您已经学会了使用sklearn。您可以参见《机器学习----使用Sklearn构建逻辑回归模型》。我们已经构建了为分类数据集构建逻辑回归模型的工具,我们将介绍一个新数据集。

在乳腺癌数据集中,每个数据点都有来自乳房肿块图像的测量值以及它是否癌变。目标是使用这些测量来预测肿块是否癌变。该数据集直接内置在 scikit-learn 中,因此我们不需要读取 csv。让我们从加载数据集开始,对数据及其格式进行分析。

from sklearn.datasets import load_breast_cancer
cancer_data = load_breast_cancer()
返回的对象(我们存储在 cancer_data 变量中)是一个类似于 Python 字典的对象。我们可以使用 keys 方法查看可用的键。

print(cancer_data.keys())
我们将从查看 DESCR 开始,它提供了数据集的详细描述。

print(cancer_data['DESCR'])
我们可以看到有 30 个特征,569 个数据点,目标是恶性(癌性)或良性(非癌性)。对于每个数据点,我们都有乳房质量的测量值(半径、纹理、周长等)。

对于 10 次测量中的每一次,都会计算多个值,因此我们有平均值、标准误差和最差值。这会产生 10 x 3 或 30 个总特征。

Tips :在乳腺癌数据集中,有几个特征是基于其他列计算的。弄清楚要计算哪些附加特征的过程是特征工程。

| 2. 使用pandas加载乳腺癌数据集

让我们从 cancer_data 对象中提取特征和目标数据。首先,特征数据与“数据”键一起存储。当我们查看它时,我们看到它是一个 numpy 数组,有 569 行和 30 列。那是因为我们有 569 个数据点和 30 个特征。

以下是返回数据的 numpy 数组:

cancer_data['data']
让我们用shape看它是一个569行30列的数组。

cancer_data['data'].shape
# (569, 30)
为了将其放入 Pandas DataFrame 并使其更易于阅读,我们需要列名。这些与“feature_names”键一起存储。

现在我们可以用我们所有的特征
参考技术B 在乳腺癌数据集中,每个数据点都有来自乳房肿块图像的测量值以及它是否癌变。目标是使用这些测量来预测肿块是否癌变。该数据集直接内置在 scikit-learn 中,因此我们不需要读取 csv。让我们从加载数据集开始,对数据及其格式进行分析。

以上是关于sklearn乳腺癌数据集数据含义的主要内容,如果未能解决你的问题,请参考以下文章

基于朴素贝叶斯的乳腺癌数据集分类

基于Sklearn的乳腺癌检测问题

机器学习中分类算法及其在乳腺癌中的预测应用代码

机器学习实验之肿瘤预测(决策树)

隔离森林:分类数据

基于SVM的乳腺癌数据集分类