分类数据分析

Posted Rshimmer

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了分类数据分析相关的知识,希望对你有一定的参考价值。

统计学_贾俊平——思考题第9章 分类数据分析

1.简述列联表的构造与列联表的分布。

答:列联表是将两个以上的变量进行交叉分类的频数分布表。

列联表的分布可以从两个方面看,一个是观察值的分布,又称为条件分布,每个具体的观察值就是条件频数;一个是期望值的分布。

2.用一张报纸、一份杂志或你周围的例子构造一个列联表,说明这个调查中两个分类变量的关系,并提出进行检验的问题。

答:对三个生产厂甲、乙、丙提供的学习机的 A、B、C 三种性能进行质量检验,欲了解生产厂家同学习机性能的质量差异是否有关系。抽查了 450 部学习机次品,整理成为如表 9-1 所示的 3×3 列联表。

根据抽查检验的数据表明:次品类型与厂家(即哪一个厂)生产是无关的(即是相互独立的)。

建立假设:H0:次品类型与厂家生产是独立的;H1:次品类型与厂家生产不是独立的。

可以计算各组的期望值,如表 9-2 所示(表中括号内的数值为期望值)。

所以$χ 2=(20-17)^2 /17+(40-33)^2 /33+...+(70-58)^2 /58=9.821。$

而自由度等于(R-1)(C-1)=(3-1)×(3-1)=4,若以 0.01 的显著性水平进行检验,查 χ^2 分布表得 $χ_0.01^ 2(4)=13.277$。由于 $χ 2=9.821<χ_0.01^ 2(4)=13.277,故接受原假设 H0,即次品类型与厂家生产是独立的。

3.说明计算 $χ 2$ 统计量的步骤。

答:计算 $χ^2$ 统计量的步骤:

(1)用观察值 $f_0$ 减去期望值 $f_e$;

(2)将($f_0-f_e$)之差平方;

(3)将平方结果($f_0-f_e$) 2 除以 $f_e$;

(4)将步骤(3)的结果加总,即得:

$$\\chi^2=\\sum \\frac(f_0-f_e)^2f_e $$

4.简述 φ 系数、c 系数、V 系数的各自特点。

答:(1)φ 相关系数是描述 2×2 列联表数据相关程度最常用的一种相关系数。它的计算公式为:

$$\\varphi=\\sqrt\\chi ^2 /n$$

式中,

$$\\chi^2=\\sum \\frac(f_0-f_e)^2f_e $$

出的 φ 系数可以控制在 0~1 这个范围。

(2)列联相关系数又称列联系数,简称 c 系数,主要用于大于 2×2 列联表的情况。c 系数的计算公式为:

$$c=\\sqrt\\frac\\chi^2\\chi^2 +n$$

当列联表中的两个变量相互独立时,系数 c=0,但它不可能大于 1。c 系数的特点是,其可能的最大值依赖于列联表的行数和列数,且随着 R 和 C 的增大而增大。

(3)格莱姆(Gramer)提出了 V 系数。V 系数的计算公式为:

$$V=\\sqrt\\frac\\chi^2n \\times min[(R-1),(C-1)]$$

当两个变量相互独立时,V=0;当两个变量完全相关时,V=1。所以 V 的取值在 0~1 之间。如果列联表中有一维为 2,即 min[(R-1),(C-1)]=1,则 V 值就等于 φ 值。

5.构造下列维数的列联表,并给出 $χ^2$检验的自由度。

a.2 行 5 列

b.4 行 6 列

c.3 行 4 列

答:i 行 j 列联表,如表 9-3 所示。

而$χ^2$检验的自由度=(行数-1)(列数-1),所以

a.当 i=2,j=5 时,表 9-3 即为 2 行 5 列的列联表,其 χ 2 检验的自由度=(2-1)×(5-1)=4;

b.当 i=4,j=6 时,表 9-3 即为 4 行 6 列的列联表,其 χ 2 检验的自由度=(4-1)×(6-1)=15;

c.当 i=3,j=4 时,表 9-3 即为 3 行 4 列的列联表,其 χ 2 检验的自由度=(3-1)×(4-1)=6。

数学建模:2.监督学习--分类分析- KNN最邻近分类算法

 1.分类分析

分类(Classification)指的是从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类的分析方法。

分类问题的应用场景:分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一副图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上。

本文主要讲基本的分类方法 ----- KNN最邻近分类算法 

KNN最邻近分类算法 ,简称KNN,最简单的机器学习算法之一。

  核心逻辑:在距离空间里,如果一个样本的最接近的K个邻居里,绝大多数属于某个类别,则该样本也属于这个类别。

 

技术分享图片

技术分享图片

2. KNN最邻近分类的python实现方法

最邻近分类的python实现方法

在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别

电影分类 / 植物分类

  2.1电影分类

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline
#  案例一:电影数据分类

from sklearn import neighbors  # 导入KNN分类模块
import warnings
warnings.filterwarnings(ignore) 
# 不发出警告

data = pd.DataFrame({name:[北京遇上西雅图,喜欢你,疯狂动物城,战狼2,力王,敢死队],
                  fight:[3,2,1,101,99,98],
                  kiss:[104,100,81,10,5,2],
                  type:[Romance,Romance,Romance,Action,Action,Action]})
print(data)
print(-------)
#  创建数据

plt.scatter(data[data[type] == Romance][fight],data[data[type] == Romance][kiss],color = r,marker = o,label = Romance)
plt.scatter(data[data[type] == Action][fight],data[data[type] == Action][kiss],color = g,marker = o,label = Action)
plt.grid()
plt.legend()

knn = neighbors.KNeighborsClassifier()   # 取得knn分类器
knn.fit(data[[fight,kiss]], data[type])

技术分享图片

技术分享图片

print(预测电影类型为:, knn.predict([18, 90]))
# 加载数据,构建KNN分类模型
# 预测未知数据

技术分享图片

plt.scatter(18,90,color = r,marker = x,label = Romance)
plt.ylabel(kiss)
plt.xlabel(fight)
plt.text(18,90,《你的名字》,color = r)
# 绘制图表

技术分享图片

data2 = pd.DataFrame(np.random.randn(100, 2)*50, columns = [fight, kiss])
data2[typetest] = knn.predict(data2)

plt.scatter(data[data[type] == Romance][fight],data[data[type] == Romance][kiss],color = r,marker = o,label = Romance)
plt.scatter(data[data[type] == Action][fight],data[data[type] == Action][kiss],color = g,marker = o,label = Action)
plt.grid()
plt.legend() #做一个可视化
plt.scatter(data2[data2[typetest] == Romance][fight],data2[data2[typetest] == Romance][kiss],color = r,marker = x,label = Romance)
plt.scatter(data2[data2[typetest] == Action][fight],data2[data2[typetest] == Action][kiss],color = g,marker = x,label = Action)
# plt.legend()
plt.ylabel(kiss)
plt.xlabel(fight)
# 绘制图表
data2.head()

技术分享图片

 

 

  2.2植物分类 

# 案例二:植物分类

from sklearn import datasets
iris = datasets.load_iris()
print(iris.keys())
print(数据长度为:%i条 % len(iris[data]))
# 导入数据

print(iris.feature_names)
print(iris.target_names)
#print(iris.target)
print(iris.data[:5])
# 150个实例数据
# feature_names - 特征分类:萼片长度,萼片宽度,花瓣长度,花瓣宽度  → sepal length, sepal width, petal length, petal width
# 目标类别:Iris setosa, Iris versicolor, Iris virginica. 
data = pd.DataFrame(iris.data, columns = iris.feature_names)
data[target] = iris.target
iris.target
data.head()

技术分享图片

knn = neighbors.KNeighborsClassifier()
knn.fit(iris.data, iris.target) #构建一个分类模型

prt_data = knn.predict([0.2, 0.1, 0.3, 0.4]) #array([0]) 
prt_data

 

ty = pd.DataFrame({target:[0, 1, 2], 
                  target_names:iris.target_names})


iris.target

df = pd.merge(data, ty, on = target)

df.head()

技术分享图片

knn = neighbors.KNeighborsClassifier()
# knn.fit(iris.data, iris.target) #构建一个分类模型
knn.fit(iris.data, df[target_names]) #监督学习一定要有它的特征量和目标值
prt_data = knn.predict([0.2, 0.1, 0.3, 0.4]) #做预测
prt_data

技术分享图片

 

以上是关于分类数据分析的主要内容,如果未能解决你的问题,请参考以下文章

分类汇总和数据透视表的优缺点

数学建模:2.监督学习--分类分析- KNN最邻近分类算法

大数据算法:分类算法

创建分类器笔记

什么是ABC分类法?什么是CVA分类法?分别是如何分类的?

用matlab对数据分类汇总