r语言计算均方误差怎么判断

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了r语言计算均方误差怎么判断相关的知识,希望对你有一定的参考价值。

1、RMSE(均方根误差)即标准误差:
假如数据在A1:Z1
标准方差用函数=STDEV(A1:Z1)
方差用函数=VARA(A1:Z1)
2、MRE(平均相对误差)
Excel/函数/统计/STDEV(Sd)
计算出标准偏差Sd值,然后除以平均数再×100%就可以了。
为了找到均方根误差,我们首先需要找到残差(也称为误差,我们需要对这些值均方根),然后需要计算这些残差的均方根。因此,如果我们有一个线性回归模型对象说M,则均方根误差可以找到为sqrt(mean(M $residuals ^ 2))。

示例
x1<-rnorm(500,50,5)
y1<-rnorm(500,50,2)
M1<-lm(y1~x1)
summary(M1)
输出结果

Call:
lm(formula = y1 ~ x1)
Residuals:
Min 1Q Median 3Q Max
-5.6621 -1.2257 -0.0272 1.4151 6.6421
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 50.178943 0.915473 54.812 <2e-16 ***
x1 -0.002153 0.018241 -0.118 0.906
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.966 on 498 degrees of freedom
Multiple R-squared: 2.798e-05, Adjusted R-squared: -0.00198
F-statistic: 0.01393 on 1 and 498 DF, p-value: 0.9061
从模型M1中找到均方根误差-

示例
sqrt(mean(M1$residuals^2))
输出结果

[1] 1.961622
示例
x2<-rnorm(5000,125,21)
y2<-rnorm(5000,137,10)
M2<-lm(y2~x2)
summary(M2)
输出结果

Call:
lm(formula = y2 ~ x2)
Residuals:
Min 1Q Median 3Q Max
-37.425 -7.005 -0.231 6.836 36.627
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 138.683501 0.851247 162.918 <2e-16 ***
x2 -0.014386 0.006735 -2.136 0.0327 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 10.06 on 4998 degrees of freedom
Multiple R-squared: 0.0009121, Adjusted R-squared: 0.0007122
F-statistic: 4.563 on 1 and 4998 DF, p-value: 0.03272
从模型M2中找到均方根误差:

示例
sqrt(mean(M2$residuals^2))
输出结果

[1] 10.05584
示例
x37<-rpois(500,5)
y3<-rpois(500,10)
M3<-lm(y3~x3)
summary(M3)
输出结果

Call:
lm(formula = y3 ~ x3)
Residuals:
Min 1Q Median 3Q Max
-7.9004 -1.9928 -0.2155 2.1921 9.3770
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.17770 0.32330 31.481 <2e-16 ***
x3 -0.09244 0.06145 -1.504 0.133
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.027 on 498 degrees of freedom
Multiple R-squared: 0.004524, Adjusted R-squared: 0.002525
F-statistic: 2.263 on 1 and 498 DF, p-value: 0.1331
从模型M3查找均方根误差-

示例
sqrt(mean(M3$residuals^2))
输出结果

[1] 3.020734
示例
x4<-runif(50000,5,10)
y4<-runif(50000,2,10)
M4<-lm(y4~x4)
summary(M4)
输出结果

Call:
lm(formula = y4 ~ x4)
Residuals:
Min 1Q Median 3Q Max
-4.0007 -1.9934 -0.0063 1.9956 3.9995
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.9994268 0.0546751 109.729 <2e-16 ***
x4 0.0001572 0.0071579 0.022 0.982
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.309 on 49998 degrees of freedom
Multiple R-squared: 9.646e-09, Adjusted R-squared: -1.999e-05
F-statistic: 0.0004823 on 1 and 49998 DF, p-value: 0.9825
从模型M4找到均方根误差-

示例
sqrt(mean(M4$residuals^2))
输出结果

[1] 2.308586
示例
x5<-sample(5001:9999,100000,replace=TRUE)
y5<-sample(1000:9999,100000,replace=TRUE)
M5<-lm(y5~x5)
summary(M5)
输出结果

Call:
lm(formula = y5 ~ x5)
Residuals:
Min 1Q Median 3Q Max
-4495 -2242 -4 2230 4512
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.504e+03 4.342e+01 126.765 <2e-16 ***
x5 -1.891e-03 5.688e-03 -0.333 0.74
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2594 on 99998 degrees of freedom
Multiple R-squared: 1.106e-06, Adjusted R-squared: -8.895e-06
F-statistic: 0.1106 on 1 and 99998 DF, p-value: 0.7395
从模型M5中找到均方根误差<

示例
sqrt(mean(M5$residuals^2))
输出结果

[1] 2593.709
参考技术A 1.生成关于x1~N(5,3),x2~N(100,10),error~N(0,1)
2.自己定一个实际对线性回归模型,并计算得到真实的y
y = 1.5+0.8x1+1.8x2+error
3.对x1,x2 进行线性拟合,当然这里也可以自写函数用最小二乘法原理,进行参数对估计
4.提取的每一个beta1,beta2
5.计算他的均方误差,计算公式

Sklearn:如何获得对训练数据进行分类的均方误差

【中文标题】Sklearn:如何获得对训练数据进行分类的均方误差【英文标题】:Sklearn: how to get mean squared error on classifying training data 【发布时间】:2018-07-12 16:45:37 【问题描述】:

我第一次尝试在 Python 中使用 sklearn 来解决一些分类问题,并且想知道仅根据训练数据计算分类器(如 SVM)的误差的最佳方法是什么。

我计算准确率和rmse的示例代码如下:

    svc = svm.SVC(kernel='rbf', C=C, decision_function_shape='ovr').fit(X_train, y_train.ravel())
    prediction = svc.predict(X_test)
    svm_in_accuracy.append(svc.score(X_train,y_train))
    svm_out_rmse.append(sqrt(mean_squared_error(prediction, np.array(list(y_test)))))
    svm_out_accuracy.append((np.array(list(y_test)) == prediction).sum()/(np.array(list(y_test)) == prediction).size)

我从 'sklearn.metrics import mean_squared_error' 知道几乎可以让我获得用于样本外比较的 MSE。我可以在 sklearn 中做些什么来给我一个关于我的模型在训练数据上错误分类的好/不好的错误度量?我问这个是因为我知道我的数据不是完全线性可分的(这意味着分类器会对某些项目进行错误分类),并且我想知道获得错误度量的最佳方法。任何帮助将不胜感激!

【问题讨论】:

用于分类。您可以使用准确率、召回率和精度 这非常广泛,取决于您的具体问题,而不是 sklearn 问题。首先,RMSE 仅用于回归。对于分类,请使用@AkshayNevrekar 的指标,或者另外使用 AUC 或 Log-Loss。实际研究混淆矩阵或 ROC-ruve 可能很有用。但这实际上取决于您的问题(类的数量,类的平衡,是误报还是误报更多的问题等)。 Sklearn 确实支持所有命名指标,请参阅here 【参考方案1】:

要评估您的分类器,您可以使用以下指标:

from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score

混淆矩阵将预测标签作为列标题,而真实标签是行标签。混淆矩阵的主对角线显示正确分配的标签数量。任何非对角元素都包含错误分配标签的数量。从混淆矩阵中,您还可以计算准确率、精确度和召回率。分类报告和混淆矩阵都易于使用 - 您将测试和预测标签传递给函数:

print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[1047    5]
 [   0  448]]

            precision    recall  f1-score   support

        0.0       1.00      1.00      1.00      1052
        1.0       0.99      1.00      0.99       448

avg / total       1.00      1.00      1.00      1500

其他指标函数计算并绘制 ROC 的接收器操作特征 (ROC) 和曲线下面积 (AUC)。您可以在此处阅读有关 ROC 的信息:

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html

http://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html

【讨论】:

以上是关于r语言计算均方误差怎么判断的主要内容,如果未能解决你的问题,请参考以下文章

R语言std.error函数计算平均值的标准误差实战

R语言基于Bootstrap方法计算标准误差(std. error)实战

R语言︱机器学习模型评价指标+(转)模型出错的四大原因及如何纠错

r 均方误差和R2

R语言回归模型残差标准误差计算实战(Residual Standard Error):计算残差标准误残差标准误解读

怎么用MATLAB计算均方误差啊