如何解释更丰富的测试结果? [关闭]
Posted
技术标签:
【中文标题】如何解释更丰富的测试结果? [关闭]【英文标题】:How to interpret adfuller test results? [closed] 【发布时间】:2018-05-01 03:47:40 【问题描述】:我很难理解 p 值的概念以及 adfuller 检验的各种其他结果。
我正在使用的代码:
(我在 Stack Overflow 中找到了这段代码)
import numpy as np
import os
import pandas as pd
import statsmodels.api as sm
import cython
import statsmodels.tsa.stattools as ts
loc = r"C:\Stock Study\Stock Research\Hist Data"
os.chdir(loc)
xl_file1 = pd.ExcelFile("HDFCBANK.xlsx")
xl_file2 = pd.ExcelFile("KOTAKBANK.xlsx")
y1 = xl_file1.parse("Sheet1")
x1 = xl_file2.parse("Sheet1")
x = x1['Close']
y = y1['Close']
def cointegration_test(y, x):
# Step 1: regress on variable on the other
ols_result = sm.OLS(y, x).fit()
# Step 2: obtain the residual (ols_resuld.resid)
# Step 3: apply Augmented Dickey-Fuller test to see whether
# the residual is unit root
return ts.adfuller(ols_result.resid)
输出:
(-1.8481210964862593, 0.35684591783869046, 0, 1954, '10%': -2.5675580437891359, '1%': -3.4337010293693235, '5%': -2.863020285222162, 21029.870846458849)
如果我对测试的理解正确:
Value | |
---|---|
adf : float | Test statistic |
pvalue : float | MacKinnon’s approximate p-value based on MacKinnon (1994, 2010) |
usedlag : int | Number of lags used |
nobs : int | Number of observations used for the ADF regression and calculation of the critical values |
critical values : dict | Critical values for the test statistic at the 1 %, 5 %, and 10 % levels. Based on MacKinnon (2010) |
icbest : float | The maximized information criterion if autolag is not None. |
resstore : ResultStore, optional |
我无法完全理解结果,希望有人愿意用外行的语言来解释它们。我发现的所有解释都非常技术性。
我的解释是:它们是协整的,即我们未能反驳原假设(即存在单位根)。置信水平是百分比数字。
我完全错了吗?
【问题讨论】:
我投票结束这个问题,因为它与help center 中定义的编程无关,而是关于统计理论和/或方法 - 请参阅***.com/tags/statistics/info 【参考方案1】:拒绝原假设的典型方法是您的 t 检验结果 -1.84 小于所有临界值(1%、5%、10%),在这种情况下,它不小于您的临界值。
【讨论】:
对不起,可能是误会,如果我错了,请纠正我。但实际上 t_value 低于临界值,所以我们给单位根检验的可信度很小。该系列应该是非平稳的:(i)p_value(0.35)> 0.05,并且(ii)t_value低于临界值 如果 t 检验结果 -1.84 小于所有临界值,这意味着非平稳,但 p 值 【参考方案2】:您在问题中所说的是正确的。一旦您对 OLS 回归残差应用 Adfuller 检验,您就可以检查您的残差是否具有任何异方差性,换句话说,您的残差是否是平稳的。
由于您的 adfuller p 值低于某个指定的 alpha(即:5%),那么您可能会拒绝原假设 (Ho),因为获得 p 值的概率低至仅靠运气(随机机会)是非常不可能的。
一旦 Ho 被拒绝,就可以接受备择假设 (Ha),在这种情况下是:剩余序列是平稳的。
这是给你的假设关系:
何:序列不是平稳的,它呈现异方差性。换句话说,您的残差取决于自身(即:yt 取决于 yt-1,yt-1 取决于 yt-2 ...,依此类推)
哈:序列是平稳的(这通常是我们在回归分析中想要的)。无需再做任何事情。
【讨论】:
【参考方案3】:零假设:序列中存在非平稳性。
另一种假设:序列中存在平稳性
Data: (-1.8481210964862593, 0.35684591783869046, 0, 1954, '10%': -2.5675580437891359,
'1%': -3.4337010293693235, '5%': -2.863020285222162, 21029.870846458849)
让我们一一分解数据。
第一个数据点: -1.8481210964862593:您案例中数据的临界值
第二个数据点: 0.35684591783869046:零假设不会被拒绝的概率(p值)
第三个数据点: 0:回归中用于确定 t 统计量的滞后数。所以这里没有回到“0”时期的自动相关性。
第四个数据点: 1954:分析中使用的观察次数。
第五个数据点: '10%': -2.5675580437891359, '1%': -3.4337010293693235, '5%': -2.863020285222162:T 值对应于 adfuller 测试。
由于临界值 -1.8>-2.5,-3.4,-2.8(1%、5% 和 10% 置信区间的 t 值),不能拒绝原假设。所以你的数据是非平稳的
同样p值为0.35>0.05(如果我们取5%的显着性水平或95%的置信区间),不能拒绝原假设。
因此数据是非平稳的(这意味着它与时间有关)
【讨论】:
抱歉恢复一个旧帖子,但是如果测试值低于1%、5%和10%临界值并且p_value低于5%,是否有可能(或正常) 以获得使用的滞后数为 0?以上是关于如何解释更丰富的测试结果? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章