使用Pandas数据读取器进行Python回归建模

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用Pandas数据读取器进行Python回归建模相关的知识,希望对你有一定的参考价值。

我正在尝试构建一个函数,它将为任何股票提取数据,然后绘制回归。但是,我遇到了源数据的问题。我的问题是 - 如何在熊猫数据框中拍摄时间序列并绘制随时间变化的线性趋势?我的代码如下:

此代码将生成回归:

import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
rng = np.random.RandomState(1)
x = 10 * rng.rand(50)
y = 2 * x - 5 + rng.randn(50)
plt.scatter(x, y);
plt.show()
from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True)

model.fit(x[:, np.newaxis], y)

xfit = np.linspace(0, 10, 1000)
yfit = model.predict(xfit[:, np.newaxis])

plt.scatter(x, y)
plt.plot(xfit, yfit);
plt.show()

这是我尝试通过数据帧传递数据

from datetime import datetime
import pandas_datareader.data as web

start = datetime(2017, 8, 1)
end = datetime(2018, 7, 30)
data_SP = web.DataReader('JPM', 'iex', start, end)

y = dates # not sure how to get here?
plt.scatter(data['close'], y);
plt.show()

from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True)

model.fit(data['close'][:, np.newaxis], y)

xfit = np.linspace(0, 10, 1000)
yfit = model.predict(xfit[:, np.newaxis])

plt.scatter(data['close'], y)
plt.plot(xfit, yfit);
plt.show()
答案

回归不能采用datetime对象,必须转换为数字类型:

import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from datetime import datetime
import pandas as pd
pd.core.common.is_list_like = pd.api.types.is_list_like
from sklearn.linear_model import LinearRegression
import pandas_datareader.data as web

start = datetime(2017, 8, 1)
end = datetime(2018, 7, 30)
data_SP = web.DataReader('JPM', 'iex', start, end)

dates = list(map(lambda x: datetime.strptime(x,"%Y-%m-%d"),list(data_SP.index)))
days_since = list(map(lambda x: (x-start).days,dates))

model = LinearRegression(fit_intercept=True)
model.fit(np.array(days_since)[:, np.newaxis],data_SP['close'])

yfit = model.predict(np.array(days_since)[:, np.newaxis])

plt.figure()
plt.scatter(dates, yfit)
plt.scatter(dates, data_SP['close'])
plt.xlabel('date')
plt.ylabel('close')
plt.show()

如果使用百分比变化,则需要考虑唠叨的NaN。

import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import numpy as np
from datetime import datetime
import pandas as pd
pd.core.common.is_list_like = pd.api.types.is_list_like
from sklearn.linear_model import LinearRegression
import pandas_datareader.data as web

start = datetime(2017, 8, 1)
end = datetime(2018, 7, 30)
data_SP = web.DataReader('JPM', 'iex', start, end)

dates = list(map(lambda x: datetime.strptime(x,"%Y-%m-%d"),list(data_SP.index)))
days_since = list(map(lambda x: (x-start).days,dates))

model = LinearRegression(fit_intercept=True)
model.fit(np.array(days_since)[1:][:, np.newaxis],data_SP['close'].pct_change(1)[1:]) # <------------

yfit = model.predict(np.array(days_since)[:, np.newaxis])

plt.figure()
plt.scatter(dates, yfit)
plt.scatter(dates, data_SP['close'].pct_change(1))
plt.xlabel('date')
plt.ylabel('close')
plt.show()

percent change

另一答案

我假设您要问的是能够随时间绘制您的库存数据。就像我在评论中建议的那样,你的x轴应该是日期,而y轴应该是收盘价。

从那里,我们将简单地绘制图形:

plt.scatter(data_SP.index,data_SP['close'])

我的代码中的导入还有一些其他问题,所以如果你遇到这些问题,我会发布我在这里使用的完整代码:

import matplotlib.pyplot as plt
import numpy as np
from datetime import datetime
pd.core.common.is_list_like = pd.api.types.is_list_like
from pandas_datareader import data, wb

start = datetime(2017, 8, 1)
end = datetime(2018, 7, 30)
data_SP = data.DataReader('JPM', 'iex', start, end)

plt.scatter(data_SP.index,data_SP['close'])

你将不得不重新格式化x轴,以便能够看到dates,如果你想做任何其他changes。如果要使用回归模型,则必须使用数字数据,而不是日期时间数据。 (我会为你发布一个link

线性回归不适用于日期数据。因此我们需要将其转换为数值。以下代码将日期转换为数值:

import datetime as dt
data_df['Date'] = pd.to_datetime(data_df['Date'])
data_df['Date']=data_df['Date'].map(dt.datetime.toordinal)

这是链接中的第一个答案(Chandan完全信用)

另一答案

我已将代码调整为以下内容。它将产生显示超过基准的回报的视觉效果。代码有很多方向。例如 - 我们可以让它在标准普尔指数中循环所有500只股票并计算出与指数最佳回报的股票,或者我们可以让它在1个月期间内循环所有500只股票,并根据历史计算出什么是最佳股票。等什么时候。视觉效果非常适合分析。

import matplotlib.pyplot as plt
import numpy as np
from datetime import datetime
import pandas
from sklearn.linear_model import LinearRegression
import pandas_datareader.data as pdr

def close_price_trending(analysis):
    model = LinearRegression(fit_intercept=True)
    model.fit(np.array(days_since)[:, np.newaxis],data_sample_processed[analysis])
    yfit = model.predict(np.array(days_since)[:, np.newaxis])
    plt.scatter(dates, data_sample_processed[analysis])
    plt.scatter(dates, yfit)
    plt.xlabel('date')
    plt.ylabel('close')
    plt.show()

def return_excess_benchmark1(analysis, benchmark):
    fig = plt.figure()
    ax = fig.add_subplot(111)
    fig.subplots_adjust(top=0.85)
    ax.set_title(str(analysis) + ' O/U ' + str(benchmark))
    plt.scatter(dates, (1 + data_sample_processed[analysis]).cumprod() - (1 + data_sample_processed[benchmark]).cumprod())
    model = LinearRegression(fit_intercept=True)
    model.fit(np.array(days_since)[:, np.newaxis],(1 + data_sample_processed[analysis]).cumprod() - (1 + data_sample_processed[benchmark]).cumprod())
    yfit = model.predict(np.array(days_since)[:, np.newaxis])
    plt.scatter(dates, yfit)
    plt.xlabel('date')
    plt.ylabel('close')
    fig.show()


# get and process data
start = datetime(2015, 8, 1)
end = datetime(2018, 7, 30)

Symbol_List = ['GSLC', 'AGG', 'JPM','CAR', 'IVV', 'DSI', 'VTI']

data = pandas.concat([pdr.DataReader(s, 'iex', start, end).rename(columns={'close': s})
                      for s in Symbol_List], axis=1)
data_sample = data[Symbol_List]
data_sample_processed = data_sample.pct_change()
data_sample_processed = data_sample_processed.fillna(0)
dates = list(map(lambda x: datetime.strptime(x,"%Y-%m-%d"),list(data_sample_processed.index)))
days_since = list(map(lambda x: (x-start).days,dates))

# start analysis
analysis_symbol_1 = 'DSI'
analysis_symbol_2 = 'GSLC'
benchmark_1 = 'VTI'

return_excess_benchmark1(analysis_symbol_1, benchmark_1)
return_excess_benchmark1(analysis_symbol_2, benchmark_1)

以上是关于使用Pandas数据读取器进行Python回归建模的主要内容,如果未能解决你的问题,请参考以下文章

python多元线性回归怎么计算

Python机器学习数据建模与分析——Numpy和Pandas综合应用案例:空气质量监测数据的预处理和基本分析

如何在 Python Pandas 中输出回归表

python机器学习数据建模与分析——pandas中常用函数总结

python实现Lasso回归分析(特征筛选建模预测)

数学建模学习笔记集训十天之第一天