基于优化ＬＳＴＭ模型的股票预测

Posted 2022-10-03 彭祥.

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了基于优化ＬＳＴＭ模型的股票预测相关的知识，希望对你有一定的参考价值。

LSTM自诞生以来，便以其在处理时间序列方面的优越性能在预测回归，语音翻译等领域广受青睐。今天，主要研究的是通过对LSTM模型的优化来实现股票预测。其实，关于股票预测，LSTM模型已经表现的相当成熟，然而，其以及具有很大的提升空间，比如，股市的影响因素多种多样，这篇论文的重点，便是从若干个影响因素中，挑选出占比最大的几个特征，从而能够达到减少模型运算消耗的目的，下面，便是论文的相关介绍。

理论基础

由于神经网络预测模型具有显著的非线性，我们把神经网络模型归为非线性预测模型。神经网络分为两大类。第一类人工神经网络（ＡＮＮ），如ＭＰ神经网络和ＢＰ神经网络。ＡＮＮ作为早期的神经网络模型，在股票预测方面亦做出了杰出贡献：Ｄｅｎｇ提出ＤＡＥ－ＢＰ模型对股票先进行ＤＡＥ降维，再使用ＢＰ神经网络进行股价预测，取得了不错的预测结果。可惜的是，ＡＮＮ模型结构过于单一，存在以下问题：

１）过拟合，导致模型的泛化能力大大减弱；
２）存在局部极值问题，即梯度下降过程中达到局部极小值点就停止工作，不能精准下降至全局极小值点，导致模型预测能力大大减弱；
３）优化过程中容易因为神经元权重过多、过繁，导致梯度消失或者梯度爆炸问题，最终使神经网络模型预测失效。

第二类神经网络则是相对于ＡＮＮ来说，更深层次、更高效的深度神经网络模型（ＤＮＮ），如卷积神经网络（ＣＮＮ）、循环神经网络（ＲＮＮ）和长短期记忆神经网络（ＬＳＴＭ）。这一类神经网络模型是当前研究金融预测领域最高效、前沿的预测模型，其具有多方面优势。

１）对输入变量的形式没有限制，与预测问题可能相关的信息均可被作为模型输入，这一点极大满足了股票市场容易被各式各样的信息所干扰影响的特征。
２）有效拟合输入变量间的非线性复杂关系，提高样本拟合程度，同时通过神经元权重循环使用原理，大大减少了神经元权重的数量，有效防止过拟合现象。
３）通过ＤＮＮ中ｔａｎｈ激活函数，能够显著解决ＡＮＮ中的梯度爆炸和梯度消失问题。

本文在股票价格影响因素选取中创新性地将消费者情绪和财务数据、基本面数据等多种数据融合，通过深度学习ＬＡＳＳＯ方法和ＰＣＡ分析法对影响股票价格的多种因素进行降维筛选，使各输入数据之间的相关性最大化，再分别导入目前最前沿的ＬＳＴＭ神经网络模型［１０－１４］进行预测，并进行准确性和稳定性的对比，发现其中最高效的股票模型预测方法。

研究方法

ＬＡＳＳＯ

实证分析中，通常会设置尽可能多的自变量，选取自变量时容易出现偏主观意愿的疏漏，从而导致实证分析失真。而ＬＡＳＳＯ方法是一个能够客观筛选有效变量并且解决多重共线性等问题的估计方法。它是１９９７年由Ｔｉｂｓｈｉｒａｎｉ提出的一种压缩估计方法，通过构造一个惩罚函数，让回归系数的绝对值之和在小于一个常数的约束条件下，使得回归模型残差
平方和最小，产生严格等于零的回归系数，从而有效解决回归模型中的多重共线性问题。
ＬＡＳＳＯ方法是在普通线性回归模型中增加Ｌ１惩罚项，普通线性模型的ＬＡＳＳＯ估计为：

ＰＣＡ

主成分分析法是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的ｐ个正交方向；然后对
多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。

ＬＳＴＭ

长短时记忆神经网络（ＬｏｎｇＳｈｏｒｔ－ｔｅｒｍＭｅｍｏｒｙＮｅｔ－ｗｏｒｋｓ，ＬＳＴＭ）是一种特殊的ＲＮＮ类型，可以学习长期依赖信息。ＲＮＮ神经网络模型一直被广泛用于语言识别和文本分类等多个研究领域［１６］。相比于人工神经网络模型（ＡＮＮ）而言，ＲＮＮ神经网络模型可以循环利用神经元的权重参数，能够很好地将历史数据相关信息应用到预测中去。然而，ＲＮＮ神经网络模型的误差反向传播算法只是像ＡＮＮ神经网络模型中一样简单，权重的重复利用能够带来好处，也会带来很大弊端，例如梯度爆炸和梯度消失问题，即对历史数据的长期依赖性问题无法有效解决。为解决这两大难题，机器学习科研工作者们研究出长短时记忆神经网络模型（ＬＳＴＭ），如图１所示。

ＬＳＴＭ模型相较于ＲＮＮ模型最明显的改进是增加了１个细胞状态Ｃ和３个阀门，３个阀门分别是遗忘门ｆ、输出门ｏ和输入门ｉ。在ＬＳＴＭ模型误差反向传播校正权重时，有些误差可以直接通过输入门传递给下一层神经元，有些误差则可以通过遗忘门去进行数据遗忘，这样就解决了梯度爆炸与消失的难题，即有效地处理历史数据中相关信息的冗余等问题。本文研究的股票价格预测是典型的时序问题，且某一个时刻的价格受前一时刻和历史多时刻价格影响，所以选择ＬＳＴＭ模型进行股票价格预测。

股票价格预测的实证分析

数据来源及指标选取

文章所采用的数据为２０１５年１月５日至２０２０年２月７日的平安银行（００００００１）股票数据（数据来源于通达信金融终端），共１２４０条数据。其中８０％作为训练集用于训练模型，其余２０％作为测试集中来验证模型的泛化能力。
在指标选取的过程中，应尽可能全方面地考虑影响因素，全方位地对问题进行分析，尤其对股票价格波动这种影响因素较多且各因素之间并不呈明显线性关系的难题，在指标选择过程中更应该精准筛选。相较于其他研究，实验选用股价的开盘价、最高最低价、成交量以及一般技术指标ＯＢＶ、
ＫＤＪ、ＢＩＡＳ等常见的技术指标，本文创新性地添加了最前沿的ＣＣＩ，ＭＦＩ，ＭＴＭ等若干股价判断技术指标以及准确反映投资者心理情绪的ＰＳＹ指标。这些技术指标能够多方位地涵盖股价波动的潜在信息，具有很强的股价解释性。为了更清楚地对这５７个技术指标进行理解，表１进行了详细说明。

数据的筛选

表１所列５个一级指标、２８个二级指标和５７个三级指标描述了股价的波动影响因素。由于指标个数较多，为了不给网络运行带来负担，提高ＬＳＴＭ神经网络的预测能力，本文分别采用主成分分析法和ＬＡＳＳＯ回归法对５７个指标进行筛选。

主成分分析法

通过ＲＳｔｕｄｉｏ软件对平安银行５７个指标数据进行标准化处理，然后画出碎石图。由图３可知，特征值大于１的主成
分个数有９个。

预测方法及思路

为客观比较ＬＡＳＳＯ－ＬＳＴＭ和ＰＣＡ－ＬＳＴＭ之间的预测
效率，我们加入单纯ＬＳＴＭ模型的预测结果，进行三者对比。

ＬＳＴＭ神经网络方法及预测思路

ＬＳＴＭ神经网络用历史１２４０个交易日的数据信息对股票价格走势进行预测。输入数据为未做数据筛选的所有５７个参数变量，输出数据为历史股价下一日的收盘价预测值。
ＬＡＳＳＯ－ＬＳＴＭ模型方法及预测思路
通过ＬＡＳＳＯ回归法构造惩罚函数，将历史１２４０个交易
日内的５７个参数变量进行去共线性筛选，留下的５０个参数
变量具有低共线性、高相关度等特征，再将其当作输入变量输
入ＬＳＴＭ神经网络模型中，输出变量是当日历史数据的下一
日收盘价预测值。

ＰＣＡ－ＬＳＴＭ模型方法及预测思路

通过ＰＣＡ分析法，从５７个原始数据提取出８个主成分用于ＬＳＴＭ模型输入，这８个主成分因子分别以不同的参数系数囊括了５７个历史数据的信息，显著地精简了神经网络模型输入端，同时又不丢失重要数据信息。输出变量是当日历史数据的下一日收盘价预测值。

实证结果对比

现有运用神经网络进行股票预测的研究实验较多是将历史数据全部放入训练集中进行模型训练，将最新一天的股价作为预测数据。以该方式预测可以得出非常拟合的预测结果图，是因为神经网络模型独特的多次校正权重原理能够让神经网络模型最大程度地拟合出与历史股价重合的预测股价，但这在实际炒股应用中的失真率非常大，毫无实际应用价值。因此，本文采用历史股价８０％的数据即前９６０日的历史股价作为训练集，剩余２０％的数据即第９６０日至１２４０日的历史股价作为预测集。不同的ＬＳＴＭ模型超参数，对ＬＳＴＭ模型的预测能力有着显著的影响，例如神经元层数及每层神经元中的神经元个数的改变会使模型运算繁琐度指数增长且影响最后的预测精度，学习率的千分位改变会显著影响模型在梯度下降时的效率与准确率。

从表２单纯使用ＬＳＴＭ模型对股票的预测结果来看，在ＬＳＴＭ模型设置迭代次数为５００次、激活函数为ｔａｎｈ、学习率为０．００５、神经层为３层、神经元为８个时，ＭＳＥ结果最小，为０．００１２；在设置迭代次数５００次、激活函数ｔａｎｈ、学习率０．００１、神经层２层、神经元８个时，ＲＭＳＥ结果最小，为０．０３０３；在ＬＳＴＭ模型设置迭代次数１０００次、激活函数ｔａｎｈ、学习率０．００１、神经层３层、神经元８个时，ＭＡＥ结果最小，为０．１４６７。图４－图６分别为单纯ＬＳＴＭ模型下，３个误差值最小条件时的预测图。

以上是关于基于优化ＬＳＴＭ模型的股票预测的主要内容，如果未能解决你的问题，请参考以下文章

基于优化ＬＳＴＭ 模型的股票预测