人工智能初学系列笔记:金融领域的应用
Posted 文仙草
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了人工智能初学系列笔记:金融领域的应用相关的知识,希望对你有一定的参考价值。
自学人工智能时记下的笔记系列(6)---了解一下目前人工智能在金融领域的实际应用情况。虽然人工智能已经有很多算法、模型,但不是所有的模型和算法都适合在金融领域使用。机器学习在金融领域已经有了一定的发展和成效,但仍属于探索阶段,目前发展成熟(即有效)的模型还是有限。
此外,数据是金融领域的优势,也是机器学习的基础。由于网络的兴起,目前网络上的数据积累已经很多了,股票数据、卫星数据、网络新闻等等,公开vs不公开,付费vs免费数据,可以自行扒数据,也可以购买数据服务。数据服务常见的有:收集、清理、结构化、打包、积累等。
目前比较常见的人工智能+金融模式:股票模式识别、交易系统设计、研报自动化分析、智能投资顾问。
金融分析常用数据来源:
- 个体数据:社交媒体、新闻、网页、个人数据
- 商业过程:交易数据、公司内部数据、财务数据
- 监测数据:卫星数据、地理信息。(大型期货、大宗商品交易可能会用到卫星数据。)
- 政府数据:国家统计数据、宏观数据、国际组织数据
哪些算法在金融领域应用比较多?
- 监督学习(线性回归、分类)的算法应用最多。
- 无监督学习、深度学习、强化学习的算法在金融的应用不太多。
量化金融领域的使用:
- 自动交易:根据部署好的买卖指令,实现自动交易
- 传统机器学习-监督学习:根据历史价格找到最佳模型,预测未来收益率
- 传统机器学习-无监督学习:对数据进行分类、量化交易模型的主成分分析等。
基于大数据的金融工作流:
- 数据识别和收集:依赖专门的数据管理团队,同时需要法律合规团队配合,以确保数据获取合法合规。用CSV, Json, API, Streaming, html格式语言
- 数据存储、结构化和预处理:对应岗位包括软件工程师、数据库工程师等,用SQL、Apache Spark、Cloud等数据库、云数据库工具及语言
- 数据分析、回溯测试、信号抓取:对应岗位包括数据科学家、量化研究员、算法工程师等,用Python/R,、Tableau、Spark ML、Excel等工具
- 交易对策、风险分析:对应岗位交易员、基金经理、风控经理、执行团队等,基于数据分析的结果进行报告、预警、决策和行动。
金融分析使用数据的话,用一个经济周期之内的数据最佳,超过一个经济周期的数据用来做模型可能会使模型结果不理想、紊乱。一个经济周期,一般6-10年,10年的数据最佳。
在金融领域常用的人工智能方法:要针对不同的金融情景,选择不同的算法模型,以下是推荐选择的模型
- 预测价格方向 ----- 支持向量分类器、逻辑回归、Lasso回归
- 某一类资产价格的sharp move对其他资产价格的影响?某类资产是不是从其他资产分化出来的?------ Impulse response function, Granger Causality, One-vs-rest classification
- 哪些资产价格变动方向一致?---- Affinity Propagation(近邻传播), Manifold Embedding(流形嵌入)
- 哪些因子驱动资产价格(因子分析)----Principle Component Analysis (PCA主成分分析)
- 资产价格是否过热,是否会反转?--- PCA, Independent Component Analysis(独立成分分析)
- 当前市场的主流方向?--- Softmax classification, Hidden Markov Model(马尔可夫模型)
- 事件出现的概率 ---- 决策树(Decision Tree),随机森林(Random Forest)
- 市场承压的情况下,最常见的信号有哪些?--- K-mean clustering(k均值分类)
- 在噪音数据中找出信号 --- Low-pass filter, SVM
- 基于大规模多变量预测波动性 ---- Restricted Boltzmann Machine, SVM
- 文章或者文本情绪判别 ---- Bag of words
- 文章或者文本的主题抽取----- Term/inverse document frequency
- 图像中的物体识别(卫星、无人机等图像) --- CNN
- 最佳交易速度 --- 强化学习(Reinforcement Learning using Partially Observed),马尔可夫决策过程(Markov Decision Tree)
金融里需要特别注意variance与bias的trade off。另外,着重了解一下贝叶斯、Kalman Filter(因为金融里涉及很多信号分析,比如交易信号、投资信号、风险信号等)。
人工智能在量化投资中的应用:模式识别中的短线择时,RBF网络预测股价,基于遗传算法的新股预测
(一)模式识别短线择时:由于投资者预期通过市场交易价格体现,在非有效(即信息完全公开透明且无时间差)的市场中少部分提前知道消息的知情者可以提前对市场未来短期的行情进行准确预判,从而获得超额收益。而知情交易者可能在前一天收盘前就提前布局,因此可以认为当日最后交易时段的股价波动比其余时段包含更多信息,通过对该时段的股票价格进行分析,可以为第二日的行情趋势提供线索。
- 提取特征点(趋势+转折点):开盘后一分钟和开盘后半个小时的点作为初始特征点,将特征点连起来做一个简单的趋势图,然后把简化趋势图与实际图进行对比,找到差异最大的点,作为新的特征点,然后重复之前的步骤将不断优化的简化趋势图与实际趋势对比,直到特征点数量达到预期。
- 股票序列相似程度识别:受相似程度预期驱动的价格序列,其波动相似性比较大,所以第二日的涨幅状态也会比较相似。度量相似性的时候,一般会考虑水平偏移相似性和波动幅度相似性
(二)RBF网络预测股价:RBF--径向基函数Radial Basis Function)。不过股票市场的价格影响因素太多,股票价格预测难度很大。用RBF网络预测股价一般分为以下四步:
- 对样本数据进行预处理
- 用聚类算法确定RBF网络的中心
- 用梯度下降法对每一个训练样本多次迭代训练RBF网络的输出层权值
- 对股价进行实时学习式预测
(三)基于遗传算法的新股价格预测:新股价格(比如首日收盘价)的预测,新股上市价格主要受上市公司情况、投资环境的影响。
- 上市公司情况包括:上市日总股本、发行股数、上市流通比率、上市前一年度净资产收益率、上市前一年度净资产收益率增长、当前年度净资产收益率,等等。
- 投资环境:上市前1个月、4个月、1年这三个阶段的同类股票的涨跌幅情况,作为金融市场短、中、长期的投资环境、氛围的表现。
- 将上述指标作为模型输入项,预测新股首日价格。
目前金融行业比较成熟、使用比较多的模型框架:
(一)消费金融行业的获客模型(风控+定价):
- 风险审批模型(A-score)-短期:用于客户准入。模型考虑3个月内有账单逾期天数(DPD, days past due)大于30天的情况等风险信号。
- 风险审批模型(A-score)-长期:用于客户准入和授信额度管理。模型考虑9个月内有账单逾期天数(DPD, days past due)大于60天的情况等风险信号。
- 反欺诈模型:主要用于客户准入。模型会关注首单、逾期7天以上贷款、授信后发现欺诈行为等
- 用户定价模型:用于授信额度管理。一般基于授信后一个月内额度使用频率及使用金额等,并结合上述的长期风险分析模型,判断(个人)用户的授信额度。对公客户信贷业务可以调整利率的话,也可以用于利率定价。
(二)存量客户管理(风控+催收)
- 风险审批模型(A-score):用于客户授信额度管理、账单分期/延期、交叉营销准入清单筛选。短期模型一般考虑3个月内有账单逾期天数(DPD, days past due)大于30天的情况等风险信号。长期模型一般会考虑9个月内有账单逾期天数(DPD, days past due)大于60天的情况等风险信号。
- 催收模型-初期:针对刚发生逾期的客户或者评级有下降的客户,对于模型判断还钱概率较大的客户可以晚一些进入催收清单,反之则早纳入催收清单,并重点关注
- 催收模型-后期:针对已经确定欠钱不还的客户,基于模型分析结果催收策略。
- 反欺诈模型:判断交易是否通过。模型会关注是否刷单、恶意攻击、骗授信等。
以上是关于人工智能初学系列笔记:金融领域的应用的主要内容,如果未能解决你的问题,请参考以下文章