微软开源!世界首个AI量化投资平台 Qlib 基本使用教程
Posted Wang_AI
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了微软开源!世界首个AI量化投资平台 Qlib 基本使用教程相关的知识,希望对你有一定的参考价值。
2020年9月,微软开源了AI量化投资平台Qlib的源代码,随后得到了不少的关注,Qlib的主要优势在于:
1.Python覆盖量化投资全过程,用户无需切换语言;内置许多深度学习算法模型,降低AI算法使用的门槛。
2.内置A股、美股数据接入通道,基于qrun能够自动运行整个工作流程,大大提高开发效率。
3.每个组件都是松耦合可以独立使用,用户能够自行选用某些组件。
Qlib相比于我们之前介绍的backtrader,那功能完善太多。backtrader相当于给你提供一个基本的量化框架,数据、策略、算法,你全部自己搞定。而Qlib则从数据、到策略、到算法都给了你全套的解决方案,你只需要加一点自己的想法,不需要管其他细枝末节的东西就能完成AI量化研究,非常方便。
下面我们就来试一下 Qlib 的安装和运行内置算法策略。
1.准备
开始之前,你要确保Python和pip已经成功安装在电脑上。
由于qlib有许多许多依赖,如果你不想安装过程中出现问题,或者引起其他程序的运行问题,建议使用Conda创建一个你的量化投资虚拟环境:
conda create -n my_quant python=3.8
Qlib 仅支持 Python3.7 以上的版本且暂不支持 Python3.10; 另外 Python 3.9 版本不支持模型性能绘制,因此我选择创建Python3.8版本的虚拟环境。
(安装方式一)pip 安装:
pip install pyqlib
在pip安装的过程中如果遇到任何问题,请搜索引擎解决,如果无法解决,可以尝试下面的源码安装:
(安装方式二 (推荐))源码安装:
# 提前安装一些依赖
pip install numpy
pip install --upgrade cython
# clone and install qlib
git clone https://github.com/microsoft/qlib.git && cd qlib
python setup.py install
如果你由于网络问题无法成功Clone项目,请在Python实用宝典公众号后台回复 Qlib 下载源代码。
Windows 机器在安装的时候可能会遇到下面这个问题:
这是因为安装 qlib 的依赖 — tables 时出现了编译错误,原因很多,我选择逃学,因此建议使用 tables 的 wheel 文件进行安装,这样就不需要编译了:
https://www.lfd.uci.edu/~gohlke/pythonlibs/#pytables
在上述网站下载适合你系统的 wheel 文件:
下载完毕后,输入以下命令:
pip install 你的文件路径/tables-3.6.1-cp39-cp39-win_amd64.whl
即可完成 tables 的安装,然后再执行一遍 python setup.py install 即可。
2. 数据准备
由于这套量化开源平台的作者是中国人,所以非常贴心地准备好了A股数据,大家可以输入命令直接下载:
# 1天级别数据
python scripts/get_data.py qlib_data --target_dir ~/.qlib/qlib_data/cn_data --region cn
# 1分钟级别数据
python scripts/get_data.py qlib_data --target_dir ~/.qlib/qlib_data/cn_data_1min --region cn --interval 1min
如果你需要其他分钟级的数据,修改interval即可。
你可以使用crontab定时自动更新数据(来自雅虎财经):
* * * * 1-5 python <script path> update_data_to_bin --qlib_data_1d_dir <user data dir>
手动更新数据:
python scripts/data_collector/yahoo/collector.py update_data_to_bin --qlib_data_1d_dir <user data dir> --trading_date <start date> --end_date <end date>
3. 运行量化回测流程示例
Qlib 提供了一个名为 qrun
自动运行整个工作流程的工具(包括构建数据集、训练模型、回测和评估)。
你可以按照以下步骤启动自动量化研究工作流程并进行图形报告分析,Quant Research 工作流程:
Qrun
运行 lightgbm 工作流程的配置 workflow_config_lightgbm_Alpha158.yaml 如下所示:
cd examples # Avoid running program under the directory contains `qlib`
qrun benchmarks/LightGBM/workflow_config_lightgbm_Alpha158.yaml
结果如下:
可以看到这里包括三个统计分析:benchmark return (基准收益) / excess return without cost(除去手续费的超额收益)) / excess return with cost(包含手续费的超额收益)。每个统计分析中都有如下5个参数:
mean: 异常收益的平均值
std: 异常收益的标准差
annualized_return: 年化回报
information_ratio: 信息比率
max_drawdown: 最大回撤
大家可以看到,这个内置的算法和策略,在不包括手续费的情况下,相比于基准收益年化回报略高,但是在把手续费等费用算上之后,比沪深300基准收益略逊一筹。
如果你想要自定义这个策略和算法的回测参数,你可以查看 workflow_config_lightgbm_Alpha158.yaml 的内容:
上滑查看更多代码
qlib_init:
provider_uri: "~/.qlib/qlib_data/cn_data"
region: cn
market: &market csi300
benchmark: &benchmark SH000300
data_handler_config: &data_handler_config
start_time: 2008-01-01
end_time: 2020-08-01
fit_start_time: 2008-01-01
fit_end_time: 2014-12-31
instruments: *market
port_analysis_config: &port_analysis_config
strategy:
class: TopkDropoutStrategy
module_path: qlib.contrib.strategy
kwargs:
model: <MODEL>
dataset: <DATASET>
topk: 50
n_drop: 5
backtest:
start_time: 2017-01-01
end_time: 2020-08-01
account: 100000000
benchmark: *benchmark
exchange_kwargs:
limit_threshold: 0.095
deal_price: close
open_cost: 0.0005
close_cost: 0.0015
min_cost: 5
task:
model:
class: LGBModel
module_path: qlib.contrib.model.gbdt
kwargs:
loss: mse
colsample_bytree: 0.8879
learning_rate: 0.2
subsample: 0.8789
lambda_l1: 205.6999
lambda_l2: 580.9768
max_depth: 8
num_leaves: 210
num_threads: 20
dataset:
class: DatasetH
module_path: qlib.data.dataset
kwargs:
handler:
class: Alpha158
module_path: qlib.contrib.data.handler
kwargs: *data_handler_config
segments:
train: [2008-01-01, 2014-12-31]
valid: [2015-01-01, 2016-12-31]
test: [2017-01-01, 2020-08-01]
record:
- class: SignalRecord
module_path: qlib.workflow.record_temp
kwargs:
model: <MODEL>
dataset: <DATASET>
- class: SigAnaRecord
module_path: qlib.workflow.record_temp
kwargs:
ana_long_short: False
ann_scaler: 252
- class: PortAnaRecord
module_path: qlib.workflow.record_temp
kwargs:
config: *port_analysis_config
参数比较多,大家借助翻译工具应该都能看懂。这里摘取华泰的一个研究报告,里面对参数做了具体的翻译:
为了方便用户使用,微软内置了许多模型,如上文我们用到的 gbdt 位于克隆的文件夹下的 qlib/contrib/model/gbdt.py:
注意:pytorch 开头的模型需要预先安装pytorch.
一个小问题,Qlib里,策略和算法的区别是什么?
大家注意到,Qlib这里,必须定义策略和算法两个配置,而在backtrader里面,我们更加重视策略,而非“算法”这个概念。那么这两者在Qlib中的区别是什么?我们看默认TOPK策略的源代码:
可以看到,默认的这个策略,选择了算法预测分数结果中排名 TOP K 的股票,也就是策略从算法得到的结果中去做筛选需要交易的股票。算法相当于生成一个新的可用于判断买入卖出的评判标准。这就是策略和AI算法这两者的最重要区别。
最后,得益于松耦合的代码设计,我认为 Qlib 是一个能够让不同层次的研究者各取所需的开源项目,是一个不可多得的量化开源平台,特别适合重度Python使用者,有兴趣的朋友可以试一下,未来我也会考虑出 Qlib 相关的使用教程,敬请期待。
觉得还不错就给我一个小小的鼓励吧!
以上是关于微软开源!世界首个AI量化投资平台 Qlib 基本使用教程的主要内容,如果未能解决你的问题,请参考以下文章
Could not install packages due to an OSError: ("Connection broken: ConnectionResetError(10054,