基于强化学习的期权量化交易回测系统5

Posted 2022-11-16 最老程序员闫涛

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了基于强化学习的期权量化交易回测系统5相关的知识，希望对你有一定的参考价值。

我们现在已经可以在主循环中获取行情数据，并且传给了Agent类。接下来Agent类会调用策略类，由于决定采取的行动。在策略类做决策时，需要参考用户仓位Position信息，还有就是权利金、保证金、手续费等计算，在本篇博文中将对这些内容进行介绍。

交易费用计算

在进行期权交易时，多头买入认购和认沽期权时，需要向卖出方支付权利金，而为了保证卖方可以履约，要向卖方收取保证金。同时，券商还会收取手续费和税费，手续费和税费可能单边收取也可能双边收取，情况比较复杂。因此我们采用Commission类来进行管理。
我们首先来定义费用类和权利金的计算方法：

class Commission(object):
    def __init__(self):
        self.refl = 'apps.sop.exchange.Commission'

    def calculate_royalty(self, price, quant):
        '''
        计算期权交易的权利金，权利金直接由买方转给卖方
        参数：
            price 合约价格
            quant 多少手，1手为10000份
        '''
        return price * quant * SopConfig.contract_unit

# 单元测试用例类定义
class TCommission(unittest.TestCase):
    @classmethod
    def setUp(cls):
        pass

    @classmethod
    def tearDown(cls):
        pass

    def test_calculate_royalty(self):
        cmn = Commission()
        royalty = cmn.calculate_royalty(0.1, 28)
        self.assertTrue(abs(royalty - 28000))
        
# 运行方法
python -m unittest uts.apps.sop.exchange.t_commission.TCommission.test_calculate_royalty -v

接下来我们来计算卖家需要预缴的保证金。根据我国证券市场的规定，认购期权和认沽期权卖方需要支付不同的保证金。下面分别对认购期权和认沽期权，以单位交易的保证金为例进行介绍。
当为认购期权时，按照以下值的较大者为准收取：
公式1：
$v_1 = p \\times u + p_asset \\times u \\times r - (p_asset - e) \\times u$
其中：

v1：金额1；
p：期权价格；
$p_asset$ 标的价格
u：交易单位手，1手等于10000个期权；
r：调整率，当前市场的值为5%；
e：行权价格；

公式2：
$v_2 = p \\times u + p_asset \\times u \\times r$
目前规定取金额1和金额2中间的较小值。
当为认沽期权时：
金额1定义：
$v_1 = p \\times u + p_asset \\times u \\times r - （e -p_asset) \\times u$
金额2定义：
$v_2 = p \\times u + p_asset \\times u \\times r$
最终价格取v1和v2中的较小值。

仓位定义

我们用Position类来表示用户的仓位，包括用户的现金金额、持有的认购合约编号和数量列表、持有的认沽期权合约编号和数量列表，同时还有净值金额，其为现金金额再加上持有的期权合约在当前市场价格下的金额。
Position类定义如下所示：

class Position(object):
    def __init__(self):
        self.name = 'apps.sop.exchange.Position'
        self.amount = 0.0 # 现金账户
        self.net_worth = 0.0 # 净值
        self.call_options = [] # 持有的认购合约列表
        self.put_options = [] # 持有的认沽合约列表
        self.rpnl = 0.0 # 已实现损益
        self.upnl = 0.0 # 未实现损益

策略类定义

接下来我们来看策略类，我们在这里先不讲具体的策略，这里先只产生买入操作，主要目的是先将期权交易的整体流程走通，然后我们再来逐一细化回测平台的各个组件。
所有策略类都有一个基类Strategy，其有一个run方法，就是看到环境的状态obs和上一时刻行动的奖励信号reward，然后生成一个action。我们会在Agent类的choose_action方法中对其进行调用。
在实际应用系统中，我们会定义多个Strategy类的子类，同时还会定义一些组合策略。
策略基类Strategy定义如下所示：

class BaseStrategy(object):
    def __init__(self, action):
        self.refl = 'apps.sop.snp.BaseStragegy'
        self.action = action

    def run(self, obs, reward):
        self.action.reset()
        option_idx = 0
        self.action.action[SopAction.IDX_OPTION][option_idx] = 1
        action_idx = 0
        self.action.action[SopAction.IDX_ACTION][action_idx] = 1
        percent_idx = 9
        self.action.action[SopAction.IDX_PERCENT][percent_idx] = 1
        return self.action.action

    def reset(self):
        self.action.reset()

在实际系统中，策略类做出决策后，需要调用风险控制模块进行审核，当通过风控模块审核后，才能进行真实交易。
风险控制类定义如下所示：

class RiskController(object):
    def __init__(self):
        self.refl = 'apps.sop.snp.RiskController'

    def review_action(self, obs, reward, action):
        '''
        验证当前状态obs下采取action的合理性
        返回值：True同意，False拒绝
        '''
        print('风控审核通过！！！！！！！！！！！！！！！！！！')
        return True

在Agent类的choose_action中，当调用Strategy.run方法生成action后，将调用RiskController.review_action方法，审核通过返回True，不通过返回False，如下所示：

class SopAgent(object):
    def choose_action(self, obs, reward):
        '''
        根据环境当前状态选择本时间点的行动，将上一时间点行动的奖励信号
        用于策略学习
        '''
        print('看到：0;\\n奖励：1;'.format(obs, reward))
        action = self.strategy.run(obs, reward)
        if not self.risk_controller.review_action(obs, reward, action):
            action.reset()
        return action

当审核通过后，Agent将所选择的行动发送给环境类SopEnv，其会调用_execute_action来执行该行动，这里是生成订单Order，并调用Broker类来执行。
我们先来定义订单Order类：

class Order(object):
    def __init__(self, action):
        self.refl = 'apps.sop.exchange.Order'

    def __str__(self):
        msg = '订单类：'
        return msg

在环境类SopEnv._execute_action中生成订单，如下所示：

    def _execute_action(self, action):
        order = Order(action)
        print('执行订单：0;'.format(order))

接下来我们定义券商Broker类，在该类中将计算和转移权利金、保证金、交易手续费和税费，并最终向证券交易所系统提交并执行订单，如下所示：

class Broker(object):
    def __init__(self):
        self.refl = 'apps.sop.exchange.Broker'

    def execute_order(self, order):
        print('券商系统订单执行完毕')

在环境类SopEnv._execute_action方法调用：

    def _execute_action(self, action):
        order = Order(action)
        self.broker.execute_order(order)

至此我们已经引入了强化学习回测系统中所有的基础类，总结一下总体的业务流程：

环境类SopEnv获取系统状态和奖励信息；
环境类将系统状态和奖励信号发送给Agent，Agent调用策略类；
策略类生成行动，将环境状态、奖励信号、仓位信息作为参数；
Agent接收到策略类的行动，调用风险控制RiskController模块，决定是否执行该行动；
若风控模块允许执行，Agent则将行动传递给环境类；
环境类生成订单，交给Broker来执行；
Broker计算费用并完成订单，更新相应的仓位信息；
在上面的基本框架中，还有很多细节需要完善，比如在所有这些步聚中，均需要操作用户的仓位信息，我们怎样进行管理，另外就是策略的具体实现，怎样操作用户的仓位信息等，我们将在后续博文中详细讲解。

以上是关于基于强化学习的期权量化交易回测系统5的主要内容，如果未能解决你的问题，请参考以下文章