基于机器学习模型的糖尿病带病人群医疗险风险保费测算
Posted 中国保险学会
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于机器学习模型的糖尿病带病人群医疗险风险保费测算相关的知识,希望对你有一定的参考价值。
本文字数:9858字
阅读时间:20分钟
文章来源:《保险研究》2020年第11期
一、引言
我国商业健康险发展正经历从量变到质变的关键时期。在此过程中,健康险产品不断创新,健康险定价也受到产品创新和大数据等技术影响并发生相应的变化。陈滔、卓志等(2002)详细介绍了商业医疗保险保费的计算原则、定价因素和保费制度,对定价所需的统计数据进行了细致的分类和整理,并总结了商业医疗险定价的基本步骤。谢远涛、李政宵(2019)从费率厘定、准备金计提、健康管理与基金分配方面对健康保险精算研究的主要框架和主要研究模型作出了详尽的总结和归纳。马绍东、陈滔(2011)从健康、失能、死亡三状态模型出发,分析了国外失能收入损失保险的定价方法——挪威法和曼联法,提出了使用发生频数/暴露数新方法估计转移概率,并给出平滑转移概率的GLM模型。仇春涓(2014)等综合使用了四类人群的保险赔付信息,采用GLM模型做了实证分析,结果证明医疗险的费率结构在性别、年龄的基础上增加婚姻状况、地区等其他风险因素可以有效缓解费率的不公平性;在理赔成本假设中加上婚姻状况能显著降低部分人群住院医疗保险的保费。
随后,学者们考虑了大数据的影响,并将视角转向非标准体。薛付忠(2017)研究了大数据背景下疾病风险的评估, 构建了疾病预测模型的建模技术规程,提出了大数据驱动的健康保险与健康维护一体化模式,创建了“大数据背景下整合健康保险&健康维护的理论方法体系”。这对健康保险精算定价具有重要的指导作用。张宁(2015)针对非标准体中的“糖尿病”等群体进行了长寿风险的度量,计算了对应的发病率及其趋势。糖尿病(DiabetesMellitus, DM)是由胰岛素分泌障碍、胰岛素抵抗等引发的糖、蛋白质、脂肪、水和电解质等一系列代谢紊乱综合征(Alberti. K .G, 1998)。研究表明,全球20~79岁的糖尿病患者人数将从2015年的4.15亿(每11名成年人中有1名糖尿病患者)增加到2040年的6.42亿(每10名成年人中有1名糖尿病患者)(International Diabetes Federation,2015)。2017年,世界卫生组织宣布,全球每年约有400万人死于糖尿病,占所有死亡人数的10.7%( National Health and Family Planning Commission of PRC.,2017),糖尿病已经成为第15位致命疾病因素(GBD 2015 Mortality and Causes of Death Collaborators,2016)。糖尿病导致的长期医疗费用、劳动力丧失、过早死亡及生活质量降低等直接和间接成本带来了沉重的社会经济负担(American Diabetes Association,2013)。2015年,全球糖尿病医疗费用达到6730亿美元(International Diabetes Federation,2015),而全球糖尿病相关的支出达到1.3万亿美元,预计2030年将达到2.2万亿美元,占全球GDP的比例将从1.8%上升至2.2%(Bommer,et al.,2018)。
近年来,中国糖尿病发病率持续升高,目前是世界上发病率最高的国家(Mendis Shanthi,2015)。同时,中国糖尿病患病率也居高不下,2017年中国大陆糖尿病总体患病率为12.8%,糖尿病前驱期患病率为35.2%( Yongze Li,2020 )。2015年,中国糖尿病患者总数增加至1.1亿人左右,预计到2040年将达到1.51亿( Guariguata L,2014)。据估计,中国有1.139亿成年人患有糖尿病,占全球糖尿病患者的24%。作为目前世界上糖尿病患者最多的国家,2017年中国与糖尿病相关的医疗保健费用为1100亿美元(按购买力平价)(International Diabetes Federation,2017)。糖尿病也为个人生活带来了极大的经济负担。研究表明,2013-2015年中国每名糖尿病住院患者年均住院费用为1039.72美元,医保基金支付总额和个人现金卫生支出总额分别为748.11美元和291.62美元( Zhang X,2020),每名糖尿病门诊患者年均门诊费用为141.6美元,同时药品费用分别占有/无糖尿病患者医疗费用的51.8%和79.7%( Haibin Wu,2019)。
由于糖尿病发病机制复杂,病程较长且并发症较多,因此国家将糖尿病纳入慢病管理,开设基层慢病门诊,同时将糖尿病常用药物纳入基本医保目录,降低患者疾病经济负担(提高慢病保障水平,促进慢病健康管理)。但由于糖尿病患者人群基数较大,各地区医疗资源分布不均,因此对糖尿病患者的管理力度无法保障(刘霞等,2016),由此出现商业健康保险发展机遇。研究表明,商业健康险对于扩大糖尿病治疗覆盖范围、完善常规筛查机制和管理、纳入新疗法、新技术、新药品以降低糖尿病患者误诊率、失诊率乃至控制糖尿病前驱期发展起到重要作用(Sean Mahoney,2020)。自2013年第一款糖尿病专属健康险产品问世至今,已有多家商业保险公司推出糖尿病健康险产品,进军这一细分蓝海市场。这些产品成为对带病投保的积极尝试,针对糖尿病及其相关并发症的医疗保障和健康管理相结合是其最大亮点(糖尿病人可购买专属健康险)。但这些产品也广泛存在定价保守、保障时间短等问题,糖尿病健康险在精准定价和差异化定价方面有待深耕。本文将基于传统方法的思路,在机器学习模型预测住院费用的基础上(赵颖旭等,2020),引入住院率模型,对非标准体中的“糖尿病”群体进行费用预测和保费测算。
本文第二部分主要介绍模型方法;第三部分介绍本文研究的数据来源和数据统计特征;第四部分是住院费用机器学习测算及相应结果;第五部分为保费测算及结果;第六部分是结论。
二、模型与方法
(一)保费测算模型
COB为社保等其他保障支付所占总费用比例,d为免赔额,c为赔付比例,E(N)表示一定时间内的平均索赔次数,其根据保险条款不同而有不同的估计方法,在本文中,考虑触发索赔的是住院,所以在实际计算中用住院率代替。同样的原因,考虑到实际触发索赔的住院率因素,上述公式是在计算期望后扣减免赔额,而非先减掉免赔额再计算期望。
(二)E(X)的测算
E(X)测算最常用的是广义线性模型。孟生旺(2007)简要分析了传统的非寿险定价的缺点,并将广义线性模型具体应用到车险定价。王新军、王亚娟(2013)构建了索赔次数和索赔强度的广义线性模型,并针对模型系数不显著的情况采用了合并风险等级的方法。机器学习模型由于不需要依赖于损失分布的假设,可以避免广义线性模型的缺陷,提高模型的精度,并且更方便处理大数据集,被广泛应用到金融、保险领域。孟生旺、黄一凡(2018)将随机森林模型、神经网络模型和XGBoost模型应用到出险概率预测,并将XGBoost中的特征重要性作为定价、理赔的重要参考。孟生旺、李天博等(2017)基于支持向量机、神经网络和集成学习等机器学习算法对车险索赔频率和累计赔款建立预测模型,并对不均衡的数据进行样本调整,结果显示机器学习模型优于传统的模型。本文将延续上述思路,并将更多机器学习模型引入到费用测算中,这些机器学习模型包括Lasso回归、XGBoost、LightGBM和随机森林。
1. Lasso回归
相较于传统的定价方法,GLM虽然在拟合效果上很大优势,但是仍然存在一些问题,比如自变量之间存在多重共线性、过拟合现象,而Lasso回归在目标函数中通过添加正则项(L1范式)防止过拟合,同时可以使某些变量的回归系数为零,避免线性回归变量之间的共线性,并且通过减少特征的数量,从而得到筛选特征的作用。目前,Lasso回归已广泛应用在医药卫生领域,用于卫生统计(陶春海、王梦颖,2017)、住院费用的估算(韩耀风,2017;Huang,2020;李阳,2020)等。
Lasso回归的目标函数为:
2.XGBoost
XGBoost是Chen和Guestrin(2016) 提出的一种集成学习模型,是GBDT算法(Gradient Boosting Decision Tree,GBDT)的工程实现。GBDT在模型训练时只使用了损失函数的一阶导数,而XGBoost对损失函数进行二阶泰勒展开,同时使用一阶和二阶导数,并加入了正则项来防止过拟合,从而进一步提高了模型泛化能力。
3.LightGBM
LightGBM算法属于boosting集成方法,它使用回归树作为基学习器,具体特点有:算法速度快,内训使用得到了极大的优化;并行学习;算法使用直方图算法将特征值分桶,寻找决策树的最佳分支点,在确定最优划分属性的时候,比GBDT算法“遍历所有可能划分点计算信息增益”速度快得多;采用了梯度单边采样技术和独立特征合并技术。LightGBM与XGBoost不同,它采用的是更高效率、带有深度限制的叶子生长算法—leafwise,而非按层生长的决策树生长策略—levelwise;寻找最优的分支点的时候,lightGBM会遍历所有的叶节点,寻找最大的信息增益进行分支,使得速度得到很大提升。
4.随机森林
随机森林以决策树为基学习器并引入随机选择的属性,是集成学习bagging的一个扩展变体,具有简单、容易实现,计算开销小等特点。在传统的决策树中,在判定划分时是在当前节点的所有属性中选择最优属性,而随机森林是在该节点的所有属性中随机抽取一个子集,然后在这个子集中选择一个最优的划分属性。随机森林在训练模型时是基于自助采样法(bootstrap sampling),初始训练集约有63.3%的样本出现在采样集中。随机森林基学习器受到样本扰动和数据特征的扰动,具有更强的多样性,最终的泛化性能得到增强。实际上,随机森林中的两个随机性实际上减少了森林估计量方差:单个决策树通常表现出较高的方差且易出现过度拟合现象,而森林中注入的随机性产生决策树,其预测误差可以互相解耦,通过取这些预测的平均值,其结果可以消除一些误差。
(三)住院率模型
住院费用需要结合住院率才能进行保费测算。这里住院率实际上是全部人群因为特定疾病住院的概率,需要区分糖尿病主要诊断住院和糖尿病其他诊断住院。很显然,两者住院率小于等于发病率,且有下式
发病率的数据和估计方法采用张宁(2015)的数据和方法。该方法将Lee-Carter模型引入到发病率的预测和分析中,并以1995-2010年的数据得到了发病率趋势。Lee-Carter模型是一种双线性模型,它原来用于对死亡率趋势的预测:
三、数据统计描述与测算指标
国际疾病分类 (International Classification of Diseases,ICD)是一种对不同类型的疾病及与健康相关问题进行编码和分类的国际标准,自产生至今已有上百年的历史,是统计居民健康状况的国际分类标准。根据世界卫生组织和我国卫健委要求,我国自1987年起推广应用ICD-9(ICD第9次修订本),从2002年起改为使用ICD-10(ICD第10次修订本)并一直沿用至今(贾友波、宋宪锟,2020;吕国友等,2019)。本研究对糖尿病患者的定义为:主要诊断或其他诊断ICD-10编码为表1的住院患者(牛犇,2017;王莹等,2006)。
本研究选取2015-2017年来自全国30个省、自治区和直辖市的主要诊断或者其他诊断包含表1中诊断编码的住院病例共计3835960条,数据的特征有299个,可大致分为两类:疾病属性和客户属性。初始数据需要经过预处理才能够训练模型。本文对初始数据进行了缺失值删除和异常值处理,具体做法是删除医疗费用大于99%分位数和小于1%分位数的部分。预处理后的数据特征的具体分类信息如表2所示。
疾病属性变量主要是指疾病类型、并发症和合并症。疾病类型作为分类变量的取值主要有I型、II型糖尿病,并发症共有8种。病人可以同时罹患多种并发症和合并症。客户属性是客户本人的信息,共分为5大类,除年龄外其余均为分类变量。
如表1所示:糖尿病诊断类型主要有I型糖尿病、II型糖尿病;并发症类型主要有I型糖尿病并发症、II型糖尿病并发症:视网膜、肾、脑神经疾病、周围血管疾病、心血管疾病(ICD10:I20-I25)、脑血管疾病(ICD10:I60-I67,I69)及其他并发症;合并症有高血压、高血脂、结核病、免疫接种和筛查性传染病、急性心肌梗死、传导障碍等269类。社保类型有城镇职工基本医疗保险、城镇居民基本医疗保险、新型农村合作医疗、贫困救助、商业医疗保险、全公费、全自费、其他社会保险、其他。婚姻状况有未婚、已婚、丧偶、离婚、其他。
对费用预测变量进行分析,如表2所示。罹患心血管和脑血管并发症的比例较高,二者之和达48.59%,且导致平均费用增加;男性人数比例比女性高16.83%,同时人均费用高于女性13.56%;华东和华北两地所占比重较大,共计达到47.17%,华北地区人均费用最高,高达18352.22元,比第二位华南地区高出25.90%;城镇职工基本医疗保险、新型农村合作医疗和城镇居民基本医疗保险覆盖面最广,三者占比之和达到75.70%,且这三者的人均费用也最少,人均费用最高的是全公费,比最低的新型农村合作医疗高出116.86%。
图1和表3是经过处理后的费用损失分布图和统计特征描述。结果表明,费用分布的偏度为2.74,峰度为8.47,费用数据整体呈右偏分布,而且尾部较厚。
如表4所示,本文数据涵盖2015-2017三年数据,且每年样本数呈上升趋势,2017年样本量占样本总量比例达49.05%。
图2显示,住院人群主要集中在40~90岁,其中0~20岁的住院人群比例仅为1.36%,而40~90岁的住院人群高达93.87%。图3人均费用的图像说明:80岁以后费用的增长率要远大于80岁以前;除在幼儿阶段出现一小段年龄与人均费用反向关系,大致也可看出年龄与费用呈正相关;且人均费用在80岁以后呈快速上升的趋势,说明在步入高龄阶段后,医疗费用的风险会大幅增加。
四、住院费用的机器学习
预测实践与结果
(一)模型拟合比较
模型运算的最终结果如表5所示,机器学习算法的RMSE和MAE在15000和10000以下,R2都大于0.1,而传统的广义线性模型无论是在模型的拟合优度还是平均误差指标上都要差于机器学习模型。机器学习模型中LightGBM模型的预测效果是最突出的:一方面,核心原因在于LightGBM基于回归树方法,回归树在医疗数据分析中本身具有较好的效果和较优的可解释性(赵颖旭等,2020);另一方面,所使用的医疗数据作为抽样数据,其原始分布未知,LightGBM本身对此类问题具有很好的效果(Guolin Ke,2017)。
图4是LightGBM特征重要性前50个排序图,排在前面的变量不仅有年龄、性别、省份等一些客户属性,还有心血管和脑血管等并发症以及高血压、其他肝脏疾病、高血脂等合并症,说明并发症和合并症对最终的费用会产生一定的影响。从图中还可以看到,投保时间在所有因素中排序最靠前,充分反映了对应疾病住院率随年龄增长的直接趋势,与医疗险和重疾险整体趋势一致。
(二)机器学习模型费用预测
本文使用拟合效果较好的LightGBM模型,该机器学习模型对患者住院费用的预测结果见图5、图6。这与既往研究关于老年患者住院费用变化趋势和结构的结论是一致的(严敬琴,2019;黄茂娟等,2017;郑金坡等,2017)。
以北京市为例,个体的住院费用结果如图5、图6所示。从图中可以看出,年龄区间、性别、糖尿病诊断类型、并发症和合并症对最终的住院费用都有重要的影响。整体来看,在45~64岁之间,男性的住院费用高于女性,但是65岁后女性的住院费用略高于男性,次要诊断的住院费用高于主要诊断的住院费用。并发症会增加个体的住院费用,尤其是心血管疾病对住院费用影响最大。
五、保费测算与分析
仅通过费用预测结果不能得到保费与各风险因素的关系,保费的计算不仅受住院费用的影响,而且还取决于住院率、社保、免赔额和自付比例等多种因素。基于公式1和公式2,本文测算了不同因素对保费的影响。图7~图10展示了不同年龄区间、性别、并发症类型、省份对应的平均住院率。图7表明随着个体年龄的增大,主要诊断的住院率有下降的趋势,次要诊断的住院率有上升的趋势。图8展示出的性别的平均住院率几乎不存在差异。图9则体现出了不同并发症类型对住院率的影响,结果显示II型糖尿病的周围血管并发症、肾脏相关的并发症、视网膜并发症会导致更高的次要诊断的住院率。图10展现了各地区之间的住院率的差别,重庆、青海、天津三地的次要诊断的住院率最高。
(一)基础因素的定价影响与分析
这里基础定价因素包括年龄、地区和性别等。图11给出了年龄对保费的影响。从中可以看出:年龄对保费的影响整体趋势与生命表类似,在幼儿期,年龄和保费存在一个反向变动关系,而后二者呈正向关系,而且随着年龄的增大,每增加一岁对保费对年龄的变动越敏感。
表6是三个省的平均保费测算结果。从表中可以看出,北京市平均费用要高于辽宁和湖北,这可能是北京市的社保支付比例高于辽宁和湖北所导致,因此在最后的保费计算结果中北京市最低。
表7是关于性别的平均保费的测算结果。从表中可以看出,在免赔额为5000元时,男性和女性的保费很相近,女性略高于男性。但是免赔额为10000元时女性保费显著大于男性保费。
表8展示了不同社保类型的保费测算结果。新农合由于其社保支付比例较低,虽然平均费用低于城镇居民,最终的保费却高于城镇居民。城镇职工的保费最高可能是因为其平均费用高且住院率高。
表9是不同婚姻类型的平均保费测算结果,其中未婚人群平均保费最高,离婚人群平均保费最低。这可能是因为未婚人群中未工作者占比较高、其社保支付比例水平较低,离婚人群相较于丧偶人群和已婚人群住院率较低。
(二) 投保计划相关因素的影响与分析
表6~表9给出了免赔额为500元0或10000元和自付比例为0或10%的四种不同组合的保费测算结果。结果显示:免赔额增加和自付比例上升会使保费下降,而且免赔额越大,自付比例变动对保费的影响越大。免赔额越高意味着赔付的门槛越高,同等条件下会降低保险公司赔付费用,所以会降低个人保费。而自付比例上升,意味着个人将面临更高的费用分摊,会降低保险公司的赔付费用,保费会下降。
(三) 并发症与主要合并症因素的影响与分析
本文考虑的并发症类型为:I型无并发症、I型有并发症、II型无并发症、II型心血管并发症、II型脑血管并发症、II型神经并发症、II型周围血管并发症、II型肾并发症、II型视网膜并发症、II型其他并发症状等。本文考虑的主要合并症为:高血压、高血脂等,具体见表10。
以某省男性为例,年龄为45-64岁的并发症和合并症的平均保费测算结果如表10所示。并发症会导致保费的增加,其中II 型心血管并发症使费用增加的最大。
(四)综合测算结果
图12~14给出了以某省为例的带有糖尿病并发症的保费综合测算结果。该结果测算的保费为精算纯保费。从该结果可以看到,对普通民众来说,其保费负担在可接受范围内,同时,考虑到免赔额的影响,保险公司可以在此基础上开发更具有竞争力和满足客户需求的产品。
六、结语
本研究在医疗保险协同创新的背景下,基于覆盖范围广泛的大量样本,证实了机器学习方法较传统定价方法能够进行更准确的费用预测。借助于该费用预测,进行了考虑不同因素的“非标准体”保费测算,并给出了不同因素对保费的影响,从而支持针对非标准体的定价,以及借助医疗数据的保险创新,为保险公司开发带病投保的产品,进行保费测算提供基础。从应用视角看,借助机器学习的保费测算还可以为保险反欺诈和运营控费提供支持。例如当投保人出险后索赔的住院费用显著高于相同特征组的预测住院费用时,保险公司可进行自动筛选并重点审核。
编辑:于小涵
中国保险学会
构建保险大社区
微信:iicbxzx
以上是关于基于机器学习模型的糖尿病带病人群医疗险风险保费测算的主要内容,如果未能解决你的问题,请参考以下文章