数学建模-某肿瘤疾病诊疗的经济学分析数据分析

Posted Better Bench

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数学建模-某肿瘤疾病诊疗的经济学分析数据分析相关的知识,希望对你有一定的参考价值。

相关信息

1【数学建模-某肿瘤疾病诊疗的经济学分析】数据分析
2 【数学建模-某肿瘤疾病诊疗的经济学分析】数据清洗和特征工程
3 【数学建模-某肿瘤疾病诊疗的经济学分析】第一问模型分析
4 【代码下载】

题目

江西省数学建模-某肿瘤疾病诊疗的经济学分析

基于病人的基本数据,疾病类型(主诉和并发,是否手术),住院天数和费用等,数据清洗并建立数学模型做如下分析:
1、建立根据不同疾病的分类模型。建立诊疗费用与疾病类型的数学关系,并进行预测和检验。
2、建立数学模型分析诊疗费用与各类疾病的亚群的特征,比如,高费用人群的年龄,性别,住院日期和相关数据的相关性,尝试对特定的亚群建立预测模型并进行验证。
3、如果该疾病纳入医保,尝试给出根据疾病类型、建议年龄段和国家承担的经济费用的方案并对相关方案合理性和经济性作出评估。
在这里插入图片描述

1 数据集解析

提供的数据集,包含患者序号、患者性别、出生日期、患者入院日期、患者出院日期、主要诊断编码名称、其他诊断、其他手术、住院总费用、住院天数、DRGS分组编码、DRGS分组名称、ADRG名称、费用异常标识。

2 数据集主要特征分析

import numpy as np
import pandas as pd
train_data_file = './cdata.csv'
if __name__ =="__main__":
    t_data = pd.read_csv(train_data_file)#, names=['id', 'sex','born','intime','outtime','maindiag','elsediag','surgery','fee','days','drgsid','drgs','adrgid','adrg','highfee'])
    t_data.columns = ['id', 'sex','born','intime','outtime','maindiag','elsediag','surgery','fee','days','drgsid','drgs','adrgid','adrg','highfee']
    print()
    t_data.describe()

(1)数据长度:17739
(2)主要诊断类别:183种

def maindiag_extract(data):
    text_len =[]
    datalen = len(data)
    for i in range(0,datalen):
        one_lines = ''.join(list(data['maindiag'][i]))
        text_id = one_lines.strip().split("|")
        text_len.append(text_id[0])
    all_category = list(set(text_len))
    print(all_category)
    print(len(all_category))
    print()
    ```
(3)次要诊断类别:803
```python
def elsediag_extract(data):
    text_len =[]
    datalen = len(data)
    for i in range(0,datalen):
        nontext = data['elsediag'][i]
        if pd.isnull(nontext):
            continue
        one_lines = ''.join(list(nontext))
        text = one_lines.strip().split(",")
        for j in range(len(text)):
            text_id = text[j].strip().split("|")
            text_len.append(text_id[0])
    all_category = list(set(text_len))
    print(all_category)
    print(len(all_category))

(4)DRGs类别数:72类

def drgs_extract(data):
    text_len =[]
    datalen = len(data)
    for i in range(0,datalen):
        text_id = data['drgsid'][i]
        text_len.append(text_id)
    all_category = list(set(text_len))
    print(all_category)
    print(len(all_category))
    print()

(5)DRGS分组平均费用分布分析

import numpy as np
import pandas as pd
# import tensorflow as tf
from category_encoders.target_encoder import TargetEncoder
import matplotlib.pyplot as plt
import statsmodels.api as sm 
def fee_range(data):
    text_len =[]
    # category =[]
    category={}
    feelist =[]
    datalen = len(data)
    for i in range(0,datalen):
        text_id = data['drgsid'][i]
        data_fee = data['fee'][i]
        feelist.append(data_fee)
        category[text_id] =list(set(feelist))   
    ncate ={} 
    for k in category.keys():
        # 取每个分组下的费用平均
        ncate[k] = np.mean(category[k])
    
    a_cate = dict(sorted(ncate.items(), key=lambda x: x[1], reverse=True))
    x = list(a_cate.keys())
    y = list(a_cate.values())
    plt.scatter(x, y, alpha=0.9)  # 绘制散点图,透明度为0.6(这样颜色浅一点,比较好看)
    plt.show()
    print(a_cate)  
    print()
if __name__ =="__main__":
    t_data = pd.read_csv(train_data_file)#, names=['id', 'sex','born','intime','outtime','maindiag','elsediag','surgery','fee','days','drgsid','drgs','adrgid','adrg','highfee'])
    t_data.columns = ['id', 'sex','born','intime','outtime','maindiag','elsediag','surgery','fee','days','drgsid','drgs','adrgid','adrg','highfee']
    fee_range(t_data)
    print()

可以看出,DRGS其实是大体上是划分了费用的取用的。
在这里插入图片描述

(6)DRGS分组类别分布

def box_line(data):
    text_len =[]
    # category =[]
    category={}
    cate_box = pd.DataFrame()
    datalen = len(data)
    # feelist =[]
    for i in range(0,datalen):
        text_id = data['drgsid'][i]
        data_fee = data['fee'][i]
        if text_id in category.keys():
            templist = list(category[text_id])
            templist.append(data_fee)
            category[text_id] =list(set(templist))
        else:
            category[text_id] = [data_fee]
    pxy = {}
    for k in category.keys():
        pxy[k] = len(category[k])
        # print(k,len(category[k]))
    resultxy = dict(sorted(pxy.items(), key=lambda x: x[1]))
    x = list(resultxy.keys())
    y = list(resultxy.values())
    for j in resultxy.keys():
        print(j,resultxy[j])
    plt.xlabel('DRGs')
    plt.title('Distribution of the number of grouping categories ')
    plt.ylabel('The amount of DRGS')
    plt.xticks([])
    # x = [i for i in range(len(y))]
    plt.scatter(x, y, alpha=0.9)  # 绘制散点图,透明度为0.6(这样颜色浅一点,比较好看)
    plt.show()
    print()

在这里插入图片描述

DA13 1
DE11 1
DK13 1
DR15 1
DR11 1
GK35 1
IJ13 1
IU35 1
IU31 1
JB23 1
KR13 1
LT13 1
LZ13 1
QR15 1
QS31 1
QT11 1
RA21 1
RA31 1
RA35 1
RD15 1
RU15 1
KR11 2
RA23 2
RT15 2
RV15 2
EJ15 3
ET13 3
RD13 3
RD11 3
RS15 3
RS13 3
RT11 3
XT19 3
BU11 4
EJ13 4
QS43 4
RA33 4
XJ19 6
RA41 12
JR15 13
ED13 14
HR13 16
QR13 17
JR13 19
QT13 19
ER11 25
RT13 35
RU23 35
IU33 40
RU11 43
BU13 46
DR13 51
RA45 54
QS33 55
GR11 59
RV11 68
RA43 96
RE15 170
GR15 214
GR13 217
RC15 223
RE11 241
RC11 243
ER15 288
XS29 378
ER13 412
XT39 420
RW19 469
RV13 2465
RU13 2829
RC13 3910
RE13 4272

(7)DRGS分组中费用范围箱线图

def box_line(data):
    text_len =[]
    # category =[]
    category={}
    cate_box = pd.DataFrame()
    datalen = len(data)
    # feelist =[]
    for i in range(0,datalen):
        text_id = data['drgsid'][i]
        data_fee = data['fee'][i]
        if text_id in category.keys():
            templist = list(category[text_id])
            templist.append(data_fee)
            category[text_id] =list(set(templist))
        else:
            category[text_id] = [data_fee]
    pxy = {}
    for k in category.keys():
        pxy[k] = len(category[k])
        # print(k,len(category[k]))
    sordict = dict(sorted(pxy.items(), key=lambda x: x[1]))
    resultxy ={}
    for k in sordict.keys():
        resultxy[k] = category[k]
    for k in resultxy.keys():
        templi = list(resultxy[k])
        templen = len(templi)
        if 4272 > templen:
            for i in range(4272-templen):
                templi.append(np.nan)
        cate_box[k] = templi
    cate_box.plot.box(title="Fee-categroy")
    plt.grid(linestyle="--", alpha=0.3)
    plt.show()
    
    print()

在这里插入图片描述
在这里插入图片描述

(8)ADRG的类别分布,39种类别

def drgs_box_line(data):
    category={}
    cate_box = pd.DataFrame()
    datalen = len(data)
    # feelist =[]
    for i in range(0,datalen):
        text_id = data['adrgid'][i]
        data_fee = data['fee'][i]
        if text_id in category.keys():
            templist = list(category[text_id])
            templist.append(data_fee)
            category[text_id] =list(set(templist))
        else:
            category[text_id] = [data_fee]
    pxy = {}
    for k in category.keys():
        pxy[k] = len(category[k])
        # print(k,len(sordict[k]))
    sordict = dict(sorted(pxy.items(), key=lambda x: x[1]))
    resultxy ={}
    # ADRG计算类别排序
    for k in sordict.keys():
        # resultxy[k] = category[k]
        print(k,sordict[k])

DA1 1
DE1 1
DK1 1
GK3 1
IJ1 1
JB2 1
LT1 1
LZ1 1
ET1 3
KR1 3
RA2 3
XT1 3
QS4 4
RA3 6
RS1 6
XJ1 6
EJ1 7
RD1 7
ED1 14
HR1 16
QR1 18
QT1 20
JR1 32
RU2 35
RT1 40
IU3 42
BU1 50
DR1 53
QS3 56
RA4 162
XS2 378
XT3 420
RW1 469
GR1 490
ER1 725
RV1 2535
RU1 2872
RC1 4376
RE1 4682

(9)ADRG与费用的箱线图

def drgs_box_line(data):
    category={}
    cate_box = pd.DataFrame()
    datalen = len(data)
    # feelist =[]
    for i in range(0,datalen):
        text_id = data['adrgid'][i]
        data_fee = data['fee'][i]
        if text_id in category.keys():
            templist = list(category[text_id])
            templist.append(data_fee)
            category[text_id] =list(set(templist))
        else:
            category[text_id] = [data_fee]
    pxy = {}
    for k in category.keys():
        pxy[k] = np.mean(category[k])
        # print(k,len(sordict[k]))
    sordict = dict(sorted(pxy.items(), key=lambda x: x[1]))
    resultxy ={}
    for k in sordict.keys():
        resultxy[k] = category[k]
        # print(k,sordict[k])
    for k in resultxy.keys():
        templi = list(resultxy[k])
        templen = len(templi)
        if 4682 > templen:
            for i in range(4682-templen):
                templi.append(np.nan)
        cate_box[k] = templi
    cate_box.plot.box(title="Fee-categroy")
    plt.grid(linestyle="--", alpha=0.3)
    plt.title('Relationship between ADRG and medical fee')
    plt.xlabel('ADRG')
    plt.ylabel('medical fee')
    plt.show()

在这里插入图片描述

(10)ADRG中ER1、GR1、QS3等每个类别中的样本数据分布,都呈现相似曲线上升。
在这里插入图片描述

总结:
(1)数据长度:17739行
(2)主要诊断类别:183种
(3)DRGs类别数:72种
(4)次要诊断类别:803
(5)ADRG的类别:39种
(6)ADRG编码和DRGS编码无缺失值,但是分布很不均匀,有的类别,只有1个样本,有的类别有4682种。对训练模型来说很不友好。
(7)最后一列属性,是费用异常,可以看到有高费用异常和低费用异常,暂且不知道这些属性有何意义
(8)ADRG中每个类别中的样本数据分布,都呈现相似曲线上升。

3 数据集亚群特征分析

参考类似的病例分析案例,需要分析年龄、性别、有无并发症、住院时长等特征https://www.cn-healthcare.com/articlewm/20181214/content-1042985.html
在这里插入图片描述

(1)年龄与平均费用关系折线图

def age_static(data):
    age_fee ={}
    datalen = len(data)
    for i in range(0,datalen):
        born_year = data['born'][i]
        if born_year=='0 AM':
            continue
        else:
            intime = ''.join(data['intime'][i])
            in_year = intime.strip().split("/")
            age = int(in_year[2])-int(born_year)
            data_fee = data['fee'][i]
            if age in age_fee.keys():
                templist = list(age_fee[age])
                templist.append(data_fee)
                age_fee[age] =list(templist)
            else:
                age_fee[age] = [data_fee] 
    # 计算平均费用
    avg_age_fee ={}
    for k in age_fee.keys():
        avg = np.mean(list(age_fee[k]))
        avg_age_fee[k] = avg
    sort_avg_fee = dict(sorted(avg_age_fee.items(), key=lambda x: x[0]))
    print(sort_avg_fee)
    x = list(sort_avg_fee.keys())
    y = list(sort_avg_fee.values())
    plt.plot(x,y,'b--',label='age-fee')
    plt.title('Relationship between age and cost')
    plt.xlabel('age')
    plt.ylabel('medical-fee')
    plt.show()
    print()

在这里插入图片描述以上是关于数学建模-某肿瘤疾病诊疗的经济学分析数据分析的主要内容,如果未能解决你的问题,请参考以下文章

数学建模-某肿瘤疾病诊疗的经济学分析第一问模型分析

数学建模-某肿瘤疾病诊疗的经济学分析第一问模型分析

数学建模-某肿瘤疾病诊疗的经济学分析数据清洗和特征工程

数学建模-某肿瘤疾病诊疗的经济学分析数据清洗和特征工程

医政医管局:已在全国建立质控系统监控临床诊疗

SPECT/CT诊疗一体化定量技术前沿进展复旦大学附属肿瘤医院开展转移性去势抵抗性前列腺癌(mCRPC)新型激素治疗疗效评估