机器学习——医保预测

获取数据

import numpy as np

import pandas as pd

# pandas读取数据集

import pandas as pd

insurance=open('C:/Users/86188/sklean-machine-learning/上机代码/医保支出预测/Train_Data.csv')

df=pd.read_csv(insurance)

从数据探索和可视化中获得洞见¶

df.info()

df.head()

# 通过describe我们可以观察到数据的数量，平均值，标准差，最小值，最大值等数据

df.describe()

# 预处理

# 训练集

df['sex'] = df['sex'].apply({'male':0,'female':1}.get)

df['smoker'] = df['smoker'].apply({'yes':1,'no':0}.get)

df['region'] =df['region'].apply({'southwest':1,'southeast':2,'northwest':3,'northeast':4}.get)

x = df[['age', 'sex', 'bmi','smoker','region', 'children']]

y= df['charges']

# 是否有空值

np.isnan(df).any()

#数值型变量统计描述

y.describe()

上面的结果描述了有关数值型变量的简单统计值，包括非缺失观测的个数（count）、平均值（mean）、标准差（std）、最小值（min）、下四分位数（25%）、中位数（50%）、上四分位数（75%）和最大值（max）。

# 数据探索

%matplotlib inline

import matplotlib.pyplot as plt

df.hist(bins=50, figsize=(20,15))

plt.show()

#不同地区投保人BMI指数散点图

import matplotlib.pyplot as plt

import seaborn as sns

sns.stripplot(data=df,x='region',y='bmi')

plt.title('不同地区医保支出BMI指数散点图')

plt.rcParams['font.sans-serif'] = ['KaiTi']

# 寻找相关性

corr_matrix =df.corr()

# 可视化

import seaborn as sns

import matplotlib.pyplot as plt

plt.figure(figsize=(12, 8))

sns.heatmap(df.corr(), annot=True, fmt='.2f', cmap='PuBu')

plt.title('各个特征中的相关性')

plt.rcParams['font.sans-serif'] = ['KaiTi']

plt.show()

# from pandas.tools.plotting import scatter_matrix # For older versions of Pandas

from pandas.plotting import scatter_matrix

attributes = ['age', 'sex', 'bmi','smoker','region', 'children']

scatter_matrix(df[attributes], figsize=(20, 15))

plt.show()

模型预测

# 预处理

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

x_train, x_test, y_train, y_test=train_test_split(x,y,random_state=42)

scaler=StandardScaler()

x_train = scaler.fit_transform(x_train)

x_test = scaler.fit_transform(x_test)

from sklearn.ensemble import RandomForestRegressor

from sklearn.metrics import mean_squared_error

random=RandomForestRegressor()

random.fit(x_train,y_train)

y_pred=random.predict(x_test)

y_pred

print("准确率：",random.score(x_test,y_test))

insurance_Test=open('C:/Users/86188/sklean-machine-learning/上机代码/医保支出预测/Test_Data.csv')

df1=pd.read_csv(insurance_Test)

# 测试集

df1['sex'] = df1['sex'].apply({'male':0,'female':1}.get)

df1['smoker'] = df1['smoker'].apply({'yes':1,'no':0}.get)

df1['region'] =df1['region'].apply({'southwest':1,'southeast':2,'northwest':3,'northeast':4}.get)

x_test1= df1[['age', 'sex', 'bmi','smoker','region', 'children']]

x_test1

y_pred1=random.predict(x_test1)

y_pred1

调优

# 调优

import numpy as np

from sklearn.metrics import mean_squared_error

from sklearn.model_selection import GridSearchCV

tree_grid_parameter = {'min_samples_split':list((3, 6, 9)), 'n_estimators':list((10, 50, 100))}

grid = GridSearchCV(RandomForestRegressor(), param_grid=tree_grid_parameter, cv=3,

scoring='neg_mean_squared_error',

return_train_score=True)

grid.fit(x_train,y_train)

#print(grid.best_scores_) # 打印得分

#print(grid.best_params_) # 打印最好的参数组合

#print(grid.best_score_) # 打印最好的得分

print(grid.best_params_)

调优后预测当年所需医保支出(charge)

grid_pred=grid.predict(x_test1)

grid_pred

from sklearn.metrics import explained_variance_score

report=explained_variance_score(y_pred1,grid_pred)

print("准确率：",report)

机器学习——医保预测相关推荐

卸妆·回归：“超级医保局时代“的医院信息化转型
常垒最近投了一个早期项目[京弘达],面向医院和医保局,基于人工智能大数据技术以及行业的领先算法,提供智能化运营决策系统,解决医院和医保机构急需应对政策和业务的压力,填补了行业产品矩阵的空白. 本文讲的 ...
大数据早报：路桥率先利用“人脸识别”技术监管医保亚马逊与微软联合开发人工智能，打造服务大众的AI（10.19）
数据早知道,上乐投网看早报! 『数据安全』微软内部Windows漏洞数据库曾被入侵:后果可怕作为这个星球上覆盖率最高的操作系统,Windows的一举一动都影响着大家的使用体验,对于它的安全微软也是相 ...
DRG在医保支付中的应用
DRG在医保支付中的应用前言 DRG全称是"按疾病诊断相关分组",它根据病人的年龄.性别.住院天数.临床诊断.病症.手术.疾病严重程度.合并症与并发症.转归等因素把病人分入不同 ...
建立以县区为单位的医保统筹费用预测模型
建立以县区为单位的医保统筹费用预测模型 prophet模型基础知识时间序列预测被看作数据科学家必备技能的原因.从预测天气到预测产品的销售情况,时间序列是数据科学体系的一部分,并且是成为一个数据科学家 ...
医保局应用RPA机器人在医保报销、数据处理实现自动化提高业务办理效率
近年来,随着人工智能技术的不断壮大,自动化工具也越来越受到广泛关注.而在医疗保障行业中,机器人流程自动化(RPA)近年来也成为热门话题.RPA机器人的应用可以帮助医保局加速业务流程,提高效率,提升服务 ...
怎么给el-select两级联动赋值_医保改革：支付范围、支付标准、支付方式的联动，大有可为...
文 | 码万祺投稿邮箱:yiyao@yidu.sinanet.com◆ ◆ ◆提到医保支付改革,一般首先想到医保支付方式改革,比如火热进行的住院DRGs.DIP及门诊按人头付费.按绩效付费等.笔者 ...
机器学习笔记时间序列预测（基本数据处理，Box-Cox）
数据调整调整历史数据通常会导致更简单的预测任务. 在这里,我们处理四种调整:日历调整.人口调整.通货膨胀调整和数学变换. 这些调整和转换的目的是通过消除已知的变化源或通过使整个数据集的模式更加一致来 ...
ML/DL之预测分析类：利用机器学习算法进行预测分析的简介、分析、代码实现之详细攻略
ML/DL之预测分析类:利用机器学习算法进行预测分析的简介.分析.代码实现之详细攻略目录机器学习算法进行预测的简介机器学习算法进行预测的分析机器学习算法进行预测的代码实现机器学习算法进行预测 ...
园区医保和其他地方的医保的区别
就是你要在那个地方看病就要用哪个地方的医保在家乡看病,就用家乡的医保在园区看病,就用园区的医保

机器学习——医保预测

机器学习——医保预测相关推荐

最新文章

热门文章