机器学习——医保预测
获取数据
import numpy as np
import pandas as pd
# pandas读取数据集
import pandas as pd
insurance=open('C:/Users/86188/sklean-machine-learning/上机代码/医保支出预测/Train_Data.csv')
df=pd.read_csv(insurance)
从数据探索和可视化中获得洞见¶
df.info()
df.head()
# 通过describe我们可以观察到数据的数量,平均值,标准差,最小值,最大值等数据
df.describe()
# 预处理
# 训练集
df['sex'] = df['sex'].apply({'male':0,'female':1}.get)
df['smoker'] = df['smoker'].apply({'yes':1,'no':0}.get)
df['region'] =df['region'].apply({'southwest':1,'southeast':2,'northwest':3,'northeast':4}.get)
x = df[['age', 'sex', 'bmi','smoker','region', 'children']]
y= df['charges']
x
# 是否有空值
np.isnan(df).any()
#数值型变量统计描述
y.describe()
上面的结果描述了有关数值型变量的简单统计值,包括非缺失观测的个数(count)、平均值(mean)、标准差(std)、最小值(min)、下四分位数(25%)、中位数(50%)、上四分位数(75%)和最大值(max)。
# 数据探索
%matplotlib inline
import matplotlib.pyplot as plt
df.hist(bins=50, figsize=(20,15))
plt.show()
#不同地区投保人BMI指数散点图
import matplotlib.pyplot as plt
import seaborn as sns
sns.stripplot(data=df,x='region',y='bmi')
plt.title('不同地区医保支出BMI指数散点图')
plt.rcParams['font.sans-serif'] = ['KaiTi']
# 寻找相关性
corr_matrix =df.corr()
# 可视化
import seaborn as sns
import matplotlib.pyplot as plt
plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(), annot=True, fmt='.2f', cmap='PuBu')
plt.title('各个特征中的相关性')
plt.rcParams['font.sans-serif'] = ['KaiTi']
plt.show()
# from pandas.tools.plotting import scatter_matrix # For older versions of Pandas
from pandas.plotting import scatter_matrix
attributes = ['age', 'sex', 'bmi','smoker','region', 'children']
scatter_matrix(df[attributes], figsize=(20, 15))
plt.show()
模型预测
# 预处理
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
x_train, x_test, y_train, y_test=train_test_split(x,y,random_state=42)
scaler=StandardScaler()
x_train = scaler.fit_transform(x_train)
x_test = scaler.fit_transform(x_test)
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
random=RandomForestRegressor()
random.fit(x_train,y_train)
y_pred=random.predict(x_test)
y_pred
print("准确率:",random.score(x_test,y_test))
insurance_Test=open('C:/Users/86188/sklean-machine-learning/上机代码/医保支出预测/Test_Data.csv')
df1=pd.read_csv(insurance_Test)
# 测试集
df1['sex'] = df1['sex'].apply({'male':0,'female':1}.get)
df1['smoker'] = df1['smoker'].apply({'yes':1,'no':0}.get)
df1['region'] =df1['region'].apply({'southwest':1,'southeast':2,'northwest':3,'northeast':4}.get)
x_test1= df1[['age', 'sex', 'bmi','smoker','region', 'children']]
x_test1
y_pred1=random.predict(x_test1)
y_pred1
调优
# 调优
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV
tree_grid_parameter = {'min_samples_split':list((3, 6, 9)), 'n_estimators':list((10, 50, 100))}
grid = GridSearchCV(RandomForestRegressor(), param_grid=tree_grid_parameter, cv=3,
scoring='neg_mean_squared_error',
return_train_score=True)
grid.fit(x_train,y_train)
#print(grid.best_scores_) # 打印得分
#print(grid.best_params_) # 打印最好的参数组合
#print(grid.best_score_) # 打印最好的得分
print(grid.best_params_)
调优后预测当年所需医保支出(charge)
grid_pred=grid.predict(x_test1)
grid_pred
from sklearn.metrics import explained_variance_score
report=explained_variance_score(y_pred1,grid_pred)
print("准确率:",report)
机器学习——医保预测相关推荐
- 卸妆·回归:“超级医保局时代“的医院信息化转型
常垒最近投了一个早期项目[京弘达],面向医院和医保局,基于人工智能大数据技术以及行业的领先算法,提供智能化运营决策系统,解决医院和医保机构急需应对政策和业务的压力,填补了行业产品矩阵的空白. 本文讲的 ...
- 大数据早报:路桥率先利用“人脸识别”技术监管医保 亚马逊与微软联合开发人工智能,打造服务大众的AI(10.19)
数据早知道,上乐投网看早报! 『数据安全』微软内部Windows漏洞数据库曾被入侵:后果可怕 作为这个星球上覆盖率最高的操作系统,Windows的一举一动都影响着大家的使用体验,对于它的安全微软也是相 ...
- DRG在医保支付中的应用
DRG在医保支付中的应用 前言 DRG全称是"按疾病诊断相关分组",它根据病人的年龄.性别.住院天数.临床诊断.病症.手术.疾病严重程度.合并症与并发症.转归等因素把病人分入不同 ...
- 建立以县区为单位的医保统筹费用预测模型
建立以县区为单位的医保统筹费用预测模型 prophet模型基础知识 时间序列预测被看作数据科学家必备技能的原因.从预测天气到预测产品的销售情况,时间序列是数据科学体系的一部分,并且是成为一个数据科学家 ...
- 医保局应用RPA机器人在医保报销、数据处理实现自动化提高业务办理效率
近年来,随着人工智能技术的不断壮大,自动化工具也越来越受到广泛关注.而在医疗保障行业中,机器人流程自动化(RPA)近年来也成为热门话题.RPA机器人的应用可以帮助医保局加速业务流程,提高效率,提升服务 ...
- 怎么给el-select两级联动赋值_医保改革:支付范围、支付标准、支付方式的联动,大有可为...
文 | 码万祺投稿邮箱:yiyao@yidu.sinanet.com◆ ◆ ◆提到医保支付改革,一般首先想到医保支付方式改革,比如火热进行的住院DRGs.DIP及门诊按人头付费.按绩效付费等.笔者 ...
- 机器学习笔记 时间序列预测(基本数据处理,Box-Cox)
数据调整 调整历史数据通常会导致更简单的预测任务. 在这里,我们处理四种调整:日历调整.人口调整.通货膨胀调整和数学变换. 这些调整和转换的目的是通过消除已知的变化源或通过使整个数据集的模式更加一致来 ...
- ML/DL之预测分析类:利用机器学习算法进行预测分析的简介、分析、代码实现之详细攻略
ML/DL之预测分析类:利用机器学习算法进行预测分析的简介.分析.代码实现之详细攻略 目录 机器学习算法进行预测的简介 机器学习算法进行预测的分析 机器学习算法进行预测的代码实现 机器学习算法进行预测 ...
- 园区医保和其他地方的医保的区别
就是你要在那个地方看病 就要用哪个地方的医保 在家乡看病,就用家乡的医保 在园区看病,就用园区的医保
最新文章
- python---memcache使用操作
- servlet 认证,授权
- antimalware可以关闭吗_EMUI这几个功能一定要关闭 不然手机会越来越卡
- php微信40037,服务号发送模板消息问题,错误码:40037
- 导致jquery.min.map 404 (Not Found)错误的原因
- [android] socket在手机上的应用
- 使用 Azure Site Recovery 将内部部署虚拟化工作负荷迁移至 Azure
- 注:以前我的博客,因为丢了用户名和口令,无法使用,声明作废;现转于此。...
- 西门子S7系列中间人攻击:防御和流量异常检测(三)
- 不同数据量下主键类型的选择
- 无线充电主控芯片方案
- SPSS教程:单因素重复测量方差分析,超详细图文教程
- NMAP 端口扫描工具下载 + 安装
- 一元函数积分学的计算
- 【语音识别】基于keras的简易语音识别
- 如何将图片合并成一个pdf文件?
- STM32 printf 输出到usart1
- 【读书】2020年阅读记录及心得
- 通达信股本变迁文件(gbbq)解密方法
- mongodb的write concern