获取数据

import numpy as np

import pandas as pd

# pandas读取数据集

import pandas as pd

insurance=open('C:/Users/86188/sklean-machine-learning/上机代码/医保支出预测/Train_Data.csv')

df=pd.read_csv(insurance)

从数据探索和可视化中获得洞见¶

df.info()

df.head()

#  通过describe我们可以观察到数据的数量,平均值,标准差,最小值,最大值等数据

df.describe()

# 预处理

# 训练集

df['sex'] = df['sex'].apply({'male':0,'female':1}.get)

df['smoker'] = df['smoker'].apply({'yes':1,'no':0}.get)

df['region'] =df['region'].apply({'southwest':1,'southeast':2,'northwest':3,'northeast':4}.get)

x = df[['age', 'sex', 'bmi','smoker','region', 'children']]

y= df['charges']

x

# 是否有空值

np.isnan(df).any()

#数值型变量统计描述

y.describe()

上面的结果描述了有关数值型变量的简单统计值,包括非缺失观测的个数(count)、平均值(mean)、标准差(std)、最小值(min)、下四分位数(25%)、中位数(50%)、上四分位数(75%)和最大值(max)。

# 数据探索

%matplotlib inline

import matplotlib.pyplot as plt

df.hist(bins=50, figsize=(20,15))

plt.show()

#不同地区投保人BMI指数散点图

import matplotlib.pyplot as plt

import seaborn as sns

sns.stripplot(data=df,x='region',y='bmi')

plt.title('不同地区医保支出BMI指数散点图')

plt.rcParams['font.sans-serif'] = ['KaiTi']

# 寻找相关性

corr_matrix =df.corr()

# 可视化

import seaborn as sns

import matplotlib.pyplot as plt

plt.figure(figsize=(12, 8))

sns.heatmap(df.corr(), annot=True, fmt='.2f', cmap='PuBu')

plt.title('各个特征中的相关性')

plt.rcParams['font.sans-serif'] = ['KaiTi']

plt.show()

# from pandas.tools.plotting import scatter_matrix # For older versions of Pandas

from pandas.plotting import scatter_matrix

attributes = ['age', 'sex', 'bmi','smoker','region', 'children']

scatter_matrix(df[attributes], figsize=(20, 15))

plt.show()

模型预测

# 预处理

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

x_train, x_test, y_train, y_test=train_test_split(x,y,random_state=42)

scaler=StandardScaler()

x_train = scaler.fit_transform(x_train)

x_test = scaler.fit_transform(x_test)

from sklearn.ensemble import RandomForestRegressor

from sklearn.metrics import mean_squared_error

random=RandomForestRegressor()

random.fit(x_train,y_train)

y_pred=random.predict(x_test)

y_pred

print("准确率:",random.score(x_test,y_test))

insurance_Test=open('C:/Users/86188/sklean-machine-learning/上机代码/医保支出预测/Test_Data.csv')

df1=pd.read_csv(insurance_Test)

# 测试集

df1['sex'] = df1['sex'].apply({'male':0,'female':1}.get)

df1['smoker'] = df1['smoker'].apply({'yes':1,'no':0}.get)

df1['region'] =df1['region'].apply({'southwest':1,'southeast':2,'northwest':3,'northeast':4}.get)

x_test1= df1[['age', 'sex', 'bmi','smoker','region', 'children']]

x_test1

y_pred1=random.predict(x_test1)

y_pred1

调优

# 调优

import numpy as np

from sklearn.metrics import mean_squared_error

from sklearn.model_selection import GridSearchCV

tree_grid_parameter = {'min_samples_split':list((3, 6, 9)), 'n_estimators':list((10, 50, 100))}

grid = GridSearchCV(RandomForestRegressor(), param_grid=tree_grid_parameter, cv=3,

scoring='neg_mean_squared_error',

return_train_score=True)

grid.fit(x_train,y_train)

#print(grid.best_scores_) # 打印得分

#print(grid.best_params_) # 打印最好的参数组合

#print(grid.best_score_)  # 打印最好的得分

print(grid.best_params_)

调优后预测当年所需医保支出(charge)

grid_pred=grid.predict(x_test1)

grid_pred

from sklearn.metrics import explained_variance_score

report=explained_variance_score(y_pred1,grid_pred)

print("准确率:",report)

机器学习——医保预测相关推荐

  1. 卸妆·回归:“超级医保局时代“的医院信息化转型

    常垒最近投了一个早期项目[京弘达],面向医院和医保局,基于人工智能大数据技术以及行业的领先算法,提供智能化运营决策系统,解决医院和医保机构急需应对政策和业务的压力,填补了行业产品矩阵的空白. 本文讲的 ...

  2. 大数据早报:路桥率先利用“人脸识别”技术监管医保 亚马逊与微软联合开发人工智能,打造服务大众的AI(10.19)

    数据早知道,上乐投网看早报! 『数据安全』微软内部Windows漏洞数据库曾被入侵:后果可怕 作为这个星球上覆盖率最高的操作系统,Windows的一举一动都影响着大家的使用体验,对于它的安全微软也是相 ...

  3. DRG在医保支付中的应用

    DRG在医保支付中的应用 前言  DRG全称是"按疾病诊断相关分组",它根据病人的年龄.性别.住院天数.临床诊断.病症.手术.疾病严重程度.合并症与并发症.转归等因素把病人分入不同 ...

  4. 建立以县区为单位的医保统筹费用预测模型

    建立以县区为单位的医保统筹费用预测模型 prophet模型基础知识 时间序列预测被看作数据科学家必备技能的原因.从预测天气到预测产品的销售情况,时间序列是数据科学体系的一部分,并且是成为一个数据科学家 ...

  5. 医保局应用RPA机器人在医保报销、数据处理实现自动化提高业务办理效率

    近年来,随着人工智能技术的不断壮大,自动化工具也越来越受到广泛关注.而在医疗保障行业中,机器人流程自动化(RPA)近年来也成为热门话题.RPA机器人的应用可以帮助医保局加速业务流程,提高效率,提升服务 ...

  6. 怎么给el-select两级联动赋值_医保改革:支付范围、支付标准、支付方式的联动,大有可为...

    文 | 码万祺投稿邮箱:yiyao@yidu.sinanet.com◆  ◆  ◆提到医保支付改革,一般首先想到医保支付方式改革,比如火热进行的住院DRGs.DIP及门诊按人头付费.按绩效付费等.笔者 ...

  7. 机器学习笔记 时间序列预测(基本数据处理,Box-Cox)

    数据调整 调整历史数据通常会导致更简单的预测任务. 在这里,我们处理四种调整:日历调整.人口调整.通货膨胀调整和数学变换. 这些调整和转换的目的是通过消除已知的变化源或通过使整个数据集的模式更加一致来 ...

  8. ML/DL之预测分析类:利用机器学习算法进行预测分析的简介、分析、代码实现之详细攻略

    ML/DL之预测分析类:利用机器学习算法进行预测分析的简介.分析.代码实现之详细攻略 目录 机器学习算法进行预测的简介 机器学习算法进行预测的分析 机器学习算法进行预测的代码实现 机器学习算法进行预测 ...

  9. 园区医保和其他地方的医保的区别

    就是你要在那个地方看病 就要用哪个地方的医保 在家乡看病,就用家乡的医保 在园区看病,就用园区的医保

最新文章

  1. python---memcache使用操作
  2. servlet 认证,授权
  3. antimalware可以关闭吗_EMUI这几个功能一定要关闭 不然手机会越来越卡
  4. php微信40037,服务号发送模板消息问题,错误码:40037
  5. 导致jquery.min.map 404 (Not Found)错误的原因
  6. [android] socket在手机上的应用
  7. 使用 Azure Site Recovery 将内部部署虚拟化工作负荷迁移至 Azure
  8. 注:以前我的博客,因为丢了用户名和口令,无法使用,声明作废;现转于此。...
  9. 西门子S7系列中间人攻击:防御和流量异常检测(三)
  10. 不同数据量下主键类型的选择
  11. 无线充电主控芯片方案
  12. SPSS教程:单因素重复测量方差分析,超详细图文教程
  13. NMAP 端口扫描工具下载 + 安装
  14. 一元函数积分学的计算
  15. 【语音识别】基于keras的简易语音识别
  16. 如何将图片合并成一个pdf文件?
  17. STM32 printf 输出到usart1
  18. 【读书】2020年阅读记录及心得
  19. 通达信股本变迁文件(gbbq)解密方法
  20. mongodb的write concern

热门文章

  1. Debug版本下能运行而Release下不能运行的问题总结
  2. 网上的视频下载到电脑上
  3. Winform自定义控件 —— 指示灯
  4. ChatGPT 研究框架(PPT)
  5. 软件设计之耦合性与内聚性的区别
  6. 修改百度地图点聚合点击事件获取markers数据
  7. 【HCIP 05】QinQ (vlan叠vlan)
  8. 进峡谷之巅说服务器维护,峡谷之巅维护升级,已启用人脸识别系统
  9. Redis基本概念和作用
  10. 我看Facebook Libra,让子弹飞一会。