数据读取

import pandas as pd  # 数据科学计算工具data = "pima-indians-diabetes.data.csv"
#年纪、怀孕、血液检查的次数... 匹马印第安人糖尿病的数据集
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
df = pd.read_csv(data, names=names)

【0】Pregnancies:怀孕次数 
【1】Glucose:葡萄糖 
【2】BloodPressure:血压 (mm Hg) 
【3】SkinThickness:皮层厚度 (mm) 
【4】Insulin:胰岛素 2小时血清胰岛素(mu U / ml 
【5】BMI:体重指数 (体重/身高)^2 
【6】DiabetesPedigreeFunction:糖尿病谱系功能 
【7】Age:年龄 (岁) 
【8】Outcome:类标变量 (0或1)

print(df.head())

投票器模型融合

from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import VotingClassifier
import warnings
warnings.filterwarnings('ignore')
array = df.values
print(array)

X = array[:,0:8]    #所有行的0-7列的值
Y = array[:,8]      #所有行的第8列的值
kfold = model_selection.KFold(n_splits=5, random_state=2019)# 创建投票器的子模型
estimators = []
model_1 = LogisticRegression()
estimators.append(('logistic', model_1))model_2 = DecisionTreeClassifier()
estimators.append(('dt', model_2))model_3 = SVC()
estimators.append(('svm', model_3))# 构建投票器融合
ensemble = VotingClassifier(estimators)
result = model_selection.cross_val_score(ensemble, X, Y, cv=kfold)
print(result.mean())
0.7435786435786437

Bagging

from sklearn.ensemble import BaggingClassifierdt = DecisionTreeClassifier()
num = 100
kfold = model_selection.KFold(n_splits=5, random_state=2019)
model = BaggingClassifier(base_estimator=dt, n_estimators=num, random_state=2019)
result = model_selection.cross_val_score(model, X, Y, cv=kfold)
#告诉它基模型:决策树  用多少个模型集成:100
print(result.mean())
0.7695781342840166

RandomForest

from sklearn.ensemble import RandomForestClassifiernum_trees = 100        #有100棵树
max_feature_num = 5    #每棵树采样5个样本
kfold = model_selection.KFold(n_splits=5, random_state=2019)
model = RandomForestClassifier(n_estimators=num_trees, max_features=max_feature_num)
result = model_selection.cross_val_score(model, X, Y, cv=kfold)
print(result.mean())
0.7708853238265003

Adaboost

from sklearn.ensemble import AdaBoostClassifier
num_trees = 25
kfold = model_selection.KFold(n_splits=5, random_state=2018)
model = AdaBoostClassifier(n_estimators=num_trees, random_state=2018)
result = model_selection.cross_val_score(model, X, Y, cv=kfold)
print(result.mean())
0.7513623631270689

实战五:基于Pima印第安人数据——Model_ensemble-example相关推荐

  1. kaggle实战:基于超市消费数据的用户个性化分析案例

    大家好,今天给大家分享一篇 kaggle 数据集的新文章:基于一份超市消费数据集的用户个性化分析以及用户分群的实现. 更多详细内容参考原数据集地址: https://www.kaggle.com/co ...

  2. 学习笔记——仅仅为了留下Pima印第安人糖尿病发病数据集的网址

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qq_42370150/article/ ...

  3. 如何基于DataWorks构建数据中台?

    简介:为了应对众多业务部门千变万化的数据需求和高时效性的要求,阿里巴巴首次提出了数据中台的概念,经过众多项目的实践已经沉淀出了标准化的流程和方法论.如何构建一个数据中台?一个好的数据中台需要具备哪些功 ...

  4. sklearn 混淆矩阵分析pima 印第安人糖尿病数据

    数据链接:FE_pima-indians-diabetes.csv · biabianm/pima-indians-diabetes - Gitee.com import pandas as pd f ...

  5. R语言构建文本分类模型并使用LIME进行模型解释实战:文本数据预处理、构建词袋模型、构建xgboost文本分类模型、基于文本训练数据以及模型构建LIME解释器解释多个测试语料的预测结果并可视化

    R语言构建文本分类模型并使用LIME进行模型解释实战:文本数据预处理.构建词袋模型.构建xgboost文本分类模型.基于文本训练数据以及模型构建LIME解释器解释多个测试语料的预测结果并可视化 目录

  6. R语言聚类分析之基于划分的聚类KMeans实战:基于葡萄酒数据

    R语言聚类分析之基于划分的聚类KMeans实战:基于葡萄酒数据 目录 R语言聚类分析之基于划分的聚类KMeans实战:基于葡萄酒数据

  7. R语言data.table导入数据实战:data.table生成新的数据列(基于已有数据列)、生成多个数据列

    R语言data.table导入数据实战:data.table生成新的数据列(基于已有数据列).生成多个数据列 目录 R语言data.table导入数据实战:data.

  8. R语言聚类分析之基于划分的聚类KMeans实战:基于菌株数据

    R语言聚类分析之基于划分的聚类KMeans实战:基于菌株数据 目录 R语言聚类分析之基于划分的聚类KMeans实战:基于菌株数据

  9. R语言dplyr包使用case_when函数和mutate函数生成新的数据列实战:基于单列生成新的数据列、基于多列生成新的数据列

    R语言dplyr包使用case_when函数和mutate函数生成新的数据列实战:基于单列生成新的数据列.基于多列生成新的数据列 目录

最新文章

  1. 第十六届全国大学生智能汽车竞赛总决赛 AI视觉组线上赛细则草案 - 初步版本
  2. golang 获取路径 文件名 后缀
  3. 【转】Monkey测试6-Monkey Test Log
  4. python五十五:__getattribute__内置函数
  5. vux 组件库首次使用安装
  6. iOS夯实:内存管理
  7. ElementUI table的行高设置
  8. 科恒khs202温控器使用说明书_STC-9200温控器使用说明书——精创温控器
  9. 《Axure RP 8 实战手册》pdf
  10. word 宏相关代码集合
  11. 如何使用腾讯云服务器搭建个人网站?
  12. 7-12 特立独行的幸福 (25 分)(如何判断特立独行)
  13. 深入理解Android之Xposed详解
  14. 移动端开发兼容性处理整理
  15. [李景山php] ddos 防御基础
  16. java 汉字个数_java语言中如何获取字符串中汉字的个数
  17. 财路网每日原创推送:币圈灰姑娘,BSV弱市该如何逆袭
  18. 1548_AURIX_TC275_锁步比较逻辑LCL
  19. H.264分隔符AUD误用导致iOS设备无法播放H.265视频的问题解决
  20. CMAKE 调用交叉编译器(CMAKE使用)

热门文章

  1. 安卓dtmf识别_电话拨键号码(DTMF信号)识别
  2. NVIDIA DOCA 将如何在中国绘制技术发展全景图
  3. Android调用WIFI设置
  4. 怎么修改科汛CMS导读的文字字数【已解决】
  5. axure实现搜索功能_Axure案例:电商网站下拉搜索框的制作
  6. CommonPhotoStar AlbumViewer 2.1 Free 免费动态数码相册发布
  7. CS229 Fall 2020 Python Tutorial
  8. 吴恩达机器学习(十九)神经网络(I)
  9. python中面向对象空间时间_python-面向对象的命名空间和组合
  10. Typora+Picgo+gitee 上传图片