Kaggle项目数据分析--heart disease

最近在学习了用python的matplotlib库、seaborn库、numpy、pandas库等做数据分析,matplotlib库、seaborn库主要是用来画图的,看了相关教程后不得不感慨python的画图功能真的很强大,numpy库主要用于数组的处理,pandas库主要是用于处理数据。因为最近也是刚起步,目前学得最多的是python的画图功能,所以这一部分主要是通过画图来看数据之间的关系。本文的数据来源是kaggle网站上的heart disease项目。

1、直方图


ca是指病人在用荧光造影下血管被染色的数目

cp表示病人胸痛类型,0:无症状 1:典型心绞痛 2:非典型心绞痛 3:非心绞痛


target=0:血管小于50%变窄,target=1:血管大于50%变窄

图1表明血管出现癌变高发期为50岁之后,且男性癌变比例高于女性;综合图1和图2可以得出,是否存在心绞痛问题与血管癌变无明显协同关系,即出现心绞痛不代表身体出现大问题(例如神经不小心被压倒之类的也可能出现心绞痛)。而图3则可以得出女性血管变窄高发期在60岁之后,男性则是在年青或者年老时段均可能出现,且在40-60岁为高发期。

在直方图上还可以添加概率密度函数曲线,以便更加清晰直观地看出不同数据指标之间的协同关系。添加概率密度曲线可以用distplot函数,本人在上述几幅图中尝试添加,但效果图十分不好,纵轴刻度过大但是直方图很矮,看不清楚具体分布,而displot函数好像对纵轴刻度无法调试,所以最终没有显示在本文,要是有大神知道解决方案,可以留言给我,感激不尽!

直方图代码:
import matplotlib.pyplot as plt
import seaborn as sns
g1=sns.FacetGrid(heart,col=‘ca’,hue=“sex”)
g1.map(plt.hist,‘age’,bins=11,range=(25,80),edgecolor=‘black’)
g1.add_legend()
plt.show()

2、饼图


这里我对性别再进行了细分,因为从直方图上不容易看出女性血管癌变概率是否真的比男生低,因为从直方图上来看女性病人比男性少,所以直方图看起来女性癌变概率小也可能只是因为女性人数少,所以这里做了进一步划分。现在可以确定女性的发病率真的比男性低。

饼图的绘制可以用matplotlib.pyplot里的pie函数,但是画饼图比较坑的点是pie函数是不会自动聚类的,所以在画饼图前需要先把相同值的数进行计数,这里计数可以用Counter函数,但counter函数返回的是一个字典,但画饼图需要的是每个key的value值,所以需要先把value值提一下。代码如下:
from collections import Counter
list1=heart[heart.sex1]
list2=heart[heart.sex0]
value1=Counter(list1.ca)
list1=list(value1.values())
value2=Counter(list2.ca)
list2=list(value2.values())
label1=[‘ca=0’,‘ca=1’,‘ca=2’,‘ca=3’,‘ca=4’]
label2=[‘ca=0’,‘ca=1’,‘ca=2’,‘ca=3’]
plt.pie(list1,explode=[0.2,0,0,0,0],labels=label1,autopct=’%1.2f%%’)%autopct表示取的小数点位数
plt.title(‘sex=1’)
plt.show()
plt.pie(list2,explode=[0.2,0,0,0],labels=label2,autopct=’%1.2f%%’)
plt.title(‘sex=0’)
plt.show()

暂时更新到这~

Kaggle项目数据分析--heart disease相关推荐

  1. kaggle 2018 data science bowl____一次失败的 kaggle 项目参与经历及反思总结

    ____tz_zs 前段时间参加了 kaggle 2018 data science bowl ,初生牛犊不怕虎,于是我撸起袖子就开始干了. 尽管,没能得到好的结果,参与过程中的收获和提高,也是很值得 ...

  2. python数据挖掘实战项目开源git_强烈推荐:8个顶级git/github项目数据分析工具

    任何重要的决定都应基于数据,对于信息项目和软件开发亦是如此.如果你不仔细查看描述项目演进的数据就无法了解项目的健康状况,并给出合理的改进措施.为了分析和挖掘这些信息,我们可以从Git存储库和项目所在的 ...

  3. 【python】kaggle项目之纽约出租车行程时间预测

    一.项目背景 (1)Kaggle项目,用于预测出租车出行的总时间. (2)根据已有数据,抽提出更多有用特征,提升预测的准确性. (3)依据探索出来的特征数据,探索性的发现纽约出租车的订单数量变化情况以 ...

  4. kaggle项目:纽约出租车行程时间NYC Taxi Trip Duration

    kaggle项目:纽约出租车行程时间NYC Taxi Trip Duration 1. 项目简介 1.1 数据说明 1.2 相关数据集 2. 数据读取 2.1 读取数据集 2.2 读取节假日数据 2. ...

  5. Kaggle经典数据分析项目:泰坦尼克号生存预测!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:陈锴,中山大学,Datawhale成员 最近有很多读者留言,希望能 ...

  6. kaggle 共享单车项目数据分析和单车租赁数预测

    项目背景 自行车共享系统是租用自行车的一种方式,在这里,通过遍布城市的信息亭网络,可以自动获得会员资格.租赁和自行车归还.使用这些系统,人们可以从一个地方租一辆自行车,并根据需要将其送回另一个地方.目 ...

  7. Titanic:Machine Learning from Disaster 人工智能,大数据分析常用入门kaggle项目

    索引 0.了解Kaggle: 1.观察大局: 2.获得数据: 3.从数据探索和可视化中获得洞见: 4.机器学习算法的数据准备: 5.选择和训练模型: 6.微调模型: 0.了解Kaggle: Kaggl ...

  8. Kaggle经典数据分析项目:泰坦尼克号生存预测!1. 数据概述与可视化2. 数据预处理3. 模型训练4. 模型优化(调参)

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习 ,不错过 Datawhale干货 作者:陈锴,中山大学,Datawhale成员 最近有很多读者留言,希望 ...

  9. 泰坦尼克号数据集_机器学习(入门)--Kaggle项目之泰坦尼克号

    电影<泰坦尼克号>改编自一个真实故事.1912年4月15日,这艘号称"永不沉没"的泰坦尼克号在首航期间,撞上冰山后沉没,船上的2224名乘客和机组人员,其中只有772人 ...

最新文章

  1. java list写入txt_Java - 如何将我的ArrayList写入文件,并将该文件读取(加载)到原始ArrayList?...
  2. new relic 官方简介
  3. c++反射机制(vcl实现),mfc可依样实现
  4. SQL Server 查询数据库里所有表的行数
  5. SecureCRT登录本地cygwin。
  6. 炫酷的sublimeText开发工具 快捷键总结
  7. Pytorch中变量在tensor与numpy之间转换,tensor在CPU和GPU之间转换
  8. java 导出Excel 转图片地址为图片
  9. WinAPI WinMain函数
  10. 计算机网络设备子系统,关于设备间子系统的几点知识学习
  11. 小学四年级计算机制作月历教案,冀教版信息技术四上第1课《制作月历》教案1.doc...
  12. [回归初作]——edge浏览器的小游戏
  13. 概论 经典车间生产调度问题模型及其算法
  14. 系统分析师电子版_3个月,我从待业青年变成数据分析师,月薪15000!
  15. php微擎Goto2C解密研究
  16. python中的in ,not in来检查元素是不是在列表中
  17. axiom OMElement.setText()转义问题
  18. iOS图片处理之涂抹马赛克解析
  19. 计算机网络怎么面试问题,【面试】计算机网络常见问题
  20. 千呼万唤始出来:第六代Wi-Fi协议的前世今生

热门文章

  1. Java swing的功能测试类库 FEST-Swing
  2. P2465 [SDOI2008]山贼集团 dp
  3. coalesce 函数详解与学习记录
  4. 某单位分配到一个C类网络地址,其网络号为218.7.8.0,现在该单位共有4个不同的部门,每个部门最多25台主机,要求进行子网划分
  5. Django框架 (一)———基本简介+基本认知
  6. 13.linux系统使用小结
  7. 【Lua从青铜到王者基础篇】第一篇:Lua初始教程和环境安装
  8. Axure中动态面板中的“推动/拉动原件”
  9. 【图像分类】2022-CMT CVPR
  10. C# Winform调用百度接口实现身份证文字识别教程完整版!!!(源码)