Kaggle项目数据分析--heart disease
Kaggle项目数据分析--heart disease
最近在学习了用python的matplotlib库、seaborn库、numpy、pandas库等做数据分析,matplotlib库、seaborn库主要是用来画图的,看了相关教程后不得不感慨python的画图功能真的很强大,numpy库主要用于数组的处理,pandas库主要是用于处理数据。因为最近也是刚起步,目前学得最多的是python的画图功能,所以这一部分主要是通过画图来看数据之间的关系。本文的数据来源是kaggle网站上的heart disease项目。
1、直方图
ca是指病人在用荧光造影下血管被染色的数目
cp表示病人胸痛类型,0:无症状 1:典型心绞痛 2:非典型心绞痛 3:非心绞痛
target=0:血管小于50%变窄,target=1:血管大于50%变窄
图1表明血管出现癌变高发期为50岁之后,且男性癌变比例高于女性;综合图1和图2可以得出,是否存在心绞痛问题与血管癌变无明显协同关系,即出现心绞痛不代表身体出现大问题(例如神经不小心被压倒之类的也可能出现心绞痛)。而图3则可以得出女性血管变窄高发期在60岁之后,男性则是在年青或者年老时段均可能出现,且在40-60岁为高发期。
在直方图上还可以添加概率密度函数曲线,以便更加清晰直观地看出不同数据指标之间的协同关系。添加概率密度曲线可以用distplot函数,本人在上述几幅图中尝试添加,但效果图十分不好,纵轴刻度过大但是直方图很矮,看不清楚具体分布,而displot函数好像对纵轴刻度无法调试,所以最终没有显示在本文,要是有大神知道解决方案,可以留言给我,感激不尽!
直方图代码:
import matplotlib.pyplot as plt
import seaborn as sns
g1=sns.FacetGrid(heart,col=‘ca’,hue=“sex”)
g1.map(plt.hist,‘age’,bins=11,range=(25,80),edgecolor=‘black’)
g1.add_legend()
plt.show()
2、饼图
这里我对性别再进行了细分,因为从直方图上不容易看出女性血管癌变概率是否真的比男生低,因为从直方图上来看女性病人比男性少,所以直方图看起来女性癌变概率小也可能只是因为女性人数少,所以这里做了进一步划分。现在可以确定女性的发病率真的比男性低。
饼图的绘制可以用matplotlib.pyplot里的pie函数,但是画饼图比较坑的点是pie函数是不会自动聚类的,所以在画饼图前需要先把相同值的数进行计数,这里计数可以用Counter函数,但counter函数返回的是一个字典,但画饼图需要的是每个key的value值,所以需要先把value值提一下。代码如下:
from collections import Counter
list1=heart[heart.sex1]
list2=heart[heart.sex0]
value1=Counter(list1.ca)
list1=list(value1.values())
value2=Counter(list2.ca)
list2=list(value2.values())
label1=[‘ca=0’,‘ca=1’,‘ca=2’,‘ca=3’,‘ca=4’]
label2=[‘ca=0’,‘ca=1’,‘ca=2’,‘ca=3’]
plt.pie(list1,explode=[0.2,0,0,0,0],labels=label1,autopct=’%1.2f%%’)%autopct表示取的小数点位数
plt.title(‘sex=1’)
plt.show()
plt.pie(list2,explode=[0.2,0,0,0],labels=label2,autopct=’%1.2f%%’)
plt.title(‘sex=0’)
plt.show()
暂时更新到这~
Kaggle项目数据分析--heart disease相关推荐
- kaggle 2018 data science bowl____一次失败的 kaggle 项目参与经历及反思总结
____tz_zs 前段时间参加了 kaggle 2018 data science bowl ,初生牛犊不怕虎,于是我撸起袖子就开始干了. 尽管,没能得到好的结果,参与过程中的收获和提高,也是很值得 ...
- python数据挖掘实战项目开源git_强烈推荐:8个顶级git/github项目数据分析工具
任何重要的决定都应基于数据,对于信息项目和软件开发亦是如此.如果你不仔细查看描述项目演进的数据就无法了解项目的健康状况,并给出合理的改进措施.为了分析和挖掘这些信息,我们可以从Git存储库和项目所在的 ...
- 【python】kaggle项目之纽约出租车行程时间预测
一.项目背景 (1)Kaggle项目,用于预测出租车出行的总时间. (2)根据已有数据,抽提出更多有用特征,提升预测的准确性. (3)依据探索出来的特征数据,探索性的发现纽约出租车的订单数量变化情况以 ...
- kaggle项目:纽约出租车行程时间NYC Taxi Trip Duration
kaggle项目:纽约出租车行程时间NYC Taxi Trip Duration 1. 项目简介 1.1 数据说明 1.2 相关数据集 2. 数据读取 2.1 读取数据集 2.2 读取节假日数据 2. ...
- Kaggle经典数据分析项目:泰坦尼克号生存预测!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:陈锴,中山大学,Datawhale成员 最近有很多读者留言,希望能 ...
- kaggle 共享单车项目数据分析和单车租赁数预测
项目背景 自行车共享系统是租用自行车的一种方式,在这里,通过遍布城市的信息亭网络,可以自动获得会员资格.租赁和自行车归还.使用这些系统,人们可以从一个地方租一辆自行车,并根据需要将其送回另一个地方.目 ...
- Titanic:Machine Learning from Disaster 人工智能,大数据分析常用入门kaggle项目
索引 0.了解Kaggle: 1.观察大局: 2.获得数据: 3.从数据探索和可视化中获得洞见: 4.机器学习算法的数据准备: 5.选择和训练模型: 6.微调模型: 0.了解Kaggle: Kaggl ...
- Kaggle经典数据分析项目:泰坦尼克号生存预测!1. 数据概述与可视化2. 数据预处理3. 模型训练4. 模型优化(调参)
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习 ,不错过 Datawhale干货 作者:陈锴,中山大学,Datawhale成员 最近有很多读者留言,希望 ...
- 泰坦尼克号数据集_机器学习(入门)--Kaggle项目之泰坦尼克号
电影<泰坦尼克号>改编自一个真实故事.1912年4月15日,这艘号称"永不沉没"的泰坦尼克号在首航期间,撞上冰山后沉没,船上的2224名乘客和机组人员,其中只有772人 ...
最新文章
- java list写入txt_Java - 如何将我的ArrayList写入文件,并将该文件读取(加载)到原始ArrayList?...
- new relic 官方简介
- c++反射机制(vcl实现),mfc可依样实现
- SQL Server 查询数据库里所有表的行数
- SecureCRT登录本地cygwin。
- 炫酷的sublimeText开发工具 快捷键总结
- Pytorch中变量在tensor与numpy之间转换,tensor在CPU和GPU之间转换
- java 导出Excel 转图片地址为图片
- WinAPI WinMain函数
- 计算机网络设备子系统,关于设备间子系统的几点知识学习
- 小学四年级计算机制作月历教案,冀教版信息技术四上第1课《制作月历》教案1.doc...
- [回归初作]——edge浏览器的小游戏
- 概论 经典车间生产调度问题模型及其算法
- 系统分析师电子版_3个月,我从待业青年变成数据分析师,月薪15000!
- php微擎Goto2C解密研究
- python中的in ,not in来检查元素是不是在列表中
- axiom OMElement.setText()转义问题
- iOS图片处理之涂抹马赛克解析
- 计算机网络怎么面试问题,【面试】计算机网络常见问题
- 千呼万唤始出来:第六代Wi-Fi协议的前世今生
热门文章
- Java swing的功能测试类库 FEST-Swing
- P2465 [SDOI2008]山贼集团 dp
- coalesce 函数详解与学习记录
- 某单位分配到一个C类网络地址,其网络号为218.7.8.0,现在该单位共有4个不同的部门,每个部门最多25台主机,要求进行子网划分
- Django框架 (一)———基本简介+基本认知
- 13.linux系统使用小结
- 【Lua从青铜到王者基础篇】第一篇:Lua初始教程和环境安装
- Axure中动态面板中的“推动/拉动原件”
- 【图像分类】2022-CMT CVPR
- C# Winform调用百度接口实现身份证文字识别教程完整版!!!(源码)