​ ”明月如霜,好风如水,清景无限 “
又是deadline,果然是第一生产力啊。
天池心跳分类

这篇本来的Task是数据的EDA探索。也就是对数据的熟悉,可视化,分布等等的了解。

  • 数据科学库pandas,numpy,scipy;
  • 可视化库 matplotlib,seaborn,plotly,pyecharts,Boken,cufflinks等等。(这个还是有必要多练练,对应官网的例子跑一跑)
    可以聊一下和pandas联系紧密的cufflinks。
import pandas as pd
import numpy as np
import cufflinks as cf
df=pd.DataFrame(np.random.rand(12, 4), columns=['a', 'b', 'c', 'd'])
df.iplot(kind ='bar',title='示例', xTitle = 'X轴', yTitle ='Y轴')


这个可视化的操作只有一个函数需要注意,也就是df.iplot()。也就是只需要填参数。pandas操作是相当方便的。

除此之外是一些数据小处理。

data_train.head()

数据头部。

data_train.describe()

通过describe()来熟悉数据的相关统计量。

data_train.info()

通过info()来熟悉数据类型

data_train.isnull()

数据查空

data_train['label'].value_counts()

看一下数据的分布。

## 1) 总体分布概况(无界约翰逊分布等)
import scipy.stats as st
y = Train_data['label']
plt.figure(1); plt.title('Default')
sns.distplot(y, rug=True, bins=20)
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)

总体分布概况(无界约翰逊分布等)

1.了解一下决策树的底层。

一棵树的样式:(分类任务为例)

  • 根节点-------包含样本(心跳的输入)全集。

  • 若干的内部结点-------对应属性测试,(也就是树结点是判断条件----也就是属性测试将样本分类到下列的某个子结点<结点的个数根据属性的取值分类>)

  • 若干个叶节点-------对应样本分类结果。即心跳信号的类别。

2.决策树的生成过程:

先分析一下终止过程,也就是实现了分类:

  • 1.当前结点包含样本属于一类。也就是分类终止了。
  • 2.当前的样本的在所有属性上的取值相同。也就是无法继续划分了,目前的这些样本属于一类。(更直观的理解是:把此结点的类别设定为所含样本最多的 对应的类别)
  • 3.当前的结点包含的样本集合为空,那么其类别跟从父结点类别。(父结点类别遵从第二条)

最后是集成模型,文远正想学的。看baseline主要是lightgbm,xgboost,catboost。
参考一下这篇文章。除此之外需要了解的是贝叶斯调参,当然关于Task3的特征选择还是需要认真打磨一下。

文章对你有帮助的话,记得点赞并将公众号设置成星标哦。上期源码

END

作者:不爱跑马的影迷不是好程序猿

   喜欢的话请关注点赞												

心跳信号分类---(中)相关推荐

  1. 【直播】张晋:心跳信号分类模型融合

    心跳信号分类模型融合 目前 Datawhale第23期组队学习 正在如火如荼的进行中.为了大家更好的学习,零基础入门数据挖掘(心跳信号分类) 的课程设计者张晋,将为大家带来一场直播分享--心跳信号分类 ...

  2. 【直播】鱼佬:心跳信号分类赛高分突破

    心跳信号分类赛高分突破 目前 Datawhale第23期组队学习正在如火如荼的进行中.为了大家更好的学习,零基础入门数据挖掘(心跳信号分类) 的课程设计者王贺,将为大家带来一场直播分享--心跳信号分类 ...

  3. 【算法竞赛学习】心跳信号分类预测-特征工程

    Task3 特征工程 此部分为零基础入门数据挖掘-心跳信号分类预测的 Task3 特征工程部分,带你来了解时间序列特征工程以及分析方法,欢迎大家后续多多交流. 赛题:零基础入门数据挖掘-心跳信号分类预 ...

  4. 阿里天池心跳信号分类预测baseline

    阿里天池又来了一个数据挖掘新人赛,是关于心跳信号分类的预测问题,主要针对初学者学习数据挖掘知识 比赛地址链接 这次数据比较有意思,和最常见的多属性结构化数据不同,本次数据是心电图数据记录,所以用一下传 ...

  5. 天池大赛-心跳信号分类预测:赛题理解与baseline解析

    比赛地址:零基础入门数据挖掘-心跳信号分类预测 参考资料:由DataWhale开源的学习资料 1. 赛题简介 本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事 -- 心跳信号分类预测. ...

  6. 天池大赛-心跳信号分类预测:建模与调参

    比赛地址:零基础入门数据挖掘-心跳信号分类预测 参考资料:由DataWhale开源的学习资料 1 内容介绍 逻辑回归模型: 理解逻辑回归模型: 逻辑回归模型的应用: 逻辑回归的优缺点: 树模型: 理解 ...

  7. 2021-03-17零基础入门数据挖掘-心跳信号分类预测

    零基础入门数据挖掘-心跳信号分类预测TASK02 1.学习目标: 2.学习内容 2.1载入库 2.2载入数据 2.3数据总览 2.4数据缺失和异常 2.5预测值分布 1.学习目标: 数据探索性分析ED ...

  8. 数据挖掘-Task1:心跳信号分类预测(赛题理解)

    目录 前言 一.赛题 1.1 赛题概况 1.2 数据概况 1.3 预测指标 1.4 赛题分析 二.代码示例 2.1 数据读取 (导入pandas) 2.2 分类指标计算示例 2.3 baseline ...

  9. 【数据挖掘】心跳信号分类预测 之 赛题理解 —— 学习笔记(一)

    目录 一.赛题理解 1.1 学习目标 1.2 了解赛题 1.2.1 赛题概况 1.2.2 数据概况 1.2.3 预测指标 1.2.4 赛题分析 1.3 Baseline 学习与解读 1.3.1 导入依 ...

  10. 心跳信号分类-- 学习反馈TASK5

    Detail 零基础入门数据挖掘 (心跳信号分类) 学习反馈TASK5 使用语言:python Tas1 – Task5 Task5 模型融合 模型融合是本次项目也是常规比赛后期一个重要的环节,可以分 ...

最新文章

  1. Codeforces.1051F.The Shortest Statement(最短路Dijkstra)
  2. Linux--文件结构体struct file
  3. a + b + c 求和
  4. 用PS为网迅安卓公司设计基于安卓平台的手机应用图标
  5. 使用 esxtop 识别存储性能问题
  6. if 语句错误,提示Conditon is always ‘‘alse‘
  7. 经方的魅力第二版》读书摘录
  8. 服务器返回消息为空iOS
  9. BGP(Border Gatreway Protcol)边界网关路由协议
  10. u8的汇兑损益的计算公式_C程序计算损益
  11. matlab连续色度条指数形式,色度标准.doc
  12. 用Python写一个天天酷跑
  13. DO DIFFERENT TRACKING TASKS REQUIRE DIFFERENT APPEARANCE MODELS?——阅读笔记
  14. java 金额比较大小写_Java金额大小写的转换方法
  15. 基于图卷积网络的测量与先验知识相结合的故障诊断方法
  16. 模拟增强PSP实用软件iRShell 3.81PS补丁放出
  17. fastjson 导致fullgc频繁问题排查过程
  18. sliding windows infer 模型
  19. 银行数据资产的理解及盘点
  20. Java自学笔记之网络编程

热门文章

  1. 安装Linux系统后必做的几件事
  2. mac上使用dbeaver设置字体大小
  3. 怎么查询Mysql数据库的版本号?(2种常用的方法)
  4. 计算机视觉(五)--图像全景拼接原理及实现
  5. 大唐杯简要介绍及备赛事项
  6. 如何把照片进行压缩?好用的压缩方法分享
  7. 《狂飙》壁纸太帅,Python自动切换太酷(8)
  8. 【CSS如何画简单的三角形或者梯形】
  9. 【应急基础】————2、开机启动项
  10. 关于嵌入式音视频程序开发的感想