零基础入门金融风控数据分析
零基础入门金融风控之贷款违约
目的:
1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.
2.了解变量间的相互关系、变量与预测值之间的存在关系。
3.为特征工程做准备
数据总体了解:
- 读取数据集并了解数据集大小,原始特征维度;
- 通过info熟悉数据类型;
- 粗略查看数据集中各特征基本统计量;
- 缺失值和唯一值:
- 查看数据缺失值情况
- 查看唯一值特征情况
- 深入数据-查看数据类型
- 类别型数据
- 数值型数据
- 离散数值型数据
- 连续数值型数据
- 数据间相关关系
- 特征和特征之间关系
- 特征和目标变量之间关系
- 用pandas_profiling生成数据报告SV与CSV的区别:
- 从名称上即可知道,TSV是用制表符(Tab,'\t')作为字段值的分隔符;CSV是用半角逗号(',')作为字段值的分隔符;
- Python对TSV文件的支持: Python的csv模块准确的讲应该叫做dsv模块,因为它实际上是支持范式的分隔符分隔值文件(DSV,delimiter-separated values)的。 delimiter参数值默认为半角逗号,即默认将被处理文件视为CSV。当delimiter='\t'时,被处理文件就是TSV。
- 特征一般都是由类别型特征和数值型特征组成,而数值型特征又分为连续型和离散型。
- 类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,是否只是单纯的分类,还是A优于其他要结合业务判断。
- 数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。
变量分布可视化
- 数据探索性分析是我们初步了解数据,熟悉数据为特征工程做准备的阶段,甚至很多时候EDA阶段提取出来的特征可以直接当作规则来用。可见EDA的重要性
零基础入门金融风控数据分析相关推荐
- 零基础入门金融风控-贷款违约预测-机器学习-数据分析
零基础入门金融风控-贷款违约预测 一.赛题数据 赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变 ...
- Datawhale零基础入门金融风控 Task2/4 数据分析
Task2 数据分析 此部分为零基础入门金融风控的 Task2 数据分析部分,带你来了解数据,熟悉数据,为后续的特征工程做准备,欢迎大家后续多多交流. 赛题:零基础入门数据挖掘 - 零基础入门金融风控 ...
- 关于零基础入门金融风控挑战赛的笔记系列
Task1 赛题理解 赛题背景 金融行业里面,对风险控制非常严格,如果风控把握不好,那么会导致坏产等一系列恶性循环.因此,风控便成为了金融公司业务管理中重要的一环.这次,结合天池的优势,进行<零 ...
- 笔记之零基础入门金融风控-贷款违约预测
零基础入门金融风控-贷款违约预测 赛题描述 赛题概况 数据概况 合理的创建标题,有助于目录的生成 预测指标 赛题流程 评分卡 笔记记录转载 赛题描述 赛题以金融风控中的个人信贷为背景,要求选手根据贷款 ...
- 零基础入门金融风控之贷款违约预测挑战赛-task01
零基础入门金融风控之贷款违约预测挑战赛-task01 零基础入门金融风控之贷款违约预测挑战赛 1.赛题描述 根据某信贷平台的贷款记录的数据,进行训练测试,预测用户贷款是否违约,得出用户违约的概率. 在 ...
- 零基础入门金融风控-贷款违约预测_Task1
贷款违约预测_Task1 零基础入门金融风控-贷款违约预测_Task1 数据概况 预测指标 零基础入门金融风控-贷款违约预测_Task1 数据概况 数据包含三部分:训练集(train.csv).测试集 ...
- 零基础入门金融风控-贷款违约预测-Task4 建模与调参
此部分为零基础入门金融风控的 Task4 建模调参部分,带你来了解各种模型以及模型的评价和调参策略,欢迎大家后续多多交流. 项目地址 比赛地址 4.1 学习目标 学习在金融分控领域常用的机器学习模型 ...
- 零基础入门金融风控-贷款违约预测-Task05——模型融合
有幸参加了阿里云举办的零基础入门金融风控-贷款违约预测训练营.收获颇多. 每天记录一些自己之前的知识盲点,需经常温习. 第五次的学习任务,是模型融合. 一.模型融合常用方法 模型融合有常用的如下六种方 ...
- 零基础入门金融风控-贷款违约预测
写在前面: 刚接触数据挖掘,看了几页python就跳进了这个大坑,也不知道该咋写这个博客,先瞎写着吧.介绍下自己参加的这个项目,是Datawhale和天池比赛联合发起的,我们在Datawhale组对学 ...
最新文章
- java fork join原理_细说Fork/Join框架
- [公告]欢迎您加入WF技术研究团队
- 通过IHS(IBM HTTP SERVER)转发WAS(WEBSPHERE)应用的小问题
- r graphics installing package
- python树结构_Python-简单的树结构实现
- java 多线程 notify_Java多线程8:wait()和notify()/notifyAll()
- ES6-Object.is() 和Object.assign()
- 广告系统中的Exploitation and Exploration(二)
- Docker服务安全加固
- kotlin set 私有_Kotlin可见性修改器–公共,受保护,内部,私有
- linux 测试t3协议,Yealink网络电话SIP-T38G本地文件包含漏洞
- protel99se学习笔记
- switchHosts 介绍
- Boost.Asio使用总结
- 成都11区+4县+5市高分辨率边界kml
- 《创业维艰》:如何完成比难更难的事
- python去字符串空格函数汇总
- 什么是数据可视化大屏?如何制作一个数据可视化大屏?
- docker服务及镜像开机自动启动
- QT学习笔记(四)——常用ui控件以及自定义ui控件的使用