天池学习赛-保险反欺诈预测参考代码过程
目录
一、赛题背景
二、数据加载
1.导入相关库
2.导入训练集:
3.导入测试集:
三、合并数据集(对train和test进行合并)
四、数据清洗
五、对数据唯一值个数进行处理
六、对日期特征进行处理
七、模型训练
八、导出结果
九、个人总结
一、赛题背景
赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈近些年层出不穷,在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。
二、数据加载
1.导入相关库
2.导入训练集:
运行结果:
3.导入测试集:
运行结果:
三、合并数据集(对train和test进行合并)
合并数据集(对train和test进行合并)
运行结果:
四、数据清洗
统计数据为空的值
运行结果:无空值,无需对数据预处理
五、对数据唯一值个数进行处理
对数据唯一值个数进行处理
运行结果:
在特征工程中,对不同的数据类型要分别处理,怎么批量把相同类型的字段筛选出来,select_dtypes一行代码可以搞定。
语法结构如下,include里面写字段类型:
运行结果:就把所有0类型的数据的列名筛选出来啦
创建两个空列表,将筛选为0的数据类型进行遍历循环,利用append()方法在column_name列表末尾处添加col新对象,将值添加到unique_value中。
修改列名,其中sort_values是pandas库中DataFrame和Series对象的方法,用于按照指定的列或索引对数据进行排序。具体方法如下:对DataFrame进行排序,ascending参数指定降序排列
运行结果:
单独查看property_damage字段
运行结果:
运行结果:
六、对日期特征进行处理
利用to_datetime函数将字符型的时间日期转换为时间型的数据
并且使用min()函数查看最小日期,max()函数查看最大日期
日期与日期进行相减并转换为date_diff
运行结果:
去掉原始日期的字段
运行结果:
标签编码
运行结果:
七、模型训练
对数据集进行切分
构建lightgbm分类模型
使用使用LGBMClassifier算法,用于目标分类
进行模型训练
运行结果:
使用mean()函数求取训练集数据‘fraud’列的均值
八、导出结果
九、个人总结
对train训练集和test测试集的数据进行合并。在数据清洗部分,使用了isull()函数对数据查看是否有为空的数据,数据规模较小并且比较干净,所以没有对数据进行清洗。在对数据唯一值个数进行处理部分,对不同的数据类型要分别处理,使用select_dtypesselect_dtypes方法批量把相同类型的字段筛选出来,使用append()方法在列表末尾处添加col新对象。sort_values是pandas库中DataFrame和Series对象的方法,用于按照指定的列或索引对数据进行排序,对DataFrame进行排序,ascending参数指定降序排列。在对日期处理部分,使用了to_datetime函数将字符型的时间日期转换为时间型的数据,并且使用min()函数查看最小日期,max()函数查看最大日期。在模型训练部分,构建了lightgbm分类模型,使用LGBMClassifier算法,用于目标分类,使用mean()函数求取训练集数据‘fraud’列的均值,最后导出结果,结果为0.97。
天池学习赛-保险反欺诈预测参考代码过程相关推荐
- 阿里天池---教学赛】金融数据分析赛题2:保险反欺诈预测
目录 赛题背景 赛题数据 赛题任务 一:操作指南 二:数据预处理 赛题背景 赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用.保险欺诈近些年层出不穷,在某些险种上保险欺诈的 ...
- 阿里天池金融数据分析赛题2:保险反欺诈预测baseline
金融数据分析赛题2:保险反欺诈预测baseline 好久没写baseline了,最近逛比赛的时候突然看到阿里新人赛又出新题目了,索性写个baseline给初学者,昨天晚上把比赛数据下载了,然后随便跑了 ...
- 机械学习:保险反欺诈预测
目录 前言: 这是阿里云天池大赛里面的项目,相关数据集可在阿里云学习赛[教学赛]金融数据分析赛题2:保险反欺诈预测中下载 一,赛题背景 二,导入库 加载数据 三,合并 3.1 合并train, tes ...
- 天池学习赛:工业蒸汽量预测5——特征优化
上一篇<天池学习赛:工业蒸汽量预测4--模型验证> 目录 1 特征优化的方法 1.1 合成特征 1.2 特征变换 1.3 用决策树创造新特征 1.4 特征组合 2 赛题特征优化代码 1 特 ...
- 天池学习赛:工业蒸汽量预测4——模型验证
上一篇<天池学习赛:工业蒸汽量预测3--模型训练>中已经是使用了几种机器学习的模型,接下来将介绍一些模型的评价方法. 目录 1 模型评估的方法 2 模型调参 3 赛题模型验证与调参 3.1 ...
- 天池学习赛:工业蒸汽量预测3——模型训练
接上一篇<天池学习赛:工业蒸汽量预测2--特征工程> 数据划分: from sklearn.model_selection import train_test_split #切分数据new ...
- 天池学习赛:工业蒸汽量预测2——特征工程
上一篇<天池学习赛:工业蒸汽量预测1--数据探索> 目录 1.特征工程 1.1 预处理 1.2 特征处理 1.3 特征降维 1.3.1 特征选择 1.3.2 线性降维 2.赛题代码 3 结 ...
- 天池学习赛:工业蒸汽量预测1——数据探索
目录 0.赛题介绍 1.数据分析知识 2.代码实现 0.赛题介绍 火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能.在这一系列的能量转化中, ...
- 天池学习赛之贷款违约预测
一.写在前面的话 这是我的第一篇博客,希望写好.我几乎是一个编程小白,只有一点点C和Java的经验,一路懵头懵脑的成为了一名经济学渣硕(真的是渣).研一下学期开了一门<数据挖掘与分析>的课 ...
最新文章
- python在财务上的应用-财会人必看:这个工具,30分钟可以把人家一天的工作都给干完!...
- myeclipse自动生成hibernate映射文件的过程
- Marshal在C#中的应用(void *指针到IntPtr的转化)
- Android之6.0上的重要变化(一)
- 英特尔为 Kubernetes 推出分布式深度学习平台:Nauta
- 1910140408安装win版
- 2020年5月数据库流行度排行:疫情下开源数据库逆势增长,新基建下国产数据库迎机遇...
- 企业级 SpringBoot 教程 (八)springboot整合mongodb
- web开发为什么用java的多_java与php做web开发 最大的区别在那 为什么好多用java的...
- 不,你根本不需要ML/AI,有SQL就够了
- Android Studio 使用魅族手机调试时,不显示 Log 的解决方法
- 【路径生成--绘制的方法】矢量地图巡线式路径探索
- vba批量合并指定的sheet_利用VBA实现多个Excel工作簿快速合并方法
- 企业文化与“酱油党”
- 转载-常用邮箱SMTP服务器地址大全
- html js更新数据不刷新页面,用javascript实现无刷新更新数据
- Telegram 查看下载保存的文件
- git中手动删除的文件如何在git中删除
- java如何打印棋盘_java打印国际象棋棋盘的方法|chu
- 业务巡检系统的整体设计和数据流程