目录

一、赛题背景

二、数据加载

1.导入相关库

2.导入训练集:

3.导入测试集:

三、合并数据集(对train和test进行合并)

四、数据清洗

五、对数据唯一值个数进行处理

六、对日期特征进行处理

七、模型训练

八、导出结果

九、个人总结


一、赛题背景

赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈近些年层出不穷,在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。

二、数据加载

1.导入相关库

2.导入训练集:

运行结果:

3.导入测试集:

运行结果:

三、合并数据集(对train和test进行合并)

合并数据集(对train和test进行合并)

运行结果:

四、数据清洗

统计数据为空的值

运行结果:无空值,无需对数据预处理

五、对数据唯一值个数进行处理

对数据唯一值个数进行处理

运行结果:

在特征工程中,对不同的数据类型要分别处理,怎么批量把相同类型的字段筛选出来,select_dtypes一行代码可以搞定。

语法结构如下,include里面写字段类型:

运行结果:就把所有0类型的数据的列名筛选出来啦

创建两个空列表,将筛选为0的数据类型进行遍历循环,利用append()方法在column_name列表末尾处添加col新对象,将值添加到unique_value中。

修改列名,其中sort_values是pandas库中DataFrame和Series对象的方法,用于按照指定的列或索引对数据进行排序。具体方法如下:对DataFrame进行排序,ascending参数指定降序排列

运行结果:

单独查看property_damage字段

运行结果:

运行结果:

六、对日期特征进行处理

利用to_datetime函数将字符型的时间日期转换为时间型的数据

并且使用min()函数查看最小日期,max()函数查看最大日期

日期与日期进行相减并转换为date_diff

运行结果:

去掉原始日期的字段

运行结果:

标签编码

运行结果:

七、模型训练

对数据集进行切分

构建lightgbm分类模型

使用使用LGBMClassifier算法,用于目标分类

进行模型训练

运行结果:

使用mean()函数求取训练集数据‘fraud’列的均值

八、导出结果

九、个人总结

对train训练集和test测试集的数据进行合并。在数据清洗部分,使用了isull()函数对数据查看是否有为空的数据,数据规模较小并且比较干净,所以没有对数据进行清洗。在对数据唯一值个数进行处理部分,对不同的数据类型要分别处理,使用select_dtypesselect_dtypes方法批量把相同类型的字段筛选出来,使用append()方法在列表末尾处添加col新对象。sort_values是pandas库中DataFrame和Series对象的方法,用于按照指定的列或索引对数据进行排序,对DataFrame进行排序,ascending参数指定降序排列。在对日期处理部分,使用了to_datetime函数将字符型的时间日期转换为时间型的数据,并且使用min()函数查看最小日期,max()函数查看最大日期。在模型训练部分,构建了lightgbm分类模型,使用LGBMClassifier算法,用于目标分类,使用mean()函数求取训练集数据‘fraud’列的均值,最后导出结果,结果为0.97。

天池学习赛-保险反欺诈预测参考代码过程相关推荐

  1. 阿里天池---教学赛】金融数据分析赛题2:保险反欺诈预测

    目录 赛题背景 赛题数据 赛题任务 一:操作指南 二:数据预处理 赛题背景 赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用.保险欺诈近些年层出不穷,在某些险种上保险欺诈的 ...

  2. 阿里天池金融数据分析赛题2:保险反欺诈预测baseline

    金融数据分析赛题2:保险反欺诈预测baseline 好久没写baseline了,最近逛比赛的时候突然看到阿里新人赛又出新题目了,索性写个baseline给初学者,昨天晚上把比赛数据下载了,然后随便跑了 ...

  3. 机械学习:保险反欺诈预测

    目录 前言: 这是阿里云天池大赛里面的项目,相关数据集可在阿里云学习赛[教学赛]金融数据分析赛题2:保险反欺诈预测中下载 一,赛题背景 二,导入库 加载数据 三,合并 3.1 合并train, tes ...

  4. 天池学习赛:工业蒸汽量预测5——特征优化

    上一篇<天池学习赛:工业蒸汽量预测4--模型验证> 目录 1 特征优化的方法 1.1 合成特征 1.2 特征变换 1.3 用决策树创造新特征 1.4 特征组合 2 赛题特征优化代码 1 特 ...

  5. 天池学习赛:工业蒸汽量预测4——模型验证

    上一篇<天池学习赛:工业蒸汽量预测3--模型训练>中已经是使用了几种机器学习的模型,接下来将介绍一些模型的评价方法. 目录 1 模型评估的方法 2 模型调参 3 赛题模型验证与调参 3.1 ...

  6. 天池学习赛:工业蒸汽量预测3——模型训练

    接上一篇<天池学习赛:工业蒸汽量预测2--特征工程> 数据划分: from sklearn.model_selection import train_test_split #切分数据new ...

  7. 天池学习赛:工业蒸汽量预测2——特征工程

    上一篇<天池学习赛:工业蒸汽量预测1--数据探索> 目录 1.特征工程 1.1 预处理 1.2 特征处理 1.3 特征降维 1.3.1 特征选择 1.3.2 线性降维 2.赛题代码 3 结 ...

  8. 天池学习赛:工业蒸汽量预测1——数据探索

    目录 0.赛题介绍 1.数据分析知识 2.代码实现 0.赛题介绍 火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能.在这一系列的能量转化中, ...

  9. 天池学习赛之贷款违约预测

    一.写在前面的话 这是我的第一篇博客,希望写好.我几乎是一个编程小白,只有一点点C和Java的经验,一路懵头懵脑的成为了一名经济学渣硕(真的是渣).研一下学期开了一门<数据挖掘与分析>的课 ...

最新文章

  1. python在财务上的应用-财会人必看:这个工具,30分钟可以把人家一天的工作都给干完!...
  2. myeclipse自动生成hibernate映射文件的过程
  3. Marshal在C#中的应用(void *指针到IntPtr的转化)
  4. Android之6.0上的重要变化(一)
  5. 英特尔为 Kubernetes 推出分布式深度学习平台:Nauta
  6. 1910140408安装win版
  7. 2020年5月数据库流行度排行:疫情下开源数据库逆势增长,新基建下国产数据库迎机遇...
  8. 企业级 SpringBoot 教程 (八)springboot整合mongodb
  9. web开发为什么用java的多_java与php做web开发 最大的区别在那 为什么好多用java的...
  10. 不,你根本不需要ML/AI,有SQL就够了
  11. Android Studio 使用魅族手机调试时,不显示 Log 的解决方法
  12. 【路径生成--绘制的方法】矢量地图巡线式路径探索
  13. vba批量合并指定的sheet_利用VBA实现多个Excel工作簿快速合并方法
  14. 企业文化与“酱油党”
  15. 转载-常用邮箱SMTP服务器地址大全
  16. html js更新数据不刷新页面,用javascript实现无刷新更新数据
  17. Telegram 查看下载保存的文件
  18. git中手动删除的文件如何在git中删除
  19. java如何打印棋盘_java打印国际象棋棋盘的方法|chu
  20. 业务巡检系统的整体设计和数据流程

热门文章

  1. 【Linux内核分析与应用-陈莉君老师】动手实践-把虚拟内存转换成物理地址
  2. 三款实用且颜值高的国内wordpress主题,免费下载
  3. QObject---信号与槽机制
  4. Windows XP 用户:计算机感染震荡波 (Sasser) 蠕虫时应采取的措施(转载)
  5. 算法之动态规划算法简介
  6. cesium-添加水面动态贴图效果
  7. QP/C API 参考
  8. 如何设置夜览模式,减少 iPhone 上面的蓝光,减少眼睛的负担
  9. 2022“杭电杯”中国大学生算法设计超级联赛(5)补题
  10. javaScript蓝桥杯----绝美宋词