阿里天池---教学赛】金融数据分析赛题2:保险反欺诈预测
目录
赛题背景
赛题数据
赛题任务
一:操作指南
二:数据预处理
赛题背景
赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈近些年层出不穷,在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。
赛题数据
赛题任务
数据集提供了之前客户索赔的车险数据,希望你能开发模型帮助公司预测哪些索赔是欺诈行为
To DO:预测用户的车险是否为欺诈行为
字段 | 说明 |
---|---|
policy_id | 保险编号 |
age | 年龄 |
customer_months | 成为客户的时长,以月为单位 |
policy_bind_date | 保险绑定日期 |
policy_state | 上保险所在地区 |
policy_csl | 组合单一限制Combined Single Limit |
policy_deductable | 保险扣除额 |
policy_annual_premium | 每年的保费 |
umbrella_limit | 保险责任上限 |
insured_zip | 被保人邮编 |
insured_sex | 被保人姓名:FEMALE或者MALE |
insured_education_level | 被保人学历 |
insured_occupation | 被保人职业 |
insured_hobbies | 被保人兴趣爱好 |
insured_relationship | 被保人关系 |
capital-gains | 资本收益 |
capital-loss | 资本损失 |
incident_date | 出险日期 |
incident_type | 出险类型 |
collision_type | 碰撞类型 |
incident_severity | 事故严重程度 |
authorities_contacted | 联系了当地的哪个机构 |
incident_state | 出事所在的省份,已脱敏 |
incident_city | 出事所在的城市,已脱敏 |
incident_hour_of_the_day | 出事所在的小时(一天24小时的哪个时间) |
number_of_vehicles_involved | 涉及的车辆数 |
property_damage | 是否有财产损失 |
bodily_injuries | 身体伤害 |
witnesses | 目击证人 |
police_report_available | 是否有警察记录的报告 |
total_claim_amount | 整体索赔金额 |
injury_claim | 伤害索赔金额 |
property_claim | 财产索赔金额 |
vehicle_claim | 汽车索赔金额 |
auto_make | 汽车品牌,比如Audi, BMW, Toyota, Volkswagen |
auto_model | 汽车型号,比如A3,X5,Camry,Passat等 |
auto_year | 汽车购买的年份 |
fraud | 是否欺诈,1或者0 |
评价标准: AUC, 即ROC曲线下面的面积 (Area under the Curve of ROC)
一:操作指南
1、报名成功后,选手打开参考代码 保险反欺诈预测_天池notebook-阿里云天池
点击右上角“Fork”按钮,将参考代码加载到自己的实验室中进行编辑;
2、数据源:
train.csv 训练集
test.csv 测试集
submission.csv 提交格式
添加数据源后,可以在download中看到
二:数据预处理
1.导入数据
# 导入数据
import pandas as pd
# 数据加载
train = pd.read_csv('./train.csv')
train
test = pd.read_csv('./test.csv')
test
# 合并train, test两个数据
data = pd.concat([train, test], axis=0)
data
#查看数据长度
data.index = range(len(data))
data
## 数据探索
data.isnull().sum()
# 唯一值个数
for col in data.columns:
print(col, data[col].nunique())
# 单独看某个字段
data['property_damage'].value_counts()
data['property_damage'] = data['property_damage'].map({'NO': 0, 'YES': 1, '?': 2})
data['property_damage'].value_counts()
data['police_report_available'].value_counts()
data['police_report_available'] = data['police_report_available'].map({'NO': 0, 'YES': 1, '?': 2})
data['police_report_available'].value_counts()
# policy_bind_date, incident_date
data['policy_bind_date'] = pd.to_datetime(data['policy_bind_date'])
data['incident_date'] = pd.to_datetime(data['incident_date'])
# 查看最大日期,最小日期
data['policy_bind_date'].min() # 1990-01-08
data['policy_bind_date'].max() # 2015-02-22
data['incident_date'].min() # 2015-01-01
data['incident_date'].max() # 2015-03-01
base_date = data['policy_bind_date'].min()
# 转换为date_diff
data['policy_bind_date_diff'] = (data['policy_bind_date'] - base_date).dt.days
data['incident_date_diff'] = (data['incident_date'] - base_date).dt.days
data['incident_date_policy_bind_date_diff'] = data['incident_date_diff'] - data['policy_bind_date_diff']
data[['policy_bind_date', 'incident_date', 'policy_bind_date_diff', 'incident_date_diff', 'incident_date_policy_bind_date_diff']]
# 去掉原始日期字段 policy_bind_date incident_date
data.drop(['policy_bind_date', 'incident_date'], axis=1, inplace=True)
data
阿里天池---教学赛】金融数据分析赛题2:保险反欺诈预测相关推荐
- 阿里天池金融数据分析赛题2:保险反欺诈预测baseline
金融数据分析赛题2:保险反欺诈预测baseline 好久没写baseline了,最近逛比赛的时候突然看到阿里新人赛又出新题目了,索性写个baseline给初学者,昨天晚上把比赛数据下载了,然后随便跑了 ...
- 天池学习赛-保险反欺诈预测参考代码过程
目录 一.赛题背景 二.数据加载 1.导入相关库 2.导入训练集: 3.导入测试集: 三.合并数据集(对train和test进行合并) 四.数据清洗 五.对数据唯一值个数进行处理 六.对日期特征进行处 ...
- 阿里天池--金融数据分析赛题1:银行客户认购产品预测
赛题简介 银行客户认购产品预测 赛题以银行产品认购预测为背景,想让你来预测下客户是否会购买银行的产品.在和客户沟通的过程中,我们记录了和客户联系的次数,上一次联系的时长,上一次联系的时间间隔,同时在银 ...
- 【教学赛】金融数据分析赛题1:银行客户认购产品预测(0.9676)
本文是对天池教学赛,银行客户认购产品预测的记录,教学赛网址如下: [教学赛]金融数据分析赛题1:银行客户认购产品预测_学习赛_天池大赛-阿里云天池 1. 读取数据 import pandas as p ...
- 金融数据分析赛题1:银行客户认购产品预测学习赛心得
目录 一.auto框架介绍 二.赛题背景: 三.赛题数据: 四.项目分析 (一).利用autogluon对训练集进行自动分析 1.首先导入所需要的外部库 2.读取数据,并进行标注 3.输入到Tabul ...
- 天池项目金融数据分析赛题1:银行客户认购产品预测
赛题简介 本次教学赛是陈博士发起的数据分析系列赛事第1场 -- 银行客户认购产品预测 赛题以银行产品认购预测为背景,想让你来预测下客户是否会购买银行的产品.在和客户沟通的过程中,我们记录了和客户联系的 ...
- 项目实例---金融---用机器学习构建模型,进行信用卡反欺诈预测
来源: 用机器学习构建模型,进行信用卡反欺诈预测 反欺诈中所用到的机器学习模型有哪些? Credit card fraud detection 构建信用卡反欺诈预测模型--机器学习 信用卡交易数据相关 ...
- 天池教学赛:银行客户认购产品预测
目录 前言 一.赛题背景 二.数据探索 1.读取数据 2.查看数据统计量 duration分箱展示 3.查看数据分布 4.数据相关图 5.其它变量可视化展示 三.数据建模 四.特征输出 五.最终成绩 ...
- 阿里天池_优秀策略答辩PPT和相关博客
简介 前段时间想熟悉下机器学习完整项目,选择了阿里之前的一个相对实际的移动推荐项目(实际是分类,并非推荐),有兴趣自己研究.将本人参考借鉴的blog和ppt做了简单整理回顾.加深下印象 阿里天池大数据 ...
最新文章
- 【超越白皮书3】DAG技术解析与实测
- 【Linux学习笔记】 - 什么是Linux?
- 蓝桥杯--2012--取球游戏
- oracle和mysql存储汉字_mysql和oracle的一个汉字占几个字节
- python3.5.2-python升级 (2.6升级到3.5)
- js 函数定义三种方式
- Java Bean 为什么必须要有一个无参构造函数?
- ELK技术栈—Logstash—基础介绍
- CentOS 搭建Postfix+Dovecot简单邮件系统
- visudo精确用户赋权(sudo)
- Python生成随机数的方法
- Intel安装框架爆出带本地提权的任意代码执行漏洞CVE-2017-5688
- Android TabLayout定制CustomView与ViewPager交互双向联动
- 通过GUID生成可持久化的PID
- Java 大对象类型的 Hiberante 映射
- 5G 时代,一加的机会在哪里?
- Windows/Linux 下启动Kafka,外带安装包
- 2010年6月16日最新NOD32激活码和升级ID(含ESS/EAV)
- 小学计算机键盘的初步认识教案,小学三年级信息技术--认识键盘教学设计(宋艳)[小编整理]...
- Markdown基本语法(摘录)
热门文章
- Unity Multiple_Graph_And_Chart_UI_Pack 可视化UI插件
- 女孩婚前患上白血病遭男友退婚(图)
- ps4pro折腾服务器网站,【教学】简易 PS4 Pro 更换 SSD!玩 MHW 不用等 (安装+数据转移) - 宅客ZhaiiKer...
- [读书笔记]《APP研发录》之App图片缓存设计
- 个人前端学习知识(javaScript)(保持更新)
- 炒股第四招【头部研判】
- 在vue项目中实现 将数据导入Excel 三种方式(.xlsx , .csv)
- “顺纹路,单向疏导”抚平皱纹按摩手法
- 【mysql】表名或字段名与关键字重名解决方法
- 添加删除程序里面有一个QQBrowserCRTDLL