目录

赛题背景

赛题数据

赛题任务

一:操作指南

二:数据预处理


赛题背景

赛题以保险风控为背景,保险是重要的金融体系,对社会发展,民生保障起到重要作用。保险欺诈近些年层出不穷,在某些险种上保险欺诈的金额已经占到了理赔金额的20%甚至更多。对保险欺诈的识别成为保险行业中的关键应用场景。

赛题数据

赛题任务

数据集提供了之前客户索赔的车险数据,希望你能开发模型帮助公司预测哪些索赔是欺诈行为
To DO:预测用户的车险是否为欺诈行为

字段 说明
policy_id 保险编号
age 年龄
customer_months 成为客户的时长,以月为单位
policy_bind_date 保险绑定日期
policy_state 上保险所在地区
policy_csl 组合单一限制Combined Single Limit
policy_deductable 保险扣除额
policy_annual_premium 每年的保费
umbrella_limit 保险责任上限
insured_zip 被保人邮编
insured_sex 被保人姓名:FEMALE或者MALE
insured_education_level 被保人学历
insured_occupation 被保人职业
insured_hobbies 被保人兴趣爱好
insured_relationship 被保人关系
capital-gains 资本收益
capital-loss 资本损失
incident_date 出险日期
incident_type 出险类型
collision_type 碰撞类型
incident_severity 事故严重程度
authorities_contacted 联系了当地的哪个机构
incident_state 出事所在的省份,已脱敏
incident_city 出事所在的城市,已脱敏
incident_hour_of_the_day 出事所在的小时(一天24小时的哪个时间)
number_of_vehicles_involved 涉及的车辆数
property_damage 是否有财产损失
bodily_injuries 身体伤害
witnesses 目击证人
police_report_available 是否有警察记录的报告
total_claim_amount 整体索赔金额
injury_claim 伤害索赔金额
property_claim 财产索赔金额
vehicle_claim 汽车索赔金额
auto_make 汽车品牌,比如Audi, BMW, Toyota, Volkswagen
auto_model 汽车型号,比如A3,X5,Camry,Passat等
auto_year 汽车购买的年份
fraud 是否欺诈,1或者0

评价标准: AUC, 即ROC曲线下面的面积 (Area under the Curve of ROC)

一:操作指南

1、报名成功后,选手打开参考代码 保险反欺诈预测_天池notebook-阿里云天池
点击右上角“Fork”按钮,将参考代码加载到自己的实验室中进行编辑;

2、数据源:
train.csv 训练集
test.csv 测试集
submission.csv 提交格式
添加数据源后,可以在download中看到

二:数据预处理

1.导入数据

# 导入数据

import pandas as pd

# 数据加载
train = pd.read_csv('./train.csv')
train

test = pd.read_csv('./test.csv')
test

# 合并train, test两个数据
data = pd.concat([train, test], axis=0)
data

#查看数据长度

data.index = range(len(data))
data

## 数据探索
data.isnull().sum()

# 唯一值个数
for col in data.columns:
    print(col, data[col].nunique())

# 单独看某个字段
data['property_damage'].value_counts()
data['property_damage'] = data['property_damage'].map({'NO': 0, 'YES': 1, '?': 2})
data['property_damage'].value_counts()

data['police_report_available'].value_counts()
data['police_report_available'] = data['police_report_available'].map({'NO': 0, 'YES': 1, '?': 2})
data['police_report_available'].value_counts()

# policy_bind_date, incident_date
data['policy_bind_date'] = pd.to_datetime(data['policy_bind_date'])
data['incident_date'] = pd.to_datetime(data['incident_date'])

# 查看最大日期,最小日期
data['policy_bind_date'].min() # 1990-01-08
data['policy_bind_date'].max() # 2015-02-22

data['incident_date'].min() # 2015-01-01
data['incident_date'].max() # 2015-03-01

base_date = data['policy_bind_date'].min()
# 转换为date_diff
data['policy_bind_date_diff'] = (data['policy_bind_date'] - base_date).dt.days

data['incident_date_diff'] = (data['incident_date'] - base_date).dt.days
data['incident_date_policy_bind_date_diff'] = data['incident_date_diff'] - data['policy_bind_date_diff']
data[['policy_bind_date', 'incident_date', 'policy_bind_date_diff', 'incident_date_diff', 'incident_date_policy_bind_date_diff']]

# 去掉原始日期字段 policy_bind_date    incident_date
data.drop(['policy_bind_date', 'incident_date'], axis=1, inplace=True)
data

阿里天池---教学赛】金融数据分析赛题2:保险反欺诈预测相关推荐

  1. 阿里天池金融数据分析赛题2:保险反欺诈预测baseline

    金融数据分析赛题2:保险反欺诈预测baseline 好久没写baseline了,最近逛比赛的时候突然看到阿里新人赛又出新题目了,索性写个baseline给初学者,昨天晚上把比赛数据下载了,然后随便跑了 ...

  2. 天池学习赛-保险反欺诈预测参考代码过程

    目录 一.赛题背景 二.数据加载 1.导入相关库 2.导入训练集: 3.导入测试集: 三.合并数据集(对train和test进行合并) 四.数据清洗 五.对数据唯一值个数进行处理 六.对日期特征进行处 ...

  3. 阿里天池--金融数据分析赛题1:银行客户认购产品预测

    赛题简介 银行客户认购产品预测 赛题以银行产品认购预测为背景,想让你来预测下客户是否会购买银行的产品.在和客户沟通的过程中,我们记录了和客户联系的次数,上一次联系的时长,上一次联系的时间间隔,同时在银 ...

  4. 【教学赛】金融数据分析赛题1:银行客户认购产品预测(0.9676)

    本文是对天池教学赛,银行客户认购产品预测的记录,教学赛网址如下: [教学赛]金融数据分析赛题1:银行客户认购产品预测_学习赛_天池大赛-阿里云天池 1. 读取数据 import pandas as p ...

  5. 金融数据分析赛题1:银行客户认购产品预测学习赛心得

    目录 一.auto框架介绍 二.赛题背景: 三.赛题数据: 四.项目分析 (一).利用autogluon对训练集进行自动分析 1.首先导入所需要的外部库 2.读取数据,并进行标注 3.输入到Tabul ...

  6. 天池项目金融数据分析赛题1:银行客户认购产品预测

    赛题简介 本次教学赛是陈博士发起的数据分析系列赛事第1场 -- 银行客户认购产品预测 赛题以银行产品认购预测为背景,想让你来预测下客户是否会购买银行的产品.在和客户沟通的过程中,我们记录了和客户联系的 ...

  7. 项目实例---金融---用机器学习构建模型,进行信用卡反欺诈预测

    来源: 用机器学习构建模型,进行信用卡反欺诈预测 反欺诈中所用到的机器学习模型有哪些? Credit card fraud detection 构建信用卡反欺诈预测模型--机器学习 信用卡交易数据相关 ...

  8. 天池教学赛:银行客户认购产品预测

    目录 前言 一.赛题背景 二.数据探索 1.读取数据 2.查看数据统计量 duration分箱展示 3.查看数据分布 4.数据相关图 5.其它变量可视化展示 三.数据建模 四.特征输出 五.最终成绩 ...

  9. 阿里天池_优秀策略答辩PPT和相关博客

    简介 前段时间想熟悉下机器学习完整项目,选择了阿里之前的一个相对实际的移动推荐项目(实际是分类,并非推荐),有兴趣自己研究.将本人参考借鉴的blog和ppt做了简单整理回顾.加深下印象 阿里天池大数据 ...

最新文章

  1. 【超越白皮书3】DAG技术解析与实测
  2. 【Linux学习笔记】 - 什么是Linux?
  3. 蓝桥杯--2012--取球游戏
  4. oracle和mysql存储汉字_mysql和oracle的一个汉字占几个字节
  5. python3.5.2-python升级 (2.6升级到3.5)
  6. js 函数定义三种方式
  7. Java Bean 为什么必须要有一个无参构造函数?
  8. ELK技术栈—Logstash—基础介绍
  9. CentOS 搭建Postfix+Dovecot简单邮件系统
  10. visudo精确用户赋权(sudo)
  11. Python生成随机数的方法
  12. Intel安装框架爆出带本地提权的任意代码执行漏洞CVE-2017-5688
  13. Android TabLayout定制CustomView与ViewPager交互双向联动
  14. 通过GUID生成可持久化的PID
  15. Java 大对象类型的 Hiberante 映射
  16. 5G 时代,一加的机会在哪里?
  17. Windows/Linux 下启动Kafka,外带安装包
  18. 2010年6月16日最新NOD32激活码和升级ID(含ESS/EAV)
  19. 小学计算机键盘的初步认识教案,小学三年级信息技术--认识键盘教学设计(宋艳)[小编整理]...
  20. Markdown基本语法(摘录)

热门文章

  1. Unity Multiple_Graph_And_Chart_UI_Pack 可视化UI插件
  2. 女孩婚前患上白血病遭男友退婚(图)
  3. ps4pro折腾服务器网站,【教学】简易 PS4 Pro 更换 SSD!玩 MHW 不用等 (安装+数据转移) - 宅客ZhaiiKer...
  4. [读书笔记]《APP研发录》之App图片缓存设计
  5. 个人前端学习知识(javaScript)(保持更新)
  6. 炒股第四招【头部研判】
  7. 在vue项目中实现 将数据导入Excel 三种方式(.xlsx , .csv)
  8. “顺纹路,单向疏导”抚平皱纹按摩手法
  9. 【mysql】表名或字段名与关键字重名解决方法
  10. 添加删除程序里面有一个QQBrowserCRTDLL