大数据之Python数据分析 实训 信用卡客户风险评价之二、构建信用卡客户风险评价关键特征
构建信用卡客户风险评价关键特征
实训数据:https://pan.baidu.com/s/1RduW2P0UtdgvQowIu26u7A
1 实训目标
(1) 掌握评分卡模型的原理。
(2) 构建信用卡用户风险分析关键特征。
2 实训环境
(1) 使用 3.6 版本的 Python 。
(2) 使用 jupyter notebook 编辑器。
(3) os , pandas , N umPy , sklearn 。
3 实训内容
在信用卡相关的征信工作中,主要从三个方向判定客户的信用等级,分别为:客户的历史信用风险,客户的现阶段经济状况,客户的未来经济收入以及目前的收入的稳定情况。
4 实训步骤
(1) 据特征瑕疵户,逾期,呆账,强制停卡,退票,拒往记录构建历史行为特征。
(2) 根据特征借款余额,个人月收入,个人月开销,家庭月收入和月刷卡金额,构建出经济风险情况特征。
(3) 根据特征职业,年龄,住家,构建出收入风险情况特征。
(4) 标准化历史行为,经济风险情况,收入风险情况特征。
4.1 特征选取
特征的轩主主要是以下三个方面。具体操作如 代码 4‑1 所示。
- 根据特征瑕疵户,逾期,呆账,强制停卡,退票,拒往记录构建历史行为特征。
- 根据特征借款余额,个人月收入,个人月开销,家庭月收入和月刷卡金额,构建出经济风险情况特征。
- 根据特征职业,年龄,住家,构建出收入风险情况特征。
代码 4 ‑ 1 特征选取
In[1]:
import os
import numpy as np
import pandas as pd
os.chdir('/course/Python 数据分析与应用 /')
data8 = pd.read_csv('./tmp/data8.csv',encoding='utf-8',index_col=0, engine = 'python')
# 选取历史行为特征
card_selection1 = data8[[' 瑕疵户 ',' 逾期 ',' 呆账 ',' 强制停卡记录 ',' 退票 ',' 拒往记录 ']]
print(' 构建历史行为特征前 5 个特征为: \n',card_selection1.head())Out[1]:
构建历史行为特征前 5 个特征为:瑕疵户 逾期 呆账 强制停卡记录 退票 拒往记录
0 2 2 2 2 2 2
1 2 2 2 2 2 2
2 2 2 2 2 2 2
3 2 2 2 2 2 2
4 2 2 2 2 2 2In[2]:
# 选取经济风险情况特征
card_selection2 = data8[[' 借款余额 ',' 个人月收入 ',' 个人月开销 ',' 家庭月收入 ',' 月刷卡额 ']]
print(' 构建经济风险情况特征前 5 个特征为: \n',card_selection2.head())
Out[2]:
构建经济风险情况特征前 5 个特征为:借款余额 个人月收入 个人月开销 家庭月收入 月刷卡额
0 2 1 1 1 1
1 2 1 2 1 2
2 2 1 1 1 6
3 2 1 1 1 4
4 2 1 3 1 5In[3]:
# 选取收入风险情况特征
card_selection3 = data8[[' 职业 ',' 年龄 ',' 住家 ']]
print(' 构建收入风险情况特征前 5 个特征为: \n',card_selection3.head())Out[3]:
构建收入风险情况特征前 5 个特征为:职业 年龄 住家
0 12 3 1
1 19 7 1
2 11 2 1
3 12 7 1
4 11 4 1
4.2 特征合并
选取完所需的特征之后,将相关特征列合并,如代码 4‑2 所示。
In[4]:# 合并历史行为、经济风险情况、收入风险情况特征card_features = pd.concat([card_selection1,card_selection2,card_selection3], axis=1)print(' 构建 L 、 F 、 S 特征前 5 个特征为: \n',card_features.head())Out[4]:构建 LFS 特征前 5 个特征为:瑕疵户 逾期 呆账 强制停卡记录 退票 拒往记录 ... 个人月开销 家庭月收入 月刷卡额 职业 年龄 住家
0 2 2 2 2 2 2 ... 1 1 1 12 3 1
1 2 2 2 2 2 2 ... 2 1 2 19 7 1
2 2 2 2 2 2 2 ... 1 1 6 11 2 1
3 2 2 2 2 2 2 ... 1 1 4 12 7 1
4 2 2 2 2 2 2 ... 3 1 5 11 4 1
[5 rows x 14 columns]
4.3 特征标准化
由于聚类模型并不需要划分数据集,标准化可以使用 sklearn 的 preprocessing 模块,如 代码 4‑3 所示。
In[5]:# 标准化历史行为,经济风险情况,收入风险情况特征from sklearn.preprocessing import StandardScaler
data9 = StandardScaler().fit_transform(card_features)
np.savez('./tmp/card_scale.npz',data9)
print(' 标准化后的 LFS 模型的前 5 个特征为 :\n',data9[:5,:])Out[5]:
标准化后的 LFS 模型的前 5 个特征为 :[[ 0.24381325 0.23879532 0.22088026 0.25098948 0.23902695 0.248527760.25335913 -1.15521843 -0.74968558 -1.18316767 -1.6436681 -0.07685176-0.44054478 -1.95817546]
[ 0.24381325 0.23879532 0.22088026 0.25098948 0.23902695 0.248527760.25335913 -1.15521843 0.23116695 -1.18316767 -1.01399949 1.226851931.25542278 -1.95817546]
[ 0.24381325 0.23879532 0.22088026 0.25098948 0.23902695 0.248527760.25335913 -1.15521843 -0.74968558 -1.18316767 1.50467492 -0.26309514-0.86453667 -1.95817546]
[ 0.24381325 0.23879532 0.22088026 0.25098948 0.23902695 0.248527760.25335913 -1.15521843 -0.74968558 -1.18316767 0.24533771 -0.076851761.25542278 -1.95817546]
[ 0.24381325 0.23879532 0.22088026 0.25098948 0.23902695 0.248527760.25335913 -1.15521843 1.21201948 -1.18316767 0.87500632 -0.26309514-0.01655289 -1.95817546]]
大数据之Python数据分析 实训 信用卡客户风险评价之二、构建信用卡客户风险评价关键特征相关推荐
- 大数据之Python数据分析 实训 信用卡客户风险评价之一、处理信用卡数据异常值
一.处理信用卡数据异常值 实训数据:https://pan.baidu.com/s/1RduW2P0UtdgvQowIu26u7A 1 实训目标 (1) 掌握异常值的识别与处理方法. (2) 构建信用 ...
- 2022年大数据BI工程师项目实训介绍
来自[仅悦数据]<大数据BI工程师项目实训>的介绍,精心整理,盗用必究- 本文阅读约需15分钟,感谢观看~ 最新播报:2022年BI大数据实训全面升级,我们必将更专业.更用心! 一.202 ...
- 大数据技术专业实习实训总结
#自我介绍 我是一名大一学生,专业是:数据科学与大数据技术.目前学过的知识点有:C++,python,HDFS,MapReduce,Hadoop,Java等.虽然学过的知识点很多,但是没有对他有更深的 ...
- 大数据技术与应用实训心得_信息学院成功举办大数据技术与应用论坛
大数据技术与应用论坛 11月12日,信息与电子工程学院主办大数据技术与应用论坛,副校长冯军出席论坛并致辞.论坛邀请大数据领域的高校和企业的专家,为师生带来了精彩的报告.学院院长雷景生教授和学院党委副书 ...
- 大数据技术与应用实训心得_数据实习心得
课程设计报告 题目:学生选课系统数据库的设计与实现 课 程 名 称: __ 数据库课程设计 学 院: __ 信息工程学院 ___________ 专 业 班 级: __ 14 计算机专 (1) 班 ...
- 大数据技术与应用实训心得_GXCGQ16D传感器与检测技术应用实训考核设备
(一)产品概述 依据国家人力资源与社会保障部<技工院校工学结合课程教学改革试点工作方案>设计,围绕典型工作任务(即传感器实训模块)确定课程目标,选择课程内容,制定专业教学计划,根据国家职业 ...
- 大数据技术与应用实训心得_大数据心得体会
大数据心得体会 [篇一:大数据时代心得体会] <大数据时代>心得体会 信息时代的到来,我们感受到的是技术变化日新月异,随之而来的 是生活方式的转变,我们这样评论着的信息时代已经变为曾经.如 ...
- python基于大数据的房产估价-实训头歌
一.实验目的与要求 1.掌握使用numpy和pandas库处理数据的基本方法. 2.掌握使用Sklearn库对多元线性回归算法的实现及其评价方法. 3.掌握使用matplotlib结合pandas库对 ...
- python数据分析实训大纲,数据分析大赛考纲:(二)Python数据分析应会部分
1.1. Numpy库的使用 1.1.1. Numpy数组的创建 1. 了解Numpy中ndarray数组对象的性质和特点: 1. 掌握通过array()函数创建Numpy数组的方法,会将Python ...
最新文章
- linux apache web服务器
- 堆木板问题——木板能堆无限远而不倒吗?
- js调试之console.log()
- python的优缺点有哪些-那么多人选择Python,它的优缺点有哪些?
- Luogu 2921 [USACO08DEC]在农场万圣节Trick or Treat on the Farm
- ubuntu 12.04及12.10无法安装 ia32-libs
- Js Array数组ES5/ES6常用方法
- 使用ueditor实现多图片上传案例
- 使用Regions ADF 11g进行Master Detail CRUD操作
- Spring Cloud Alibaba迁移指南(一):一行代码从 Hystrix 迁移到 Sentinel
- android获取内置和外置SD卡路径 - z
- Jack魏--个人介绍
- 基于javaweb+jsp的超市便利店管理系统(JavaWeb JSP MySQL Servlet SSM SpringBoot Bootstrap Ajax)
- 在线hash密码破解网站列表
- 增强现实中的光学透射式头盔显示器的标定初步
- 机器学习—决策树模型
- 计算机考研380分能上什么学校,考研总分500考380难吗 能上什么学校
- 红楼梦人物出场顺序统计
- Negroni和Gorilla/mux 解析 Golang
- Linux 文本文件读取的七种方式