项目滑动窗口的概念

时间点 第6末尾

1-6 有数据

1------ 训练阶段
1-4 -> feature
5 -> label

feature + label 训练集 => model

2------ 验证阶段
相同逻辑
2-5 -> feature
6 -> label

model 2-5feature => 6prediciton

6prediction - 6label -> AUC ROC 验证 model 是ok

3------- 模型应用

3-6 feature
model
model + 3-6feature => 7prediction(未来)

项目落地思路
PC haitong_test.csv 原始数据
1 上传服务器
2 数据导入到hdfs中
3 inceptor 建表 将 hdfs 数据导入inceptor 数仓中
4 在 inceptor中 通过sql 加工原始表(根据特征联想的思路)
5 产生中间表、结果表
6 四个周数据 -> feature_table 一个周的数据 -> label_table
7 将 feature_table、label_table -> 导入到sophon中
8 sophon进行常规建模
9 模型优化

项目落地思路
PC haitong_test.csv 原始数据
手操作部分
1 上传服务器 linux 大数据平台 AIsophon winscp Xshell mobaXterm
2 数据导入到hdfs中

SQL脚本部分
3 inceptor 建表 将 hdfs 数据导入inceptor 数仓中
4 在 inceptor中 通过sql 加工原始表(根据特征联想的思路)
5 产生中间表、结果表
6 四个周数据 -> feature_table 一个周的数据 -> label_table
7 将 feature_table、label_table -> 导入到sophon中

sophon可视化建模部分
8 sophon进行常规建模
9 模型优化

大数据实战项目之金融客户流失预警相关推荐

  1. 大数据实战项目之电商数仓(一)

    大数据实战项目之电商数仓(一) 项目介绍 数据仓库概念 ​ 数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合.通过对数据仓库中数据的分析,可以帮助企业改进业务流程,控制成本,提高产品质 ...

  2. 腾讯QQ大数据:用户增长分析——用户流失预警

    1,前言:针对用户增长分析这个课题,本文主要从用户防流失的角度,阐述如何基于QQ社交网络数据构建用户流失预警模型,找出高潜流失用户,用于定向开展运营激活,从而有效控制用户流失风险,提升大盘用户的留存率 ...

  3. 大数据实战项目必备技能三:storm

    导读: Storm是一个分布式计算框架,主要使用Clojure与Java语言编写,最初是由Nathan Marz带领Backtype公司团队创建,在Backtype公司被Twitter公司收购后进行开 ...

  4. 大数据应用---之---互联网金融---客户风险控制

    一. 前言 二. 大数据在互联网金融的应用 1 金融反欺诈与分析 2 构建更全面的信用评价体系 3 高频交易和算法交易 4 产品和服务的舆情分析 三. 客户风险控制 1 信用评分算法 2 分类模型的性 ...

  5. 基于Hadoop开发的大数据实战项目——电商日志分享系统

    项目介绍 大数据电商日志平台项目以某电商网站真实的业务数据架构为基础,将数据从收集到使用通过前端应用程序,后端程序,数据分析,平台部署等多方位的闭环的业务实现.形成了一套符合教学体系的电商日志分析项目 ...

  6. 大数据实战项目--中国移动运行分析

    1.项目背景 中国移动公司旗下拥有很多的子机构,基本可以按照省份划分. 而各省份旗下的充值机构也非常的多. 目前要想获取整个平台的充值情况,需要先以省为单元,进行省份旗下的机构统计,然后由下往上一层一 ...

  7. 【大数据实战项目七】数据探索(航空公司与飞机数据统计与补充)

    这里写目录标题 8 数据探索 8.1 数据初探 8.2 数据分组汇总 8.3 利用Flask进行数据展示 8.4 利用爬虫获取补充数据 8.5 丰富网址主页信息 8.5.1 航空公司信息的补充展示 8 ...

  8. 大数据实战项目 -- 离线数仓

    一.数仓规划 1.1 集群规划 技术选型 位置 框架 数据采集传输 Flume,Kafka,Sqoop ,Logstash,DataX, 数据存储 MySql,HDFS,HBase,Redis,Mon ...

  9. python大数据实战项目_商业数据分析比赛实战,内附项目代码

    如果你对商业数据分析感兴趣.想要积累更多项目经验,那么就来看看下面这项目吧. 数据竞赛平台和鲸社区最近正在举办一场数据分析大赛,不仅带来了22w奖金和30w创业基金支持,更是提供了统一的在线比赛环境, ...

最新文章

  1. Java vararg(动态参数)的应用
  2. 使用R实现一个简单的连续系统模拟
  3. 什么时候应该将花括号用于ES6导入?
  4. pyqt5多线程更新ui
  5. 通过案例对 spark streaming 透彻理解三板斧之一: spark streaming 另类实验
  6. 【LDA学习系列】Latent Dirichlet Allocation主题模型理解
  7. 继承复习-发均分红包案例
  8. CodeForces - 1607D Blue-Red Permutation(贪心)
  9. java线程暂停与恢复suspend和resume
  10. phpstudy mysql 版本_phpStudy中升级MySQL版本到5.7.17的方法步骤
  11. python 下载图片到内存卡_python - 获取图像大小而不将图像加载到内存中
  12. 一个基于 React 开发的PC端音乐App
  13. 深入研究微服务架构——第三部分
  14. java多个类调用,java起用多进程调用某个类(是class文件)
  15. 又有好奇心,又能自主学习,这个机器人棒棒哒!
  16. python通过GUI 界面搭建实现嵌套功能_搭建系统|升级基于财务数据的选股工具!从清单中剔除ST股和次新股...
  17. 管理感悟:维护每日工作列表
  18. 软件工程要学python吗_软件工程师必须得会Python编程吗?
  19. Camtasia2022电脑屏幕录像使用录屏教程
  20. Redis一主二从Sentinel监控配置

热门文章

  1. 初始化httpclient的几种方式
  2. 类淘宝橱窗web应用设计1
  3. 梦网云通讯平台查询余额API接口get_balance
  4. 无法打开opencv_core.dll
  5. rufus制作启动盘出现设备正在被另一进程访问或设备被拒绝访问的问题
  6. 计算机专业吐槽搞笑,一个计算机专业学生的吐槽。
  7. c语言延时变频1kHz和2kHz,用C语言实现:采用中断方式,P1.0输出脉冲宽度调制(PWM)信号,即脉冲频率为2kHz,占空比为...
  8. 团队软件库_CPU怎么建软件生态
  9. url.cn腾讯独家短网址生成
  10. 【uniapp】微信小程序发布后提醒用户更新版本