文章目录

初识用户画像
基础架构
数仓分层
用户画像标签
用户源数据分析
画像目标分析
用户画像建模
- 用户基本属性表
- 用户消费订单表
- 用户购买类目表
- 用户访问信息表
- 商品订单表
- 埋点日志表
- 访问日志表
- 商品评论表
- 搜索日志表
- 用户收藏表、购物车信心表
环境准备
数仓表的基本介绍
用户画像表结构开发
- 客户消费订单表
- - 订单表（bdm_order）
  - 订单明细表（bdm_order_des）
  - 订单表（fdm_order）
  - 订单表明细表（fdm_order_desc）
  - 订单模型表（gdm_order）
  - 订单地址模型表（gdm_user_order_addr_model）
  - 订单商品表（bdm_order_goods）
  - 订单商品表（fdm_order_goods）
  - 客户消费订单模型表-临时表01（gdm.gdm_user_consume_order_temp_01
  - 购物车表（bdm_order_cart）
  - 购物车表（fdm_order_cart）
  - 购物车临时模型表--临时表 02（gdm.gdm_user_consume_order_temp_02
  - 常用地址和常用支付方式-临时表 03（gdm_user_consume_order_temp_03）
  - 购物车表和订单表整合（gdm_user_consume_order_temp_100）
  - 客户消费订单表 ***（gdm_user_consume_order）
- 客户购买类目表
- - 计算订单中客户购买情况（gdm_user_buy_category_temp）
  - 购物车中类目情况（gdm_user_cart_category_temp）
  - 类目表（gdm_category_code）
  - 整合购买情况和类目情况（gdm_user_category_total）
  - 客户购买类目表***（gdm_user_buy_category）
- 客户基本属性表
- - 用户表（bdm_user）
  - 用户宽表 (fdm_user)
  - 客户基本属性表 *** (gdm_user_basic)
- 客户访问信息表
- - 用户上网记录表(PC) (bdm_user_pc_click_log)
  - 用户 pc 端 view 表 (fdm_user_pc_pageview)
  - 用户30天访问临时表 (gdm_user_visit_temp_01)
  - 用户上网记录表(APP) (bdm_user_app_click_log)
  - 用户 app 端 view 表 (fdm_user_app_pageview)
  - 客户访问信息表 *** (gdm_user_visit)
- 用户宽表汇总模型表（adm_personas）

基于电商的用户画像

初识用户画像

采集用户行为数据，挖掘有价值的东西，做到精准营销

构建用户画像的意义就是精准营销

用户画像作用

精准营销

分析产品潜在用户，针对特定群体利用短信邮件等方式进行营销

用户统计

比如中国大学购买书籍人数 TOP10

数据挖掘

构建智能推荐系统，
利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌，
利用聚类算法分析，喜欢红酒的人年龄段分布情况

进行效果评估

完善产品运营，提升服务质量，
其实这也就相当于市场调研、用户调研，迅速定位服务群体，提供高水平的服务；

对服务或产品进行私人定制

即个性化的服务某类群体甚至每一位用户
（个人认为这是目前的发展趋势，未来的消费主流）。
比如，某公司想推出一款面向5－10岁儿童的玩具，通过用户画像进行分析，
发现形象＝“喜羊羊”、价格区间＝“中等”的偏好比重最大，
那么就给新产品提供了非常客观有效的决策依据。

基础架构

构建一个用户画像，包括数据源端数据收集、数据预处理、行为建模、构建用户画像

1.采集数据源
2.数据预处理
3.建设数仓、打标签
4.形成用户画像

 和日志流数据分析架构差不多 + 数据源
首先是获取数据源，数据可以来自mysql业务平台
电商用户画像的话，可以采集网站交易数据、用户行为数据、网络日志数据等+ 数据预处理
清洗、结构化、标准化的过程结构化就是二维表的数据，采集到的数据大多都是半结构化的，视频图片音频是非结构的从代码角度讲：就是封装数据即javabean的过程就是结构化的过程scala里就是封装到样例类里标准化，通俗的讲就是统一一个标准，比如格式整理、归一化、统一数据名称 类型等+ 建设数仓、打标签
离线处理、实时处理、模型挖掘算法数仓建设：hive：属性、行为、偏好等进行主题建模离线处理：用sparkSQL、hive实时处理：spark挖掘算法：文本挖掘、nlp、机器学习算法、行为建模(挖掘类标签)+ 形成用户画像

数仓分层

第一层：原始数据拉过来
第二层：数据预处理
第三层：SQL做聚合统计
第四层：结果做高度聚合，拼接成宽表

用户画像标签

统计类标签

对数据表进行一系列的统计分析

这类标签是最为基础也是最为常见的标签类型例如：对于某个用户来说，其性别、年龄、城市、星座、
近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以
从用户注册数据、用户访问、消费数据中统计得出。该类标签构成了用户画像的基础

规则类标签

由运营和数据人员共同协商确定的规则

该类标签是基于用户行为及确定的规则产生。例如：对平台上“消费活跃”用户这一口径的定义为“近30天交易次数>=2”
在实际开发画像的过程中，由于运营人员对业务更熟悉，而数据人员对数据的结构、分布、特征更为熟悉，
因此规则类标签的规则由运营人员和数据人员共同协商确定

挖掘类标签

机器学习算法的预测判断

该类标签通过机器学习挖掘产生，用于对用户某些属性或行为进行预测判断例如，根据一个用户的行为习惯判断该用户是男性还是女性，
根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签需要通过算法挖掘产生在项目开发工程中，一般统计类和规则类的标签即可以满足应用需求，在开发中占有较大的比例。
机器学习挖掘类标签多应用于预测场景，因为开发周期比较长，成本比较高，所以占比很小

用户源数据分析

画像目标分析

用户画像的目标是通过分析用户行为，最终为每个用户打上标签，以及该标签的权重

如，红酒 0.8、李宁 0.6。

标签：表现了内容，用户对该内容有兴趣、偏好、需求等等。

权重：表现了指数，用户的兴趣、偏好指数，也可能表现用户的需求度，可以简单的理解为可信度，概率。

用户画像建模

用户基本属性表

根据用户所填写的属性标签和推算出来的标签。用于了解用户的人口属性的基本情况和按不同属性维度统计。

作用：按人口属性营销、比如营销80后，对金牛座的优惠，生日营销。

主要数据来源：用户表、用户调查表、孕妇模型表、马甲模型表。

用户表：记录用户最基本的属性特性。
用户调查表：补充用户的其他基本信息。

用户所填写的基本信息：用户ID、用户名、密码、性别、手机号、邮箱、年龄、户籍省份、身份证编号、注册时间、收货地址等用户所填信息计算得到的指标：
生日、星座、城市等级、手机号前3位、手机号运营商、邮件运营商用户调查表得到：学历、收入、职业、婚姻、是否有小孩、是否有车有房、使用手机品牌。根据算法得到:
身高、体重、性别模型、孩子性别概率、潜在汽车用户概率、是否孕妇、孩子年龄概率、手机品牌、更换手机频率、是否有小孩，是否有车，使用手机档次，疑似马甲标准、疑似马甲账号数、用户忠诚度、用户购物类型。

模型算法—性别模型

模型算法—用户汽车模型

模型算法—用户忠诚度模型

模型算法—用户身高尺码模型

模型算法—用户马甲标志模型

模型算法—手机相关标签模型

用户消费订单表

根据客户消费的情况提取的客户标签，用于了解用户的消费总体情况，
最终的目的根据用户消费习惯与消费能力做营销。

主要数据来源：订单表、退货表、用户表、购物车表

订单表可以得到相关标签：

第一次消费时间、
最近一次消费时间、
首单距今时间、
尾单距今时间------分析用户什么时候来购买商品以及多久没有购买了。
最小消费金额、
最大消费金额、
累计消费次数(不含退拒)、
累计消费金额（不含退拒）、
累计使用代金券金额、
累计使用代金券次数。-----分析用户总体消费情况。
客单价（含退拒）、
近60天客单价（含退拒）-----分析用户消费水平。
常用收货地址、
常用支付方式----分析用户常用的消费属性，方便做定向营销。

退货表可以得到相关标签：

近30天购买次数(不含退拒)、
近30天购买金额（不含退拒）
近30天购买次数(含退拒)、
近30天购买金额（含退拒）----分析用户最近的消费能力。
退货商品数量、
退货商品金额、
拒收商品数量、
拒收商品金额、
最近一次退货时间-----分析用户拒收和退货习惯。

购物车表可以得到相关标签：

最近30天购物车次数、
最近30天购物车商品件数、
最近30天购物车提交商品件数、
最近30天购物车放弃件数、
最近30天购物车成功率------分析用户购物车使用习惯

订单表和用户表可以得到相关标签：

学校下单总数、
单位下单总数、
家里下单总数、
上午下单总数、
下午下单总数、
晚上下单总数----分析用户购物时间与地点习惯。

用户购买类目表

根据客户购买类目的情况提取客户标签，用于了解类目的购买人群情况和针对某一类目的营销等

主要数据来源：订单表、购物车表、类目维表

类目维表可以得到相关标签：

一级分类ID、
一级分类名称、
二级分类ID、
二级分类名称、
三级分类ID、
三级分类名称-----分析用户都购买了哪些类目。

订单表和类目维表可以得到相关标签：

近30天购买类目次数、
近30天购买类目金额、
近90天购买类目次数、
近90天购买类目金额、
近180天购买类目次数、
近180天购买类目金额、
累计购买类目次数、
累计购买类目金额----分析用户最近都购买了哪些类目。
最近一次购买类目时间、
最后一次购买类目距今天数----分析用户多久没有购买这个类目。

购物车表和类目维表可以得到相关标签：

近30天购物车类目次数、
近30天购物车类目金额、
近90天购物车类目次数、
近90天购物车类目金额----分析用户最近都挑中哪些类目。

用户访问信息表

根据客户访问的情况提取相关客户标签。

用于了解用户的访问总体情况，方便根据客户游览习惯做营销

主要数据来源：点击流日志行为表（PC/APP端）

点击流日志行为表可以得到相关标签:

最近一次APP/PC端访问日期、
最近一次APP/PC端访问使用操作系统、
最近一次APP/PC端访问使用游览器、
最近一次访问IP地址、
最近一次访问城市、
最近一次访问的省份-----分析用户最近一次访问情况。第一次APP/PC端访问日期、
第一次APP/PC端访问使用操作系统、
第一次APP/PC端访问使用游览器、
第一次访问IP地址、
第一次访问城市、
第一次访问的省份-----分析用户第一次访问情况。近7天APP/PC端访问次数、
近30天APP/PC访问次数、
近60天APP/PC端访问次数、
近90天APP/PC端访问次数、
近180天APP/PC端访问次数、
近365天APP/PC端访问次数----分析用户APP/PC端访问次数。近30天PC/APP端访问天数、
近30天PC/APP端访问并购买次数、
近30天PC/APP端访问PV、
近30天PC/APP端访问平均PV、
近30天PC/APP端最常用的游览器、
近30天PC/APP端不同IP数、
近30天PC/APP端最常用IP-----分析用户访问详情。近30天0-5点访问的次数、
近30天6-7点访问的次数、
近30天8-9点访问的次数、
近30天10-12点访问的次数、
近30天13-14点访问的次数、
近30天15-17点访问的次数、
近30天18-19点访问的次数、
近30天20-21点访问的次数、
近30天22-23点访问的次数----分析用户喜欢在哪个时间上网访问。

商品订单表

埋点日志表

存放用户访问app时点击相关控件的打点记录，通过客户端做埋点，从日志数据中解析出来

访问日志表

商品评论表

搜索日志表

用户收藏表、购物车信心表

环境准备

1、搭建hadoop集群
2、安装hive构建数据仓库
3、安装spark集群
4、sparksql 整合hive

数仓表的基本介绍

这里我们采用的是京东的数据仓库分层模式，是根据标准的模型演化而来。

数据仓库分层：BDM：缓冲数据，源数据的直接映像FDM：基础数据层，数据拉链处理、分区处理GDM：通用聚合ADM：高度聚合先把数据从源数据库中抽取加载到BDM层中，
然后FDM层根据BDM层的数据按天分区

用户画像表结构开发

这里采用脚本方式，也可以用spark SQL 直接创建并添加数据

上传数据到hdfshdfs dfs -mkdir -p /business/bdm_userhdfs dfs -put /export/servers/businessData/bdm_user.txt /business/bdm_user// load data inpath '/hivedatas/teacher.csv' into table teacher;

强制删除某个库drop database gdm cascade;

删除hdfs的目录hadoop fs -rm -r /business

客户消费订单表

订单表（bdm_order）

运行脚本
sh bdm_order.sh 2020-11-06

#***************************
#** 功能描述：bdm_order开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
# spark sql 链接
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 1g --total-executor-cores 2 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
# 数据所在目录
SOURCE_DATA="/export/servers/businessData"
#订单主要信息表BDM层
SQl_BDM_ORDER="create database if not exists bdm;
create external table if not exists bdm.bdm_order(
order_id string,        --订单ID
order_no string,        --订单号
order_date string,      --订单日期
user_id  string,        --用户ID
user_name string,       --登录名
order_money double,     --订单金额
order_type string,      --订单类型
order_status string,    --订单状态
pay_status string,      --支付状态
pay_type string,        --支付方式  1、在线支付，2、货到付款
order_source string,    --订单来源
update_time timestamp   --订单更新时间
) partitioned by (dt string)
row format delimited fields terminated by ','
lines terminated by '\n'
location '/business/bdm_order';
alter table bdm.bdm_order add partition (dt='$yesterday');"##创建BDM_ORDER表
echo "${SQl_BDM_ORDER}"
${SPARK_SUBMIT_INFO} -e "${SQl_BDM_ORDER}"
##添加数据到BDM
hdfs dfs -put $SOURCE_DATA/bdm_order.txt /business/bdm_order/dt=$yesterday

订单明细表（bdm_order_des）

sh bdm_order_des.sh 2020-11-06

#***************************
#** 功能描述：bdm_order_desc开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 1g --total-executor-cores 2 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
SQL_BDM_ORDER_DESC="create database if not exists bdm;
create external table if not exists bdm.bdm_order_desc(
order_id string,        --订单ID
order_no string,        --订单号
consignee string,       --收货人姓名
area_id string,         --收货人地址ID
area_name string,       --地址ID对应的地址段
address string,         --收货人地址
mobile string,          --收货人手机号
telphone string,        --收货人电话
coupon_id bigint,       --使用代金券ID
coupon_money double,    --使用代金券金额
carriage_money double,  --运费
create_time timestamp,  --创建时间
update_time timestamp,  --更新时间
dw_date timestamp
)partitioned by (dt string)
row format delimited fields terminated by ','
location '/business/bdm_order_desc';
alter table bdm.bdm_order_desc add partition (dt='$yesterday');"##创建BDM_ORDER_DESC表
echo "${SQL_BDM_ORDER_DESC}"
$SPARK_SUBMIT_INFO -e "${SQL_BDM_ORDER_DESC}"
##添加数据到BDM_ORDER_DESC表
hdfs dfs -put $SOURCE_DATA/bdm_order_desc.txt /business/bdm_order_desc/dt=$yesterday

订单表（fdm_order）

sh fdm_order.sh 2020-11-06

#***************************
#** 功能描述：fdm_order开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 1g --total-executor-cores 2 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
SQL_FDM_ORDER="create database if not exists fdm;
create  table if not exists fdm.fdm_order(
order_id string,        -- 订单ID
order_no string,        -- 订单号
order_date string,      -- 订单日期
user_id  string,        -- 用户ID
user_name string,       -- 登录名
order_money double,     -- 订单金额
order_type string,      -- 订单类型
order_status string,    -- 订单状态
pay_status string,      -- 支付状态
pay_type string,        -- 支付方式  1、在线支付，2、货到付款
order_source string,    -- 订单来源
update_time timestamp,  -- 订单更新时间
dw_date timestamp
) partitioned by (dt string);"
#加载数据
LOAD_DATA_FDM_ORDER="insert overwrite table fdm.fdm_order partition(dt='$yesterday')
select
t.order_id,     -- 订单ID
t.order_no,     -- 订单号
t.order_date,   -- 订单日期
t.user_id,      -- 用户ID
t.user_name,    -- 登录名
t.order_money,  -- 订单金额
t.order_type,   -- 订单类型
t.order_status, -- 订单状态
t.pay_status,   -- 支付状态
t.pay_type,     -- 支付方式
t.order_source, -- 订单来源
t.update_time timestamp,-- 订单更新时间
from_unixtime(unix_timestamp())  dw_date
from bdm.bdm_order t where dt='$yesterday';"
##创建SQL_FDM_ORDER表
echo "${SQL_FDM_ORDER}"
$SPARK_SUBMIT_INFO -e "${SQL_FDM_ORDER}"
##导入数据到FDM
echo "${LOAD_DATA_FDM_ORDER}"
$SPARK_SUBMIT_INFO -e "${LOAD_DATA_FDM_ORDER}"

订单表明细表（fdm_order_desc）

sh fdm_order_desc.sh 2020-11-06

#***************************
#** 功能描述：fdm_order_desc开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 1g --total-executor-cores 2 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
SQL_FDM_ORDER_DESC="create database if not exists fdm;
create table if not exists fdm.fdm_order_desc(
order_id string,        -- 订单ID
order_no string,        -- 订单号
consignee string,       -- 收货人姓名
area_id string,         -- 收货人地址ID
area_name string,       -- 地址ID对应的地址段
address string,         -- 收货人地址
mobile string,          -- 收货人手机号
telphone string,        -- 收货人电话
coupon_id bigint,       -- 使用代金券ID
coupon_money double,    -- 使用代金券金额
carriage_money double,  -- 运费
create_time timestamp,  -- 创建时间
update_time timestamp,  -- 更新时间
dw_date timestamp
) partitioned by (dt string);"##加载数据
LOAD_FDM_ORDER_DESC="insert overwrite table fdm.fdm_order_desc partition(dt='$yesterday')
select
t.order_id,         -- 订单ID
t.order_no,         -- 订单号
t.consignee,        -- 收货人姓名
t.area_id,          -- 收货人地址ID
t.area_name,        -- 地址ID对应的地址段
t.address,          -- 收货人地址
t.mobile,           -- 收货人手机号
t.telphone,         -- 收货人电话
t.coupon_id,        -- 使用代金券ID
t.coupon_money,     -- 使用代金券金额
t.carriage_money,   -- 运费
t.create_time,      -- 创建时间
t.update_time,      -- 更新时间
from_unixtime(unix_timestamp())  dw_date
from bdm.bdm_order_desc t where dt='$yesterday';"##创建FDM_ORDER_DESC表
echo "${SQL_FDM_ORDER_DESC}"
$SPARK_SUBMIT_INFO -e "${SQL_FDM_ORDER_DESC}"
##导入数据到FDM_ORDER_DESC
echo "${LOAD_FDM_ORDER_DESC}"
$SPARK_SUBMIT_INFO -e "${LOAD_FDM_ORDER_DESC}"

订单模型表（gdm_order）

sh gdm_order.sh 2020-11-06

#***************************
#** 功能描述：gdm_order开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
##订单宽表模型表GDM
SQL_GDM_ORDER="create database if not exists gdm;
create external table if not exists gdm.gdm_order(
order_id string,--订单ID
order_no string,--订单号
order_date string,--订单日期
user_id string,--用户ID
user_name string,--登录名
order_money double,--订单金额
order_type string,--订单类型
order_status string,--订单状态
pay_status string,--支付状态
pay_type string,--支付方式  1、在线支付，2、货到付款
order_source string,--订单来源
consignee string,--收货人姓名
area_id string,--收货人地址ID
area_name string,--地址ID对应的地址段（粒度到县）
address string,--收货人地址（手工填写的地址）
mobile string,--收货人手机号
telphone string,--收货人电话
coupon_id bigint,--使用代金券ID
coupon_money double,--使用代金券金额
carriage_money double,--运费
create_time timestamp,--创建时间
update_time timestamp,--更新时间
dw_date timestamp
) partitioned by (dt string)
location '/business/gdm_order';"
#加载数据
LOAD_GDM_ORDER="insert overwrite table gdm.gdm_order partition(dt='$yesterday')
select
a.order_id,     -- 订单ID
a.order_no,     -- 订单号
a.order_date,   -- 订单日期
a.user_id,      -- 用户ID
a.user_name,    -- 用户名
a.order_money,  -- 订单金额
a.order_type,   -- 订单类型
a.order_status, -- 订单状态
a.pay_status,   -- 支付类型
a.pay_type,     -- 支付方式
a.order_source, -- 订单来源
b.consignee,    -- 收货人姓名
b.area_id,      -- 收货人地址ID
b.area_name,    -- 地址ID对应的地址段
b.address,      -- 收货人地址
b.mobile,       -- 收货人手机号
b.telphone,     -- 收货人电话
b.coupon_id,    -- 使用代金券ID
b.coupon_money, -- 使用代金券金额
b.carriage_money,-- 运费
b.create_time,  -- 创建时间
b.update_time,  -- 更新时间
from_unixtime(unix_timestamp()) dw_date
from (select * from fdm.fdm_order where dt='$yesterday') a
join (select * from fdm.fdm_order_desc where dt='$yesterday') b on a.order_id=b.order_id;"##创建GDM_ORDER表
echo "${SQL_GDM_ORDER}"
$SPARK_SUBMIT_INFO -e "${SQL_GDM_ORDER}"
##导入数据到GDM_ORDER
echo "${LOAD_GDM_ORDER}"
$SPARK_SUBMIT_INFO -e "${LOAD_GDM_ORDER}"

订单地址模型表（gdm_user_order_addr_model）

sh gdm_user_order_addr_model.sh 2020-11-06

#***************************
#** 功能描述：gdm_user_order_addr_model开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 1g --total-executor-cores 2 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
#客户订单地址模型表
SQL_GDM_USER_ORDER_ADDR_MODEL="create database if not exists gdm;
create  table if not exists gdm.gdm_user_order_addr_model(
user_id string,--客户ID
order_addr bigint,--1表示学校、2表示单位、3表示家里
user_order_flag string-- 关联标识
)
row format delimited fields terminated by ','
lines terminated by '\n';
load data local inpath '/export/servers/businessData/gdm_user_order_addr_model.txt' overwrite into table gdm.gdm_user_order_addr_model;"##创建gdm_user_order_addr_model表
echo "${SQL_GDM_USER_ORDER_ADDR_MODEL}"
$SPARK_SUBMIT_INFO -e "${SQL_GDM_USER_ORDER_ADDR_MODEL}"

订单商品表（bdm_order_goods）

sh bdm_order_goods.sh 2020-11-06

#***************************
#** 功能描述：bdm_order_goods开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 1g --total-executor-cores 2 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
SQL_BDM_ORDER_GOODS="create database if not exists bdm;
create external table if not exists bdm.bdm_order_goods(
user_id string,--用户ID
order_id string,--订单ID
order_no string,--订单号
sku_id bigint,--SKU编号
sku_name string,--SKU名称
goods_id bigint,--商品编号
goods_no string,--商品货号
goods_sn string,--商品条码
goods_name string,--商品名称
goods_amount bigint,--商品数量
size_id bigint,--尺码编号
size_name string,--尺码名称
colour_id bigint,--颜色ID
shop_id string,--店铺编号
shop_name string,--店铺名称
curr_price double,--售卖价格
market_price double,--市场价格
discount double,--折扣比例
cost_price double,--成本价格
cost_type string,--成本类型
warehouse string,--所在仓库
first_cart bigint,-- 一级分类ID
first_cart_name string,-- 一级分类名称
second_cart bigint,-- 二级分类ID
second_cart_name string,-- 二级分类名称
third_cart bigint,-- 三级分类ID
third_cart_name string,-- 三级分类名称
dw_date timestamp
) partitioned by (dt string)
row format delimited fields terminated by ','
lines terminated by '\n'
location '/business/bdm_order_goods';
alter table bdm.bdm_order_goods add partition (dt='$yesterday');"
##创建SQL_FDM_ORDER表
echo "${SQL_BDM_ORDER_GOODS}"
$SPARK_SUBMIT_INFO -e "${SQL_BDM_ORDER_GOODS}"
##导入数据到BDM_ORDER_GOODS
hdfs dfs -put $SOURCE_DATA/bdm_order_goods.txt /business/bdm_order_goods/dt=$yesterday

订单商品表（fdm_order_goods）

sh fdm_order_goods.sh 2020-11-06

#***************************
#** 功能描述：fdm_order_goods开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
SQL_FDM_ORDER_GOODS="create database if not exists fdm;
create  table if not exists fdm.fdm_order_goods(
user_id  string,--用户ID
order_id string,--订单ID
order_no string,--订单号
sku_id bigint,--SKU编号
sku_name string,--SKU名称
goods_id bigint,--商品编号
goods_no string,--商品货号
goods_sn string,--商品条码
goods_name string,--商品名称
goods_amount bigint,--商品数量
size_id bigint,--尺码编号
size_name string,--尺码名称
colour_id bigint,--颜色ID
shop_id string,--店铺编号
shop_name string,--店铺名称
curr_price double,--售卖价格
market_price double,--市场价格
discount double,--折扣比例
cost_price double,--成本价格
cost_type string,--成本类型
warehouse string,--所在仓库
first_cart bigint,-- 一级分类ID
first_cart_name string,-- 一级分类名称
second_cart bigint,-- 二级分类ID
second_cart_name string,-- 二级分类名称
third_cart bigint,-- 三级分类ID
third_cat_name string,-- 三级分类名称
dw_date timestamp
) partitioned by (dt string);"
##加载数据
LOAD_FDM_ORDER_GOODS="insert overwrite table fdm.fdm_order_goods partition(dt='$yesterday')
select
t.user_id,--用户ID
t.order_id,--订单ID
t.order_no,--订单号
t.sku_id,--SKU编号
t.sku_name,--SKU名称
t.goods_id,--商品编号
t.goods_no,--商品货号
t.goods_sn,--商品条码
t.goods_name,--商品名称
t.goods_amount,--商品数量
t.size_id,--尺码编号
t.size_name,--尺码名称
t.colour_id,--颜色ID
t.shop_id,--店铺编号
t.shop_name,--店铺名称
t.curr_price,--售卖价格
t.market_price,--市场价格
t.discount,--折扣比例
t.cost_price,--成本价格
t.cost_type,--成本类型
t.warehouse,--所在仓库
t.first_cart,-- 一级分类ID
t.first_cart_name,-- 一级分类名称
t.second_cart,-- 二级分类ID
t.second_cart_name,-- 二级分类名称
t.third_cart,-- 三级分类ID
t.third_cart_name,-- 三级分类名称
from_unixtime(unix_timestamp()) dw_date
from bdm.bdm_order_goods t where dt='$yesterday';"
##创建FDM_ORDER_GOODS表
echo "${SQL_FDM_ORDER_GOODS}"
$SPARK_SUBMIT_INFO -e "${SQL_FDM_ORDER_GOODS}"
##导入数据到FDM_ORDER_GOODS
$SPARK_SUBMIT_INFO -e "${LOAD_FDM_ORDER_GOODS}"

客户消费订单模型表-临时表01（gdm.gdm_user_consume_order_temp_01

）

sh gdm_user_consume_order_temp_01.sh 2020-11-06

#***************************
#** 功能描述：gdm_user_consume_order_temp_01开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
##客户消费订单模型表-临时表01
SQL_GDM_USER_CONSUME_ORDER_TEMP_01="drop table if exists gdm.gdm_user_consume_order_temp_01;
CREATE TABLE gdm.gdm_user_consume_order_temp_01 AS
SELECT t.user_id,MIN(order_date) first_order_time,--第一次消费时间MAX(order_date) last_order_time,--最近一次消费时间DATEDIFF(MIN(order_date), '$yesterday') first_order_ago,--首单距今时间DATEDIFF(MAX(order_date), '$yesterday') last_order_ago,--尾单距今时间SUM(CASEWHEN t.dat_30 = 1 AND t.order_flag = 0 THEN 1 else 0END) month1_hg_order_cnt,--近30天购买次数（不含退拒）SUM(CASEWHEN t.dat_30 = 1 AND t.order_flag = 0 THEN t.order_money else 0END) month1_hg_order_amt,--近30天购买金额（不含退拒）SUM(CASEWHEN t.dat_60 = 1 AND t.order_flag = 0 THEN 1 else 0END) month2_hg_order_cnt,--近60天购买次数（不含退拒）SUM(CASEWHEN t.dat_60 = 1 AND t.order_flag = 0 THEN t.order_money else 0END) month2_hg_order_amt,--近60天购买金额（不含退拒）SUM(CASEWHEN t.dat_90 = 1 AND t.order_flag = 0 THEN 1 else 0END) month3_hg_order_cnt,--近90天购买次数（不含退拒）SUM(CASEWHEN t.dat_90 = 1 AND t.order_flag = 0 THEN t.order_money else 0END) month3_hg_order_amt,--近90天购买金额（不含退拒）SUM(dat_30) month1_order_cnt,--近30天购买次数（含退拒）SUM(CASEWHEN t.dat_30 = 1 THEN t.order_money else 0END) month1_order_amt,--近30天购买金额（含退拒）SUM(dat_60) month2_order_cnt,--近60天购买次数（含退拒）SUM(CASEWHEN t.dat_60 = 1 THEN t.order_money else 0END) month2_order_amt,--近60天购买金额（含退拒）SUM(dat_90) month3_order_cnt,--近90天购买次数（含退拒）SUM(CASEWHEN t.dat_90 = 1 THEN t.order_money else 0END) month3_order_amt,--近90天购买金额（含退拒）MAX(t.order_money) max_order_amt,--最大消费金额MIN(t.order_money) min_order_amt,--最小消费金额SUM(CASEWHEN t.order_flag = 0 THEN 1else 0END) total_order_cnt,--累计消费次数（不含退拒）SUM(CASEWHEN t.order_flag = 0 THEN t.order_money else 0END) total_order_amt,--累计消费金额（不含退拒）SUM(coupon_money) total_coupon_amt,--累计使用代金券金额SUM(t.order_money) / COUNT(1) user_avg_amt,--客单价（含退拒）0 month3_user_avg_amt,--近90天的客单价（含退拒）0 common_address,--常用收获地址0 common_paytype,--常用支付方式0 month1_cart_cnt,--最近30天购物车次数0 month1_cart_goods_cnt,--最近30天购物车商品件数0 month1_cart_submit_cnt,--最近30天购物车提交商品件数0 month1_order_rate,--最近30天购物车成功率0 month1_cart_cancle_cnt,--最近30天购物车放弃件数SUM(CASEWHEN t.order_status = 3 THEN t1.goods_amount else 0END) return_cnt,--退货商品数量SUM(CASEWHEN t.order_status = 3 THEN t.order_money else 0END) return_amt,--退货商品金额SUM(CASEWHEN t.order_status = 4 THEN t1.goods_amount else 0END) reject_cnt,--拒收商品数量SUM(CASEWHEN t.order_status = 4 THEN t.order_money else 0END) reject_amt,--拒收商品金额MAX(CASEWHEN t.order_status = 3 THEN t.order_date END) last_return_time,--最近一次退货时间SUM(CASEWHEN t2.order_addr = 1 THEN 1 else 0END) school_order_cnt,--学校下单总数SUM(CASEWHEN t2.order_addr = 2 THEN 1 else 0END) company_order_cnt,--单位下单总数SUM(CASEWHEN t2.order_addr = 3 THEN 1 else 0END) home_order_cnt,--家里下单总数SUM(CASEWHEN t.order_hour >= 8 AND t.order_hour <= 11 THEN 1 else 0END) forenoon_order_cnt,--上午下单总数SUM(CASEWHEN t.order_hour >= 12 AND t.order_hour <= 18 THEN 1 else 0END) afternoon_order_cnt,--下午下单总数SUM(CASEWHEN t.order_hour >= 19 AND t.order_hour <= 22 THEN 1 else 0END) night_order_cnt,--晚上下单总数SUM(CASEWHEN t.order_hour >= 23 or t.order_hour <= 7 THEN 1 else 0END) morning_order_cnt --凌晨下单总数
FROM(SELECT a.*,(CASEWHEN order_date >= DATE_SUB('$yesterday', 29) AND order_date <= '$yesterday' THEN 1 else 0END) dat_30,(CASEWHEN order_date >= DATE_SUB('$yesterday', 59) AND order_date <= '$yesterday' THEN 1 else 0END) dat_60,(CASEWHEN order_date >= DATE_SUB('$yesterday', 89) AND order_date <= '$yesterday' THEN 1 else 0END) dat_90,(CASEWHEN a.order_status IN (3, 4) THEN 1 ELSE 0 END) order_flag,--退货与拒收标示HOUR(order_date) order_hour  --2018-05-19 13:20:20FROMgdm.gdm_order a WHERE dt = '$yesterday') t LEFT JOIN (SELECT order_id,goods_amount FROMfdm.fdm_order_goods) t1ON (t.order_id = t1.order_id) LEFT JOIN (SELECT user_id,order_addr FROMgdm.gdm_user_order_addr_model) t2 ON (t.user_id = t2.user_id)
GROUP BY t.user_id ;"##创建SQL_GDM_USER_CONSUME_ORDER_TEMP_01表
echo "${SQL_GDM_USER_CONSUME_ORDER_TEMP_01}"
$SPARK_SUBMIT_INFO -e "${SQL_GDM_USER_CONSUME_ORDER_TEMP_01}"

购物车表（bdm_order_cart）

sh bdm_order_cart.sh 2020-11-06

#***************************
#** 功能描述：SQL_BDM_ORDER_CART开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 1g --total-executor-cores 2 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
#SQL_BDM_ORDER_CART表
SQL_BDM_ORDER_CART="create database if not exists bdm;
create external table if not exists bdm.bdm_order_cart(
id bigint,--ID
session_id string,--sessionID
user_id string,--用户ID
goods_id string,--商品ID
goods_num bigint,--商品数量
add_time string,--商品加入时间
cancle_time string,--商品取消时间
sumbit_time string,--商品提交时间
dw_date timestamp
) partitioned by (dt string)
row format delimited fields terminated by ','
lines terminated by '\n'
location '/business/bdm_order_cart';
alter table bdm.bdm_order_cart add partition (dt='$yesterday');"##创建SQL_BDM_ORDER_CART表
echo "${SQL_BDM_ORDER_CART}"
$SPARK_SUBMIT_INFO -e "${SQL_BDM_ORDER_CART}"
##添加数据到SQL_BDM_ORDER_CART
hdfs dfs -put $SOURCE_DATA/bdm_order_cart.txt /business/bdm_order_cart/dt=$yesterday

购物车表（fdm_order_cart）

sh fdm_order_cart.sh 2020-11-06

#***************************
#** 功能描述：fdm_order_cart开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
SQL_FDM_ORDER_CART="create database if not exists fdm;
create  table  if not exists fdm.fdm_order_cart(
id bigint,--ID
session_id string,--sessionID
user_id string,--用户ID
goods_id string,--商品ID
goods_num bigint,--商品数量
add_time string,--商品加入时间
cancle_time string,--商品取消时间
sumbit_time string,--商品提交时间
dw_date timestamp
) partitioned by (dt string);"
#加载数据
LOAD_FDM_ORDER_CART="insert overwrite table fdm.fdm_order_cart partition(dt='$yesterday')
select
t.id,--ID
t.session_id,--sessionID
t.user_id,--用户ID
t.goods_id,--商品ID
t.goods_num ,--商品数量
t.add_time,--商品加入时间
t.cancle_time,--商品取消时间
t.sumbit_time,--商品提交时间
from_unixtime(unix_timestamp())  dw_date
from bdm.bdm_order_cart t where dt='$yesterday';"
##创建SQL_FDM_ORDER表
echo "${SQL_FDM_ORDER_CART}"
$SPARK_SUBMIT_INFO -e "${SQL_FDM_ORDER_CART}"
##导入数据到FDM
echo "${LOAD_FDM_ORDER_CART}"
$SPARK_SUBMIT_INFO -e "${LOAD_FDM_ORDER_CART}"

购物车临时模型表–临时表 02（gdm.gdm_user_consume_order_temp_02

）

sh gdm_user_consume_order_temp_02.sh 2020-11-06

#***************************
#** 功能描述：GDM_USER_CONSUME_ORDER_TEMP_02开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
##gdm_user_consume_order_temp_02
SQL_GDM_USER_CONSUME_ORDER_TEMP_02="drop table if exists gdm.gdm_user_consume_order_temp_02;
CREATE TABLE gdm.gdm_user_consume_order_temp_02 AS
SELECT user_id,COUNT(1) month1_cart_cnt,--最近30天购物车次数SUM(goods_num) month1_cart_goods_cnt,--最近30天购物车商品件数SUM(CASEWHEN sumbit_time <> '' THEN goods_num ELSE 0 END) month1_cart_submit_cnt,--最近30天购物车提交商品件数SUM(CASEWHEN sumbit_time <> '' THEN goods_num ELSE 0 END)/SUM(goods_num) month1_cart_rate,--最近30天购物车成功率SUM(CASEWHEN cancle_time <> '' THEN goods_num ELSE 0 END) month1_cart_cancle_cnt  --最近30天购物车放弃件数
FROMfdm.fdm_order_cart
WHERE dt = '$yesterday' AND to_date (add_time) >= DATE_SUB('$yesterday', 29) AND to_date (add_time) <= '$yesterday'
GROUP BY user_id ;"##创建GDM_USER_CONSUME_ORDER_TEMP_02表
echo "${SQL_GDM_USER_CONSUME_ORDER_TEMP_02}"
$SPARK_SUBMIT_INFO -e "${SQL_GDM_USER_CONSUME_ORDER_TEMP_02}"

常用地址和常用支付方式-临时表 03（gdm_user_consume_order_temp_03）

sh gdm_user_consume_order_temp_03.sh 2020-11-06

#***************************
#** 功能描述：gdm_user_consume_order_temp_03开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
#购物车临时模型表---常用地址和常用支付方式-临时表03
SQL_GDM_USER_CONSUME_ORDER_TEMP_03="drop table if exists gdm.gdm_user_consume_order_temp_03;
create table gdm.gdm_user_consume_order_temp_03 as
select t.user_id,t.con,t.type,t.cnt
from(select b.user_id,b.con,b.type,b.cnt,row_number() over(distribute by b.user_id,b.type sort by b.cnt,b.type desc) rn
from(select a.user_id,concat(coalesce(area_name, ''),coalesce(address, '')) con,'address' type,count(1) cnt fromgdm.gdm_order a where dt = '$yesterday' group by a.user_id,concat(coalesce(area_name, ''),coalesce(address, '')) unionall select a.user_id,a.pay_type con,'pay_type' type,count(1) cnt fromgdm.gdm_order a where dt = '$yesterday' group by a.user_id,a.pay_type) b) t where t.rn = 1;"##创建gdm_user_consume_order_temp_03表
echo "${SQL_GDM_USER_CONSUME_ORDER_TEMP_03}"
$SPARK_SUBMIT_INFO -e "${SQL_GDM_USER_CONSUME_ORDER_TEMP_03}"

购物车表和订单表整合（gdm_user_consume_order_temp_100）

sh gdm_user_consume_order_temp_100.sh 2020-11-06

#***************************
#** 功能描述：gdm_user_consume_order_temp_100开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
##购物车表和订单表整合
SQL_GDM_USER_CONSUME_ORDER_TEMP_100="drop table if exists gdm.gdm_user_consume_order_temp_100;
create table gdm.gdm_user_consume_order_temp_100 as
select a.user_id
from(select user_id fromgdm.gdm_user_consume_order_temp_01 unionall select user_id fromgdm.gdm_user_consume_order_temp_02) a
group by a.user_id ;"##创建gdm_user_consume_order_temp_100表
echo "${SQL_GDM_USER_CONSUME_ORDER_TEMP_100}"
$SPARK_SUBMIT_INFO -e "${SQL_GDM_USER_CONSUME_ORDER_TEMP_100}"

客户消费订单表 ***（gdm_user_consume_order）

sh gdm_user_consume_order.sh 2020-11-06

#***************************
#** 功能描述：gdm_order开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"#gdm_user_consume_order
SQL_GDM_USER_CONSUME_ORDER="create database if not exists gdm;
create  table if not exists gdm.gdm_user_consume_order(
user_id string,                 --客户ID
first_order_time timestamp,     --第一次消费时间
last_order_time timestamp,      --最近一次消费时间
first_order_ago bigint,         --首单距今时间
last_order_ago bigint,          --尾单距今时间
month1_hg_order_cnt bigint,     --近30天购买次数（不含退拒）
month1_hg_order_amt double,     --近30天购买金额（不含退拒）
month2_hg_order_cnt bigint,     --近60天购买次数（不含退拒）
month2_hg_order_amt double,     --近60天购买金额（不含退拒）
month3_hg_order_cnt bigint,     --近90天购买次数（不含退拒）
month3_hg_order_amt double,     --近90天购买金额（不含退拒）
month1_order_cnt bigint,        --近30天购买次数（含退拒）
month1_order_amt double,        --近30天购买金额（含退拒）
month2_order_cnt bigint,        --近60天购买次数（含退拒）
month2_order_amt double,        --近60天购买金额（含退拒）
month3_order_cnt bigint,        --近90天购买次数（含退拒）
month3_order_amt double,        --近90天购买金额（含退拒）
max_order_amt double,           --最大消费金额
min_order_amt double,           --最小消费金额
total_order_cnt bigint,         --累计消费次数（不含退拒）
total_order_amt double,         --累计消费金额（不含退拒）
user_avg_amt double,            --客单价（含退拒）
month3_user_avg_amt double,     --近90天的客单价
common_address string,          --常用收货地址
common_paytype string,          --常用支付方式
month1_cart_cnt bigint,         --近30天购物车的次数
month1_cart_goods_cnt bigint,   --近30天购物车商品件数
month1_cart_submit_cnt bigint,  --近30天购物车提交商品件数
month1_cart_rate double,        --近30天购物车成功率
month1_cart_cancle_cnt double,  --近30天购物车放弃件数
return_cnt bigint,              --退货商品数量
return_amt double,              --退货商品金额
reject_cnt bigint,              --拒收商品数量
reject_amt double,              --拒收商品金额
last_return_time timestamp,     --最近一次退货时间
school_order_cnt bigint,        --学校下单总数
company_order_cnt bigint,       --单位下单总数
home_order_cnt bigint,          --家里下单总数
forenoon_order_cnt bigint,      --上午下单总数
afternoon_order_cnt bigint,     --下午下单总数
night_order_cnt bigint,         --晚上下单总数
morning_order_cnt bigint,       --凌晨下单总数
dw_date timestamp
) partitioned by (dt string);"
#加载数据
LOAD_GDM_USER_CONSUME_ORDER="INSERT overwrite TABLE gdm.gdm_user_consume_order PARTITION (dt = '$yesterday')
SELECT t.user_id,            --客户IDt1.first_order_time,  --第一次消费时间t1.last_order_time,    --最近一次消费时间t1.first_order_ago,   --首单距今时间t1.last_order_ago,  --尾单距今时间t1.month1_hg_order_cnt,--近30天购买次数（不含退拒）t1.month1_hg_order_amt,--近30天购买金额（不含退拒）t1.month2_hg_order_cnt,--近60天购买次数（不含退拒）t1.month2_hg_order_amt,--近60天购买金额（不含退拒）t1.month3_hg_order_cnt,--近90天购买次数（不含退拒）t1.month3_hg_order_amt,--近90天购买金额（不含退拒）t1.month1_order_cnt,    --近30天购买次数（含退拒）t1.month1_order_amt,    --近30天购买金额（含退拒）t1.month2_order_cnt,    --近60天购买次数（含退拒）t1.month2_order_amt,    --近60天购买金额（含退拒）t1.month3_order_cnt,    --近90天购买次数（含退拒）t1.month3_order_amt,    --近90天购买金额（含退拒）t1.max_order_amt,       --最大消费金额t1.min_order_amt,       --最小消费金额t1.total_order_cnt,     --累计消费次数（不含退拒）t1.total_order_amt,     --累计消费金额（不含退拒）t1.user_avg_amt,        --客单价（含退拒）(CASEWHEN t1.month3_order_cnt <> 0 THEN t1.month3_order_amt / t1.month3_order_cnt ELSE 0 END) month3_user_avg_amt,      --近90天的客单价(含退拒)t3.common_address,          --常用收货地址t3.common_paytype,          --常用支付方式t2.month1_cart_cnt,         --近30天购物车的次数t2.month1_cart_goods_cnt,   --近30天购物车商品件数t2.month1_cart_submit_cnt,  --近30天购物车提交商品件数(CASEWHEN t1.month1_order_cnt <> 0 THEN t2.month1_cart_submit_cnt / t2.month1_cart_goods_cnt ELSE 0 END) month1_cart_rate,           --近30天购物车成功率t2.month1_cart_cancle_cnt,  --近30天购物车放弃件数t1.return_cnt,                 --退货商品数量t1.return_amt,                 --退货商品金额t1.reject_cnt,                 --拒收商品数量t1.reject_amt,                 --拒收商品金额t1.last_return_time,           --最近一次退货时间t1.school_order_cnt,           --学校下单总数t1.company_order_cnt,          --单位下单总数t1.home_order_cnt,             --家里下单总数t1.forenoon_order_cnt,         --上午下单总数t1.afternoon_order_cnt,        --下午下单总数t1.night_order_cnt,            --晚上下单总数t1.morning_order_cnt,          --凌晨下单总数FROM_UNIXTIME(UNIX_TIMESTAMP())  dw_date
FROM                             gdm.gdm_user_consume_order_temp_100 t LEFT JOIN gdm.gdm_user_consume_order_temp_01 t1 ON (t.user_id = t1.user_id) LEFT JOIN gdm.gdm_user_consume_order_temp_02 t2 ON (t.user_id = t2.user_id) LEFT JOIN (SELECT user_id,MAX(CASEWHEN type = 'address' THEN con END) common_address,MAX(CASEWHEN type = 'pay_type' THEN con END) common_paytype FROMgdm.gdm_user_consume_order_temp_03 group by user_id) t3 ON (t.user_id = t3.user_id);"##创建GDM_USER_CONSUME_ORDER表
echo "${SQL_GDM_USER_CONSUME_ORDER}"
$SPARK_SUBMIT_INFO -e "${SQL_GDM_USER_CONSUME_ORDER}"
##导入数据到GDM_USER_CONSUME_ORDER
echo "${LOAD_GDM_USER_CONSUME_ORDER}"
$SPARK_SUBMIT_INFO -e "${LOAD_GDM_USER_CONSUME_ORDER}"

客户购买类目表

计算订单中客户购买情况（gdm_user_buy_category_temp）

sh gdm_user_buy_category_temp.sh 2020-11-06

#***************************
#** 功能描述：GDM_USER_CART_CATEGORY_TEMP开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
##订单宽表模型表GDM
SQL_GDM_USER_BUY_CATEGORY_TEMP="drop table if exists gdm.gdm_user_buy_category_temp;
CREATE TABLE gdm.gdm_user_buy_category_temp AS
SELECT a.user_id,'' first_category_id,'' first_category_name,'' second_category_id,'' second_catery_name,b.third_cart  third_category_id,b.third_cat_name  third_category_name,SUM(CASEWHEN a.dat_30 = 1 THEN b.goods_amount else 0END) month1_category_cnt, --近30天购物类目次数SUM(CASEWHEN a.dat_30 = 1 THEN COALESCE(b.curr_price,0)* COALESCE(b.goods_amount,0)else 0END) month1_category_amt, --近30天购物类目金额SUM(CASEWHEN a.dat_90 = 1 THEN b.goods_amount else 0END) month3_category_cnt,--近90天购物类目次数SUM(CASEWHEN a.dat_90 = 1 THEN COALESCE(b.curr_price, 0)* COALESCE(b.goods_amount, 0)else 0END) month3_category_amt,--近90天购物类目金额SUM(CASEWHEN a.dat_180 = 1 THEN b.goods_amount else 0END) month6_category_cnt,--近180天购物类目次数SUM(CASEWHEN a.dat_180 = 1 THEN COALESCE(b.curr_price, 0) * COALESCE(b.goods_amount, 0)else 0END) month6_category_amt,--近180天购物类目金额SUM(b.goods_amount) total_category_cnt,--累计购物类目次数SUM(COALESCE(b.curr_price, 0) * COALESCE(b.goods_amount, 0)) total_category_amt,--累计购物类目金额MAX(a.order_date) last_category_time,--最后一次购买类目时间DATEDIFF(MAX(a.order_date), '$yesterday') last_category_ago,--最后一次购买类目距今天数FROM_UNIXTIME(UNIX_TIMESTAMP()) dw_date
FROM(SELECT a.*,(CASEWHEN order_date >= DATE_SUB('$yesterday', 29) AND order_date <= '$yesterday' THEN1END) dat_30, --近30天标识(CASEWHEN order_date >= DATE_SUB('$yesterday', 89) AND order_date <= '$yesterday' THEN 1END) dat_90,--近90天标识(CASEWHEN order_date >= DATE_SUB('$yesterday', 179) AND order_date <= '$yesterday' THEN 1END) dat_180  --近180天标识FROMfdm.fdm_order a WHERE dt = '$yesterday') a JOIN (SELECT * FROMfdm.fdm_order_goods WHERE dt = '$yesterday') b ON (a.user_id = b.user_id)
GROUP BY a.user_id,b.third_cart,b.third_cat_name;"##创建SQL_GDM_USER_BUY_CATEGORY_TEMP表
echo "${SQL_GDM_USER_BUY_CATEGORY_TEMP}"
$SPARK_SUBMIT_INFO -e "${SQL_GDM_USER_BUY_CATEGORY_TEMP}"

购物车中类目情况（gdm_user_cart_category_temp）

sh gdm_user_cart_category_temp.sh 2020-11-06

#***************************
#** 功能描述：GDM_USER_CART_CATEGORY_TEMP开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
#购物车中的类目情况
SQl_GDM_USER_CART_CATEGORY_TEMP="drop table if exists gdm.gdm_user_cart_category_temp;
create table gdm.gdm_user_cart_category_temp as
select a.user_id,b.third_cart,sum(casewhen to_date (add_time) >= date_sub('$yesterday', 29) and to_date (add_time) <= '$yesterday' then 1 else 0end) month1_cart_category_cnt, --近30天的标识sum(casewhen to_date (add_time) >= date_sub('$yesterday', 89) and to_date (add_time) <= '$yesterday' then 1 else 0end) month3_cart_category_cnt,  --近90天的标识sum(casewhen to_date (add_time) >= date_sub('$yesterday', 179) and to_date (add_time) <= '$yesterday' then 1 else 0end) month6_cart_category_cnt, --近180天的标识count(1) total_category_cnt  --累计购物车类目次数
from(select * fromfdm.fdm_order_cart where dt = '$yesterday' and to_date (add_time) >= date_sub('$yesterday', 179) and to_date (add_time) <= '$yesterday') a left join (select goods_id,third_cart fromfdm.fdm_order_goods where dt = '$yesterday' group by goods_id,third_cart) b on (a.goods_id = b.goods_id)
group by user_id,b.third_cart ;"##创建GDM_USER_CART_CATEGORY_TEMP表
echo "${SQl_GDM_USER_CART_CATEGORY_TEMP}"
${SPARK_SUBMIT_INFO} -e "${SQl_GDM_USER_CART_CATEGORY_TEMP}"

类目表（gdm_category_code）

sh gdm_category_code.sh 2020-11-06

#***************************
#** 功能描述：GDM_CATEGORY_CODE开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
##订单宽表模型表GDM
SQL_GDM_CATEGORY_CODE="create database if not exists gdm;
create external table if not exists gdm.gdm_category_code(
third_category_id bigint,--三级分类ID
third_category_name string,--三级分类名称
second_category_id bigint,--二级分类ID
second_catery_name string,--二级分类名称
first_category_id bigint,--一级分类ID
first_category_name string --一级分类名称
)row format delimited fields terminated by ','
lines terminated by '\n'
location  '/business/gdm_category_code';
load data local inpath '/export/servers/businessData/gdm_category_code.txt' overwrite into table gdm.gdm_category_code;"##创建GDM_CATEGORY_CODE表
echo "${SQL_GDM_CATEGORY_CODE}"
$SPARK_SUBMIT_INFO -e "${SQL_GDM_CATEGORY_CODE}"

整合购买情况和类目情况（gdm_user_category_total）

sh gdm_user_category_total.sh 2020-11-06

#***************************
#** 功能描述：GDM_USER_CATEGORY_TOTAL开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
##订单宽表模型表GDM
SQL_GDM_USER_CATEGORY_TOTAL="drop table if exists gdm.gdm_user_category_total;
create table gdm.gdm_user_category_total as
select a.user_id,b.first_category_id,b.first_category_name,b.second_category_id,b.second_catery_name,a.third_category_id,b.third_category_name
from(select user_id,third_category_id fromgdm.gdm_user_buy_category_temp unionall select user_id,third_cart fromgdm.gdm_user_cart_category_temp) a left join gdm.gdm_category_code bon (a.third_category_id = b.third_category_id)
group by a.user_id,b.first_category_id,b.first_category_name,b.second_category_id,b.second_catery_name,a.third_category_id,b.third_category_name ;"##创建gdm_user_buy_category_temp表
echo "${SQL_GDM_USER_CATEGORY_TOTAL}"
$SPARK_SUBMIT_INFO -e "${SQL_GDM_USER_CATEGORY_TOTAL}"

spark sql 的 shuffle默认并行度是200

客户购买类目表***（gdm_user_buy_category）

sh gdm_user_buy_category.sh 2020-11-06

#***************************
#** 功能描述：GDM_USER_BUY_CATEGORY开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
#订单主要信息表FDM层
SQl_GDM_USER_BUY_CATEGORY="create database if not exists gdm;
CREATE  TABLE if not exists gdm.gdm_user_buy_category (user_id STRING,                 --客户IDfirst_category_id BIGINT,       --一级分类IDfirst_category_name STRING,     --一级分类名称second_category_id BIGINT,      --二级分类IDsecond_catery_name STRING,      --二级分类名称third_category_id BIGINT,       --三级分类IDthird_category_name STRING,     --三级分类名称month1_category_cnt BIGINT,     --近30天购物类目次数month1_category_amt STRING,     --近30天购物类目金额month3_category_cnt BIGINT,     --近90天购物类目次数month3_category_amt STRING,     --近90天购物类目金额month6_category_cnt BIGINT,     --近180天购物类目次数month6_category_amt STRING,     --近180天购物类目金额total_category_cnt BIGINT,      --累计购物类目次数total_category_amt STRING,      --累计购物类目金额month1_cart_category_cnt BIGINT,--近30天购物车类目次数month3_cart_category_cnt BIGINT,--近90天购物车类目次数month6_cart_category_cnt BIGINT,--近180天购物车类目次数total_cart_category_cnt BIGINT, --累计购物车类目次数last_category_time TIMESTAMP,   --最后一次购买类目时间last_category_ago BIGINT,       --最后一次购买类目距今天数dw_date TIMESTAMP
) partitioned BY (dt STRING) ;
"
#加载数据
LOAD_GDM_USER_BUY_CATEGORY="INSERT overwrite TABLE gdm.gdm_user_buy_category PARTITION (dt = '$yesterday')
SELECT t.user_id,t.first_category_id,t.first_category_name,t.second_category_id,t.second_catery_name,t.third_category_id,t.third_category_name,t1.month1_category_cnt,t1.month1_category_amt,t1.month3_category_cnt,t1.month3_category_amt,t1.month6_category_cnt,t1.month6_category_amt,t1.total_category_cnt,t1.total_category_amt,t2.month1_cart_category_cnt,t2.month3_cart_category_cnt,t2.month6_cart_category_cnt,t2.total_category_cnt,t1.last_category_time,t1.last_category_ago,FROM_UNIXTIME(UNIX_TIMESTAMP()) dw_date
FROMgdm.gdm_user_category_total t LEFT JOIN gdm.gdm_user_buy_category_temp t1 ON (t.user_id = t1.user_id AND t.third_category_id = t1.third_category_id) LEFT JOIN gdm.gdm_user_cart_category_temp t2 ON (t.user_id = t2.user_id AND t.third_category_id = t2.third_cart) ;"
##创建GDM_USER_BUY_CATEGORY表
echo "${SQl_GDM_USER_BUY_CATEGORY}"
${SPARK_SUBMIT_INFO} -e "${SQl_GDM_USER_BUY_CATEGORY}"
##加载数据
echo "${LOAD_GDM_USER_BUY_CATEGORY}"
${SPARK_SUBMIT_INFO} -e "${LOAD_GDM_USER_BUY_CATEGORY}"

客户基本属性表

这里统一执行后面的shell脚本

vim userall.sh

sh /export/servers/businessData/shells/user/bdm_user.sh
sh /export/servers/businessData/shells/user/fdm_user.sh
sh /export/servers/businessData/shells/user/gdm_user_basic.sh

sh userall.sh 2020-11-06

用户表（bdm_user）

#***************************
#** 功能描述：bdm_user开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
#订单主要信息表BDM层
SQl_BDM_USER="create database if not exists bdm;create external table bdm.bdm_user(
user_id string,
user_name string,
user_sex string,
user_birthday string,
user_age int,
constellation string,
province string,
city string,
city_level string,
hex_mail string,
op_mail string,
hex_phone string,
op_phone string,
fore_phone string,
add_time string,
login_ip string,
login_source string,
request_user string,
total_mark bigint,
used_mark bigint,
level_name string,
blacklist int,
is_married int,
educattion string,
monthly_money double,
profession string)
partitioned by(dt string)
row format delimited fields terminated by ',' location '/business/bdm_user';
alter table bdm.bdm_user add partition (dt='$yesterday');
load data local inpath '/export/servers/businessData/bdm_user.txt' into table bdm.bdm_user partition(dt='$yesterday');"##创建BDM_ORDER表
echo "${SQl_BDM_USER}"
${SPARK_SUBMIT_INFO} -e "${SQl_BDM_USER}"

用户宽表 (fdm_user)

#***************************
#** 功能描述：bdm_user开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
#订单主要信息表FDM层
SQl_FDM_USER="create database if not exists fdm;
create external table fdm.fdm_user(
user_id string,
user_name string,
user_sex string,
user_birthday string,
user_age int,
constellation string,
province string,
city string,
city_level string,
hex_mail string,
op_mail string,
hex_phone string,
op_phone string,
fore_phone string,
add_time string,
login_ip string,
login_source string,
requste_user string,
total_mark int,
used_mark int,
level_name string,
blacklist int,
is_married int,
education string,
monthly_money double,
profession string,
dw_date timestamp)
partitioned by (dt string)
row format delimited fields terminated by ','
location '/business/fdm_user';"
#加载数据
LOAD_FDM_USER="insert overwrite table fdm.fdm_user partition(dt='$yesterday')
select
t.user_id ,
t.user_name ,
t.user_sex ,
t.user_birthday ,
t.user_age ,
t.constellation ,
t.province ,
t.city ,
t.city_level ,
t.hex_mail ,
t.op_mail ,
t.hex_phone ,
t.op_phone ,
t.fore_phone ,
t.add_time ,
t.login_ip ,
t.login_source ,
t.request_user ,
t.total_mark ,
t.used_mark ,
t.level_name ,
t.blacklist ,
t.is_married ,
t.educattion ,
t.monthly_money,
t.profession,
from_unixtime(unix_timestamp())  dw_date
from bdm.bdm_user t where dt='$yesterday';"
##创建FDM_ORDER表
echo "${SQl_FDM_USER}"
${SPARK_SUBMIT_INFO} -e "${SQl_FDM_USER}"
##加载数据
echo "${LOAD_FDM_USER}"
${SPARK_SUBMIT_INFO} -e "${LOAD_FDM_USER}"

客户基本属性表 *** (gdm_user_basic)

#***************************
#** 功能描述：bdm_user开发
#***************************
#!/bin/sh
yesterday=`date -d '-1 day' "+%Y-%m-%d"`
if [ $1 ];thenyesterday=$1
fi
SPARK_SUBMIT_INFO="/export/servers/spark-2.2.0-bin-hadoop2.7/bin/spark-sql --master spark://node01:7077 --executor-memory 512m --total-executor-cores 1 --conf spark.sql.warehouse.dir=hdfs://node01:8020/user/hive/warehouse"
SOURCE_DATA="/export/servers/businessData"
#订单主要信息表FDM层
SQl_GDM_USER_BASIC="create database if not exists gdm;
create  table gdm.gdm_user_basic(
user_id string,
user_name string,
user_sex string,
user_birthday string,
user_age int,
constellation string,
province string,
city string,
city_level string,
hex_mail string,
op_mail string,
hex_phone string,
op_phone string,
fore_phone string,
add_time string,
login_ip string,
login_source string,
request_user string,
total_mark int,
used_mark int,
level_name string,
blacklist int,
is_married int,
education string,
monthly_money double,
profession string,
sex_model int,
is_pregnant_woman int,
is_have_children int,
children_age int,
children_age_rate double,
children_sex string,
children_sex_rate double,
is_have_car int,
potential_car_user_rate double,
phone_brand string,
phone_brand_level string,
phone_cnt int,
change_phone_rate int,
majia_flag string,
majia_account_cnt int,
loyal_model int,
shopping_type_model int,
figure_model int,
stature_model int,
dw_date timestamp)
partitioned by (dt string)
row format delimited fields terminated by ','
location '/business/gdm_user_basic';"
#加载数据
LOAD_GDM_USER_BASIC="insert into table gdm.gdm_user_basic partition(dt='$yesterday')
select
t.user_id ,
t.user_name ,
t.user_sex ,
t.user_birthday ,
t.user_age ,
t.constellation ,
t.province ,
t.city ,
t.city_level ,
t.hex_mail ,
t.op_mail ,
t.hex_phone ,
t.op_phone ,
t.fore_phone ,
t.add_time ,
t.login_ip ,
t.login_source ,
t.requste_user ,
t.total_mark ,
t.used_mark ,
t.level_name ,
t.blacklist ,
t.is_married ,
t.education ,
t.monthly_money,
t.profession ,
null sex_model ,
null is_pregnant_wowan ,
null is_have_children ,
null children_age ,
null children_age_rate ,
null children_sex ,
null children_sex_rate ,
null is_have_car ,
null potential_car_user_rate ,
null phone_brand ,
null phone_brand_level ,
null phone_cnt ,
null phone_change_rate ,
null majia_flag ,
null majia_account_cnt ,
null loyal_model ,
null shopping_type_model ,
null figure_model ,
null stature_model ,
from_unixtime(unix_timestamp())  dw_date
from fdm.fdm_user t where dt='$yesterday';"
##创建BDM_ORDER表
echo "${SQl_GDM_USER_BASIC}"
${SPARK_SUBMIT_INFO} -e "${SQl_GDM_USER_BASIC}"
##加载数据
echo "${LOAD_GDM_USER_BASIC}"
${SPARK_SUBMIT_INFO} -e "${LOAD_GDM_USER_BASIC}"

客户访问信息表