京东服装数据分析及决策树

目录:
1…前期准备工作
2…可视化分析
3…决策树模型

前期准备工作

项目结构

proxy_ip 爬取西刺网代理ip jdproduct爬京东服装数据
analysis_men分析男装女装数据进行对比 analysis_merge所有销量不为0的数据
DesicionTreeModel决策树模型训练 GraphvizTree决策树可视化展示

参考数据:
女装:526416条
男装:406834条
运动服饰:228401条 共1161651条 (116万)

技术总结:
反爬:
1设置随机user-agent(通过fake_useragent)
2 代理ip (从ip地址网爬取ip设置代理池)
3如有验证码 可以用云打码网去认证或者手动打码
提速:
1批量写入数据库提高速度(比如每到一千条进行插入,但是这样缺点是如果错误会导致大批量数据出错)
2用scrapy设置多线程数,尽可能更大来同时处理,同时将延迟设置为0

数据清洗:(为了保证数据真实性需要弥补空值,比如取临近值或者平均值等)
清洗不要的列 name category_id img_url venderId
去除关键字: 材质: 商品毛重:适用季节:适用人群:上市时间:风格:面料:

可视化分析

可视化工具:pyecharts,matplotlib
clothes_info_merge.csv:所有服装销量非0的数据

品牌销量: 花花公子>南极人>阿迪>李宁>安踏

店铺销量:自营>阿迪官方>A21官方>李宁>班尼路>海澜之家>安踏


省份销量排行:广东>浙江>福建>江苏>上海>北京

绝大多数衣服价格分布在100-300 > 0-100 >300-500,而对应销量来说 也是如此。
这说明还是平价衣服比较
此为衣服主打风格词云,可以发现最多为:
商务 休闲 中国 通勤 青春 流行

clothes_info_men_cleaned,clothes_info_women_cleaned.csv:(对男女装分别分析)

观察一下男女装分类数量对比,可以发现基本衣服数量差不多,女装略大于男装,也属正常。

可以发现不管男装还是女装,平均价格最高都是在每年的冬季,最低是夏季。这和现实相符,棉衣等的价格肯定普遍高于短袖短裤等。而春秋上市的衣服基本价格差不多,这是因为很多种类的衣服春秋都可以穿。


男女装材质对比:
男装 棉>聚酯纤维>聚酰胺纤维(锦纶)>羊毛>粘胶纤维(粘纤)
女装 棉>聚酯纤维>粘胶纤维(粘纤)>全棉牛仔布>聚对苯二甲酸乙二酯(涤纶)
总结 衣服材质前三:棉>聚酯纤维>粘胶纤维(粘纤)

对最畅销的材质进行价格评估:
棉 200-400 聚酯纤维 200-1000 粘胶纤维(粘纤) 200-400
可以发现绝大多数材料对应的都是200-400这个区间


男女装衣服尺寸统计:男士尺寸基本集中于L,XL,2XL,3XL(170-185cm)
女士尺寸集中于M L XL (165-175cm)

对男女装衣服颜色进行统计:
男士最多的颜色是 黑蓝灰 女士最多的颜色是:黑蓝白咖
黑色基本占了所有数据的一半。

决策树分析

直接分析数据太大,内存不够。
办法:从上述分析大致找出主要影响因素,然后按统计的实体比例,以少量数据进行训练决策树模型

决策树构思:
主要影响因素 价格 品牌 发货地 销量 季节 材质 尺寸 颜色
从上述分析中模拟数据 按比例来设置各属性的独热编码 以少量数据来尝试训练出模型
价格 0-300 300以上 (昂贵0 便宜1)
品牌 占比百分之5以上 为一类 以下为一类 1:1 (大牌0 小众1)
销量 高于品牌平均销量 一类 以下一类 1:1 (高0 低1)
发货地 广东 浙江 福建 江苏 北京 上海 一类 其他一类 1:1 (沿海0 内陆1)
尺寸 M-3XL一类 其他一类 1:1 (正常0 偏大/小1)
颜色 黑白灰 一类 其他一类 1:1 (黑白灰0 其他1)

训练结果:
{‘价格’: {‘昂贵’: {‘销量’: {‘低’: ‘不买’, ‘高’: {‘品牌’: {‘大牌’: ‘买’, ‘小众’: {‘尺寸’: {‘偏大/小’: ‘买’, ‘正常’: ‘不买’}}}}}}, ‘便宜’: {‘品牌’: {‘大牌’: ‘买’, ‘小众’: {‘销量’: {‘低’: ‘不买’, ‘高’: ‘买’}}}}}}

Graphviz决策树可视化:

根据输出手写决策树模型如下:

京东服装数据分析及决策树建立相关推荐

  1. 数据分析算法-决策树(上)-课堂学习笔记

    数据分析之决策树 决策树的工作原理 决策树基本上就是把我们以前的经验总结起来,我给你准备一个打篮球的训练集.如果我们要出门打篮球,一般会根据'天气'.'温度'.'湿度'.'刮风'这几个条件来判断,最后 ...

  2. python商品数据分析可视化系统(带爬虫)京东销售数据分析 计算机毕业设计 源码下载

    python商品数据分析可视化系统(带爬虫)京东销售数据分析 一.开发技术 pycharm.MySQL数据库/sqlite3数据库.Python3.x版本.Django框架 二.功能 用户注册.登录. ...

  3. 女性服装数据分析(电商数据)版本1

    女性服装数据分析(电商数据)版本1 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seab ...

  4. 数据分析算法-决策树(下)-课堂学习笔记

    数据分析之决策树(下) CART算法 cart只支持二叉树,由于cart的特殊性,cart既可以作为分类树也可以作为回归树 cart和c4.5算法类似,只是属性选择的指标采用的是基尼系数. 基尼系数的 ...

  5. 京东:数据分析-笔记

    1.在软件开发过程中,我们可以采用不同的过程模型,下列有关增量模型描述正确的() 正确答案: B 你的答案: 空 (错误) 已使用一种线性开发模型,具有不可回溯性 把待开发的软件系统模块化,将每个模块 ...

  6. 【Python】京东消费行为数据分析可视化实战案例

    ©️数据STUDIO投稿 · 作者|理智 一.背景 京东JD.COM-专业综合网上购物商城,销售超数万品牌,4020万种商品,囊括家电.手机.电脑.服装.居家.健康.母婴.美妆.个护.食品.旅游等品类 ...

  7. 京东消费行为数据分析可视化实战案例

    一.背景 京东JD.COM-专业综合网上购物商城,销售超数万品牌,4020万种商品,囊括家电.手机.电脑.服装.居家.健康.母婴.美妆.个护.食品.旅游等品类. 数据时间是从2018年2月1日到4月1 ...

  8. python 京东_Python数据分析-京东订单数据分析实战

    本次数据来源于京东,类目为大家电-家用电器-冰箱,抽取2020年5月25日10%数据,数据量为 70k+,在 jupyer notebook 内进行分析. 数据文件: 链接:迅雷云盘:提取码:ezQq ...

  9. 京东金融上线人工智能解决方案“京东超脑”,重庆市建立国际大数据产业学院 | 大数据24小时

    京东金融上线人工智能解决方案"京东超脑":高德地图与德尔福就大数据.智能驾驶能达成战略合作:专注为中小企业提供贷款服务,金融科技公司Lendingkart获2500万美元融资--以 ...

最新文章

  1. c++如何打印一维数组首地址_C语言之二维数组和指针的结合
  2. nginx 上传文件漏洞_文件上传及解析漏洞
  3. 2015年《大数据》高被引论文Top10文章No.3——我国政府数据开放现状和保障机制...
  4. MinIO Azure 网关 ​​​​​​​
  5. 例子---JS实现钟表
  6. 音视频开发(10)---nginx-rtmp视频流服务器搭建
  7. 5G(4)---5G 标准
  8. 51单片机冒泡排序_51单片机片外冒泡排序
  9. android phone win10下载,微软Your Phone新功能: 可在Win 10 PC 上运行 Android 应用程序...
  10. 安装SVN及安装语言包
  11. matlab信号经过瑞利,Matlab关于 BPSK信号通过瑞利信道的误码性能分析的仿真实验....
  12. MATLAB寻找数据最大值
  13. 百度谷歌淘宝自定义搜索乱码问题的解决
  14. 汇编语言使用GPIO模拟IIC通信
  15. C语言内部强化培训视频教程
  16. 下载Synechococcus elongatus UTEX 2973(accession no.为GCA_000817325.1 )的基因组注释文件,统计其中染色体序列(CP006471.1)前10
  17. php开源小程序直播,微信小程序直播
  18. 北京理工大学 计算机考研真题,北京理工大学考研真题汇总
  19. Unity3D学习之路Homework4—— 飞碟射击游戏
  20. 基频分析方法汇总【笔记】

热门文章

  1. H5实现简单个人信息编辑页面的制作
  2. html如何设置方正仿宋,怎么在WPS中添加方正仿宋简体?
  3. 虚幻4地形怎么增加层_软件小学堂 | 咻~快接好这份Rhino地形建模教程!
  4. 人件札记:我们不做办公室警察
  5. ES启动报错:Caused by: java.lang.IllegalArgumentException: can‘t add node {es2}
  6. 软件设计中的一些技术积累
  7. 译言:每天狂赚10000美元是这样炼成的!(转载)
  8. 数组指针之茴香豆有几种写法
  9. 重点国有林区林业局87个林业局名录
  10. CoolReaper --酷派手机后门