背景

大数据可能过时了,所以这个延续5年的比赛也换了名字,但我还是习惯叫工业大数据。之前文章介绍过,我做了风力预测赛道但排不进排行榜。这里介绍一下队友在配件预测赛道的方案,方案很简单,不到50行代码,取得决赛29th的成绩。其实,我也做了一点,入手了一个LGB模型,但是效果一直没有超过全0,尴尬的放弃了。
任务是预测未来三个月的配件需求,评价指标类似MAPE,所以准确预测小目标才是关键。
代码地址:https://github.com/hongyingyue/Data-science-demos
方案

##第1个月

第1个月使用VAR模型。由于零件中有很多的销量非常稀疏,增加一个后处理,将48个月均销量小于1的零件销量直接调整为0。

import pandas as pd
import numpy as npfrom statsmodels.tsa.vector_ar.var_model import VAR
from sklearn.linear_model import LinearRegression
from statsmodels.tsa.deterministic import DeterministicProcess# VAR
v_model = VAR(ts_df)
v_model_fit = v_model.fit(3)
lag_order = v_model_fit.k_ar# forecast for the 1st month
y_fore1 = v_model_fit.forecast(ts_df.values[-lag_order:], 1)
y_fore1[y_fore1 < 0] = 0

第2/3个月

第2-3月使用线性回归模型,这里的特征是超出我预料的。只使用了月份还有月份的平方作为特征,直接用线性模型预测结果。

# LR model
y = ts_df.copy()# Create trend features
dp = DeterministicProcess(index=y.index,  # dates from the training dataconstant=True,  # the interceptorder=2,        # quadratic trenddrop=True,      # drop terms to avoid collinearity
)
X = dp.in_sample()  # features for the training data
X_fore = dp.out_of_sample(steps=3)X['mon']=X.index.month
X_fore.set_index([pd.to_datetime(['2020-7-1','2020-8-1','2020-9-1'])],inplace=True)
X_fore['mon']=X_fore.index.month# Fit trend model
model = LinearRegression(fit_intercept=False)
model.fit(X, y)y_fore_l = pd.DataFrame(model.predict(X_fore),index=X_fore.index,columns=y.columns,
)
y_fore_l[y_fore_l<0] = 0

以上就是吊打我方案的全部代码了,非常简单高效。数据量比较小,评价指标不是很合理,就要根据数据和指标多做些针对性的调整了,希望下一届能取的好成绩。
我是YueTan,谢谢关注。

第五届工业互联网大数据:配件需求29th方案与代码相关推荐

  1. 清华大学软件学院院长王建民:以数字基建为契机,加强工业互联网大数据软件建设...

    来源:中国电子报 作者:清华大学软件学院院长王建民 本文约3250字,建议阅读5分钟 工业互联网大数据软件基础设施建设对工业领域激活大数据资产.导入智能化技术具有重大基础支撑作用. 编者按:3月4日, ...

  2. “新基建”提速,工业互联网大数据发展迎新机遇

    云栖号资讯:[点击查看更多行业资讯] 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 近期,中央政治局密集召开会议研究新冠肺炎疫情防控工作,部署统筹做好疫情防控和经济社会发展工作, 5 ...

  3. 物联网、车联网、工业互联网大数据平台,为什么推荐使用TDengine?

    物联网.车联网.工业互联网大数据平台,为什么推荐使用TDengine? 大数据有很多处理工具,最流行的当属Hadoop系统.Hadoop生态包括HDFS, HBase, Hive, YARN, Sto ...

  4. 物联网、工业互联网大数据的特点

    物联网.工业互联网大数据的特点 随着数据通讯成本的急剧下降,以及各种传感技术和智能设备的出现,从手环.共享出行.智能电表.环境监测设备到电梯.数控机床.挖掘机.工业生产线等都在源源不断的产生海量的实时 ...

  5. KubeEdge在国家工业互联网大数据中心的架构设计与应用

    摘要:在18年的时候,工信部开展了一个叫国家创新发展工程,这个工程中提出了要建立一个国家工业大数据中心,中国移动在其中承担了边缘协同与数据采集相关功能的研发.本文将从该项目背景下面临的问题与挑战.技术 ...

  6. 深掘工业互联网大数据五大维度

    我国尚未形成统一的工业互联网大数据管理.服务和安全体系,工业互联网大数据资源存在孤立.分散.封闭等问题,数据价值未能得到有效利用,数据主权和数据安全面临重大威胁.当前,我国正在推进以国家工业互联网大数 ...

  7. 工业互联网大数据中心使用 KubeEdge 实践

    项目背景 2018年,工信部启动了国家创新发展工程,建设工业大数据中心.中国移动在该项目中承担了边缘协同和数据采集相关功能的研发. 要求和挑战 要求 从工厂收集生产和运行数据并将数据发送到云端 云中的 ...

  8. 试点来了!应急部发布《“工业互联网+危化安全生产”试点建设方案》

    近日,应急管理部办公厅关于印发<"工业互联网+危化安全生产"试点建设方案>的通知. 方案建设目标:坚持系统谋划.试点先行,打造一批应用场景.工业APP和工业机理模型,力 ...

  9. 互联网大数据在工业七大应用解析

    在工业企业中,生产线处于高速运行状态,工业设备产生.采集和处理的数据量远远大于企业计算机和人工生成的数据,其中大部分是数据类型中的非结构化数据,生产线的高速运行也需要更高的实时数据,因此,工业大数据所 ...

最新文章

  1. 拜托,面试别再问我时间复杂度了!!!
  2. 人工智能不再是未来,机器学习靠什么来实现?
  3. 只有ajax会跨域吗_ajax处理跨域有几种方式
  4. 查看用户登录时间以及命令历史
  5. Py中的类型注解【转载】
  6. P2495-[SDOI2011]消耗战【虚树,dp】
  7. 关于js的一些常用小知识点(持续更新)
  8. linux lsof 端口 字母,linux lsof/netstat查看进程和端口号相关命令:
  9. c语言程序设计职工信息管理系统,C语言程序设计-职工信息管理系统.doc
  10. C语言中callback回调函数,知识分享:C 语言函数指针之回调函数
  11. 【自制diy-U盘】经验分享
  12. 不会吧不会吧!不会还有人用破解版origin吧——免费使用OriginPro学习版方法
  13. 服务器上连接无线路由器,手把手教你怎么设置连接两个无线路由器上网
  14. 腾讯地图 周边 poi 搜索及参数配置
  15. 千古以來:卍佛一心)悟道真机(转载)
  16. GMT绘图geotiff转grd
  17. c语言中%p和0x%x,C语言中的%p和%x的区别
  18. R-ggplot2 标准中国地图制作
  19. Django框架简介-初级(简单留言板)
  20. 汇编语言乘法和除法指令

热门文章

  1. Linux常用命令----压缩解压命令
  2. ST3新建py2和py3的build system
  3. (转)Spring中Bean的命名问题(id和name区别)及ref和idref之间的区别
  4. javascript DOM(08-21)
  5. 一步一步学Silverlight 2系列(5):实现简单的拖放功能
  6. 如何使用SDK连接SBO?
  7. 修改数据表——添加约束(二十二)
  8. EasyUI-datagrid-自动合并单元格(转)
  9. linux学习笔记4:linux的任务调度,进程管理,mysql的安装和使用,ssh工具的使用,linux网络编程...
  10. 数据结构——维基百科