Web_Traffic_Part1赛题分析
Web_Traffic_Part1赛题分析
1 简介1.1 赛题细节
1.1.1 赛题背景
1.1.2 比赛规则
1.1.2.1 比赛时间
1.1.2.2 赛制规则
1.2 数据说明
1.2.1 详细数据
1.2.2 提交格式
1.2.3 评分指标
1.3 赛题难点 & 注意事项
1.3.1 赛题难点
1.3.2 注意事项
1.4 小结
1 简介
本篇文章我们对“Web Traffic Time Series Forecasting”赛题进行分析,本文是该比赛的第一部分,赛题解析,
在这一部分,我们会介绍该比赛的赛题背景,比赛的规则,包括时间、赛制规则、评测指标,数据的说明,提交的格式;然后我们会介绍此类问题所存在的难点以及经常需要注意的事项等;
在接下来的内容中,我们首先对本次赛题的内容进行回顾,包括本次比赛的应用场景,赛题的意义;比赛规则的内容(该比赛已经结束,此处我们为了文章的完整性还是选择将其加入)以及赛题中我们所能获得的数据;然后我们对此类问题中需要注意的细节以及对应的难点进行简要的分析与阐述。
1.1 赛题细节
1.1.1 赛题背景
本次赛题的重点是预测多个时间序列的未来值,这个问题一直是时间序列领域最具挑战性的问题之一。更具体地说,我们的目标是测试参赛者在预测大约145000篇维基百科文章的在未来的网络流量这个问题上所设计的方法的效果。
从生物数据、金融市场、天气预报到音频和视频处理,在许多关键的现实问题中都出现了顺序或时间观测。时间序列领域包含了许多不同的问题,从分析和推理到分类和预测。那么你能做些什么来帮助预测未来的结果?
这次比赛分为两个阶段并且将包括对未来实际事件的预测。在第一阶段,排行榜将基于历史数据进行打分,在第二个阶段,参赛者的提交结果将基于真实的未来事件进行评分。
您可以完全自由地生成预测:例如使用单变量和多变量模型、使用元数据(文章标识符)、分层时间序列建模(针对不同类型的流量)、数据扩充(例如使用Google趋势数据扩展数据集)、异常值检测和清理,不同的缺失值插补策略,以及更多其它类型的方法。
1.1.2 比赛规则
本次比赛的重要时间段信息如下:
1.1.2.1 比赛时间
2017 年 09 月 01日 比赛报名截止。您必须在此日期之前接受比赛规则才能参加比赛;
2017 年 09 月 01日 团队合并截止日期。这是参与者加入或合并团队的最后一天;
2017 年 09 月 01日 最终数据集发布。
2017 年 09 月 12日 最终提交截止日期
比赛获胜者将于2017年11月13日后公布。除非另有说明,否则所有截止日期均为相应日期的UTC时间晚上11:59。比赛组织者保留在认为必要时更新比赛时间表的权利。
1.1.2.2 赛制规则
本次比赛的参赛对象以及组队提交规则如下:
参赛对象
a.比赛对美国和世界各地的居民开放,除非您是克里米亚、古巴、伊朗、叙利亚、朝鲜、苏丹的居民,或者受到美国出口管制或制裁,否则您不得参加比赛。
组队和提交
a.团队成员人数无上限;
1.2 数据说明
赛题的数据可以通过点击下面的链接进行下载: 数据下载链接:https://www.kaggle.com/c/web-traffic-time-series-forecasting/data
训练数据集由约145k个时间序列组成。从2015年7月1日到2016年12月31日,每个时间序列代表不同维基百科文章的每日浏览次数。训练阶段的排行榜是基于2017年1月1日至2017年3月1日的流量。
第二阶段将使用截止到2017年9月1日的训练数据。比赛的最终排名将基于对数据集中每一篇文章在2017年9月13日至2017年11月13日期间每日浏览量的预测。您需要在9月12日之前提交这些日期的预测。
对于每个时间序列,都会提供文章的名称以及此时间序列表示的流量类型(全部、移动、桌面、蜘蛛)。您可以使用这些元数据和任何其他公开可用的数据进行预测。不幸的是,此数据集的数据源没有区分零流量值和缺失值。丢失的值可能意味着流量为零,或者数据当天不可获取。
为了减小提交文件的大小,每个页面和日期组合都给出了一个对应的短的ID。页面名称和提交ID之间的映射也都已经在关键文件中给出了。
1.2.1 详细数据
用于第一阶段的文件将以“_1”结尾。用于第二阶段的文件将以“_2”结尾。两者的格式相同。第二阶段的完整培训数据将在第二阶段之前提供。
train_*.csv
包含了流量数据。这是一个csv文件,其中每一行对应一篇特定的文章,每一列对应一个特定的日期。某些条目是缺失数据。页面名称包含维基百科项目(例如en.wikipedia.org)、访问类型(例如桌面)和代理类型(例如spider)。换言之,每一篇文章的名称都有以下格式:
“name_project_access_agent”(例如“akb48_zh.wikipedia.org_all-access_spider”)。
key_*.csv
提供用于预测的页名称和缩短的ID列之间的映射.
sample_submission_*.csv
正确格式的提交文件
1.2.2 提交格式
对于每个文章和日期组合(请参见key.csv),您必须预测Web流量。该文件应当包含一个标题,并具有以下格式:
1.2.3 评分指标
评测指标使用SMAPE对预测值和真实值之间进行评测,当实际值和预测值都为0时,我们定义SMAPE = 0.
SMAPE-对称平均绝对百分比误差(Symmetric Mean Absolute Percentage Error),它对应的公式如下:
关于SMAPE的详细信息可以参考wiki:
https://en.wikipedia.org/wiki/Symmetric_mean_absolute_percentage_error
1.3 赛题难点 & 注意事项
在这一部分我们对本次赛题中存在的难点进行分析并给出需要重点注意的事项。
1.3.1 赛题难点
该赛题和Corp比赛不一样,Corp比赛预测的时间段相对较短,给的数据信息也相对较多,而Web流量预测比赛的数据相对简单,同时预测的时间段也要长很多。此处 我们将本赛题的难点归结为如下四点:
如何对时间跨度大的问题进行建模,传统的基于LGB的方案是否仍然有效?
如何保证模型的泛化性,我们需要预测未来60+天每一天的流量,如何寻找合适的验证集做到线下和线上一致?
如何对145K的时间序列进行预测,因为这个量是非常大的,采用传统的Arima等方法可能需要非常长的时间.
如何处理噪音问题,此处我们将噪音划分为如下的情况:
4.1 训练集中的“噪音”,几乎在所有的时序类问题中,或多或少都会存在“噪音”,这些噪音会较大地影响我们的建模,此处我们将噪音细分为下面的三类噪音。
a.随机噪音,这类噪音是不可避免的,也是无法预测的;
4.2 测试集中的“噪音”,测试集中的噪音和训练集是类似的,本赛题中我们需要预测的测试集的范围相对有些大,有 60 多天,而且包含了一些特殊时间,这些可能会对预测带来一定的困难。
1.3.2 注意事项
评价指标问题
本赛题的指标SMAPE(Symmetric Mean Absolute Percentage Error) 和我们平时见到的很多回归的指标不一样,我们知道如果我们能直接优化问题的评估指标往往可以获得最优的效果, 能都找到SMAPE的近似函数或者直接求导得到其导数。
1.4 小结
在本篇文章中,我们对Web Traffic Time Series Forecasting比赛进行了基础的分析,包括赛题可能存在的问题,以及一些需要注意的事项等。再下一章节,我们将对这些数据进行进一步的分析,展开更加细致的数据探索。
公众号:AI蜗牛车
保持谦逊、保持自律、保持进步
Web_Traffic_Part1赛题分析相关推荐
- A5.2021年全国数学建模竞赛B题-赛题分析与评阅要点(乙醇偶合制备C4烯烃分析)
A5.2021年全国数学建模竞赛B题-赛题分析与评阅要点(乙醇偶合制备C4烯烃分析),本文转载竞赛赛题.评阅要点,进行赛题解读和分析. 评阅要点为竞赛组委会官方公布,完整体现了解题思路. 本文首发于 ...
- HDU6292 赛题分析【水题】
赛题分析 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 512000/512000 K (Java/Others) Total Submis ...
- 2020“数维杯”国际大学生数学建模竞赛赛题分析
2020"数维杯"国际大学生数学建模竞赛赛题分析 1.ABCD赛题分析 1.1A题翻译:中国螺纹钢需求预测 1.2B题翻译:股票价格的混沌模型 1.3C题翻译:城市道路最佳除雪方案 ...
- 数据分析模板一赛题分析(预测房屋租金)
总结一份属于自己的模板,不管三七二十一,拿来先套用.方便自己学习和记录. 拿到一份赛题数据,我们要赛题分析.就做以下2点. 认识数据 对比赛数据做EDA 1.认识数据 了解比赛的背景 你是做金融数据分 ...
- 第一次认真的二手车交易价格预测--赛题分析
二手车交易价格预测--赛题分析 数据比赛步骤 一. 赛题分析 1.1 学习目标 1.2 了解赛题 1.2.1 赛题概况 1.2.2 数据概况 train.csv 1.2.3 预测指标 一般问题评价指标 ...
- 新闻分类大赛赛题分析
@新闻分类大赛赛题分析 本文对天池新闻文本分类比赛进行赛题分析. 1 数据格式 训练集为csv格式文件,使用pandas读取前十行,结果如图. import pandas as pd train_df ...
- 【数据挖掘】 基于二手车交易价格预测-赛题分析
文章目录 1. 赛题背景 2. 赛题数据 字段表 3. 评测标准 4. 结果提交 5. 赛题分析 想要看更加舒服的排版.更加准时的推送 关注公众号"不太灵光的程序员" 干货推送,微 ...
- 2023年电赛国赛仪器仪表类赛题分析和预测
2023年电赛国赛仪器仪表类赛题分析和预测 前言: 2023年题目应当与往年差异不大,无非是仪器类.电源类.控制类.通信类等几大类.但近几年随着科学技术的发展,电赛也添加了许多的新元素,比如互联网+. ...
- A4.2021年全国数学建模竞赛A题-赛题分析与评阅要点(FAST主动反射面的形状调节)
Python小白的数学建模课-A4.2021年全国数学建模竞赛A题(FAST主动反射面的形状调节),本文转载竞赛赛题.评阅要点,进行赛题解读和分析. 评阅要点为竞赛组委会官方公布,完整体现了解题思路. ...
最新文章
- 理解吞吐量和停顿时间
- 2019ICPC(南京) - Holy Grail(最短路)
- 检测custom settype assign的UI view name
- 优秀的程序员是那种过单行线马路都要往两边看的人
- java 连接 sql2005,java与sql server2005 连接有关问题
- Elasticsearch 内置分析器Analyzer
- Hyper-v和VMware 兼容问题
- Smack 3.3.1 发布,Java 的 XMPP 开发包
- 语法转换_近5年高考(2019- 2015年)语法填空词性转换使用真题汇编
- JS:ES10新特性
- mysql 自动加上编号
- 基于词典的社交媒体内容的情感分析(Python实现)
- get方式乱码post方式不会乱码原因
- 同时调用函数和此函数的返回函数:func()()
- 通信尾纤常用尾纤简介
- ntsd.exe 附使用教程
- GIS实验之制作行政区划图
- 辉群 mysql支持,群辉下的nas各项共享设置——白羊座适用
- 物联网应用领域(全)
- AI编译器与TPU-MLIP