2022微信大数据挑战赛优胜方案总结
每天给你送来NLP技术干货!
来自:炼丹笔记
赛题介绍
比赛名称:微信多模态短视频
比赛页面:https://algo.weixin.qq.com/
比赛类型:多模态分类
多模态短视频分类是视频理解领域的基础技术之一,在安全审核、推荐运营、内容搜索等领域有着十分非常广泛的应用。一条短视频中通常包含有三种模态信息,即文本、音频、视频,它们在不同语义层面的分类体系中发挥着相互促进和补充的重要作用。
本赛题要求参赛队伍基于微信视频号短视频数据以及对应的分类标签标注,采用合理的机器学习技术对指定的测试短视频进行分类预测。
赛题数据
比赛分为初赛和复赛两个阶段:
初赛阶段提供百万量级的无标注数据和十万量级的有标注数据用于训练;
复赛阶段训练数据和初赛相同,主要区别是初赛阶段只提供视频抽帧特征,而复赛阶段提供视频抽帧原始图像。
初赛阶段所有训练数据对参赛队伍开放下载;复赛阶段的训练数据为闭源数据,参赛队伍在腾讯云TI-ONE平台完成训练。
数据集
比赛提供的数据集有三个类别:无标注训练数据集、有标注训练数据集、测试数据集。各类数据集具体包含字段如下表所示。
字段 | 初赛 | 复赛 | ||||
---|---|---|---|---|---|---|
训练数据集 | 测试数据集 | 训练数据集 | 测试数据集 | |||
无标注 | 有标注 | 无标注 | 有标注 | |||
id | √ | √ | √ | √ | √ | √ |
category_id | × | √ | × | × | √ | × |
title | √ | √ | √ | √ | √ | √ |
frames_feature | √ | √ | √ | × | × | × |
frames | × | × | × | √ | √ | √ |
asr | √ | √ | √ | √ | √ | √ |
ocr | √ | √ | √ | √ | √ | √ |
评估标准
分类的评估指标采用F1,由于有多个类别,而且类别不均衡,所以同时采用F1 micro和F1 macro,取平均值。同时,分类体系包含一级分类和二级分类,在评测中会分别计算并取平均值。
优胜选手分享
苟进决赛
冲冲冲
抱朴子
机器不学习啦
Warriors
蜜度信息
2022微信大数据挑战赛复盘,rank60+菜鸟 说明 初赛 模型选择 trick implement details 复赛 模型选择 trick implement details 一些遗憾的地方 ... 目录 问题概述 baseline 改进-0 改进-1 改进-2 改进-3 改进-4 结果 参考 更新 问题概述 先来看看这冗长的赛题说明1 baseline 最早是参考麻婆豆腐AI2的baseline ... 2021微信大数据挑战赛-参赛总结 目录 2021微信大数据挑战赛-参赛总结 摘要 赛题任务 数据处理 特征工程 特征筛选 模型选择 赛题得分 参考链接 推荐阅读 写在最后 摘要 比赛网址:https ... 2019 BDC 比赛总结(图片完整版访问请访问github上的pdf文件) 图片完整版访问请访问github上的pdf文件!!!! 2019中国高校计算机大赛已正式结束.对于我个人而言,这是第一次进 ... 总结 模型 该方案是基于Deepfm的baseline模型,线上加权在0.661左右.未进行调参,未进行多折,若后续想提分,可以从模型方面进行着手调试. 特征工程 主要是通过基础id做的embeddi ... 引言 由于个人安排的原因,没有时间参加微信大数据挑战赛,倒是参加了2021年中国高校大数据挑战赛.这次比赛做的是中国电信提供数据集的A题,是一个异常检测的题目,一个人做的本科组二等奖,觉得还是不错的. ... 初赛 A:银行卡电信诈骗危险预测 一.问题背景: 数字支付正在发展,但网络犯罪也在发展.电信诈骗案件持续高发,消费者 受损比例持续走高.报告显示,64%的被调查者曾使用手机号码同时注册多个账户,包 ... 系列文章目录 第一章 [大数据竞赛]2022MathorCup大数据竞赛 B题 北京移动用户体验影响因素研究 题目分析 第二章[大数据竞赛]2022MathorCup大数据挑战赛 B题 北京移动用户体 ... 3月22日,永洪科技成功入选由德本咨询.eNet研究院.互联网周刊联合调研发布的"2022年大数据解决方案top50"排行榜.今年是永洪科技连续3次入选该榜单. 据了解," ... 文章目录 大赛 全称 地址 前言 一.任务目标与数据分析 1.数据集介绍 2.数据集说明 3.读取数据并命名列名 4.查看每个数据集的前五行 (1)注册日志 注册日志说明 (2)APP启动日志 APP ...2022微信大数据挑战赛优胜方案总结相关推荐
最新文章
热门文章