比赛官网地址

赛题介绍

petfinder是马来西亚领先的动物福利平台宠物网站地址

  • 该网站使用可爱指数来排名宠物照片。它分析了图片组成和其他因素,并与数千个宠物档案的表现进行了比较。

在这场比赛中,你将分析原始图像和元数据来预测宠物照片的“Pawpularity”。你将在PetFinder数据上训练和测试你的模型。

数据集介绍

在这场比赛中,你的任务是根据宠物的个人资料的照片预测该宠物的受欢迎程度。您还为每张照片提供了手工标记的元数据。因此,本次比赛的数据集包括图像和表格数据

  • 训练数据
    train/ -包含训练集照片的文件夹,格式为{id}.jpg,其中{id}是唯一的宠物档案id。
    train.csv -训练集中每张照片的元数据以及目标(label),即照片的Pawpularity得分。Id列给出了照片的唯一Pet Profile Id,对应于照片的文件名。
  • 测试数据
    test/ -
    包含随机生成的图像的文件夹,其格式类似于训练集照片。实际测试数据包括约6800张与训练集照片相似的宠物照片。
    test.csv -随机生成的元数据,类似于训练集元数据。
    sample_submission.csv -正确格式的示例提交文件。
    图像的信息的csv数据
    train.csv和test.csv文件分别包含训练集和测试集中照片的元数据。每张宠物照片都为以下每个特征标记了1(是)或0(否)的值:

train.csv. or test.csv

  • id 每个宠物对应的图片ID
  • Subject Focus 宠物在整洁的背景中脱颖而出,不会太近/太远。
  • Eyes 双眼朝向前方或近前方,至少有一只眼睛/瞳孔清晰。
  • Face 相当清晰的脸,面向前方或近前方。
  • Near 单个宠物占据了照片的很大一部分(大约超过照片宽度或高度的50%)。
  • Action 宠物在动作中(例如,跳跃)。
  • Accessory 伴随的实物或数字配件/道具(即玩具、数字贴纸),不包括项圈和皮带。
  • Group 照片中有多于1只宠物。
  • Collage 数码修饰的照片(即与数码相框,多张照片的组合)。
  • Human 照片中的人类。
    Occlusion 特定的不受欢迎的物体挡住了宠物的一部分(即人,笼子或栅栏)。注意,并不是所有的阻塞对象都被认为是闭塞的。
  • Info-自定义添加的文本或标签(即宠物名,描述)。
  • Blur-明显的失焦或嘈杂,特别是宠物的眼睛和脸。对于Blur条目,“Eyes”列总是设置为0。
  • Pawpularity. 比赛的teaget 宠物的受欢迎程度

数据分析

import sys
sys.path.append('../input/timm-pytorch-image-models/pytorch-image-models-master')
from timm import create_model
from fastai.vision.all import *
set_seed(999, reproducible=True)

生成图像的路径

train_df['path'] = train_df['Id'].map(lambda x:str(dataset_path/'train'/x)+'.jpg')
train_df = train_df.drop(columns=['Id'])
train_df = train_df.sample(frac=1).reset_index(drop=True) #shuffle dataframe
train_df.head()

  • 查看训练集的图像数量
len_df = len(train_df)
print(f"There are {len_df} images")

  • 统计标签的分布情况
train_df['Pawpularity'].hist(figsize = (10, 5))
print(f"The mean Pawpularity score is {train_df['Pawpularity'].mean()}")
print(f"The median Pawpularity score is {train_df['Pawpularity'].median()}")
print(f"The standard deviation of the Pawpularity score is {train_df['Pawpularity'].std()}")

  • 统计标签的数量
print(f"There are {len(train_df['Pawpularity'].unique())} unique values of Pawpularity score")

标签总共有100个,于是后面模型训练的时候可以考虑归一化,然后转换为回归问题

  • 标签归一化
train_df['norm_score'] = train_df['Pawpularity']/100
train_df['norm_score']

  • 查看图片大小
im = Image.open(train_df['path'][1])
width, height = im.size
print(width,height)##960,960
  • 修狗图片
im

kaggle竞赛 宠物受欢迎程度baseline方案代码与解析

尽快更新本场比赛第一名的方案分析与代码解析

kaggle竞赛-宠物受欢迎程度(赛题讲解与数据分析)相关推荐

  1. 智能车竞赛,AI视觉组赛题浅析

    逐飞科技 2021-01-07 Thursday ▌01 前言   各位车友好, 第十六届全国大学生智能车竞赛竞速组规则 发布后,大家已经注意到由恩智浦赞助的 AI视觉组 是最具有综合性的一个组,感谢 ...

  2. 自然语言处理NLP星空智能对话机器人系列:NLP on Transformers 101 第16章:Kaggle BERT比赛CommonLit Readability Prize赛题解析

    自然语言处理NLP星空智能对话机器人系列:NLP on Transformers 101 第16章:Kaggle BERT比赛CommonLit Readability Prize赛题解析 第16章: ...

  3. 官方发布!CCIR Cup 赛程过半,赛题讲解新鲜出炉!

    由中国移动技术能力评测中心组织的2022科大讯飞-全国信息检索挑战杯(CCIR Cup),赛程目前已经过半了~ 通过对赛题"基于金融财报中的混合表格与文本数据的问答"参赛者的调研, ...

  4. 第五届“泰迪杯“技能赛赛题讲解直播来啦

    会议号:753-221-814 第五届"泰迪杯"数据分析技能赛于2022年9月5日正式开始,至2022年11月13日结束,历时两个半月.技能赛共计有来自全国249所高校1603支队 ...

  5. 信息学计算机奥林匹克竞赛题,第35 届信息学奥林匹克竞赛(NOI 2018)二试赛题

    第35届信息学奥林匹克竞赛(NOI2018)由CCF主办.长沙市雅礼中学承办,于7月16日- 22日在湖南省长沙市雅礼洋湖实验中学举行.7月16日为报到日,7月22日为疏散日.来自31个省.市的新一代 ...

  6. 2021年安徽省大数据与人工智能应用竞赛 大数据-本科组赛题(省赛)

    第四部分:可视化(15分) 这是一份App用户消费行为数据,用来分析用户消费情况及品牌情况,可视化消费变化趋势. 1. 进行客户消费行为分析(按年龄段)(5分) 按照客户年龄段(age_group)分 ...

  7. 直播预告 | 鲲鹏众智计划openGauss项目赛题讲解

    阅读原文,了解鲲鹏众智计划openGauss项目. 本文分享自微信公众号 - openGauss(openGauss). 如有侵权,请联系 support@oschina.cn 删除. 本文参与&qu ...

  8. 【新书推荐】机器学习算法竞赛实战,Kaggle Grandmaster倾力打造,涵盖Kaggle、天池等赛题...

    关注公众号,发现CV技术之美 随着互联网时代的到来,以及计算机硬件性能的提升,人工智能在近几年可以说是得到了爆发式的增长.互联网时代带来了大量的信息,这些信息是名副其实的大数据.另外,性能极佳的硬件也 ...

  9. 数据竞赛专题 | 从赛题理解到竞赛入门基础

    为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP领域多位竞赛大咖,将从赛题理解.数据探索 ...

最新文章

  1. 毫米波雷达基本技术与应用
  2. poj3517(约瑟夫环问题)
  3. 驱动api_消费者驱动契约已死?
  4. java将数据流解析为字符串
  5. 实现两(三)列等高布局的方法
  6. Framework学习(三)之PMS、AMS、WMS
  7. axure8 事件改变样式_Axure RP 8 Beta更新介绍(三):部件样式
  8. TotalFinder for Mac(Finder增强工具)v1.14.1
  9. hashmap什么时候由链表转为红黑树
  10. 【元胞自动机】基于matlab激进策略元胞自动机三车道(不开放辅路,软件园不影响)交通流模型【含Matlab源码 1296期】
  11. 项目名字后面有带有中括号[XX-XX-XX]的解决方法
  12. Win10 卸载了某软件,右键还有该软件,如何删除呢?
  13. 安卓Camera屏幕竖屏适配
  14. 修改html文字大小,css如何调整字体大小?
  15. Android之Wifi使用
  16. 百度“算盘”logo引领国风来袭
  17. 使用Opencv2+Pyqt5实现人脸识别视频马赛克
  18. 【Python】多个文件夹合并到一个文件夹中
  19. Oracle Sqlplus显示不足问题
  20. 再谈异常处理try-catch-finally

热门文章

  1. 计组心得-计算机乘法原理
  2. mysql 周边x公里_mysql – 在“X”公里(或英里)内寻找城市
  3. 化工销售如何找客户 化工销售工作技巧
  4. WPF制作的小型笔记本-仿有道云笔记
  5. 数据库常见面试题目及答案,软件测试面试找工作必看
  6. python 贝叶斯分类器sklearn_Sklearn 中的朴素贝叶斯分类器
  7. Xilinx Vivado和SDK安装
  8. mouseenter、mouseleave与mouseover、mouseout的区别
  9. IDE-goland的安装与使用
  10. 领扣LintCode问题答案-44. 最小子数组