kaggle竞赛-宠物受欢迎程度(赛题讲解与数据分析)
比赛官网地址
赛题介绍
petfinder是马来西亚领先的动物福利平台宠物网站地址
- 该网站使用可爱指数来排名宠物照片。它分析了图片组成和其他因素,并与数千个宠物档案的表现进行了比较。
在这场比赛中,你将分析原始图像和元数据来预测宠物照片的“Pawpularity”。你将在PetFinder数据上训练和测试你的模型。
数据集介绍
在这场比赛中,你的任务是根据宠物的个人资料的照片预测该宠物的受欢迎程度。您还为每张照片提供了手工标记的元数据。因此,本次比赛的数据集包括图像和表格数据
- 训练数据
train/ -包含训练集照片的文件夹,格式为{id}.jpg,其中{id}是唯一的宠物档案id。
train.csv -训练集中每张照片的元数据以及目标(label),即照片的Pawpularity得分。Id列给出了照片的唯一Pet Profile Id,对应于照片的文件名。 - 测试数据
test/ -
包含随机生成的图像的文件夹,其格式类似于训练集照片。实际测试数据包括约6800张与训练集照片相似的宠物照片。
test.csv -随机生成的元数据,类似于训练集元数据。
sample_submission.csv -正确格式的示例提交文件。
图像的信息的csv数据
train.csv和test.csv文件分别包含训练集和测试集中照片的元数据。每张宠物照片都为以下每个特征标记了1(是)或0(否)的值:
train.csv. or test.csv
- id 每个宠物对应的图片ID
- Subject Focus 宠物在整洁的背景中脱颖而出,不会太近/太远。
- Eyes 双眼朝向前方或近前方,至少有一只眼睛/瞳孔清晰。
- Face 相当清晰的脸,面向前方或近前方。
- Near 单个宠物占据了照片的很大一部分(大约超过照片宽度或高度的50%)。
- Action 宠物在动作中(例如,跳跃)。
- Accessory 伴随的实物或数字配件/道具(即玩具、数字贴纸),不包括项圈和皮带。
- Group 照片中有多于1只宠物。
- Collage 数码修饰的照片(即与数码相框,多张照片的组合)。
- Human 照片中的人类。
Occlusion 特定的不受欢迎的物体挡住了宠物的一部分(即人,笼子或栅栏)。注意,并不是所有的阻塞对象都被认为是闭塞的。 - Info-自定义添加的文本或标签(即宠物名,描述)。
- Blur-明显的失焦或嘈杂,特别是宠物的眼睛和脸。对于Blur条目,“Eyes”列总是设置为0。
- Pawpularity. 比赛的teaget 宠物的受欢迎程度
数据分析
import sys
sys.path.append('../input/timm-pytorch-image-models/pytorch-image-models-master')
from timm import create_model
from fastai.vision.all import *
set_seed(999, reproducible=True)
生成图像的路径
train_df['path'] = train_df['Id'].map(lambda x:str(dataset_path/'train'/x)+'.jpg')
train_df = train_df.drop(columns=['Id'])
train_df = train_df.sample(frac=1).reset_index(drop=True) #shuffle dataframe
train_df.head()
- 查看训练集的图像数量
len_df = len(train_df)
print(f"There are {len_df} images")
- 统计标签的分布情况
train_df['Pawpularity'].hist(figsize = (10, 5))
print(f"The mean Pawpularity score is {train_df['Pawpularity'].mean()}")
print(f"The median Pawpularity score is {train_df['Pawpularity'].median()}")
print(f"The standard deviation of the Pawpularity score is {train_df['Pawpularity'].std()}")
- 统计标签的数量
print(f"There are {len(train_df['Pawpularity'].unique())} unique values of Pawpularity score")
标签总共有100个,于是后面模型训练的时候可以考虑归一化,然后转换为回归问题
- 标签归一化
train_df['norm_score'] = train_df['Pawpularity']/100
train_df['norm_score']
- 查看图片大小
im = Image.open(train_df['path'][1])
width, height = im.size
print(width,height)##960,960
- 修狗图片
im
kaggle竞赛 宠物受欢迎程度baseline方案代码与解析
尽快更新本场比赛第一名的方案分析与代码解析
kaggle竞赛-宠物受欢迎程度(赛题讲解与数据分析)相关推荐
- 智能车竞赛,AI视觉组赛题浅析
逐飞科技 2021-01-07 Thursday ▌01 前言 各位车友好, 第十六届全国大学生智能车竞赛竞速组规则 发布后,大家已经注意到由恩智浦赞助的 AI视觉组 是最具有综合性的一个组,感谢 ...
- 自然语言处理NLP星空智能对话机器人系列:NLP on Transformers 101 第16章:Kaggle BERT比赛CommonLit Readability Prize赛题解析
自然语言处理NLP星空智能对话机器人系列:NLP on Transformers 101 第16章:Kaggle BERT比赛CommonLit Readability Prize赛题解析 第16章: ...
- 官方发布!CCIR Cup 赛程过半,赛题讲解新鲜出炉!
由中国移动技术能力评测中心组织的2022科大讯飞-全国信息检索挑战杯(CCIR Cup),赛程目前已经过半了~ 通过对赛题"基于金融财报中的混合表格与文本数据的问答"参赛者的调研, ...
- 第五届“泰迪杯“技能赛赛题讲解直播来啦
会议号:753-221-814 第五届"泰迪杯"数据分析技能赛于2022年9月5日正式开始,至2022年11月13日结束,历时两个半月.技能赛共计有来自全国249所高校1603支队 ...
- 信息学计算机奥林匹克竞赛题,第35 届信息学奥林匹克竞赛(NOI 2018)二试赛题
第35届信息学奥林匹克竞赛(NOI2018)由CCF主办.长沙市雅礼中学承办,于7月16日- 22日在湖南省长沙市雅礼洋湖实验中学举行.7月16日为报到日,7月22日为疏散日.来自31个省.市的新一代 ...
- 2021年安徽省大数据与人工智能应用竞赛 大数据-本科组赛题(省赛)
第四部分:可视化(15分) 这是一份App用户消费行为数据,用来分析用户消费情况及品牌情况,可视化消费变化趋势. 1. 进行客户消费行为分析(按年龄段)(5分) 按照客户年龄段(age_group)分 ...
- 直播预告 | 鲲鹏众智计划openGauss项目赛题讲解
阅读原文,了解鲲鹏众智计划openGauss项目. 本文分享自微信公众号 - openGauss(openGauss). 如有侵权,请联系 support@oschina.cn 删除. 本文参与&qu ...
- 【新书推荐】机器学习算法竞赛实战,Kaggle Grandmaster倾力打造,涵盖Kaggle、天池等赛题...
关注公众号,发现CV技术之美 随着互联网时代的到来,以及计算机硬件性能的提升,人工智能在近几年可以说是得到了爆发式的增长.互联网时代带来了大量的信息,这些信息是名副其实的大数据.另外,性能极佳的硬件也 ...
- 数据竞赛专题 | 从赛题理解到竞赛入门基础
为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP领域多位竞赛大咖,将从赛题理解.数据探索 ...
最新文章
- 毫米波雷达基本技术与应用
- poj3517(约瑟夫环问题)
- 驱动api_消费者驱动契约已死?
- java将数据流解析为字符串
- 实现两(三)列等高布局的方法
- Framework学习(三)之PMS、AMS、WMS
- axure8 事件改变样式_Axure RP 8 Beta更新介绍(三):部件样式
- TotalFinder for Mac(Finder增强工具)v1.14.1
- hashmap什么时候由链表转为红黑树
- 【元胞自动机】基于matlab激进策略元胞自动机三车道(不开放辅路,软件园不影响)交通流模型【含Matlab源码 1296期】
- 项目名字后面有带有中括号[XX-XX-XX]的解决方法
- Win10 卸载了某软件,右键还有该软件,如何删除呢?
- 安卓Camera屏幕竖屏适配
- 修改html文字大小,css如何调整字体大小?
- Android之Wifi使用
- 百度“算盘”logo引领国风来袭
- 使用Opencv2+Pyqt5实现人脸识别视频马赛克
- 【Python】多个文件夹合并到一个文件夹中
- Oracle Sqlplus显示不足问题
- 再谈异常处理try-catch-finally
热门文章
- 计组心得-计算机乘法原理
- mysql 周边x公里_mysql – 在“X”公里(或英里)内寻找城市
- 化工销售如何找客户 化工销售工作技巧
- WPF制作的小型笔记本-仿有道云笔记
- 数据库常见面试题目及答案,软件测试面试找工作必看
- python 贝叶斯分类器sklearn_Sklearn 中的朴素贝叶斯分类器
- Xilinx Vivado和SDK安装
- mouseenter、mouseleave与mouseover、mouseout的区别
- IDE-goland的安装与使用
- 领扣LintCode问题答案-44. 最小子数组