CelebA数据集介绍以及预处理代码
目录
- 数据地址:
- 文件类别:
- Anno文件夹
- Eval文件夹
- img文件夹
- 数据处理及详细代码
数据地址:
官网地址:http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
文件类别:
我是从官网的百度云连接里下载的,下载之后一共四个文件
下面我们一 一看过文件内容
Anno文件夹
第一个文件夹Anno,存放的是各类标签
比如第一个identity_CelebA.txt是图片与 所对应的身份id
list_bbox标签,是人脸标注框坐标注释文件,包含每一张图片对应的bbox起点坐标及其宽高
list_landmarks_align_celeba.txt则是对应人脸对齐后 的landmark坐标
Eval文件夹
这里是将数据集分成了三部分
train(标0的部分)
valid(标1的部分)
test(标2的部分)
img文件夹
文件包括这三部分
img_align_celeba 是裁剪过的并以.jpg结尾的图片,占内存较小
img_align_celeba_png.7z
img_celeba.7z是未经裁剪的图片,故称野生照片
数据处理及详细代码
- 因为我这里需要将每个人的图片放到对应的id文件下,所以我需要通过代码进行预处理,下面就直接贴代码了,以及效果图
# -*- coding: utf-8 -*-
# !/usr/bin/env python3'''
Divide face accordance CelebA Id type.
'''import shutil
import osoutput_path_train = r"C:\Users\rugu\Desktop\train"
output_path_valid = r"C:\Users\rugu\Desktop\valid"
output_path_test = r"C:\Users\rugu\Desktop\test"
image_path = r"C:\Users\rugu\Desktop\img_align_celeba" #原始图片文件夹的路径
CelebA_Id_file = r"C:\Users\rugu\Desktop\identity_CelebA.txt" #identity_CelebA.txt文件的路径def main():count_N = 0with open(CelebA_Id_file, "r") as Id_file:Id_info = Id_file.readlines()for line in Id_info:count_N += 1 #计数info = line.split()filename = info[0]file_Id = info[1]Id_dir_train = os.path.join(output_path_train,file_Id)Id_dir_valid = os.path.join(output_path_valid, file_Id)Id_dir_test = os.path.join(output_path_test, file_Id)filepath_old = os.path.join(image_path,filename) #原始照片所在的位置if count_N<=170000: #这里170000是我随便写的一个数字,具体可以去文件中查看,大该16万多,不影响if not os.path.isdir(Id_dir_train):os.makedirs(Id_dir_train)else:passtrain = os.path.join(Id_dir_train,filename)shutil.copyfile(filepath_old,train) #这句代码是复制的意思elif count_N>170000 and count_N<182636: #在这区间的都是validif not os.path.isdir(Id_dir_valid):os.makedirs(Id_dir_valid)else:passvalid = os.path.join(Id_dir_valid, filename)shutil.copyfile(filepath_old, valid)else : #这里的是testif not os.path.isdir(Id_dir_test):os.makedirs(Id_dir_test)else:passtest = os.path.join(Id_dir_test, filename)shutil.copyfile(filepath_old, test)Id_file.close()print(" have %d images!" % count_N)if __name__ == "__main__":main()
我只用了12张,为写这个博客做个测试
桌面也生成了相应的文件 这里数字代表标签
CelebA数据集介绍以及预处理代码相关推荐
- Market1501数据集介绍及相关代码
Market1501数据集介绍及相关代码 1.数据集介绍 文件夹介绍 bounding_box_test:测试集,gallery bounding_box_train:训练集 query:prob g ...
- ACE2005数据集介绍、预处理及事件抽取
ACE2005数据集介绍.预处理及事件抽取 参考链接:https://www.jianshu.com/p/71ed0d780210(感谢作者鲜芋牛奶西米爱solo,这篇博客介绍的非常详细) https ...
- NLP-阅读理解:数据集介绍及预处理【SQuAD、DuReader】
一.SQuAD数据集 二.DuReader数据集 1.DuReader数据集介绍 DuReader,从名字(Du和Reader)就可以看出来,是百度整理出来的阅读理解数据集. DuRader数据集由一 ...
- NLP-文本摘要:数据集介绍及预处理【CNN/DM(偏抽取式)、NYT Annotated Corpus(偏抽取式)、Newsroom(抽取式+生成式)、XSum(抽取式/BBC)、XL-Sum】
一.CNN/DailyMail数据集 论文<Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond&g ...
- 利用celebA数据集训练MTCNN网络
利用celebA数据集训练MTCNN网络 celebA数据集简介 训练数据的处理 网络和训练 侦测部分 结果展示 有问题可以联系我的邮箱:2487429219@qq.com 关于MTCNN网络可以看我 ...
- 【神经网络与深度学习】CIFAR10数据集介绍,并使用卷积神经网络训练图像分类模型——[附完整训练代码]
[神经网络与深度学习]CIFAR-10数据集介绍,并使用卷积神经网络训练模型--[附完整代码] 一.CIFAR-10数据集介绍 1.1 CIFAR-10数据集的内容 1.2 CIFAR-10数据集的结 ...
- 中文文本纠错(CSC)任务Benchmark数据集SIGHAN介绍与预处理
文章目录 1. SIGHAN数据集简介 2. SIGHAN数据集文件内容 3. 数据集预处理 3.1 训练集预处理 3.2 测试集预处理 4. 测试集验证工具 5. 预处理好的数据集 6. Wang2 ...
- celeba数据集_人脸识别常用数据集介绍(附下载链接)及常用评估指标
为什么要聊到数据集这个话题..因为数据集的noise对训练效果的影响很大!很长一段时间MegaFace的效果都上不去,就是因为数据集噪声的原因.而且自己在训练人脸的时候,如果不对数据集的噪声和属性有一 ...
- python数据处理实例-Python----数据预处理代码实例
本文实例为大家分享了Python数据预处理的具体代码,供大家参考,具体内容如下 1.导入标准库 import numpy as np import matplotlib.pyplot as plt i ...
最新文章
- 《深入理解计算机系统》第十章——系统级I/0
- 人工智能的大统一理论? | 智源大会-「人工智能的数理基础」专题论坛
- DELPHI replace into 语句的语法错误 解决方法
- 一幅画十六芒星盾---程序员or艺术家
- 【Python】青少年蓝桥杯_每日一题_4.03_求偶数
- 再学 GDI+[79]: 区域(8) - Transform - 区域的 Matrix 变换
- (转)Spring Boot(二十):使用 spring-boot-admin 对 Spring Boot 服务进行监控
- 【点阵液晶编程连载一】写在前面
- 【校招面试 之 C/C++】第33题 C++ 11新特性(四)之STL容器
- 小程序入门学习11--云开发04
- 头文件和实现文件的关系
- java功能模块_Java 13功能
- 数据库--MyBatis的(insert,update,delete)三种批量操作
- 大学往事 第五章 计算机班的女生
- 三峡大学计算机与信息学院王,周欢,三峡大学 计算机与信息学院
- 安装office提示Office 16 Click-to-Run Extensibility Component
- springboot+ssm+jsp大学生社团活动报名管理系统java
- RK3188 5.1平台PCM2708 USB声卡调试
- 做外贸找国外采购商的七个新方法
- HashMap 扩容阈值为什么是0.75
热门文章
- 软件测试工程师真实经历,一个软件测试工程师的加班经历
- JavaScript字符串两边去空格
- appserv2.5.9 php版本,AppServ2.5.9官方下载
- 雅克比矩阵行列式——单纯的矩阵和算子
- 二层非网管全百兆工业级交换机DIN导轨式宽温防雷室外监控交换机 五口百兆工业级以太网交换机
- 论文中复制的英文字符间隔过大的原因(已解决,亲测有效)
- 使您的软件运行起来: 了解有关缓冲区溢出方面的基础知识
- 为了能入职互联网大厂,我有多拼命
- 计算机领域7位入围院士增选!沈向洋、王海峰候选中国工程院院士!
- IC入职新同学必备技能手册①