目录

  • 数据地址:
  • 文件类别:
    • Anno文件夹
    • Eval文件夹
    • img文件夹
  • 数据处理及详细代码

数据地址:

官网地址:http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

文件类别:

我是从官网的百度云连接里下载的,下载之后一共四个文件
下面我们一 一看过文件内容

Anno文件夹

第一个文件夹Anno,存放的是各类标签

比如第一个identity_CelebA.txt是图片与 所对应的身份id
list_bbox标签,是人脸标注框坐标注释文件,包含每一张图片对应的bbox起点坐标及其宽高
list_landmarks_align_celeba.txt则是对应人脸对齐后 的landmark坐标

Eval文件夹

这里是将数据集分成了三部分

train(标0的部分)
valid(标1的部分)
test(标2的部分)

img文件夹

文件包括这三部分

img_align_celeba 是裁剪过的并以.jpg结尾的图片,占内存较小
img_align_celeba_png.7z
img_celeba.7z是未经裁剪的图片,故称野生照片

数据处理及详细代码

  • 因为我这里需要将每个人的图片放到对应的id文件下,所以我需要通过代码进行预处理,下面就直接贴代码了,以及效果图
# -*- coding: utf-8 -*-
# !/usr/bin/env python3'''
Divide face accordance CelebA Id type.
'''import shutil
import osoutput_path_train = r"C:\Users\rugu\Desktop\train"
output_path_valid = r"C:\Users\rugu\Desktop\valid"
output_path_test = r"C:\Users\rugu\Desktop\test"
image_path = r"C:\Users\rugu\Desktop\img_align_celeba"  #原始图片文件夹的路径
CelebA_Id_file = r"C:\Users\rugu\Desktop\identity_CelebA.txt"  #identity_CelebA.txt文件的路径def main():count_N = 0with open(CelebA_Id_file, "r") as Id_file:Id_info = Id_file.readlines()for line in Id_info:count_N += 1   #计数info = line.split()filename = info[0]file_Id = info[1]Id_dir_train = os.path.join(output_path_train,file_Id)Id_dir_valid = os.path.join(output_path_valid, file_Id)Id_dir_test = os.path.join(output_path_test, file_Id)filepath_old = os.path.join(image_path,filename) #原始照片所在的位置if count_N<=170000:   #这里170000是我随便写的一个数字,具体可以去文件中查看,大该16万多,不影响if not os.path.isdir(Id_dir_train):os.makedirs(Id_dir_train)else:passtrain = os.path.join(Id_dir_train,filename)shutil.copyfile(filepath_old,train)        #这句代码是复制的意思elif count_N>170000 and count_N<182636: #在这区间的都是validif not os.path.isdir(Id_dir_valid):os.makedirs(Id_dir_valid)else:passvalid = os.path.join(Id_dir_valid, filename)shutil.copyfile(filepath_old, valid)else :                                     #这里的是testif not os.path.isdir(Id_dir_test):os.makedirs(Id_dir_test)else:passtest = os.path.join(Id_dir_test, filename)shutil.copyfile(filepath_old, test)Id_file.close()print(" have %d images!" % count_N)if __name__ == "__main__":main()

我只用了12张,为写这个博客做个测试

桌面也生成了相应的文件 这里数字代表标签

CelebA数据集介绍以及预处理代码相关推荐

  1. Market1501数据集介绍及相关代码

    Market1501数据集介绍及相关代码 1.数据集介绍 文件夹介绍 bounding_box_test:测试集,gallery bounding_box_train:训练集 query:prob g ...

  2. ACE2005数据集介绍、预处理及事件抽取

    ACE2005数据集介绍.预处理及事件抽取 参考链接:https://www.jianshu.com/p/71ed0d780210(感谢作者鲜芋牛奶西米爱solo,这篇博客介绍的非常详细) https ...

  3. NLP-阅读理解:数据集介绍及预处理【SQuAD、DuReader】

    一.SQuAD数据集 二.DuReader数据集 1.DuReader数据集介绍 DuReader,从名字(Du和Reader)就可以看出来,是百度整理出来的阅读理解数据集. DuRader数据集由一 ...

  4. NLP-文本摘要:数据集介绍及预处理【CNN/DM(偏抽取式)、NYT Annotated Corpus(偏抽取式)、Newsroom(抽取式+生成式)、XSum(抽取式/BBC)、XL-Sum】

    一.CNN/DailyMail数据集 论文<Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond&g ...

  5. 利用celebA数据集训练MTCNN网络

    利用celebA数据集训练MTCNN网络 celebA数据集简介 训练数据的处理 网络和训练 侦测部分 结果展示 有问题可以联系我的邮箱:2487429219@qq.com 关于MTCNN网络可以看我 ...

  6. 【神经网络与深度学习】CIFAR10数据集介绍,并使用卷积神经网络训练图像分类模型——[附完整训练代码]

    [神经网络与深度学习]CIFAR-10数据集介绍,并使用卷积神经网络训练模型--[附完整代码] 一.CIFAR-10数据集介绍 1.1 CIFAR-10数据集的内容 1.2 CIFAR-10数据集的结 ...

  7. 中文文本纠错(CSC)任务Benchmark数据集SIGHAN介绍与预处理

    文章目录 1. SIGHAN数据集简介 2. SIGHAN数据集文件内容 3. 数据集预处理 3.1 训练集预处理 3.2 测试集预处理 4. 测试集验证工具 5. 预处理好的数据集 6. Wang2 ...

  8. celeba数据集_人脸识别常用数据集介绍(附下载链接)及常用评估指标

    为什么要聊到数据集这个话题..因为数据集的noise对训练效果的影响很大!很长一段时间MegaFace的效果都上不去,就是因为数据集噪声的原因.而且自己在训练人脸的时候,如果不对数据集的噪声和属性有一 ...

  9. python数据处理实例-Python----数据预处理代码实例

    本文实例为大家分享了Python数据预处理的具体代码,供大家参考,具体内容如下 1.导入标准库 import numpy as np import matplotlib.pyplot as plt i ...

最新文章

  1. 《深入理解计算机系统》第十章——系统级I/0
  2. 人工智能的大统一理论? | 智源大会-「人工智能的数理基础」专题论坛
  3. DELPHI replace into 语句的语法错误 解决方法
  4. 一幅画十六芒星盾---程序员or艺术家
  5. 【Python】青少年蓝桥杯_每日一题_4.03_求偶数
  6. 再学 GDI+[79]: 区域(8) - Transform - 区域的 Matrix 变换
  7. (转)Spring Boot(二十):使用 spring-boot-admin 对 Spring Boot 服务进行监控
  8. 【点阵液晶编程连载一】写在前面
  9. 【校招面试 之 C/C++】第33题 C++ 11新特性(四)之STL容器
  10. 小程序入门学习11--云开发04
  11. 头文件和实现文件的关系
  12. java功能模块_Java 13功能
  13. 数据库--MyBatis的(insert,update,delete)三种批量操作
  14. 大学往事 第五章 计算机班的女生
  15. 三峡大学计算机与信息学院王,周欢,三峡大学 计算机与信息学院
  16. 安装office提示Office 16 Click-to-Run Extensibility Component
  17. springboot+ssm+jsp大学生社团活动报名管理系统java
  18. RK3188 5.1平台PCM2708 USB声卡调试
  19. 做外贸找国外采购商的七个新方法
  20. HashMap 扩容阈值为什么是0.75

热门文章

  1. 软件测试工程师真实经历,一个软件测试工程师的加班经历
  2. JavaScript字符串两边去空格
  3. appserv2.5.9 php版本,AppServ2.5.9官方下载
  4. 雅克比矩阵行列式——单纯的矩阵和算子
  5. 二层非网管全百兆工业级交换机DIN导轨式宽温防雷室外监控交换机 五口百兆工业级以太网交换机
  6. 论文中复制的英文字符间隔过大的原因(已解决,亲测有效)
  7. 使您的软件运行起来: 了解有关缓冲区溢出方面的基础知识
  8. 为了能入职互联网大厂,我有多拼命
  9. 计算机领域7位入围院士增选!沈向洋、王海峰候选中国工程院院士!
  10. IC入职新同学必备技能手册①