字体风格分类数据集共享(中英混读)
Font Classifier
字体分类器
Abstract
Font style recognition is a very interesting and valuable thing. We often have such a confusion when we see a very favorite font style, but we do not know what this style is. At this time, we can only go online to look for information or seek help from others, and it is not certain whether we can find it in the end. But if we have a classifier that can recognize different font styles, everything will be different and it will tell you the answer you want.
摘要
字体样式识别是一件非常有趣和有价值的事情。我们经常会有这样的困惑:当我们看到一个非常喜欢的字体样式时但我们不知道这种样式是什么。此时,我们只能上网查找信息或寻求他人的帮助,不确定最终是否能找到它。但是,如果我们有一个能够识别不同字体样式的分类器,一切都会不同,它会告诉你你想要的答案。
字体风格分类数据集共享(中英混读)
Font Classifier
Abstract
1、Dataset
1.1 Introduce
1.2 Data preprocessing scheme
2、Evaluation (在EfficientnetV2模型上训练的效果)
2.1 Train Log
2. 2 Test Log
3、数据获取方式
1、Dataset
1.1 Introduce
The original dataset is in 3.47MB, which easily able to process on a personal computer.
原始数据集为3.47MB,可以在个人计算机上轻松处理。
The dataset is divided into three folders: train, test and val. It is a complete and qualified data set, which covers training set, test set and verification set. The three data sets are divided in the same way. They have ten directories, representing ten different font styles. These different font styles are the same language. In the training set, the data sets of ten font styles have nearly the same number. This is very beneficial for training the deep learning model.
数据集分为三个文件夹:train、test和val。它是一个完整的合格数据集,包括培训集、测试集和验证集。这三个数据集以相同的方式划分。它们有十个目录,代表十种不同的字体样式。这些不同的字体样式是相同的语言。在训练集中,十种字体样式的数据集具有几乎相同的数量。这对于训练深度学习模型非常有益。
Subdirectory
子目录
Subdirectories of subdirectories
子目录的子目录
Take samples of ten different styles of fonts to simply understand them:
选取十种不同风格的字体样本,简单地理解它们:
It has to be mentioned that we had a great time using this dataset.
必须提到的是,我们在使用这个数据集时玩得很开心。
1.2 Data preprocessing scheme
1.2 数据预处理方案
For the original data set, we consider the following scheme to preprocess the data in order to enhance the data and enable the model to learn more features.
对于原始数据集,我们考虑以下方案对数据进行预处理,以增强数据并使模型能够学习更多特征。
Our Schemes:
我们的方案:
Scheme I: Randomly enlarge and reduce the original data set.
方案一: 随机放大和缩小原始数据集。
Scheme 2: Crop the data set in the vertical direction. Considering the particularity of the data set, we have to crop it in the vertical direction, and strictly control not to divide the letters in words into two parts.
方案2:沿垂直方向裁剪数据集。考虑到数据集的特殊性,我们必须在垂直方向裁剪它,并严格控制不将单词中的字母分成两部分。
Scheme 3: We can translate the fonts in the image data up and left. This method is very helpful for enhancing the dataset.
方案3:我们可以将图像数据中的字体向上和向左平移。这种方法对于增强数据集非常有用。
2、Evaluation (在EfficientnetV2模型上训练的效果)
2.1 Train Log
2. 2 Test Log
3、数据获取方式
提取码:b20s https://pan.baidu.com/s/11QuF0Tdh1c-5xd0U-RecSA%C2%A0祝您玩的开心~
字体风格分类数据集共享(中英混读)相关推荐
- 挑战赛 | MagicHub中英混语音识别挑战赛发布基线系统和开发训练集
2022年8月12日起,由Magic Data.好未来.清华大学.中国科学院声学研究所主办联合主办的 "Magichub中英混ASR挑战赛" 自开展以来,已经收到三十多支国内外研究 ...
- 中英混串转拼音 源码
/* 本程序只对GB2312编码有效 *//* 汉字读音分界点处的码值数组 */ static const unsigned short code_pin[] = {0xb0a1,0xb0a3,0xb ...
- 帮助文档_中英对照读ANSYS帮助文档,是怎么玩的?
话说我之前写过两篇关于有限元软件的帮助文档怎么翻译成中文的推送.但是自那以后我又有了更好的方法.虽然在前面的文章里我也提过一次,但想想还是单独发出来安利一下比较好. 使用Chrome浏览器打开英文的帮 ...
- ansys workbench 帮助文档在哪_中英对照读ANSYS帮助文档,是怎么玩的?
话说我之前写过两篇关于有限元软件的帮助文档怎么翻译成中文的推送.但是自那以后我又有了更好的方法.虽然在前面的文章里我也提过一次,但想想还是单独发出来安利一下比较好. 使用Chrome浏览器打开英文的帮 ...
- 对于中英混排ctex类中字体设置的说明 -- Latex
一. 环境 Document Class: ctexbook 2019/05/29 v2.4.16 TexStudio + Texlive 2019 Win10 \documentclass[12pt ...
- EndNote20教程:中英混排问题解决方法(中文参考文献处理) 附最新版下载
作为全球市场占有率最高的个人文献管理软件,EndNote虽然对中文文献及数据库极度不友好(至少我这样认为),但仍然不影响它在国内科研人员心中的地位,因为它对英文数据库及英文文献的支持是非常友好的. 个 ...
- endnote中英混排时“等“与“et al”的处理
一.建立文献类型Chinese Article 依次打开「Edit」→「Preference」→「Reference Types」→「Modify Reference Types 」→「Unused ...
- 音乐风格分类 - 使用CNN或CRNN模型在GTZAN数据集上进行音乐风格分类任务。
在音乐信息检索领域,音乐风格分类是一个重要的任务,它可以帮助我们更好地理解音乐,并提供更好的音乐推荐和分类服务.本篇博客将介绍如何使用卷积神经网络(CNN)和循环神经网络(CRNN)模型来在GTZAN ...
- 中英字体混和排版的图片获取流程
中英字体混和排版的图片获取流程 中文期刊的横轴.纵轴的标签多为横轴–时间/s,纵轴–插值位置/rad,中文宋体.数字字母Times New Romen,因为一些bug导致中文字体在figure窗口显示 ...
最新文章
- 4 流程控制》4.5 比较for循环和while循环
- 已选商品数量总计如何实现_英国VAT新政临近,没有API如何添加或修改税率?教程来了!...
- 2021暑假实习-SSM超市积分管理系统-day09笔记
- bashrc,bash_profile和/etc/profile
- 现代软件工程 作业汇总
- php 监听 扫描枪,jquery监听扫码枪获得值
- cocoapods安装bug
- ~~试除法分解质因数(附模板题)
- js中字符串类型转化toString、parseInt、parseFloat、Number
- 理光打印机如何设置邮件服务器,技术员帮您win10系统网络共享理光打印机的设置方法的操作办法...
- 在Ubuntu 18.04上安装Jenkins
- hdu 1004(排序+统计)
- 能否构成三角形的条件代码_【论文】一行代码发一篇ICML?
- HTML:让img标签和input标签水平对齐一样高
- 【读书】如何阅读一本书
- Julia: 调用Python 库
- C语言学习——初始C语言
- 微信小程序视频开发教程
- html双人对战源码,双人对战五子棋游戏 综合运用HTML、CSS、JavaScript实现
- chrome浏览器主页被劫持为hao123