Font Classifier

字体分类器

Abstract  

Font style recognition is a very interesting and valuable thing. We often have such a confusion when we see a very favorite font style, but we do not know what this style is. At this time, we can only go online to look for information or seek help from others, and it is not certain whether we can find it in the end. But if we have a classifier that can recognize different font styles, everything will be different and it will tell you the answer you want.

摘要

字体样式识别是一件非常有趣和有价值的事情。我们经常会有这样的困惑:当我们看到一个非常喜欢的字体样式时但我们不知道这种样式是什么。此时,我们只能上网查找信息或寻求他人的帮助,不确定最终是否能找到它。但是,如果我们有一个能够识别不同字体样式的分类器,一切都会不同,它会告诉你你想要的答案。


字体风格分类数据集共享(中英混读)

Font Classifier

Abstract

1、Dataset

1.1 Introduce

1.2 Data preprocessing scheme

2、Evaluation (在EfficientnetV2模型上训练的效果)

2.1 Train Log

2. 2 Test Log

3、数据获取方式


1、Dataset

1.1 Introduce

The original dataset is in 3.47MB, which easily able to process on a personal computer.

原始数据集为3.47MB,可以在个人计算机上轻松处理。

The dataset is divided into three folders: train, test and val. It is a complete and qualified data set, which covers training set, test set and verification set. The three data sets are divided in the same way. They have ten directories, representing ten different font styles. These different font styles are the same language. In the training set, the data sets of ten font styles have nearly the same number. This is very beneficial for training the deep learning model.

数据集分为三个文件夹:train、test和val。它是一个完整的合格数据集,包括培训集、测试集和验证集。这三个数据集以相同的方式划分。它们有十个目录,代表十种不同的字体样式。这些不同的字体样式是相同的语言。在训练集中,十种字体样式的数据集具有几乎相同的数量。这对于训练深度学习模型非常有益。

Subdirectory

子目录

Subdirectories of subdirectories

子目录的子目录

Take samples of ten different styles of fonts to simply understand them:

选取十种不同风格的字体样本,简单地理解它们:

It has to be mentioned that we had a great time using this dataset.

必须提到的是,我们在使用这个数据集时玩得很开心。

        1.2 Data preprocessing scheme

         1.2 数据预处理方案

For the original data set, we consider the following scheme to preprocess the data in order to enhance the data and enable the model to learn more features.

对于原始数据集,我们考虑以下方案对数据进行预处理,以增强数据并使模型能够学习更多特征。

Our Schemes:

我们的方案:

Scheme I: Randomly enlarge and reduce the original data set.

方案一: 随机放大和缩小原始数据集。

Scheme 2: Crop the data set in the vertical direction. Considering the particularity of the data set, we have to crop it in the vertical direction, and strictly control not to divide the letters in words into two parts.

方案2:沿垂直方向裁剪数据集。考虑到数据集的特殊性,我们必须在垂直方向裁剪它,并严格控制不将单词中的字母分成两部分。

Scheme 3: We can translate the fonts in the image data up and left. This method is very helpful for enhancing the dataset.

方案3:我们可以将图像数据中的字体向上和向左平移。这种方法对于增强数据集非常有用。

2、Evaluation 在EfficientnetV2模型上训练的效果

​​​​​​​        2.1 Train Log

​​​​​​​2. 2 Test Log

3、数据获取方式

提取码:b20s https://pan.baidu.com/s/11QuF0Tdh1c-5xd0U-RecSA%C2%A0祝您玩的开心~

字体风格分类数据集共享(中英混读)相关推荐

  1. 挑战赛 | MagicHub中英混语音识别挑战赛发布基线系统和开发训练集

    2022年8月12日起,由Magic Data.好未来.清华大学.中国科学院声学研究所主办联合主办的 "Magichub中英混ASR挑战赛" 自开展以来,已经收到三十多支国内外研究 ...

  2. 中英混串转拼音 源码

    /* 本程序只对GB2312编码有效 *//* 汉字读音分界点处的码值数组 */ static const unsigned short code_pin[] = {0xb0a1,0xb0a3,0xb ...

  3. 帮助文档_中英对照读ANSYS帮助文档,是怎么玩的?

    话说我之前写过两篇关于有限元软件的帮助文档怎么翻译成中文的推送.但是自那以后我又有了更好的方法.虽然在前面的文章里我也提过一次,但想想还是单独发出来安利一下比较好. 使用Chrome浏览器打开英文的帮 ...

  4. ansys workbench 帮助文档在哪_中英对照读ANSYS帮助文档,是怎么玩的?

    话说我之前写过两篇关于有限元软件的帮助文档怎么翻译成中文的推送.但是自那以后我又有了更好的方法.虽然在前面的文章里我也提过一次,但想想还是单独发出来安利一下比较好. 使用Chrome浏览器打开英文的帮 ...

  5. 对于中英混排ctex类中字体设置的说明 -- Latex

    一. 环境 Document Class: ctexbook 2019/05/29 v2.4.16 TexStudio + Texlive 2019 Win10 \documentclass[12pt ...

  6. EndNote20教程:中英混排问题解决方法(中文参考文献处理) 附最新版下载

    作为全球市场占有率最高的个人文献管理软件,EndNote虽然对中文文献及数据库极度不友好(至少我这样认为),但仍然不影响它在国内科研人员心中的地位,因为它对英文数据库及英文文献的支持是非常友好的. 个 ...

  7. endnote中英混排时“等“与“et al”的处理

    一.建立文献类型Chinese Article 依次打开「Edit」→「Preference」→「Reference Types」→「Modify Reference Types 」→「Unused ...

  8. 音乐风格分类 - 使用CNN或CRNN模型在GTZAN数据集上进行音乐风格分类任务。

    在音乐信息检索领域,音乐风格分类是一个重要的任务,它可以帮助我们更好地理解音乐,并提供更好的音乐推荐和分类服务.本篇博客将介绍如何使用卷积神经网络(CNN)和循环神经网络(CRNN)模型来在GTZAN ...

  9. 中英字体混和排版的图片获取流程

    中英字体混和排版的图片获取流程 中文期刊的横轴.纵轴的标签多为横轴–时间/s,纵轴–插值位置/rad,中文宋体.数字字母Times New Romen,因为一些bug导致中文字体在figure窗口显示 ...

最新文章

  1. 4 流程控制》4.5 比较for循环和while循环
  2. 已选商品数量总计如何实现_英国VAT新政临近,没有API如何添加或修改税率?教程来了!...
  3. 2021暑假实习-SSM超市积分管理系统-day09笔记
  4. bashrc,bash_profile和/etc/profile
  5. 现代软件工程 作业汇总
  6. php 监听 扫描枪,jquery监听扫码枪获得值
  7. cocoapods安装bug
  8. ~~试除法分解质因数(附模板题)
  9. js中字符串类型转化toString、parseInt、parseFloat、Number
  10. 理光打印机如何设置邮件服务器,技术员帮您win10系统网络共享理光打印机的设置方法的操作办法...
  11. 在Ubuntu 18.04上安装Jenkins
  12. hdu 1004(排序+统计)
  13. 能否构成三角形的条件代码_【论文】一行代码发一篇ICML?
  14. HTML:让img标签和input标签水平对齐一样高
  15. 【读书】如何阅读一本书
  16. Julia: 调用Python 库
  17. C语言学习——初始C语言
  18. 微信小程序视频开发教程
  19. html双人对战源码,双人对战五子棋游戏 综合运用HTML、CSS、JavaScript实现
  20. chrome浏览器主页被劫持为hao123

热门文章

  1. JavaScript 原型中的哲学思想 1
  2. Python 批量读取多个文件夹下的图片
  3. Java、JSP图书管理系统的设计与实现
  4. [个人疑问]为什么列表转集合后其长度的地址时变时不变?(未解决)
  5. 什么?小R免费送CSDN下载次数?
  6. 风控人千万不能错过的这种经典的策略规则组合
  7. MySQL 教程---菜鸟教程
  8. #芯片傻瓜使用宝典# 一文带你读懂DCP01xxxB系列的手册
  9. 史上最全免费下载文献网站汇总!来吧!展示!
  10. unityShader采样光照贴图