前几天想训练一个可以识别字符的模型,但是,苦于找不到训练材料,今天,做网站验证码时候发现了一个思路,写下来分享一下。

from captcha.image import ImageCaptcha
import random,string
import numpy as np
cq=0
str_1=""
#这里我修改了一下源码源码width为160
while cq<10:cq+=1chr_all = string.ascii_letters + string.digits#生成验证码的个数chr_4 = ''.join(random.sample(chr_all, 1))image = ImageCaptcha().generate_image(chr_4)#对图片进行降噪处理from PIL import Image#获取图片对象#转换为灰度图片imgGray = image.convert('L')#查看图片#imgGray.show()#设置阈值threshold = 200#加载像素点pixdata = imgGray.load()#获取图片的宽高width, height = imgGray.sizefor y in range(height):for x in range(width):if pixdata[x, y] < threshold:pixdata[x, y] = 0else:pixdata[x, y] = 255binImg  = imgGraya=0while a<=15:a+=1pixdata = binImg.load()width, height = binImg.sizefor y in range(1, height- 1):for x in range(1, width- 1):count = 0if pixdata[x, y - 1] > 245:count = count + 1if pixdata[x, y + 1] > 245:count = count + 1if pixdata[x - 1, y] > 245:count = count + 1if pixdata[x + 1, y] > 245:count = count + 1if pixdata[x - 1, y - 1] > 245:count = count + 1if pixdata[x - 1, y + 1] > 245:count = count + 1if pixdata[x + 1, y - 1] > 245:count = count + 1if pixdata[x + 1, y + 1] > 245:count = count + 1if count > 4:pixdata[x, y] = 255nrImg = binImgc=np.array(nrImg)strs=""for arr in c:strs =strs+ ','.join(str(i) for i in arr)+","#print(strs,len(strs))str_1=str_1+chr_4+","+strs+"\n"with open("train_test_letter_exam.csv","w") as f:f.write(str_1)

生成的图片如下:

本文是将这些图片转换为csv形式储存下来。

一个字符训练材料生成的小文件相关推荐

  1. HIVE 生成过多小文件的问题

    HIVE 生成大量小文件 小文件的危害 为什么会生成多个小文件 不同的数据加载方式生成文件的区别 解决小文件过多的问题 今天运维人员突然发来了告警,有一张表生成的小文件太多,很疑惑,然后排查记录了下 ...

  2. XPath2Doc,一个半自动采集网页生成Word Docx文件的工具,带企查查和天眼查模板...

    原始出处:https://www.cnblogs.com/Charltsing/p/XPath2Doc.html 很多人需要从网站采集一些数据填写Word模板,手工操作费时费力还容易出错,所以我给朋友 ...

  3. 根据一个大图片自动生成相应小图片的代码

    我的一个项目中用的 using System; using System.IO; using System.Drawing; namespace Compoment {     /**//// < ...

  4. 代达罗斯之殇-大数据领域小文件问题解决攻略

    : 点击上方蓝色字体,选择"设为星标" 回复"资源"获取更多惊喜 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 大数据真好玩 点击右侧关注,大数据 ...

  5. HDFS小文件治理总结

    目录 背景 第一部分 回本溯源 第二部分 HDFS大量小文件的危害 第三部分 小文件治理方案总结 第四部分 总结 参考文献及资料 背景 企业级Hadoop大数据平台在实际使用过程中,可能大部分会遭遇小 ...

  6. hive小文件过多问题解决

    起因 数据中台当前有一张流水类表,存在3200个分区,230w个数据文件,150亿条数据,导致该表查询起来及其麻烦,更令人糟心的是,业务人员不懂查询方式,经常有人使用select *的方式查询该表,导 ...

  7. HihoCode1721删除一个字符之后是回文字符串

    #1721 : 回文字符串2 Time Limit:10000ms Case Time Limit:1000ms Memory Limit:256MB Description 愚人节那天,小Ho在小H ...

  8. 压缩包分卷变成php,利用winzip生成的压缩文件其扩展为

    ZIP文件格式是一种数据压缩和文档储存的文件格式,原名Deflate,发明者为菲尔·卡茨(Phil Katz),他于1989年1月公布了该格式的资料. ZIP通常使用后缀名".zip&quo ...

  9. Spark-HDFS 删除空文件 合并小文件

    一.引言 hive 执行任务后目录下生成过多小文件,过多的小文件会占用 namenode 的内存,对于 HDFS 非常不友好,所以可以通过删除空文件或者合并小文件的方法进行优化. 二.删除空文件 可以 ...

最新文章

  1. 最新(2019/3)CSDN博客Markdown编辑格式说明,包含效果图
  2. (转)利用CAS算法实现通用线程安全状态机
  3. php微信支付分取消订单,微信支付PHP开发教程五关闭订单
  4. Direct2D (2) : 基本图形命令测试
  5. java incompatible types: int cannot be converted to java.lang.Long
  6. 模拟文字接龙,班里一天几个接龙真的烦死啦(仅供娱乐)
  7. SpringBoot项目集成Mybatis Plus(五)条件构造器
  8. python中的列表和元组_浅析Python中的列表和元组
  9. 删除mysql临时文件_mysql自动备份数据库与自动删除临时文件
  10. Python学习——复习5次课(12月2日)
  11. Prescan(七):prescan中air传感器的配置
  12. 获CNNVD感谢信!知道创宇以专业漏洞研究能力支撑“漏洞通报”业务
  13. java gui 数独_数独-GUI开发
  14. mac免安装mysql配置_mysql免安装版配置使用
  15. 如何用photoshop调出梦幻冷色调
  16. 有没有开以修改服务器游戏数据,剑网3指尖江湖第二批服务器数据互通啦 来看看有没有你所在的大区...
  17. HTML5/Canvas太空射击类小游戏源码
  18. 苹果提示:“未信任的企业开发者”
  19. 深入学习Linux摄像头(一)v4l2应用编程
  20. swiper 滑动图片垂直居中

热门文章

  1. linux convert 命令
  2. SSO单点登录流程详解
  3. 淘宝开网店提高店铺转化率的28原则
  4. 未来三年支付宝投向刷脸支付的补贴将封顶
  5. 学习python过程中的心得体会和收获,也说一下好处坏处
  6. crmeb开源版二开好方便
  7. 计算机数据恢复的报告怎么写,数据恢复实训报告
  8. java 抽奖算法_Java抽奖概率算法 - hejunbinlan的个人空间 - OSCHINA - 中文开源技术交流社区...
  9. 免费帝国CMS仿搜外问答系统源码SEOwhy源码模板
  10. 币值转换 (20分)