记一次OCR识别训练

前言

如果有需要某日校园打卡的小伙伴会注意到,每隔一段时间会有图片需要进行验证(根据内部消息透露,这个是根据设备码进行绑定的,防止自动,不过也是留了一点余地,大概两周可能才会出现一次)

既然选择了auto,必然不能每两周自己打开验证啊,本着探索的精神(bushi),我觉得自己训练一下然后选择就好了

训练

这里我选用的是哲哥的项目ddddocr训练工具,我想有些用python做爬虫项目的小伙伴还是用过ddddocr识别验证码的,毕竟简单免费嘛哈哈哈,训练的条件以及步骤可以自行进入项目查看,还是需要一些门槛的。当然训练也是需要数据集的,我这里大概爬了一千多张带有正确名字hash值的图片

训练起来一千多的训练集可能不算很多,不过已经够用了,但是我在训练过程中还是遇到了问题,我的准确度很低,只有0.27,导致无法结束训练,于是修改配置文件将准确度改成0.25导出模型进行测试

我本来以为0.27正确率会非常低,但是进行验证的时候发现,远比我想象的要高,基本喂给它的图片都能给出正确答案

部署

当然完成训练之后我们就要想办法用起来,如果仅仅只是简单的在本机上进行识别未免太过浪费电脑资源了,于是我找到了哲哥的另一个项目使用ddddocr的最简api搭建项目,支持docker,搭建一个api以方便使用,需要的时候直接调用就好了。部署还是非常简单的,如果需要调用自己的模型就比较麻烦,因为是直接调用的ddddocr,所以需要去python的模块里面修改代码,在调用ddddocr的时候加入参数import_onnx_pathcharsets_path,填的就是导出的模型位置,最好还是绝对路径,避免找不到。

​ 在部署完之后我们直接访问我们服务器ip加上默认端口9898就能够实现调用api识别图片了

http://xxx.xxx.xxx.xxx:9898/ocr/b64/json

记一次OCR识别训练相关推荐

  1. python ocr中文训练_cnocr: cnocr是用来做中文OCR的Python 3包。cnocr自带了训练好的识别模型,安装后即可直接使用...

    English README. cnocr 使用交流QQ群 欢迎扫码加入QQ交流群: 最近更新 [2020.05.29]:V1.2.2 主要变更: 优化了对数字识别的准确度. 优化了模型结构,进一步降 ...

  2. 使用Tesseract训练lang文件并OCR识别集装箱号

    https://lonelygo.github.io/2017/07/21/使用Tesseract训练lang文件并OCR识别集装箱号/index.html

  3. html在线ocr文字识别源码,OCR开源代码以及OCR公开训练测试数据集汇总

    n1 OCR开源代码网址汇总 1.1 OCRE(OCR Easy), http://lem.eui.upm.es/ocre.html 1.2 Clara OCR,http://directory.fs ...

  4. PyTorch实现 | 车牌OCR识别,《PyTorch深度学习之目标检测》

    注:本文选自中国水利水电出版社出版<PyTorch深度学习之目标检测>一书,有改动 福利!免费寄送图书!! 公众号[机器学习与AI生成创作]后台回复:168.即可参与免费寄送图书活动,活动 ...

  5. 最新!百度首发 OCR 自训练平台 EasyDL OCR

    今年以来,人工智能愈发火热. 在2020年4月,政府已将人工智能基础设施列入新基建范围.在利好政策引导下,人工智能的应用范围越来越广.以 OCR(文字识别技术)为例,随着智能手机与各种端边电子产品的增 ...

  6. python 验证码识别训练_Python爬虫笔记【一】模拟用户访问之Tesseract-ocr验证码训练(5)...

    验证码处理之后就需要对处理的验证码进行识别训练,这里用Tesseract-ocr工具进行识别,用jTessBoxeditor进行训练生成模板. 一,对图片进行处理 利用上一篇代码对图片进行降噪处理,得 ...

  7. Pythonseleniumtesseract自动化测试随机码、验证码(Captcha)的OCR识别解决方案参考...

    在自动化测试或者安全渗透测试中,Captcha验证码的问题经常困扰我们,还好现在OCR和AI逐渐发展起来,在这块解决上越来越支撑到位. 我推荐的几种方式,一种是对于简单的验证码,用开源的一些OCR图片 ...

  8. HALCON示例程序bottle.hdev、bottlet.hdev瓶体字符OCR的训练和检测

    HALCON示例程序bottle.hdev.bottlet.hdev瓶体字符OCR的训练和检测 示例程序源码(加注释) 1.先介绍bottlet.hdev(训练OCR识别文件) *定义一个字符串变量F ...

  9. 【华为云技术分享】传统OCR识别综述

    1      引言 1.1      什么是OCR 计算机文字识别,俗称光学字符识别,英文全称是Optical Charater Recognition(简称OCR),它是利用光学技术和计算机技术把印 ...

最新文章

  1. 操作VR界面仅需眼神,Eyefluence眼控技术解放你的双手
  2. jquery学习之重要知识点
  3. Android --- SDK 和 API 是什么意思
  4. 【项目管理】ITTO-成本管理
  5. 干货 | 解读MySQL 8.0新特性:Skip Scan Range
  6. linux 的基本命令
  7. watch 和 computed
  8. es6 async函数的基本用法
  9. mac osx 下的 mysql_Mac OSX下的MySQL数据库升级
  10. Java线程类核心方法
  11. Java为何大行其道
  12. 机器视觉入门:决策树的剪枝理论
  13. 什么是纹波、噪声、过冲、回沟?
  14. 高级变量类型 ---- 字符串
  15. 在计算机中有什么作用,内存是什么在电脑中有什么作用
  16. 安防工程商遇六大挑战考验 能否披荆斩棘?
  17. Lua string字符串相关操作
  18. 如何用3D技术“复现”遗址?
  19. ISO 27001 2022 中文版 范围
  20. 初次体验PDF.JS,非常好用的pdf前台包

热门文章

  1. PureMVC新手入门
  2. Python基础入门之二进制的负数
  3. 陌陌和请吃饭之类的应用,你要是能玩转,那就厉害了
  4. 【微信小程序】如何实现用户输入信息并进行反馈
  5. 2023年5月青少年软件编程(Python) 等级考试试卷(一级)
  6. 微信文件会上传腾讯服务器吗,猝不及防!微信又上线新功能 支持发送大文件了...
  7. ios Apple Pay 简单使用
  8. 腾讯数据库TcaplusDB-中秋花好月又圆
  9. uni-app上传图片遇到TypeError: e.split is not a function at view.umd.min.js:1
  10. 【转】Dashboard 设计进阶