文章目录

  • 前言
  • 思路
  • 引入库和全局变量
  • 一、截图
  • 二、选图
  • 三、识图
  • 四、生成答题库
  • 完整代码
  • 最终效果
  • 作者语

前言

随着XX在线视频学习的任务增多,有时刷完视频并不能轻松完成课后考试,本篇文章意在用Python提供解决思路和代码,为顺利通过考试提供可行性方案。


思路

通过截取视频图片,根据规则选取满足条件的图片,再利用OCR识别筛选后的图片,最后生成带有图片链接的Excel答题库文件。总体分为四部分:截图、选图、识图、生成答题库。


引入库和全局变量

import os
import cv2
import shutil
import openpyxl as op
import time
import easyocr
filepath= r'D:\moocxuetang'#自定义文件存放位置
videopath = r'D:\moocxuetang\video'#自定义视频存放位置
picpath=r'D:\moocxuetang\picture'#自定义截图存放位置
picchoosepath = filepath + '\\' + 'picture_choose'#自定义选图存放位置
txt=[]#图片识别列表
hylink=[]#图片链接位置列表

一、截图

截图参考文章:用python玩转视频帧率
截图参考文章:Python 之CV2详解
避坑指南
注意图片名不要带中文,保存会有问题,会出现程序运行正常,实际没保存到的现象。
代码如下:

# 截取单个视频文件图片
def get_pic(videoname='1.1XXXXX.mp4'):videoname = videonamevideo = cv2.VideoCapture(videopath+'\\'+videoname)###########获取视频信息(帧率,分辨率,总帧数,时长)############### 帧率fps = int(round(video.get(cv2.CAP_PROP_FPS)))# 分辨率-宽度width = int(video.get(cv2.CAP_PROP_FRAME_WIDTH))# 分辨率-高度height = int(video.get(cv2.CAP_PROP_FRAME_HEIGHT))# 总帧数frame_counter = int(video.get(cv2.CAP_PROP_FRAME_COUNT))# 时长,单位sduration = frame_counter / fpsprint('帧率:%s' % fps)print('分辨率-宽度:%s' % width)print('分辨率-高度:%s' % height)print('总帧数:%s' % frame_counter)print('总时长:%s秒' % duration)####################根据视频信息截取图片#####################i = 0j = 0while True:i += 1flag, frame = video.read()#读取视频if flag:if i % (fps*4) == 0:#间隔4秒截图1张j+=1picname=videoname[0:3]+'.'+str(j)+'.jpg'#根据视频文件名自行调整,将截图数量加到图片文件名中,方便后续查找cv2.imwrite(picpath+'\\'+picname, frame)#保存截图print('%s保存完毕!'%picname)else:breakvideo.release()#视频释放print('视频关键帧截图完毕!!!')
#遍历视频文件,截取所有视频文件图片
def cut():###########建立视频截图文件夹####################if not os.path.exists(picpath):#判断是否存在截图文件夹,不存在则建立文件夹os.makedirs(picpath)print('视频截图文件夹已建立')else: #存在则清空再建立文件夹shutil.rmtree(picpath)os.makedirs(picpath)print('原有图片已清除,已建立新的视频截图文件夹')videonames = os.listdir(videopath)start_time = time.time()for videoname in videonames:get_pic(videoname)end_time = time.time()t = (end_time - start_time) / 60 #记录截图总共用时多少分钟print('截图总共用时%s分钟' % str(round(t)))

二、选图

选图参考文章:OpenCV—Python 图像指定区域裁剪

代码如下:

#对单张图片进行规则化选取,满足条件则保存到选图文件夹
def pic_choose(picfullname=r'D:\XXXX\picture\1.1.92.jpg',picchoosepath=r'D:\XXXX\picture_choose'):picfullname = picfullname #单张图片的全路径名称,例如:'D:\XXXX\picture\1.1.92.jpg'picchoosepath=picchoosepath #选图文件夹的位置,例如:'D:\XXXX\picture_choose'picname=picfullname.split('\\')[-1] #单张图片的名称,例如:'1.1.92.jpg'################将图片以灰度图片导入,找出符合规则的图片,裁剪适当位置并保存灰度图片到选图文件夹#############pic=cv2.imread(picfullname,cv2.IMREAD_GRAYSCALE) #将图片以灰度图片导入if abs(pic[59][40]-pic[59][45])<10 and abs(pic[59][45]-pic[59][50])<10 and abs(pic[59][50]-pic[59][55])<10 and abs(pic[59][55]-pic[59][60])<10 and abs(pic[59][60]-pic[59][65])<10 \and abs(pic[59][40]-pic[79][40]) >100  and abs(pic[59][45]-pic[79][45]) >100 and abs(pic[59][50]-pic[79][50]) >100  and abs(pic[59][55]-pic[79][55]) >100 and abs(pic[59][60]-pic[79][60]) >100 and abs(pic[59][65]-pic[79][65]) >100: #找出符合规则的图片cv2.imwrite(picchoosepath+'\\'+picname,pic[43:,:]) #裁剪适当位置并保存灰度图片到选图文件夹elif abs(pic[59][40]-pic[59][45])<10 and abs(pic[59][45]-pic[59][50])<10 and abs(pic[59][50]-pic[59][55])<10 and abs(pic[59][55]-pic[59][60])<10 and abs(pic[59][60]-pic[59][65])<10 \and abs(pic[59][40]-pic[79][40]) >50  and abs(pic[59][45]-pic[79][45]) >50 and abs(pic[59][50]-pic[79][50]) >50 and abs(pic[59][55]-pic[79][55]) >50 and abs(pic[59][60]-pic[79][60]) >50 and abs(pic[59][65]-pic[79][65]) >50:  #找出符合规则的图片cv2.imwrite(picchoosepath+'\\'+picname,pic[43:,:]) #裁剪适当位置并保存灰度图片到选图文件夹
#遍历截图文件夹,对所有图片进行规则化筛选
def choose():############创建选图文件夹#####################if not os.path.exists(picchoosepath):#判断是否存在截图文件夹,不存在则建立文件夹os.makedirs(picchoosepath)print('选图文件夹已建立')else: #存在则清空再建立文件夹shutil.rmtree(picchoosepath)os.makedirs(picchoosepath)print('原有图片已清除,已建立新的选图文件夹')start_time = time.time()picnames = os.listdir(picpath)m = 0for picname in picnames:picfullname = picpath + '\\' + picnamem += 1print('开始选图:第%s张' % m)pic_choose(picfullname)end_time = time.time()t = (end_time - start_time) / 60print('选图完成,用时%s分钟!!!' % t) #记录选图总共用时多少分钟picchoosenames = os.listdir(picchoosepath)print('共选出%s张图片'%len(picchoosenames)) #记录总共选图过少张

三、识图

识图参考文章:适合小白的几个入门级Python ocr识别库
识图参考文章:easyocr快速安装及图片文字提取演示(小语种)
easyocr技术文档

避坑指南
根据识图参考文章,可对中文的识别的库有3个:
1、pytesseract
pytesseract需要配合安装在本地的tesseract-ocr.exe文件一起使用。对中文识别很差,第一次用的就是这个基本用不了。
2、PaddleOCR
PaddleOCR是百度开源的一款基于深度学习的ocr识别库,对中文的识别精度相当不错,可以应付绝大多数的文字提取需求。需要安装3个库,依赖库也比较多,版本没对上就不行,下载也慢,折腾了很久还是选择放弃。
3、easyocr
github上一万多个star的开源ocr项目,支持80多种语言的识别,识别精度超高。最终选择,记得要下载craft_mlt_25k.zip(文字检测模型)、zh_sim_g2.zip(中文模型)、english_g2.zip(英文模型),文章里有具体说明。

建议:
1、使用清华镜像源,在使用pip的时候加参数-i https://pypi.tuna.tsinghua.edu.cn/simple
2、下载库的时候会遇到版本问题,多折腾折腾,会有不少收获
3、电脑下载模型慢可以试试用手机下载
代码如下:

#使用easyocr库对单张图片识别,单张识图时间大约6秒(根据个人电脑情况)
def easy_ocr(picchoosefullname=r'D:\XXXX\picture_choose\1.1.100.jpg'):picchoosefullname = picchoosefullname #选图文件夹中的图片全路径名称,例如:'D:\XXXX\picture_choose\1.1.100.jpg'reader = easyocr.Reader(['ch_sim'],gpu=False) # 没有gpu的话需要加上gpu=Falseresult = reader.readtext(picchoosefullname,detail=0,batch_size=32) #参数设置可以参考技术文档,batch_size=32试验了一下,比默认设置快大约1秒print(result)txt.append(''.join(result)) #将识别的文本合并为一项print(txt)return txt
#遍历选图文件夹,对所有图片进行识别
def know():start_time = time.time()picchoosenames = os.listdir(picchoosepath)n=0for picchoosename in picchoosenames:picchoosefullname = picchoosepath+'\\'+picchoosenamen+=1print('开始识图:第%s张'%n)txt=easy_ocr(picchoosefullname) #获取图片识别列表hylink.append(picchoosefullname) #获取图片链接位置列表print('列表长度为:',len(txt))print('类型为',type(txt))end_time = time.time()t = (end_time - start_time) / 60print('识图完成,用时%s分钟!!!' % t) #记录识图总共用时多少分钟

四、生成答题库

代码如下:

def answer():print('开始创建答题库。。。')answer_path=r'D:\XXXX\answer.xlsx' #自定义答题库Excel路径,提前建好answer.xlsx文件wb = op.load_workbook(answer_path) #读入文件sheet = wb['Sheet1']sheet.delete_cols(1,1) #清空原有数据for i in range(len(txt)):sheet.cell(i+1,1,txt[i]) #将图片识别列表写入第1列sheet.cell(i+1,1,txt[i]).hyperlink=hylink[i]  #将图片链接位置列表写入对应位置wb.save(answer_path)f = open(r'D:\XXXX\answer.txt', 'w') #自定义答题库文本路径,提前建好answer.txt文件(避免Excel出错,导致全功尽弃的备份手段)p=0for line in txt:p+=1f.write('第'+str(p)+'张'+'\n'+line + '\n')f.close()print('答题库已生成!!!')

完整代码

import os
import cv2
import shutil
import openpyxl as op
import time
import easyocr
filepath= r'D:\moocxuetang'#自定义文件存放位置
videopath = r'D:\moocxuetang\video'#自定义视频存放位置
picpath=r'D:\moocxuetang\picture'#自定义截图存放位置
picchoosepath = filepath + '\\' + 'picture_choose'#自定义选图存放位置
txt=[]#图片识别列表
hylink=[]#图片链接列表
#批量更改文件名(加上后缀.mp4),文章没介绍
def Renamevideo():videonames = os.listdir(videopath)for videoname in videonames:oldvideoname = videopath + '\\' + videonamenewvideoname = oldvideoname + '.mp4'os.rename(oldvideoname, newvideoname)print(newvideoname)def get_pic(videoname='1.1XXXXX.mp4'):pass #前文有,不再重复
def cut():pass #前文有,不再重复
def pic_choose(picfullname=r'D:\XXXX\picture\1.1.92.jpg',picchoosepath=r'D:\XXXX\picture_choose'):pass #前文有,不再重复
def choose():pass #前文有,不再重复
def easy_ocr(picchoosefullname=r'D:\XXXX\picture_choose\1.1.100.jpg'):pass #前文有,不再重复
def know():pass #前文有,不再重复
def answer():pass #前文有,不再重复if __name__ == '__main__':cut()choose()know()answer()

最终效果

文件夹最终所包含的内容:

通过答题库查询,顺利通过考试:

作者语

本着白嫖多年、回馈社会的态度,写下这篇文章,希望对你有所帮助,有不到位之处请多多包涵,有疑问请留言,我会尽力回答。

用Python生成答题库,辅助完成XX在线平台视频学习的课后考试相关推荐

  1. 使用python生成词云——聆心云心理健康服务平台数据可视分析和可视化

    实验题目:聆心云心理健康服务平台数据可视分析和可视化 实验目的和要求:统计出在聆心云平台做沙盘游戏的次数.根据各次沙盘游戏所使用的沙具和进行的操作数据进行词云可视化,掌握Python词云制作方法 实验 ...

  2. Python:第三篇【Python】实用库与框架-关东升-专题视频课程

    Python:第三篇[Python]实用库与框架-612人已学习 课程介绍         本课程包括6章.内容包括Python数据交换格式,Python数据库编程,Python网络编程,wxPyth ...

  3. python生成静态库_使用boost.python静态库

    编译脚本为: bjam stage toolset=msvc link=static runtime-link=shared threading=multi variant=debug,release ...

  4. python 生成动态库_Python 项目转.so动态库

    最近, 作者遇到一个需求, 需要把Python的工程部署到别的集群, 但是又要保证Python代码的安全性. 于是上网搜索, 搜到几个解决方案, 但是都不是符合需求. 综合搜到的几个解决方案, 最终作 ...

  5. python生成所有库名字包的名字的txt文件,requirements.txt

    命令: 生成requirements.txt         pip freeze > requirements.txt 下载到项目环境中: 1. 先把requirments.txt复制到项目环 ...

  6. python的 numpy库学习总结和介绍(超详细)模块

    目录 前言 numpy是什么? 一.创建数据容器 1.np.array(),通过传递一个列表,元祖来创建 2.np.zeros(),np.ones(),np.empty(),np.full(),传递对 ...

  7. python相对路径库_如何最简单、通俗地理解Python的搜索路径、相对路径、绝对路径?...

    目录: 一.笔记 二.我的自学路线 三.笔记目录 一.笔记 1) 搜索路径 ① 能导入模块的话,表示搜索路径中有这个模块文件. ② 当你导入一个模块,Python解析器对模块位置的搜索顺序是:1. 当 ...

  8. python生成pdf报表_用python的reportlab库生成PDF报表

    前言 reportlab不是python的标准库,它的强大之处在于能满足绝大部分报表的需求形式,这篇文章将介绍reportlab中基本常用的api,使用canvas画出一份整洁的PDF报表.内容均来自 ...

  9. py之textgenrnn:Python利用textgenrnn库实现训练文本生成网络

    py之textgenrnn:Python利用textgenrnn库实现训练文本生成网络 目录 输出结果 实现代码 输出结果 实现代码 #textgenrnn:利用textgenrnn实现训练文本生成网 ...

最新文章

  1. [转]自定义hadoop map/reduce输入文件切割InputFormat
  2. android图像处理系列之三--图片色调饱和度、色相、亮度处理
  3. python实现人脸识别抓取人脸并做成熊猫头表情包(2)之优化
  4. 如何看待和评价浙江大学18级硕士研究生齐俏两年发14篇论文,获浙大最高层次奖学金?...
  5. 基matlab的水果识别的应用,基于MATLAB的水果识别的数字图像处理
  6. php加载外部html,VUE页面加载外部HTML实例详解
  7. A Simple Note on P4FPGA: A Rapid Prototyping Framework for P4
  8. 【pytorch】requires_grad、volatile、no_grad()==>节点不保存梯度,即不进行反向传播
  9. easyui前端框架模板_.NET Core基于Ace Admin的响应式框架
  10. Python运维插件——psutil
  11. Maven里头的pom.xml配置详解
  12. 块级元素行内元素内联元素
  13. 拓端tecdat|R语言在BRFSS数据中可视化分析探索糖尿病的影响因素
  14. 稀缺的“稳定”--业绩导向的基金筛选困局
  15. 处理数据spss乱码
  16. 任务调度系统就该这么设计(万能通用),稳的一批!
  17. 计算机演示题打不开,win7系统电脑上的ppt打不开怎么修复|ppt打不开的四种修复方法...
  18. 房子,婚姻,名字,这三个关键词,你怎么看?
  19. C语言初阶——实用调试技巧
  20. java接口自动化-post请求获取不到cookie问题解决

热门文章

  1. ASP.NET上传文件出现“404-找不到文件或目录”的解决办法
  2. 修改U8存货档案,提示xml加载错误,可能xml格式不正确
  3. jQuery 一次定时器_三菱plc控制简单设备,如何定期锁机,巧妙解除密码技巧|锁机|plc|定时器...
  4. 如何让点聚WebOffice在线编辑ActiveX插件兼容火狐、谷歌、IE各式浏览器
  5. 使用Python分析移动语音账单
  6. 传奇GOM引擎补丁安装教程图解,传奇pak补丁介绍
  7. vivado RAM使用
  8. 数据挖掘导论 复习一(介绍+数据预处理方法+定性归纳)
  9. 用 Visual Studio Code 做基于 .NET MAUI 跨平台移动应用开发
  10. 9100cdn打印有色差_uv打印机出现色差的解决方法