1. 计算机视觉识别概述
    计算机视觉识别(computer vision):用计算机来模拟人的视觉机理获取和处理信息的能力。就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。这里给出了几个比较严谨的定义:1.“对图像中的客观对象构建明确而有意义的描述”(Ballard&Brown,1982)2.“从一个或多个数字图像中计算三维世界的特性”(Trucco&Verri,1998)3.“基于感知图像做出对客观对象和场景有用的决策”(Sockman&Shapiro,2001)。
    计算机视觉识别实际上是一个跨领域的交叉学科,包括计算机科学(图形、算法、理论、系统、体系结构),数学(信息检索、机器学习),工程学(机器人、语音、自然语言处理、图像处理),物理学(光学 ),生物学(神经科学)和心理学(认知科学)等等。计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。
  2. 计算机视觉识别主要流程
    计算机视觉的目标是从摄像机得到的二维图像中提取三维信息,从而重建三维世界模型。在这个过程中,获得场景中某一物体的深度,即场景中物体各点相对于摄像机的距离,无疑成为了计算机视觉的研究重点。获得深度图的方法可分为被动测距和主动测距。被动测距是指视觉系统接受来自场景发射或反射的光能量,形成有关场景的二维图像,然后在这些二维图像的基础上恢复场景的深度信息。具体实现方法可以使用两个或多个相隔一定距离的照相机同时获取场景图像,也可使用一台照相机在不同空间位置上分别获取两幅或两幅以上的图像。主动测距与被动测距的主要区别在于视觉系统是否是通过增收自身发射的能量来测距,雷达测距系统、激光测距系统则属于主动测距。主动测距的系统投资巨大,成本太高,而被动测距方法简单,并且容易实施,从而得到了广泛的应用。利用被动测距的计算机视觉主要分为四个步骤,如图所示。

  1. 图像获取。
    一般情况下,人类通过双眼来获得图像,双眼可近似为平行排列,在观察同一场景时,左眼获得左边的场景信息多一些,在左视网膜中的图像偏右;而右眼获得右边场景信息多一些,在右视网膜中的图像偏左。同一场景点在左视网膜上和右视网膜上的图像点位置差异即为视差,也是感知物体深度的重要信息。
    计算机视觉的获取图像的原理与人眼相似,是通过不同位置上的相机来获得不同的图像,左摄像机拍摄的图像称为左图像,右摄像机拍摄的图像称为右图像。左图像得到左边的场景信息多一些,右图像得到右边场景的信息多一些,
  2. 图像校准。
    在图像获取过程中,有许多因素会导致图像失真,如成像系统的象差、畸变、带宽有限等造成的图像失真;由于成像器件拍摄姿态和扫描非线性引起的图像几何失真;由于运动模糊、辐射失真、引入噪声等造成的图像失真。
  3. 立体匹配。
    在两幅或多幅不同位置下拍摄的且对应同一场景的图像中,建立匹配基元之间关系的过程称为立体匹配。例如,在双目立体匹配中,匹配基元选择像素,然后获得对应于同一个场景的两个图像中两个匹配像素的位置差别,即视差。并将视差按比例转换到0-255 之间,以灰度图的形式显示出来,即为视差图。
  4. 三维重建
    根据立体匹配得到的像素的视差,如果已知照相机的内外参数,则根据摄像机几何关系得到得到场景中物体的深度信息,进而得到场景中物体的三维坐标。
  5. 计算机识别传统组成
    计算机视觉系统的开发问题归纳为3个要素:

(1)数学理论
考虑数学计算层面的目标及可以引入的合理约束条件。
(2)描述和算法
重点解决计算机视觉中的输入输出的数据格式问题,并设计合理的算法实现其系统功能。
(3)硬件的合理使用
使用符合算法要求的硬件并考虑该硬件对所需要的算法和描述的反作用。

  1. 图像数据处理层
    对图像像素或者频域进行相应处理,比如图像获取、传输、压缩、降噪、装换、存储、增强和复原等。
  2. 图像识别获取层
    图像识别是指利用计算机对图像进行处理、分析和理解,以识别不同模式的目标和对象的技术,主要包括图像匹配和机器学习。图像匹配的研究内容大致集中在三个方面:特征空间;相似性度量;搜索策略
  3. 计算机视觉识别五大技术
    1、图像分类
    给定一组各自被标记为单一类别的图像,我们对一组新的测试图像的类别进行预测,并测量预测的准确性结果,这就是图像分类问题。图像分类问题需要面临以下几个挑战:视点变化,尺度变化,类内变化,图像变形,图像遮挡,照明条件和背景杂斑.
    2、对象检测
    识别图像中的对象这一任务,通常会涉及到为各个对象输出边界框和标签。这不同于分类/定位任务——对很多对象进行分类和定位,而不仅仅是对个主体对象进行分类和定位。在对象检测中,你只有 2 个对象分类类别,即对象边界框和非对象边界框。例如,在汽车检测中,你必须使用边界框检测所给定图像中的所有汽车。
    3、目标跟踪
    目标跟踪,是指在特定场景跟踪某一个或多个特定感兴趣对象的过程。传统的应用就是视频和真实世界的交互,在检测到初始对象之后进行观察。现在,目标跟踪在无人驾驶领域也很重要,例如 Uber 和特斯拉等公司的无人驾驶。
    根据观察模型,目标跟踪算法可分成 2 类:生成算法和判别算法。
    4、语义分割
    计算机视觉的核心是分割,它将整个图像分成一个个像素组,然后对其进行标记和分类。特别地,语义分割试图在语义上理解图像中每个像素的角色(比如,识别它是汽车、摩托车还是其他的类别)。除了识别人、道路、汽车、树木等之外,我们还必须确定每个物体的边界。因此,与分类不同,我们需要用模型对密集的像素进行预测。
    5、实例分割
    除了语义分割之外,实例分割将不同类型的实例进行分类,比如用 5 种不同颜色来标记 5 辆汽车。分类任务通常来说就是识别出包含单个对象的图像是什么,但在分割实例时,我们需要执行更复杂的任务。我们会看到多个重叠物体和不同背景的复杂景象,我们不仅需要将这些不同的对象进行分类,而且还要确定对象的边界、差异和彼此之间的关系!

计算机视觉识别技术研究相关推荐

  1. 现在维吾尔语在计算机中发展,维吾尔语手写体在线计算机识别技术研究.doc

    维吾尔语手写体在线计算机识别技术研究 维吾尔语手写体在线计算机识别技术研究 摘要:维吾尔语是以单词为基本单位的黏连语,字母因在单词中位置的不同而具有不同的书写变形,目前手写技术的发展仍然落后于汉语.英 ...

  2. 计算机仿真相关文献有哪些,计算机仿真技术研究论文

    仿真的建模方法.采用的仿真计算机平台及文件开发软件是关系到仿真技术发展的关键.下面是学习啦小编为大家整理的计算机仿真技术研究论文,供大家参考. 计算机仿真技术研究论文范文一:牵引供电系统计算机仿真研究 ...

  3. 计算机软件测试方法及应用实践论文,计算机软件测试技术研究论文(2)

    计算机软件测试技术研究论文篇二 <计算机软件测试及其开发应用研究> [摘 要] 在软件编写中,许多编程员写完一个程序后已经很劳累,如果独自一个代码一个代码地检查,很容易查漏问题,而且面对枯 ...

  4. 用计算机实测技术研究单摆,2014计算机实测物理系数实验论文.doc

    辽宁石油化工大学 物理实验论文 实验内容计算机实测物理系数实验姓名学院地点薛霞教育实验学院理学院330学号专业.班级指导教师0903040228实验0903许星光实验时间 2010年10月13日星期三 ...

  5. 计算机日志研究方法,基于日志的计算机取证技术研究与实现

    摘要: 计算机技术的飞速发展为人类文明开启一扇新大门,它在创造巨大财富的同时,也必然伴随毁坏的发生,计算机犯罪便是其中最常见也最屡禁不止的网络犯罪行为.计算机取证技术正是在这种情况下产生并发展起来的, ...

  6. 计算机取证磁盘镜像研究,存储介质的计算机取证技术研究

    摘要: 本文针对日益严重的计算机犯罪,对基于存储介质的计算机取证技术的若干问题进行了研究,取得了以下几个方面的主要成果: (1)收集计算机取证研究领域各种资料,包括计算机取证在国外的发展,国内外计算机 ...

  7. 计算机仿真技术生物,基于计算机仿真技术的人体生理特性和病理机制研究

    前 言 对人体的生理功能进行计算机模拟,借助于计算机仿真技术研究人体的生理特性和病理机制,是 目前 国内外生物医学工程领域的一个研究方向.对人体血液循环系统( human blood circulat ...

  8. 微分方程计算机仿真国内外研究论文,功率键合图法在血液循环系统计算机仿真中的应用,毕业论文...

    摘要: 根据生物流体系统同工程流体系统所具有的相似性,将功率键合图建模 方法 应用 于人体血液循环系统的 计算 机仿真当中,对一个简化的人体血液循环系统模型进行了仿真 研究 ,所得仿真数据同基本的生理 ...

  9. 互联网计算机DFINITY技术概述,ICP是如何工作的?真的太强大了!

    互联网计算机-DFINITY将于5月8号正式主网上线,是迄今为止目标最为宏伟的区块链项目,是世界上第一个能够以网络速度运行的区块链,并且可以无限扩展容量和性能.DFINITY由总部设在瑞士苏黎世科研机 ...

最新文章

  1. nginx的pid问题
  2. spoj Balanced Numbers(数位dp)
  3. 超强 css 实现 table 隔行 ,隔列 换色
  4. [转] Ghost自动安装
  5. 如何设置wiki权限
  6. Spring MVC访问不到静态资源
  7. Design Patterns(设计模式-观察者)
  8. JQuery - 提交表单
  9. requests模块报错:Use body.encode('utf-8') if you want to send it encoded in UTF-8.
  10. Android 架构优化~MVP 架构改造
  11. Golang 25 个保留关键字
  12. 基于virtualbox的centos7安装jdk1.8
  13. C#总结项目《影院售票系统》编写总结一
  14. Vue中用到jeDate日期控件,Vue对象中的值滞后,总是滞后当前选择的值
  15. 计算机操作系统慕课版(汤小丹)--第一章课后题
  16. marlab中主成分得分怎么求_考试后,学生怎么做试卷分析?
  17. cpolar内网穿透工具
  18. kali系统的部分查看命令
  19. 社交网络算法对权力的游戏角色进行分析
  20. 微信状态栏隐藏 HTML,完美解决微信video视频隐藏控件和内联播放问题

热门文章

  1. 题目 1886: 蓝桥杯2017年第八届真题-包子凑数
  2. 区块链——物联网解决方案平台(转载)
  3. 被忽视的智能电视小程序领域
  4. 成立十年之后,集团化的途牛将业务分拆为旅游度假和金融科技
  5. 2022-08-15 学习笔记 day38-数据库概述
  6. java new数组_Java创建数组的几种方式
  7. 小马哥---高仿苹果6sp 型号Q65 芯片6582 2016新版刷机拆机主板图与开机界面图
  8. 金蝶EAS“总账”系统召唤“反过账”按钮
  9. JS 获取数组元素相同的下标
  10. mysql设置主键自增