探究影像辨識裡的臉部偵測技術(五)
http://www.compotech.com.tw/articleinfo.php?id=9845
探究影像辨識裡的臉部偵測技術(五) |
作者:鍾慶豐 |
臉部偵測與辨識的技術需求在美國遭受重大911恐怖攻擊之後,呈現爆炸性的成長,在機場使用生物辨識技術的影子隨處可見。目前技術較高且精確性也高的生物辨識要屬虹膜辨識系統。但因為臉部辨識不需接觸,且處於被動安全防禦體系,被偵測者可能根本就沒察覺自己已進入生物辨識系統,因此臉部辨識技術的使用與研究目前還非常熱絡。
上期我們談到了由上往下的方法,除此方法外,由下往上的特徵式方法亦多有人研究,有關這些方法我們將在本期為各位介紹。 (二)由下往上的特徵式方法(Bottom-up Feature-Based Methods) 生物分子的訊息傳遞鏈與活性位置形狀(active site motif)變化在此我們並不打算討論,我們在此傾向於關心目前許多相關提議的方法裡其運作原理與效能。在目前許多由下往上的偵測方法裡面,大多數演算法是先偵測臉部特徵是否存在,然後再決定臉部區域是否存在。因此在此類方法裡,臉部特徵的擷取變成處理的第一步驟(在由上往下的方法裡,它是第二步驟,主要用以驗證臉部候選區域之用)。而臉部特徵的擷取方法有許多種,包含了:色彩空間轉換分析、臉部邊界投影方法以及利用邊界偵測器(edge detectors)方法…等等。這些臉部特徵候選區域一旦被擷取之後,預先定義的統計模型(statistical models)便會針對這些候選區域進行檢驗,以檢測這些臉部特徵存在臉部的距離是否合乎常態。不過此種方法和前面幾種方法一樣,都存在有許多待克服的問題,其中包含:光照條件、雜訊或是其他像素融合問題,都會嚴重影響到臉部特徵的辨識。 直覺式臉部偵測方法 在色彩空間部分我們有多種選擇,但並每一種都適合使用。許多臉部辨識的研究都將luminance與chrominance視為獨立分開的兩個因素,但2002年R. L. Hsu及A. M.Mohamed等人,利用HHI(Heinrich-Hertz-Institute)影像資料庫實驗的結果發現,亮度(luminance)與色度(chrominance)存有「非線性(non-linear)」的關連性部分。而J. C. Terrillon、M. N. Shirazi等人在比較了多種適用臉部偵測之色彩空間後,認為TSL(Tint-Saturation-Luma)空間提供了最佳的偵測結果。 不過,目前除TSL空間外,因為現行的視訊壓縮標準(例如:MPEG或JPEG)大多以YCbCr色彩空間為主,因此YCbCr色彩空間也常被用來作為臉部偵測的色彩空間。不過YCbCr色彩空間被使用的另一個主因,在於它與TSL色彩空間類似都把亮度(luminance)及色度(chrominance)分開處理,這有助於膚色叢集化(skin clustering)的工作。一旦影像被轉換到所選定的色彩空間之後,膚色像素的測定主要是利用轉換色彩空間的橢圓膚色模型(elliptic skin model)。經過參數化的橢圓部分(parametric ellipse),主要是對應膚色高斯分布(Gaussian distribution)下的Mahalanobis距離(Mahalanobis distance)。Mahalanobis距離法與其他方法(例如:最鄰近法(nearest neighbor)、平均距離法(mean distance)或最近特徵線法(nearest feture line)一樣,都屬子空間的距離判別方法。膚色像素的偵測,主要是依據鄰近像素顏色的變異以及色彩相似度(similarity),並參考這些像素的空間排列,以決定是否群組化(grouping)這些像素,使其成為臉部區域。一般影像中臉部的大小多為固定,而其包含的像素多寡則依據相機解析度與距離遠近而定。在臉部色彩區域判斷後,進一步搜尋臉部特徵(例如:眼睛、鼻子、嘴巴或臉部邊緣),將有助於雙重確認臉部區域的所在。其偵測流程圖如圖10所示。 圖10、一個膚色為主的臉部偵測流程,流程的每一區塊都可在細分成數個處理細節,且區塊流程因實作需求的差異,亦可做適當調整。 光線補償與膚色偵測方法 臉部特徵的定位 一、眼睛的部分 所以為了確定眼睛存在的區域,可以結合luminance元件特性與chrominance元件特性,來作為眼睛影像候選的依據。因此我們會得到兩張眼睛候選影像,一個從luminance元件而來,另一個來自chrominance元件。由這兩個分開的元件所偵測到的eyes map,最後經由結合之後成為最後眼睛偵測的候選影像。在luminance元件內眼睛區域的判斷方法,可依據灰階型態運算子(grayscale morphological operators),例如:dilation或erosion,來強化眼睛周邊較暗或較亮區域,這種方法在多重尺度縮放的正面臉部驗證上也常被用來建構臉部特徵向量(face features vectors)。在此方面的建構方式有多種不同方法,例如:R. L. Hsu及A. M. Mohamed等人便利用P. T. Jackway與M. Deriche所提出的縮放空間影像(scale-space image)方法,來計算luminance的眼睛部分影像區域。 其中乃Jackway與Deriche在縮放空間屬性中所定義之縮放尺度為的平滑核心(smoothing kernel),而關於chrominance元件內眼睛區域的判斷方法。 來自chrominance的眼睛圖案在經過histogram equalization之後,便利用AND運算與來自luminance的影像結合起來,結合後的結果分別將眼睛部分予以擴張化、遮罩化以及正規化,以加強眼睛周邊亮度並抑制臉部其他特徵,以構成眼睛區域的候選圖。 二、嘴巴部分 三、臉部邊界 經由眼睛、嘴巴與臉部邊界的其他臉部特徵判定,可以協助我們更精確判別臉部候選區域的正確性。只是這三者的擷取方法各家多有不同,因此精確度也多有所差異。如果只是要用在初步定焦(例如:數位相機臉部定焦功能),選擇效率可能是主要考量點。但如果是用在生物辨識安全領域,那精確度與提供辨識特徵可能主要該種系統訴求。不同的應用領域,其對臉部偵測的效能與系統評價有會有所差異。 不妨給未來一個想像空間 臉部偵測技術看起來似乎簡單,但經由前面的論述便可知,如果真要實作起來卻不見得簡單(為了維持高偵測率、執行效率與低錯誤,其需要考量很多問題)。正如幾年前許多不被看好的技術,意外的在今日卻逐漸佔有重要地位。或許在十年前,生物機電顯得遙不可及。但誰知在十年之後,生物機電整合出現希望的曙光。 除了液晶螢幕的例子之外,人工視網膜(或稱為「視網膜晶片(retina chip)」)的設計也是另一項壯舉。在傳統認知上,生物神經傳導屬離子脈衝,其利用離子極化與去極化反應,描繪神經所接受的訊號形式(神經軸內部維持低電壓約70mV)與一般電子訊號有所差異。令人覺得不可思議的部分,在於錯綜複雜的電子訊號與離子訊號的轉換對應關係。因為這種對應關係一旦找到,非但盲者可重見光明,連下肢癱瘓之小兒麻痺患者或其他因神經傳導斷裂而癱瘓之病患也將可能因重新取的傳導訊號而有限度恢復行動力。人工視網膜主要研究團隊來自美國南加大以及Doheny眼科研究所,在他們目前實驗中經由植入人工視網膜到部分盲人眼裡,已經讓這些盲人可以重新感覺到光線及物體移動,這項研究成果就在2005年宣布時,造成許多人不少震撼。 人工視網膜構造與機器視覺非常類似,比較重要的差別在於對訊號的處理型態與機器種類。在人工視網膜晶片的搭配上面,其由一副內植一部小型攝影機的太陽眼鏡負責擷取影像,而攝影機之感應訊號乃經由4×4網格電極(grid of electrodes)與患者視網膜上受損之錐細胞(cones)及桿細胞(rods)相連結。這些網格電極將被用來模擬光接收器(photoreceptors)並經由光學神經將訊號轉換給大腦。 想到這裡,突然讓筆者心裡有種踏實感,因為科技終於可以用在比較有意義又接近人本思想的事情上面。正如幾年前爭論不休的量子電腦、量子運算一樣,一部份人持肯定說,另一部份人持否定見解。不過如按照歷史來看,其答案如何似乎已經呼之欲出。科學可以幫助的不只是盲人,一次一個像素的建構精神化不可能為神奇。人工視網膜(artificial retina)如果運作的不錯,該產品預料將在三年之內成為可販售之商品。可見創意永遠是人類最珍貴的資產(機器可能繼承此智慧?),未來機器視覺及其他人工智慧如果發展成熟,則機器人亦可能成為人類另一個重要伙伴(例如:機器戰警?)。如同人類一樣,或許初生機器亦需上課、學習新知,「我的同學(老師)是機器」在未來可能成真,面對先進的未來,我們需要多給自己一點想像空間。(全文完) |
探究影像辨識裡的臉部偵測技術(五)相关推荐
- 小米8探索版android版本,小米 8 透明探索版,首款 Android Face ID 手機,支援螢幕下指紋辨識...
小米今日在深圳舉辦發表會,推出年度旗艦小米 8,此外,還非常驚喜的推出具備 Face ID 和螢幕下指紋辨識功能的小米 8 透明探索版. 小米 8 透明探索版手機外觀超酷,採用透明被蓋設計,可以直接看 ...
- pythoncqt_Python數據分析師-機器學習數據辨識篇
本課程為確保學員皆能有效學習與應用,故將數據分析各步驟所需要之應用工具作一系統性之規劃,以確保各學員在上完課程之後皆能迅速上手並為公司解決問題並提升競爭力,更重要的是也能同步提升自己本身的工作績效. ...
- 传国宝玺 第四部 港岛邪云 第五十八章 启尸招魂
七叔爷爷的墓,是一个超大号的石冢,两米高的汉白玉石碑,刻着其生前的一些所谓的丰功伟绩,张国忠大概略了一眼,全是一些光宗耀祖之类的马屁话. 阿光一身黑装,很恭敬的递上三炷香,此时先到一步的鼓乐队和诵经队 ...
- 手机电容触摸屏技术简介
电容式触控技术中误触与侦测手指座标位置所产生的鬼点(Ghost Position)问题,一直难以突破,为解决上述问题,提供用户更佳的使用者经验,电容式触控IC厂商纷纷从自电容(Self Capacit ...
- 人工智能(Artificial Intelligence),英文缩写为AI
人工智能 人工智能(英語:,缩写为)亦稱智械.機器智能,指由人製造出來的機器所表現出來的智慧.通常人工智能是指普通電腦程式來呈現人類智能的技術.該詞也指出研究這樣的智能系統是否能夠實現,以及如何實現. ...
- (To Learn More) ML Lecture 0-1: Introduction of Machine Learning
ML Lecture 0-1: Introduction of Machine Learning 视频链接:https://www.youtube.com/watch?v=CXgbekl66jc \q ...
- GeForce 浅谈3D 概念
GeForce 3的一般規格 GeForce 3的一般規格 NVIDIA最新的這款晶片有很多讓人驚訝的數字製程Process:0.15 微米電晶體Transistors:5千7百萬個像素管線Pixel ...
- 【機器學習2021】預測本頻道觀看人數 (下) - 深度學習基本概念簡介
机器学习 2021 - Introduction of Machine / DeepLearning \qquadLinear 的 Model 也許太過簡單了,怎麼說它太過簡單呢?我們可以想像說 x1 ...
- 2021 Lifelong learning(李宏毅
Lifelong learning探讨的问题是,一个模型能否在很多个task上表现都很好.如此下去,模型能力就会越来越强. Life Long Learning 的難點出在什麼樣的地方: 這個算是同一 ...
最新文章
- BitMap 内存使用优化
- 对于注册中心,ZooKeeper、Eureka哪个更合适?
- BiliBili 第三方 Android 客户端应用源码
- 比尔·盖茨:如果你想了解硅谷,就看《硅谷》吧
- .Net中url传递中文的解决方案
- 贝叶斯深度神经网络_深度学习为何胜过贝叶斯神经网络
- 记一次 .NET 某HIS系统后端服务 内存泄漏分析
- P2922-[USACO08DEC]秘密消息Secret Message【Trie,字符串】
- linux内核完全剖析0.11,linux0.11内核完全剖析 - ramdisk.c
- bzoj 1228 [SDOI2009]ED
- 由先序遍历序列和中序遍历序列恢复二叉树以及统计叶子节点个数和树的深度...
- 深入剖析jsonp跨域原理
- 学习《Redis设计与实现》Chapter1
- e5运行Linux系统,CPU-Z 1.96更新介绍,可用Wine及deepin-wine5在Linux中运行
- source insight无法识别函数定义
- Hadoop集群启动时,nameNode进程没有启动 :Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password)解决方法
- excel连接mysql插件_Excel插件之连接数据数据库秒数处理,办公轻松化
- 学习FPGA之一:初识FPGA
- 求一份 电力猫 QCA6410 原理图等
- Android 应用链接详解
热门文章
- 数据统计图表显示功能
- php substring的用法,substring方法怎么使用
- vue,返回上一页面
- ubuntu系统下ftp服务器配置,如何在Ubuntu中安装和配置FTP服务器
- 番外篇:研究生心得:研二篇(三)
- Win10切换语言后设置系统时间、日期、货币
- jsp mysql失物招领_jsp+springmvc+mysql实现的校园失物招领管理平台源码附带视频指导运行教程...
- Yii开发的点位盘外汇交易平台源码
- C语言函数大全-- s 开头的函数(2)
- macOS运行软件提示:“无法打开“xxx.app”,因为无法验证开发者。”