在寫此文之前,先扯點(diǎn)東西。我一直在找一個(gè)東西,讓我思考,讓我久久的深陷其中,永久的,不斷的思考。如今,我意識(shí)到,這個(gè)東西即是算法。我一直在找一家合適的公司,能讓我的興趣無(wú)比放肆的,自由馳騁。
ok,因?yàn)樵谝患夜镜拿嬖囘^(guò)程中,面試官提到過(guò)這個(gè)人臉識(shí)別算法,由于在此之前,未曾有過(guò)了解,所以,特作此番學(xué)習(xí)與研究。有任何問題,歡迎不吝指正。謝謝。
人臉識(shí)別,特指利用分析比較人臉視覺特征信息進(jìn)行身份鑒別的計(jì)算機(jī)技術(shù)。
概述
廣義的人臉識(shí)別實(shí)際包括構(gòu)建人臉識(shí)別系統(tǒng)的一系列相關(guān)技術(shù),包括人臉圖像采集、人臉定位、人臉識(shí)別預(yù)處理、身份確認(rèn)以及身份查找等;而狹義的人臉識(shí)別特指通過(guò)人臉進(jìn)行身份確認(rèn)或者身份查找的技術(shù)或系統(tǒng)。
人臉識(shí)別是一項(xiàng)熱門的計(jì)算機(jī)技術(shù)研究領(lǐng)域,它屬于生物特征識(shí)別技術(shù),是對(duì)生物體(一般特指人)本身的生物特征來(lái)區(qū)分生物體個(gè)體。生物特征識(shí)別技術(shù)所研究的生物特征包括臉、指紋、手掌紋、虹膜、視網(wǎng)膜、聲音(語(yǔ)音)、體形、個(gè)人習(xí)慣(例如敲擊鍵盤的力度和頻率、簽字)等,相應(yīng)的識(shí)別技術(shù)就有人臉識(shí)別、指紋識(shí)別、掌紋識(shí)別、虹膜識(shí)別、視網(wǎng)膜識(shí)別、語(yǔ)音識(shí)別(用語(yǔ)音識(shí)別可以進(jìn)行身份識(shí)別,也可以進(jìn)行語(yǔ)音內(nèi)容的識(shí)別,只有前者屬于生物特征識(shí)別技術(shù))、體形識(shí)別、鍵盤敲擊識(shí)別、簽字識(shí)別等。
人臉識(shí)別的優(yōu)勢(shì)在于其自然性和不被被測(cè)個(gè)體察覺的特點(diǎn)。
所謂自然性,是指該識(shí)別方式同人類(甚至其他生物)進(jìn)行個(gè)體識(shí)別時(shí)所利用的生物特征相同。例如人臉識(shí)別,人類也是通過(guò)觀察比較人臉區(qū)分和確認(rèn)身份的,另外具有自然性的識(shí)別還有語(yǔ)音識(shí)別、體形識(shí)別等,而指紋識(shí)別、虹膜識(shí)別等都不具有自然性,因?yàn)槿祟惢蛘咂渌锊⒉煌ㄟ^(guò)此類生物特征區(qū)別個(gè)體。
不被察覺的特點(diǎn)對(duì)于一種識(shí)別方法也很重要,這會(huì)使該識(shí)別方法不令人反感,并且因?yàn)椴蝗菀滓鹑说淖⒁舛蝗菀妆黄垓_。人臉識(shí)別具有這方面的特點(diǎn),它完全利用可見光獲取人臉圖像信息,而不同于指紋識(shí)別或者虹膜識(shí)別,需要利用電子壓力傳感器采集指紋,或者利用紅外線采集虹膜圖像,這些特殊的采集方式很容易被人察覺,從而更有可能被偽裝欺騙。
困難
雖然人臉識(shí)別有很多其他識(shí)別無(wú)法比擬的優(yōu)點(diǎn),但是它本身也存在許多困難。人臉識(shí)別被認(rèn)為是生物特征識(shí)別領(lǐng)域甚至人工智能領(lǐng)域最困難的研究課題之一。人臉識(shí)別的困難主要是人臉作為生物特征的特點(diǎn)所帶來(lái)的。人臉在視覺上的特點(diǎn)是:
在人臉識(shí)別中,第一類的變化是應(yīng)該放大而作為區(qū)分個(gè)體的標(biāo)準(zhǔn)的,而第二類的變化應(yīng)該消除,因?yàn)樗鼈兛梢源硗粋€(gè)個(gè)體。通常稱第一類變化為類間變化(inter-class difference),而稱第二類變化為類內(nèi)變化(intra-class difference)。對(duì)于人臉,類內(nèi)變化往往大于類間變化,從而使在受類內(nèi)變化干擾的情況下利用類間變化區(qū)分個(gè)體變得異常困難。
技術(shù)細(xì)節(jié)
一般來(lái)說(shuō),人臉識(shí)別系統(tǒng)包括圖像攝取、人臉定位、圖像預(yù)處理、以及人臉識(shí)別(身份確認(rèn)或者身份查找)。系統(tǒng)輸入一般是一張或者一系列含有未確定身份的人臉圖像,以及人臉數(shù)據(jù)庫(kù)中的若干已知身份的人臉圖象或者相應(yīng)的編碼,而其輸出則是一系列相似度得分,表明待識(shí)別的人臉的身份。
目前人臉識(shí)別的算法可以分類為:
應(yīng)用
人臉識(shí)別的應(yīng)用主要有:
人臉識(shí)別經(jīng)過(guò)經(jīng)過(guò)這么多年來(lái)的發(fā)展,取得了很大的發(fā)展,涌現(xiàn)出了大量的識(shí)別算法。這些算法的涉及面非常廣泛,包括模式識(shí)別、圖像處理、計(jì)算機(jī)視覺、人工智能、統(tǒng)計(jì)學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、小波分析、子空間理論和流形學(xué)習(xí)等眾多學(xué)科。所以很難用一個(gè)統(tǒng)一的標(biāo)準(zhǔn)對(duì)這些算法進(jìn)行分類。根據(jù)輸入數(shù)據(jù)形式的不同可分為基于靜態(tài)圖像的人臉識(shí)別和基于視頻圖像的人臉識(shí)別。因?yàn)榛陟o態(tài)圖像的人臉識(shí)別算法同樣適用于基于視頻圖像的人臉識(shí)別,所以只有那些使用了時(shí)間信息的識(shí)別算法才屬于基于視頻圖像的人臉識(shí)別算法。接下來(lái)分別介紹兩類人臉識(shí)別算法中的一些重要的算法。
特征臉
特征臉方法利用主分量分析進(jìn)行降維和提取特征。主分量分析是一種應(yīng)用十分廣泛的數(shù)據(jù)降維技術(shù),該方法選擇與原數(shù)據(jù)協(xié)方差矩陣前幾個(gè)最大特征值對(duì)應(yīng)的特征向量構(gòu)成一組基,以達(dá)到最佳表征原數(shù)據(jù)的目的。因?yàn)橛芍鞣至糠治鎏崛〉奶卣飨蛄糠祷爻蓤D像時(shí),看上去仍像人臉,所以這些特征向量被稱為“特征臉”。
在人臉識(shí)別中,由一組特征臉基圖象張成一個(gè)特征臉子空間,任何一幅人臉圖象(減去平均人臉后)都可投影到該子空間,得到一個(gè)權(quán)值向量。計(jì)算此向量和訓(xùn)練集中每個(gè)人的權(quán)值向量之間的歐式距離,取最小距離所對(duì)應(yīng)的人臉圖像的身份作為測(cè)試人臉圖像的身份。
下圖給出了主分量分析的應(yīng)用例子。圖中最左邊的為平均臉,其他的為對(duì)應(yīng) 7 個(gè)最大特征值的特征向量。
主分量分析是一種無(wú)監(jiān)督學(xué)習(xí)方法,主分量是指向數(shù)據(jù)能量分布最大的軸線方向,因此可以從最小均方誤差意義下對(duì)數(shù)據(jù)進(jìn)行最優(yōu)的表達(dá)。但是就分類任務(wù)而言,由主分量分析得到的特征卻不能保證可以將各個(gè)類別最好地區(qū)分開來(lái)。
線性鑒別分析是一種著名的模式識(shí)別方法,通過(guò)將樣本線性變換到一個(gè)新的空間,使樣本的類內(nèi)散布程度達(dá)到最小,同時(shí)類間散布程度達(dá)到最大,即著名的 Fisher 準(zhǔn)則。
標(biāo)準(zhǔn)特征臉 |
同一個(gè)人不同圖像之間的的特征臉 |
不同人的圖像之間的特征臉 |
Lades 等人針對(duì)畸變不變性的物體識(shí)別問題提出了一種基于動(dòng)態(tài)連接結(jié)構(gòu)的彈性圖匹配方法,并將其應(yīng)用于人臉識(shí)別。所有人臉圖像都有相似的拓?fù)浣Y(jié)構(gòu)。人臉都可表示成圖,圖中的節(jié)點(diǎn)是一些基準(zhǔn)點(diǎn)(如眼睛,鼻尖等),圖中的邊是這些基準(zhǔn)點(diǎn)之間的連線。
每個(gè)節(jié)點(diǎn)包含 40 個(gè) Gabor 小波(一種數(shù)字信號(hào)變換方法)系數(shù),包括相位和幅度,這些系數(shù)合起來(lái)稱為一個(gè) Jet ,這些小波系數(shù)是原始圖像和一組具有 5 個(gè)頻率、 8 個(gè)方向的 Gabor 小波卷積(一種數(shù)字信號(hào)處理算子)得到的。這樣每幅圖就像被貼了標(biāo)簽一樣,其中的點(diǎn)被 Jets 標(biāo)定,邊被點(diǎn)之間的距離標(biāo)定。所以一張人臉的幾何形狀就被編碼為圖中的邊,而灰度值的分布被編碼為圖中的節(jié)點(diǎn)。如下圖所示:
彈性圖匹配方法中人臉的彈性束圖表示
為了識(shí)別一張新的人臉,需要從該人臉中找到基準(zhǔn)點(diǎn),提取出一個(gè)人臉圖,這可用彈性圖匹配得到。彈性圖匹配的目的是在新的人臉中找到基準(zhǔn)點(diǎn),并且提取出一幅圖,這幅圖和現(xiàn)有的人臉束圖之間的相似度最大。經(jīng)過(guò)彈性圖匹配后,新的人臉的圖就被提取出來(lái)了,此圖就表征了新的人臉,用它作為特征進(jìn)行識(shí)別。進(jìn)行識(shí)別時(shí),計(jì)算測(cè)試人臉和現(xiàn)有人臉束圖中的所有人臉之間的相似度,相似度最大的人臉的身份即為測(cè)試人臉的身份。
由于該方法利用 Gabor 小波變換來(lái)描述面部特征點(diǎn)的局部信息,因此受光照影響較小。此外,在彈性匹配的過(guò)程中,網(wǎng)格的形狀隨著特征點(diǎn)的搜索而不斷變化,因此對(duì)姿態(tài)的變化也具有一定的自適應(yīng)性。該方法的主要缺點(diǎn)是搜索過(guò)程中代價(jià)函數(shù)優(yōu)化的計(jì)算量巨大,因而造成識(shí)別速度較慢,導(dǎo)致該方法的實(shí)用性不強(qiáng)。
3D 形態(tài)模型
人臉本質(zhì)上是 3D 空間中的一個(gè)表面,所以原則上用 3D 模型能更好地表征人臉,特別是處理人臉的各種變化,如姿勢(shì)、光照等。 Blanz 等人提出了一種基于 3D 形態(tài)模型的方法,該方法將形狀和紋理用模型參數(shù)編碼,同時(shí)提出了一個(gè)能從單張人臉圖像還原模型參數(shù)的算法。形狀和紋理參數(shù)可用來(lái)進(jìn)行人臉的識(shí)別。為了處理由于這些參數(shù)導(dǎo)致的圖像之間差異的極端情形,通常是預(yù)先產(chǎn)生一個(gè)通用的模型。而進(jìn)行圖像分析時(shí),給定一張新的圖像,一般的做法是用通用模型去擬合新的圖像,從而根據(jù)模型來(lái)參數(shù)化新的圖像。
基于視頻圖像的識(shí)別算法
一個(gè)典型的基于視頻圖像的人臉識(shí)別系統(tǒng)一般都是自動(dòng)檢測(cè)人臉區(qū)域,從視頻中提取特征,最后如果人臉存在則識(shí)別出人臉的身份。在視頻監(jiān)控、信息安全和出入控制等應(yīng)用中,基于視頻的人臉識(shí)別是一個(gè)非常重要的問題,也是目前人臉識(shí)別的一個(gè)熱點(diǎn)和難點(diǎn)?;谝曨l比基于靜態(tài)圖像更具優(yōu)越性,因?yàn)?Bruce 等人和 Knight 等人已證明,當(dāng)人臉被求反或倒轉(zhuǎn)時(shí),運(yùn)動(dòng)信息有助于(熟悉的)人臉的識(shí)別。雖然視頻人臉識(shí)別是基于靜態(tài)圖像的人臉識(shí)別的直接擴(kuò)展,但一般認(rèn)為視頻人臉識(shí)別算法需要同時(shí)用到空間和時(shí)間信息,這類方法直到近幾年才開始受到重視并需要進(jìn)一步的研究和發(fā)展。目前視頻人臉識(shí)別還有很多困難和挑戰(zhàn),具體來(lái)說(shuō)有以下幾種:
視頻圖像質(zhì)量比較差:視頻圖像一般是在戶外(或室內(nèi),但是采集條件比較差)獲取的,通常沒有用戶的配合,所以視頻人臉圖像經(jīng)常會(huì)有很大的光照和姿態(tài)變化。另外還可能會(huì)有遮擋和偽裝。
人臉圖像比較?。和瑯?,由于采集條件比較差,視頻人臉圖像一般會(huì)比基于靜態(tài)圖像的人臉識(shí)別系統(tǒng)的預(yù)設(shè)尺寸小。小尺寸的圖像不但會(huì)影響識(shí)別算法的性能,而且還會(huì)影響人臉檢測(cè),分割和關(guān)鍵點(diǎn)定位的精度,這必然會(huì)導(dǎo)致整個(gè)人臉識(shí)別系統(tǒng)性能的下降。
視頻人臉識(shí)別起源于基于靜態(tài)圖像的人臉識(shí)別,即識(shí)別系統(tǒng)自動(dòng)的檢測(cè)和分割出人臉,然后用基于靜態(tài)圖像的識(shí)別方法進(jìn)行識(shí)別。對(duì)這類方法的一個(gè)提高是加入了人臉跟蹤。在這類系統(tǒng)中,通過(guò)利用姿態(tài)和從視頻中估計(jì)到的深度信息合成一個(gè)虛擬的正面人臉。這個(gè)階段的另外一個(gè)能提高識(shí)別率的方法是利用視頻中充裕的幀圖像,基于每幀圖像的識(shí)別結(jié)果,使用 ” 投票 ” 機(jī)制。投票方法可以是確定的,但是概率投票方法一般來(lái)說(shuō)更好。投票機(jī)制的一個(gè)缺點(diǎn)是計(jì)算結(jié)果的代價(jià)比較昂貴。
視頻人臉識(shí)別的第二個(gè)發(fā)展階段是利用多模態(tài)信息。因?yàn)槿祟愐话銜?huì)利用多種信息識(shí)別人的身份,所以一個(gè)多模態(tài)系統(tǒng)將比只利用人臉的識(shí)別系統(tǒng)性能更好。更重要的是利用多模態(tài)信息提供了一種方法,它能全面解決那些只靠人臉無(wú)法識(shí)別的任務(wù)。例如,在一個(gè)完全沒有配合的環(huán)境(比如搶劫),歹徒的臉一般是蒙著的,這時(shí)唯一能進(jìn)行無(wú)人臉識(shí)別的方法就是分析歹徒軀體的運(yùn)動(dòng)特性。除了指紋,人臉和聲音是最常用于身份識(shí)別的信息。它們已經(jīng)被用于很多多模態(tài)身份識(shí)別系統(tǒng)。 1997 年以來(lái),每?jī)赡?,就?huì)召開一個(gè)專門關(guān)于基于視頻和語(yǔ)音身份識(shí)別的國(guó)際會(huì)議。
最近幾年,視頻人臉識(shí)別進(jìn)入第三個(gè)發(fā)展階段,這個(gè)階段方法的特點(diǎn)是同時(shí)采用空間信息(在每幀中)和時(shí)間信息(比如人臉特征的運(yùn)動(dòng)軌跡)。區(qū)別于概率投票方法的一個(gè)很大的不同之處在于,此類方法是在時(shí)間和空間的聯(lián)合空間中描述人臉和識(shí)別人臉的。
視頻圖像的一個(gè)非常重要的特性是它的時(shí)間連續(xù)性,以及由此產(chǎn)生的人臉信息的不確定性。在人臉跟蹤和識(shí)別中利用時(shí)間信息是視頻人臉識(shí)別算法和基于靜態(tài)圖像的人臉識(shí)別算法的最大區(qū)別。目前這類算法大致可分為兩類:
以上內(nèi)容整理自以下兩個(gè)地方:
這個(gè)東西,由于剛剛接觸,還不知怎么實(shí)現(xiàn)。不過(guò),倒是,有人做了個(gè)人臉檢測(cè)與特征定位的程序,效果圖如下:
(本博客算法交流群第七群,Algorithms_7群,128691433。歡迎有興趣者加入)
謝謝瀏覽,完。
聯(lián)系客服