嚴(yán) 沛
(華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510000)
人臉識(shí)別技術(shù)是指能在圖像、視頻中識(shí)別和認(rèn)證人的一種技術(shù)[1],如今相較于其他生物識(shí)別技術(shù),如:指紋認(rèn)證、虹膜認(rèn)證,人臉識(shí)別技術(shù)顯得更加成熟,也更受到大家的歡迎。如今,深度學(xué)習(xí)方法的出現(xiàn),極大的加快了人臉識(shí)別技術(shù)的進(jìn)程,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和驗(yàn)證,精確率可達(dá)接近100%。
人臉識(shí)別系統(tǒng)通常由以下幾塊組成[1]:
人臉檢測(cè):使用設(shè)備標(biāo)記人臉的面部特征,并記錄重要部位的位置,重要區(qū)域需要用矩陣標(biāo)記出來(lái)。
人臉對(duì)齊:使用一組參考點(diǎn)來(lái)定位圖像中固定的幾個(gè)重要的位置和區(qū)域,再通過(guò)圖像的縮放和裁剪,進(jìn)行對(duì)齊處理。在2D人臉對(duì)齊中,可以通過(guò)仿射變換完成人臉對(duì)齊操作,隨著技術(shù)的發(fā)展,也有更加復(fù)雜的3D人臉識(shí)別算法能夠?qū)崿F(xiàn)人臉的轉(zhuǎn)正,通過(guò)改變?nèi)四樀奈恢檬蛊涿嫦蛘胺健?/p>
人臉表征:人臉的像素值可以轉(zhuǎn)換成特征向量,理論上屬于同一人臉的不同圖像都將被映射成相似的特征向量。
人臉匹配:將圖片中人臉的特征向量做比對(duì),當(dāng)兩幅圖片特征向量的差異小于指定的閾值時(shí),可以判定兩張人臉圖片來(lái)源于一個(gè)人。
如今,現(xiàn)在使用最廣泛的視頻監(jiān)控技術(shù)通過(guò)攝像頭捕捉信息,再將信息實(shí)時(shí)傳回監(jiān)控室,由工作人員監(jiān)視視頻的信息,這種做法不僅需要耗費(fèi)人力,而且效果并不理想,人們的注意力最多僅能堅(jiān)持20分鐘,20分鐘之后,能獲取的有效信息不超過(guò)10%[2];隨著人臉識(shí)別技術(shù)的發(fā)展,基于人臉識(shí)別技術(shù)的智慧監(jiān)控也逐步運(yùn)用到了安防行業(yè)中,從客觀記錄到主動(dòng)識(shí)別,檢測(cè)到目標(biāo)時(shí)能發(fā)出警報(bào)并對(duì)目標(biāo)進(jìn)行跟蹤,讓安全防護(hù)更有保障。
2.1.1 問(wèn)題背景
以往我們通過(guò)派駐專門的安防人員去維護(hù)治安,但這種方式也存在著許多弊端:其一,無(wú)法及時(shí)發(fā)現(xiàn)安全隱患;其二,需要耗費(fèi)大量的人力物力。鑒于此,我們更需要一種能將攝像終端獲取的圖片和視頻進(jìn)行傳輸并存儲(chǔ),再用人工智能算法對(duì)存儲(chǔ)內(nèi)容進(jìn)行分析,從而實(shí)現(xiàn)服務(wù)的集成和信息化的技術(shù)——智慧安防技術(shù),為我們的生活安全提供更大的保障。
2.1.2解決方案:基于樹(shù)莓派和TensorFlow的視頻監(jiān)控系統(tǒng)
(1)硬件設(shè)施
樹(shù)莓派單片機(jī)。樹(shù)莓派設(shè)備是基于Linux操作系統(tǒng)的單片機(jī),體積小,但它能完成大部分計(jì)算機(jī)所能完成的功能:如網(wǎng)絡(luò)瀏覽、文字編輯、數(shù)據(jù)處理、信號(hào)發(fā)送,解決方案中采用的設(shè)備類型為:樹(shù)莓派三代B型。
攝像設(shè)備。攝像頭模塊選擇了:5MP Camera Board Module。攝像頭的廣角鏡頭最大旋轉(zhuǎn)角度為120°,攝像頭水平最大旋轉(zhuǎn)角度為270°,寬廣的視角有利于攝像頭捕獲更多的信息進(jìn)行分析,追蹤目標(biāo)的運(yùn)動(dòng)軌跡。
(2)軟件部署
在樹(shù)莓派上用Linux語(yǔ)言部署Python環(huán)境,并安裝TensorFlow和OpenCV框架。
(3)算法研究
Facenet使用TensorFlow框架下的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)用于人臉識(shí)別,其中最核心的部分是三重?fù)p失方法。
首先,我們將圖片x向量化,需要找到一個(gè)嵌入函數(shù)(f x),使得x能映射到d維特征空間Rd中,目標(biāo)是讓同一人的面部特征之間相對(duì)距離盡可能減??;不同人的面部特征之間的相對(duì)距離盡可能增大,從而達(dá)到區(qū)別人臉的效果。三重?fù)p失的主要思想是通過(guò)輸入的三幅圖片:目標(biāo)圖片(記為)、負(fù)樣本圖片(記為)、正樣本圖片(記為)。和可視為身份信息相似,和可視為身份信息不相似。然而對(duì)于這種方法而言,仍有一些特殊的情況要考慮進(jìn)去,當(dāng)模型在學(xué)習(xí)訓(xùn)練的過(guò)程中,可能會(huì)給不同的圖片作出相同的編碼,導(dǎo)致距離為0,因此我們要設(shè)置一個(gè)超參數(shù)α使得的距離總存在一個(gè)值。三重?fù)p失關(guān)系表達(dá)式為:
Facenet網(wǎng)絡(luò)的結(jié)構(gòu)為:第一部分是批輸入層,第二部分是深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),這里我們采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(以下簡(jiǎn)稱CNN),連接的下一層局部連接層用于歸一化處理,連接的下一層為嵌入層,最后一部分為三重?fù)p失函數(shù)。
(4)調(diào)試與分析
通過(guò)樹(shù)莓派讀取攝像頭捕獲的畫(huà)面和視頻進(jìn)行分析,使用TensorFlow模型的卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,以下簡(jiǎn)稱CNN)算法進(jìn)行人臉識(shí)別和比對(duì),檢測(cè)是否有目標(biāo)對(duì)象和異常事件,將捕獲與分析的信息通過(guò)無(wú)線網(wǎng)絡(luò)發(fā)送到指定終端。我們通過(guò)調(diào)整監(jiān)控距離的大小,測(cè)試視頻監(jiān)控最多能檢測(cè)到的人的數(shù)量,結(jié)果如表1所示。
2.1.3 總結(jié)
基于樹(shù)莓派單片機(jī)的人臉識(shí)別技術(shù),促進(jìn)了安防工作智能化發(fā)展,與以往相比,減少了大量人力物力的消耗,關(guān)鍵信息記錄和報(bào)告也更加準(zhǔn)確及時(shí)。攝像頭的攝像范圍寬廣,捕獲的信息量大,方便了對(duì)特定成員的追蹤;分析結(jié)果可以通過(guò)無(wú)線網(wǎng)絡(luò)發(fā)送到終端。所有用戶可以在幾乎同一時(shí)間內(nèi)收到信息,有效避免信息逐級(jí)報(bào)送產(chǎn)生的時(shí)延。人臉識(shí)別技術(shù)同樣可以對(duì)異常事件進(jìn)行檢測(cè),比如:打架斗毆、人群擁塞等,檢測(cè)到異常事件時(shí)能夠根據(jù)需要進(jìn)行蜂鳴報(bào)警,并立即反饋信息。人臉識(shí)別技術(shù)可以識(shí)別人的特征信息,比如:大致年齡、性別,帶有紅外線探測(cè)功能的攝像頭還可以檢測(cè)人們的體溫,有利于疫情防控常態(tài)化管理。
2.2.1 問(wèn)題背景
乘坐火車或飛機(jī)的時(shí)候,工作人員要對(duì)我們每個(gè)人進(jìn)行身份認(rèn)證,防止無(wú)關(guān)人員進(jìn)入侯乘區(qū)域,方便乘車人員軌跡追蹤,為侯乘區(qū)域乃至整個(gè)旅途提供安全保障。以往身份認(rèn)證是通過(guò)人工審核的方式進(jìn)行。如今,隨著智慧城市在全國(guó)各地遍地開(kāi)花,身份認(rèn)證的形式也更加智能化。
2.2.2 解決方案:基于DeepFace的人臉驗(yàn)證技術(shù)
(1)方案主要步驟
圖1是人臉驗(yàn)證系統(tǒng)流程圖。首先,通過(guò)攝像頭和云端感應(yīng)設(shè)備,捕獲人的頭像、將身份證上的信息讀入邊緣管理設(shè)備。然后,由邊緣管理設(shè)備向云服務(wù)器上傳身份信息,云服務(wù)器根據(jù)信息回傳對(duì)應(yīng)的人像至邊緣管理設(shè)備處,由邊緣管理設(shè)備對(duì)這兩張人像進(jìn)行比對(duì),最后將結(jié)果回傳至響應(yīng)端和云服務(wù)端。
(2)DeepFace人臉驗(yàn)證算法分析[5]
表1 視頻監(jiān)控系統(tǒng)在不同距離下人流量的統(tǒng)計(jì)
圖1 人臉驗(yàn)證系統(tǒng)流程圖
人臉驗(yàn)證的主要步驟為:人臉檢測(cè)、人臉對(duì)齊、人臉表示、人臉比對(duì)。
人臉檢測(cè):目前,深度學(xué)習(xí)算法是目前比較受歡迎的人臉識(shí)別算法,通過(guò)圖像中的面部特征從多個(gè)復(fù)雜混合的物品對(duì)象中識(shí)別出人臉,并用方框標(biāo)記出人臉的大致區(qū)間。
人臉對(duì)齊:人臉對(duì)齊是一種計(jì)算機(jī)視覺(jué)領(lǐng)域的修正技術(shù),目前主要用于識(shí)別數(shù)字圖像中的人臉結(jié)構(gòu)。假如能給定臉部的位置和尺寸大小,系統(tǒng)就能自動(dòng)估算出面部組成部分的形狀,比如:眼睛、鼻子、耳朵等。人臉對(duì)齊程序通過(guò)反復(fù)調(diào)整可變形模型,對(duì)臉部形狀和外貌特征進(jìn)行編碼,再?gòu)牡讓訄D像挖掘相關(guān)信息以證明所查找的人臉與給定圖片中的人臉相吻合。
人臉表示:將尺寸為152×152像素經(jīng)過(guò)3D對(duì)其處理的RGB3通道圖片傳遞給具有32個(gè)11×11×3尺寸濾波器的卷積層C1,接著傳入最大池化層M2,該層采用最大的3×3空間構(gòu)成,每個(gè)通道的步長(zhǎng)為2,之后連接的是含有16個(gè)尺寸為9×9×16過(guò)濾器的卷積層C3。這三層的主要目的是提取像簡(jiǎn)單邊緣紋理的底層特征。之后的三層為局部連接層L4、L5、L6,就如同其他卷積層一樣,應(yīng)用了濾波器組。但是特征圖中的每個(gè)位置都由不同的濾波器組進(jìn)行采樣處理。最后兩層F7和F8為全連接層,每個(gè)輸出單元對(duì)應(yīng)輸入單元,這些層能捕獲到在圖像邊緣特征之間的相關(guān)性,例如眼睛和嘴巴的形狀與位置。
人臉?lè)诸悾喝四樂(lè)诸愐揽考訖?quán)χ距離完成,相似性通過(guò)下面的方程表示:
f1,f2表示經(jīng)過(guò)DeepFace算法處理過(guò)的兩個(gè)圖片向量,權(quán)重參數(shù)用一個(gè)線性支持向量機(jī)算法直接訓(xùn)練,
當(dāng)χ2(f1,f2)數(shù)值越來(lái)越小,且低于一定的閾值時(shí),人臉識(shí)別設(shè)備可以判定該人確實(shí)是目標(biāo)本人。
(3)調(diào)試結(jié)果與分析
在數(shù)據(jù)集中,我們使用了不同的規(guī)模,在數(shù)據(jù)集中選擇1500人、3000人、4000人的面部數(shù)據(jù)作為測(cè)試集或訓(xùn)練集,并用DeepFace網(wǎng)絡(luò)訓(xùn)練,訓(xùn)練后的網(wǎng)絡(luò)名稱記為:DF-1.5K,DF-3K,DF-4K,其分類誤差率分別為:7.00%、7.22%、8.74%。
在YTW數(shù)據(jù)集上,我們?yōu)槊恳粋€(gè)視頻創(chuàng)建了50個(gè)視頻幀,并根據(jù)視頻訓(xùn)練對(duì),給他們標(biāo)記為相同或不相同,用視頻幀去訓(xùn)練模型。我們?cè)購(gòu)臏y(cè)試集中抽100幀用于測(cè)試,最終準(zhǔn)確率為92.5%。
在LFW數(shù)據(jù)集上,將所有LFW圖像在相同管道上處理并在SFC數(shù)據(jù)集上訓(xùn)練,采用無(wú)監(jiān)督的訓(xùn)練方式,最終模型準(zhǔn)確率可達(dá)97.5%。
2.2.3 分析
人臉驗(yàn)證技術(shù)發(fā)展相對(duì)成熟,精確率高達(dá)97%,識(shí)別時(shí)間也相對(duì)較快,捕獲和比對(duì)的信息也能及時(shí)記錄云端,為特定目標(biāo)的軌跡追蹤提供便利。但人臉認(rèn)證技術(shù)依然有著其不足,戴眼鏡、帽子、口罩都會(huì)導(dǎo)致人臉驗(yàn)證的精確度大打折扣。目前我們可以使用優(yōu)化的注意力算法模型,盡可能地找出未被覆蓋的面部特征去進(jìn)行人臉識(shí)別操作。
人臉識(shí)別算法的成熟推進(jìn)了智慧安防行業(yè)的發(fā)展,智慧安防需要三種設(shè)備共同協(xié)助完成:攝像設(shè)備、邊緣處理設(shè)備、云服務(wù)設(shè)備。由攝像設(shè)備捕獲信息并傳入邊緣處理設(shè)備,邊緣處理設(shè)備使用人臉識(shí)別算法對(duì)信息進(jìn)行處理,并將處理結(jié)果上傳至云端進(jìn)行匹配操作,最后將匹配結(jié)果回傳至終端,如此,管理人員和安防人員就能實(shí)時(shí)在終端上看到信息。智慧安防最核心的部分是人臉識(shí)別算法,文中綜述了基于TensorFlow的人臉識(shí)別算法和基于DeepFace的人臉驗(yàn)證算法。但人臉識(shí)別算法也有其不足,當(dāng)人臉被部分遮蓋時(shí),識(shí)別精確率會(huì)降低,要如何提高人臉被部分遮蓋時(shí),人臉識(shí)別算法的正確率,也是后面人臉識(shí)別應(yīng)用于安防領(lǐng)域的一個(gè)重要課題。