王海亮
摘 要:近幾年來(lái),人工智能、物聯(lián)網(wǎng)技術(shù)得到了高速發(fā)展,傳統(tǒng)的交通行業(yè)在二者的輔助下也得到了發(fā)展。本文針對(duì)智慧交通系統(tǒng)中的行人過(guò)街系統(tǒng)進(jìn)行了改進(jìn),提出一種基于人臉檢測(cè)和人臉識(shí)別的行人過(guò)街系統(tǒng)。該系統(tǒng)由圖像采集模塊、人臉檢測(cè)及識(shí)別模塊、數(shù)據(jù)分析及處理模塊等部分組成,借助MTCNN、FaceNet等深度卷積神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)人臉檢測(cè)和人臉識(shí)別,同時(shí)在年齡識(shí)別模塊中調(diào)整了AlexNet模型的網(wǎng)絡(luò)參數(shù),并對(duì)模型進(jìn)行重新訓(xùn)練。行人過(guò)街系統(tǒng)借助深度學(xué)習(xí)算法,可以實(shí)現(xiàn)無(wú)感知放行,有效提升道路通行率及行人過(guò)馬路的安全性。
關(guān)鍵詞:人臉檢測(cè);人臉識(shí)別;行人過(guò)街;MTCNN
中圖分類號(hào):TN911.73;TP391.4文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-5168(2020)32-0010-04
Abstract: In recent years, artificial intelligence and Internet of Things technologies have developed rapidly, and the traditional transportation industry has also developed with the assistance of the two. This paper improved the pedestrian crossing system in the smart transportation system, and proposed a pedestrian crossing system based on face detection and face recognition. The system consists of an image acquisition module, a face detection and recognition module, a data analysis and processing module, etc, it uses deep convolutional neural network algorithms such as MTCNN and FaceNet to realize face detection and face recognition, at the same time, it adjusts the network parameters of the AlexNet model in the age recognition module and retrains the model. The pedestrian crossing system uses deep learning algorithms to realize non-perceptual clearance, effectively improving road traffic rate and pedestrian crossing safety.
Keywords: face detection;face recognition;pedestrian crossing;MTCNN
智能交通系統(tǒng)通常簡(jiǎn)稱為ITS(Intelligent Transportation System),是將先進(jìn)的信息技術(shù)、數(shù)據(jù)通信傳輸技術(shù)、電子傳感技術(shù)、控制技術(shù)及計(jì)算機(jī)技術(shù)等有效地集成并運(yùn)用于交通系統(tǒng),從而提高交通系統(tǒng)效率的綜合性應(yīng)用系統(tǒng)。除了北京、上海、廣州和深圳,天津、重慶、武漢等也正在邁向超大城市行列。與此同時(shí),城市道路人車搶道的問(wèn)題日益嚴(yán)重,行人既是道路通行中的弱者,也是引起交通秩序混亂和效率低下的根源之一,因此,全國(guó)各地紛紛涌現(xiàn)出不同形式的智能行人過(guò)街系統(tǒng)。行人過(guò)街系統(tǒng)作為ITS系統(tǒng)的一部分,實(shí)現(xiàn)智能化是未來(lái)交通系統(tǒng)發(fā)展的方向,也是未來(lái)車聯(lián)網(wǎng)的重要組成部分。
1 行人過(guò)街系統(tǒng)
本文設(shè)計(jì)的是一種基于人臉識(shí)別的智能行人過(guò)街系統(tǒng),該類控制系統(tǒng)以機(jī)動(dòng)車放行為強(qiáng)控制權(quán)、行人放行為弱控制權(quán),通過(guò)動(dòng)態(tài)分配放行權(quán)的方式實(shí)現(xiàn)路口的控制,在保障機(jī)動(dòng)車通行效率的同時(shí),也能動(dòng)態(tài)分配行人通行的權(quán)利,最大限度保障道路的暢通。目前,比較常見(jiàn)的行人過(guò)街控制系統(tǒng)有按鈕式行人過(guò)街控制系統(tǒng)及感應(yīng)式行人過(guò)街控制系統(tǒng)[1]。
與按鈕式行人過(guò)街控制系統(tǒng)相比,感應(yīng)式行人過(guò)街控制系統(tǒng)用行人檢測(cè)模塊替換了行人過(guò)街的按鈕,行人檢測(cè)模塊負(fù)責(zé)檢測(cè)在固定等待區(qū)內(nèi)的行人過(guò)街請(qǐng)求,可以動(dòng)態(tài)檢測(cè)過(guò)街行人的數(shù)量,動(dòng)態(tài)調(diào)整行人放行的時(shí)間。目前,該系統(tǒng)感應(yīng)模塊主要通過(guò)溫度、光等傳感器實(shí)現(xiàn)觸發(fā)。
按鈕式行人過(guò)街控制系統(tǒng)安裝簡(jiǎn)單,但存在不夠靈活、按鍵容易損壞等問(wèn)題,而溫度、光等感應(yīng)式系統(tǒng)受環(huán)境、使用時(shí)間等因素影響,感應(yīng)精度偏低。現(xiàn)在,基于深度學(xué)習(xí)的行人檢測(cè)算法已經(jīng)比較成熟,因此本文采用該方案來(lái)構(gòu)建感應(yīng)式行人過(guò)街控制系統(tǒng)[2]。
2 基于人臉識(shí)別的行人過(guò)街系統(tǒng)
本文設(shè)計(jì)的行人過(guò)街系統(tǒng)由前端視頻采集模塊、IoT(OneNET)平臺(tái)及后端識(shí)別三部分組成。前端視頻采集模塊采用高清或標(biāo)清的攝像機(jī),首先在視頻范圍內(nèi)劃分行人虛擬等待區(qū),如果有行人進(jìn)入虛擬等待區(qū),則觸發(fā)攝像機(jī)運(yùn)行并將視頻流通過(guò)IoT(OneNET)平臺(tái)實(shí)時(shí)推送到后端平臺(tái)服務(wù)器中,后端平臺(tái)獲取每一幀視頻數(shù)據(jù)后通過(guò)人臉檢測(cè)和人臉識(shí)別算法提取行人數(shù)量、行人運(yùn)動(dòng)軌跡、行人年齡等特征,并通過(guò)特征加權(quán)形成放行方案后傳輸至道路交通控制系統(tǒng),最終形成行人的智能化放行方案。
2.1 人臉識(shí)別網(wǎng)絡(luò)模型
一個(gè)完整的人臉識(shí)別過(guò)程包括人臉檢測(cè)、人臉識(shí)別兩個(gè)過(guò)程,首先通過(guò)人臉檢測(cè)算法提取出人臉的候選框,接著通過(guò)人臉識(shí)別算法識(shí)別候選框中的人臉并進(jìn)行人臉比對(duì),最后完成人臉識(shí)別的過(guò)程。
從2006年提出深度學(xué)習(xí)概念,NVIDIA發(fā)布了一系列高性能顯卡,使得深度學(xué)習(xí)的訓(xùn)練時(shí)間大大縮短。同時(shí),Caffe、TensorFlow等深度學(xué)習(xí)框架逐漸成熟,封裝了深度學(xué)習(xí)的主要流行框架,大大降低了深度學(xué)習(xí)的難度。
本文的人臉檢測(cè)及識(shí)別模塊采用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),卷積神經(jīng)網(wǎng)絡(luò)[3](Convolutional Neural Network)的簡(jiǎn)稱是CNN,是深度學(xué)習(xí)里面最熱門的一種網(wǎng)絡(luò)結(jié)構(gòu),在圖像識(shí)別、物體檢測(cè)等領(lǐng)域普遍應(yīng)用。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)依舊是層級(jí)結(jié)構(gòu),主要由輸入層、卷積層、池化層及輸出分類層組成,其各層的功能和形式做了變化,通過(guò)卷積計(jì)算層替換傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的全連接層。卷積神經(jīng)網(wǎng)絡(luò)在低層使用卷積來(lái)獲得圖像的局部特征,高層對(duì)低層獲得的圖像局部特征進(jìn)一步卷積可獲得更細(xì)化的局部特征,最后通過(guò)全連接層實(shí)現(xiàn)全部特征的提取。
2.2 系統(tǒng)框架
系統(tǒng)由前端信息采集模塊、人臉檢測(cè)及識(shí)別模塊、云端數(shù)據(jù)處理模塊及交通控制模塊四部分組成,前端信息采集模塊通過(guò)視頻攝像機(jī)將實(shí)時(shí)數(shù)據(jù)流推送到云端平臺(tái),云端平臺(tái)通過(guò)人臉檢測(cè)及識(shí)別模塊將行人的人臉特征解析出來(lái)并送至數(shù)據(jù)處理模塊,數(shù)據(jù)處理模塊根據(jù)行人特征信息、權(quán)重等參數(shù)決定當(dāng)前行人放行的策略。生成好的策略最后傳送至交通控制系統(tǒng)。系統(tǒng)結(jié)構(gòu)框圖如圖1所示。
2.3 數(shù)據(jù)采集模塊
數(shù)據(jù)采集模塊采集的是人臉數(shù)據(jù),人臉采集分為人臉檢測(cè)和人臉識(shí)別[4]兩個(gè)功能模塊,其中人臉檢測(cè)是進(jìn)行人臉識(shí)別、處理的基礎(chǔ)。其間通過(guò)檢測(cè)出實(shí)時(shí)視頻流中的人臉,返回高精度的人臉框坐標(biāo)及特征點(diǎn)。為了節(jié)省方案整體的成本,人臉檢測(cè)、人臉識(shí)別及處理部分均置于云端平臺(tái)??紤]到路過(guò)攝像頭的行人會(huì)對(duì)檢測(cè)結(jié)果形成干擾,攝像機(jī)部署時(shí)要求攝像頭面向行人過(guò)街的方向,最大程度降低非過(guò)街行人對(duì)本系統(tǒng)的影響。
2.4 人臉檢測(cè)及識(shí)別模塊
2.4.1 行人虛擬等待區(qū)檢測(cè)。與傳統(tǒng)的行人檢測(cè)方法不同,本文通過(guò)視頻識(shí)別人臉?lè)绞綄?shí)現(xiàn)行人過(guò)街。首先需要在視頻檢測(cè)區(qū)域內(nèi)劃出行人虛擬等待區(qū),只有進(jìn)入該區(qū)域內(nèi)的行人才會(huì)觸發(fā)人臉識(shí)別檢測(cè)。當(dāng)行人進(jìn)入該區(qū)域后,攝像機(jī)對(duì)該行人進(jìn)行人臉檢測(cè)及人臉跟蹤。檢測(cè)工作流程如圖2所示。
2.4.2 人臉檢測(cè)。本文人臉檢測(cè)算法采用MTCNN的深度學(xué)習(xí)網(wǎng)絡(luò)模型[5],該模型是一種多任務(wù)的人臉檢測(cè)框架,使用了3個(gè)CNN級(jí)聯(lián)算法結(jié)構(gòu)P-Net、R-Net及O-Net,通過(guò)考慮人臉邊框回歸、面部關(guān)鍵點(diǎn)檢測(cè)等方法將人臉坐標(biāo)及特征值同時(shí)提取出來(lái)。
算法將每一幀圖像按照不同的縮放比例,縮放成不同大小的圖片,形成特征金字塔。P-Net獲取人臉區(qū)域內(nèi)人臉的候選窗口和邊界框的回歸向量,并對(duì)邊界框進(jìn)行回歸,實(shí)現(xiàn)候選窗口的校準(zhǔn),最后通過(guò)非極大值抑制來(lái)合并IoU高的候選框。P-Net生成的候選框經(jīng)過(guò)R-Net網(wǎng)絡(luò)層中繼續(xù)訓(xùn)練,利用邊界框回歸值微調(diào)候選人臉窗體,同樣再通過(guò)非極大值抑制來(lái)合并候選框。P-Net和R-Net網(wǎng)絡(luò)層的輸出數(shù)據(jù)最后通過(guò)O-Net實(shí)現(xiàn)人臉的關(guān)鍵點(diǎn)定位。
人臉檢測(cè)模塊輸出參數(shù)包括人臉框圖、行人數(shù)量、行人等待時(shí)間等,其中,行人數(shù)量特征參數(shù)將會(huì)作為本系統(tǒng)的重要特征輸入數(shù)據(jù)綜合處理模塊來(lái)決定行人過(guò)街的綠燈初始放行時(shí)間。
2.4.3 人臉識(shí)別。人臉識(shí)別的目的是為了分析出一段時(shí)間內(nèi)行人虛擬等待區(qū)內(nèi)同一個(gè)人的運(yùn)動(dòng)軌跡,本云端系統(tǒng)實(shí)時(shí)處理人臉檢測(cè)模塊中識(shí)別出來(lái)人臉框的圖片。人臉識(shí)別采用Google的FaceNet網(wǎng)絡(luò)模型[6],F(xiàn)aceNet以圖像到歐式空間的距離作為依據(jù),采用基于深度神經(jīng)網(wǎng)絡(luò)的圖像映射方法和基于Treiplets的損失函數(shù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)直接輸出為128維度的向量空間。具體算法實(shí)現(xiàn)流程如圖3所示。
FaceNet網(wǎng)絡(luò)模型的末端使用Triplet Loss來(lái)進(jìn)行分類,Triplet Loss將每個(gè)個(gè)體的人臉圖像與其他人臉圖像分開(kāi),三元組是三個(gè)樣例,利用距離關(guān)系來(lái)進(jìn)行判斷。在盡可能多的三元組中,要使正樣本與錨點(diǎn)的距離小于負(fù)樣本與錨點(diǎn)的距離。
2.4.4 人臉跟蹤。在行人等待區(qū)域內(nèi)識(shí)別單個(gè)行人軌跡的主要目的是判斷該行人是否有過(guò)街的需求,避免正常路過(guò)的行人識(shí)別錯(cuò)誤,從而引起不必要的過(guò)街請(qǐng)求。實(shí)際上,本系統(tǒng)只需要行人進(jìn)入虛擬等待區(qū)識(shí)別出的第一張照片和行人靜止?fàn)顟B(tài)的照片即可勾畫(huà)出該行人的行動(dòng)軌跡,并不需要形成嚴(yán)格的行動(dòng)軌跡。人臉識(shí)別是實(shí)現(xiàn)人臉跟蹤的必要條件,人臉跟蹤模塊中使用人臉識(shí)別中已經(jīng)識(shí)別好的人臉數(shù)據(jù),根據(jù)多張圖像中檢測(cè)的人臉進(jìn)行比對(duì),當(dāng)同一個(gè)行人進(jìn)入虛擬等待區(qū)內(nèi)開(kāi)始,直至其靜止,通過(guò)人臉跟蹤獲得該行人的運(yùn)動(dòng)軌跡。
2.4.5 年齡識(shí)別。行人過(guò)街的時(shí)間除了跟需要過(guò)街的行人數(shù)量有關(guān),還跟過(guò)街的行人年齡段有關(guān)。當(dāng)過(guò)街行人中有老人,本系統(tǒng)會(huì)識(shí)別出并給出加權(quán)因子,調(diào)整放行策略。年齡識(shí)別的算法[7]在AlexNet模型的基礎(chǔ)上做些修改,采用3個(gè)卷積層、2個(gè)全連接層,與AlexNet相比,CNN網(wǎng)絡(luò)模型簡(jiǎn)化了很多,對(duì)于年齡的識(shí)別,考慮到分類精度,因此只劃分了2個(gè)年齡段,相當(dāng)于2個(gè)分類,具體為青壯年、老年兩分類。圖像輸入是人臉識(shí)別模塊輸出的人臉框圖。模型框圖如圖4所示。
不同于FaceNet及MTCNN模型,本文需要對(duì)AlexNet衍射出來(lái)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行fine-tuning,將輸出的10分類調(diào)整為2分類。該網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)全卷積層的神經(jīng)網(wǎng)絡(luò),模型輸入為227×227×3大小的圖片,層一為96個(gè)11×11的卷積核和3×3的MP,通過(guò)該層后生成96個(gè)55×55的特征圖;層二為256個(gè)5×5的卷積核和3×3的MP,通過(guò)該層后生成256個(gè)27×27的特征圖;層三為384個(gè)3×3的卷積核,通過(guò)該層生成384個(gè)13×13的特征圖;層四為384個(gè)3×3的卷積核生成384大小的全連接層;層五、層六為512個(gè)全連接層,最后輸出人臉的2個(gè)分類。
本文基于TensorFlow框架對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行了重新訓(xùn)練。具體步驟為:下載AlexNet及其衍生網(wǎng)絡(luò)模型的數(shù)據(jù)集,并導(dǎo)入訓(xùn)練模型中;初始化模型權(quán)重、卷積核等參數(shù),采用標(biāo)準(zhǔn)差為0.1、均值為0的高斯分布數(shù)據(jù);為了防止過(guò)擬合,dropout選擇為0.5。min-batch選擇為100,學(xué)習(xí)率為0.001,當(dāng)?shù)螖?shù)超過(guò)5 000次后,調(diào)整學(xué)習(xí)率為0.000 1,迭代次數(shù)為1 000次或梯度不發(fā)生降低時(shí)停止;將人臉檢測(cè)輸出的resize為227×227的圖片輸入該模型中并進(jìn)行預(yù)測(cè)。
經(jīng)過(guò)重新訓(xùn)練后,在測(cè)試數(shù)據(jù)集上最終預(yù)測(cè)精度為0.9左右,基本滿足需求。
2.4.6 行人路段檢測(cè)。將道路中間的行人過(guò)街斑馬線劃分為虛擬行人過(guò)街檢測(cè)區(qū)域,當(dāng)當(dāng)前道路放行狀態(tài)處于行人放行時(shí),攝像頭將處于識(shí)別狀態(tài),實(shí)時(shí)識(shí)別斑馬線上的行人狀態(tài)。行人路段的檢測(cè)算法也采用MTCNN,如果剩余的行人過(guò)街時(shí)間不夠,就會(huì)主動(dòng)反饋信息給信號(hào)控制系統(tǒng),使得道路交通信號(hào)控制系統(tǒng)進(jìn)行行人放行配時(shí)調(diào)整,保證行人安全過(guò)街。
2.5 數(shù)據(jù)綜合處理模塊
經(jīng)過(guò)人臉檢測(cè)及人臉識(shí)別,多個(gè)特征參數(shù)形成,包含行人等待數(shù)量、行人已等待時(shí)間、等待行人中老年人占比率等,云端平臺(tái)將處理后的數(shù)據(jù)進(jìn)行加權(quán)分析,并形成放行策略傳輸給道路交通控制系統(tǒng),道路交通控制系統(tǒng)在執(zhí)行該放行策略時(shí)根據(jù)行人路段檢測(cè)模塊傳輸?shù)男畔⑦M(jìn)行動(dòng)態(tài)調(diào)整。處理流程如圖5所示。
權(quán)重參數(shù)并不是固定值,由特征參數(shù)的類型決定,如果某個(gè)時(shí)間段等待行人數(shù)量過(guò)多但等待時(shí)間較短,則權(quán)重1值相應(yīng)調(diào)高,權(quán)重2值相應(yīng)調(diào)低,如果某時(shí)間段等待行人數(shù)量很少,但等待的行人中老年人占比過(guò)多,其權(quán)重3會(huì)相應(yīng)調(diào)高,通過(guò)動(dòng)態(tài)調(diào)整權(quán)重,實(shí)現(xiàn)最優(yōu)行人放行策略。
3 結(jié)論
本文設(shè)計(jì)了一種基于人臉識(shí)別的行人過(guò)街系統(tǒng),介紹了總體架構(gòu),詳細(xì)闡述了各個(gè)子模塊的功能。在人臉檢測(cè)及識(shí)別過(guò)程中,本研究通過(guò)算法級(jí)聯(lián)的方式實(shí)現(xiàn)多種算法在實(shí)際應(yīng)用中的融合,構(gòu)建無(wú)感知行人過(guò)街系統(tǒng)。本文設(shè)計(jì)的系統(tǒng)可以作為V2X的子系統(tǒng),實(shí)現(xiàn)道路信號(hào)主動(dòng)控制,包括機(jī)動(dòng)車輔助駕駛、信號(hào)自適應(yīng)控制、特殊車輛優(yōu)先控制、行人安全報(bào)警等,行駛車輛通過(guò)與該路側(cè)系統(tǒng)的互聯(lián)互通,獲取精準(zhǔn)的路口信號(hào)配時(shí)方案、控制方案、相位相序信息、同步信號(hào)狀態(tài)、倒計(jì)時(shí)信息、行人流量、行人避讓和行人畫(huà)像等信息,提升道路通行安全性。
參考文獻(xiàn):
[1]張惠榮,蔡章輝,高霄.行人過(guò)街智能控制系統(tǒng)設(shè)計(jì)探討[J].現(xiàn)代建筑電氣,2018(7):72-75.
[2]張惠榮,蔡章輝,高霄.淺談行人過(guò)街智能控制系統(tǒng)發(fā)展現(xiàn)狀[C]//第十三屆中國(guó)智能交通年會(huì).2018.
[3]Larochelle H,Erhan D,Courville A,er al.An empirical evaluation of deep architectures on problems with many factors of variation[C]//The 24th International Conference on Machine Learning.2007.
[4]韋勇,萬(wàn)旭,徐海黎,等.基于人臉跟蹤與識(shí)別的行人闖紅燈取證系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2018(19):36-39.
[5]Zhang K,Zhang Z,Li Z,et al.Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks[J].IEEE Signal Processing Letters,2016(10):1499-1503.
[6]Schroff F,Kalenichenko D,Philbin J.FaceNet:A Unified Embedding for Face Recognition and Clustering[J].Computer Vision and Pattern Recognition,2015(1):815-823.
[7]Levi G,Hassncer T.Age and Gender Classification using Convolutional Neural Networks[J].IEEE Computer Society,2015(1):34-42.