劉鶴丹,朱超凡,杜小甫
(廈門大學嘉庚學院信息科學與技術(shù)學院,福建漳州,363105)
計算機視覺是一門集成了計算機科學、生物學、物理學甚至心理學知識與一體的交叉學科[1],是計算機視覺技術(shù)的一個分支領域。視覺識別定位技術(shù)的基本思路是利用攝像頭獲取室內(nèi)環(huán)境視覺信息,有可能包括被定位對象的人臉信息等,然后根據(jù)一定算法從圖像中識別出待定位對象,進一步求得待定位對象的位置信息。根據(jù)攝像頭與待定位對象的關系,視覺定位整體上可以分為主動視覺定位和被動視覺定位兩大類。
主動視覺定位技術(shù)是指攝像頭安裝在待定位物體之上,例如掃地機器人、無人機等。主動視覺定位的核心步驟包括邊緣提取,噪聲過濾,信息識別等。主動視覺定位技術(shù)被廣泛地使用于工業(yè)機器人控制,無人機自動飛行控制[2],工業(yè)產(chǎn)品質(zhì)量檢測,自動駕駛等領域。
被動視覺識別定位技術(shù)指的是,利用位置固定的攝像頭,對待定位對象進行視頻圖像采集,將圖像信息上傳至后臺計算機進行識別,并進行定位解算。根據(jù)使用的攝像頭數(shù)量,可以將視被動視覺識別定位技術(shù)分為兩大類:單目技術(shù)[3]和多目技術(shù)[4],其中雙目技術(shù)是多目技術(shù)的一個特例分支。
目標檢測指的是對運動目標進行檢測,包括人員。
運動目標檢測技術(shù)經(jīng)過多年的發(fā)展,目前已經(jīng)有一些很成熟的技術(shù),主要包括背景減除法,幀差法,光流法等。比如,莫邵文等[5]在ViBe 算法的基礎上,解決鬼影問題。
行人識別是從視頻中根據(jù)行人特征直接提取并標注行人的方法,近年來對這類方法的研究也比較深入。該類方法主要是使用不同尺度的滑動窗口選定圖像的某一區(qū)域為候選區(qū)域,從對應的候選區(qū)域提取Haar 特征[6],LBP 紋理特征[7],HOG 特征[8],DPM 特征[9]等一類或者多類特征,再使用Adaboost,SVM,LatentSVM[9]等分類算法通過在訓練集訓練分類器,該分類器可以對對應的候選區(qū)域進行分類,判斷是否屬于待檢測的目標。例如Dalai[9]在2005年提出的HOG(Histograms of oriented gradients)特征,并利用SVM 分類器進行判斷是否為待檢測的行人目標。2008年Felzenszwalb[8]在HOG 特征的基礎上提出了DPM(deformable part model)特征,并利用LatentSVM 進行分類。2013年劉小灃[10]提出一種基于稀疏表達學習理論的稀疏編碼直方圖特征(HSC, histograms of sparse codes)算法,用HSC 特征代替DPM 算法中的HOG 特征,提升了DPM 的準確率。
人臉識別技術(shù)已成為計算機視覺領域最為成功的應用之一。傳統(tǒng)人臉識別技術(shù)主要包括采用全局特征和局部特征對人臉進行描述,再對提取出的特征描述,使用支持向量機等方法進行分類操作。
近年來,基于深度學習(Deep Learning)[11]的人臉識別技術(shù)成為主流,在準確度和速度方面都有極大優(yōu)勢。2014年,DeepFace[12]在 著 名 的LFW(Labeled Face in-the-Wild)數(shù)據(jù)集上取得接近人類的表現(xiàn)。近年來對抗生成網(wǎng)絡GAN[13]和強化學習(Reinforcement Learning)[14]技術(shù)也被引入到人臉識別領域。
單目視覺識別中的目標跟蹤,主要是指對檢測到的目標,結(jié)合視頻中相鄰幀之間的時空關系,對目標進行快速的識別并定位。當前流行的目標跟蹤算法主要分為兩個模塊,一種是生成式跟蹤算法,一種是判別式跟蹤算法。傳統(tǒng)的跟蹤算法均屬于生成式跟蹤算法。如卡爾曼濾波跟蹤[15]、粒子濾波跟蹤等。
行人再識別,即跨攝像頭行人關聯(lián)。其主要的研究內(nèi)容為提取特征并利用度量距離等算法計算兩個目標的相似度,從而根據(jù)得到的相似度判別這兩個目標是否為同一個人。行人再識別技術(shù)的難點主要有兩點,第一個是研究選擇哪一種行人對象的特征,能夠更好的表達行人區(qū)別,更加具有魯棒性;另外一個方向是使用更有效的距離度量函數(shù),使得同一個人的圖像間特征距離小于不同行人圖像間的特征距離。特征選取問題上,己有方法主要從顏色、紋理、梯度等角度對行人進行描述。顏色直方圖是最常用的特征,也是最直觀的特征表達。直方圖特征的缺點在于對于光照等條件的變化非常敏感。為了解決光照問題,引入了顏色碼本[16]、極大穩(wěn)定顏色區(qū)域特征[17]等改進直方圖特征表達形式。紋理特征以及邊緣特征等可以更好的描述行人的細節(jié)上的特征,同時對光照的變化不敏感。
本文對基于計算機視覺的目標識別定位技術(shù)進行了綜述,對涉及到的目標識別檢測、人臉識別、行人識別、目標跟蹤、行人再識別和多攝像頭協(xié)作等內(nèi)容進行了總結(jié),研究工作將基于此繼續(xù)展開。