郭佳驁 劉在田 閏子龍 苗喬偉
近年來,人們對社會公共安全問題的關(guān)注度不斷提高。視頻監(jiān)控系統(tǒng)的普及成為創(chuàng)建“平安城市”,提高人民社會安全感的有效保障。當(dāng)下,解決從監(jiān)控圖像與視頻中尋找已知人物的行人重識別( Personre-identification)問題被迅速提上日程,在人工智能領(lǐng)域,神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)算法的應(yīng)用成為解決此復(fù)雜問題的重要途經(jīng)。
在深度學(xué)習(xí)領(lǐng)域,神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要大量被標(biāo)注的數(shù)據(jù)集樣本,而在大數(shù)據(jù)快速發(fā)展的今天,在短時間內(nèi)進(jìn)行大量的數(shù)據(jù)標(biāo)注工作來實現(xiàn)監(jiān)督學(xué)習(xí)是不現(xiàn)實的。無監(jiān)督遷移學(xué)習(xí)是指將數(shù)據(jù)標(biāo)注這種龐大而復(fù)雜的工程,通過程序交由計算機處理,處理方式可以通過遷移已有模型進(jìn)行訓(xùn)練。因此,提高無監(jiān)督學(xué)習(xí)的成效成為當(dāng)下亟待解決的關(guān)鍵問題。
目前在無監(jiān)督研究領(lǐng)域,多數(shù)研究成果是基于遷移學(xué)習(xí)模塊,小部分研究涉及最新的注意力模塊的應(yīng)用,而在多源域方面,目前的研究鮮有涉及。本文通過結(jié)合“多源域”與“遷移學(xué)習(xí)”,研究行人重識別問題,通過對注意力模塊的進(jìn)一步研究,將模塊進(jìn)行結(jié)合并論述多源域無監(jiān)督算法的可行性與應(yīng)用情況。
研究背景
當(dāng)下,社會公共安全問題逐漸被人們重視,視頻監(jiān)控系統(tǒng)大量普及,實時監(jiān)控著人們在公共場所的行為,并作為安防安保建設(shè)工程的核心內(nèi)容。傳統(tǒng)監(jiān)控體系下的人工排查方式會耗費大量人力物力,在大型監(jiān)控網(wǎng)絡(luò)中存在明顯的劣勢。因此結(jié)合計算機視覺技術(shù)進(jìn)行智能視頻監(jiān)控、跟蹤和檢索成為刑事偵查中亟待解決的重要課題。
行人重識別是利用計算機視覺技術(shù)判斷圖像,或者視頻序列中是否存在特定行人的技術(shù),屬于在復(fù)雜視頻環(huán)境下的圖像處理和分析范疇。由于不同設(shè)備之間的差異,會造成圖像分辨率的差異與視覺模糊的效果,且行人會在監(jiān)控視頻中兼具剛性和柔性兩重特性,外觀易受穿著、姿態(tài)和光照等環(huán)境因素影響,使行人重識別成為計算機視覺領(lǐng)域中兼具研究價值與挑戰(zhàn)性的熱門課題。
傳統(tǒng)的機器學(xué)習(xí)技術(shù)是建立在來自同一分布樣本集假設(shè)前提下的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。如果其測試數(shù)據(jù)集數(shù)據(jù)分布發(fā)生改變,那么預(yù)測分類器就必須重新訓(xùn)練學(xué)習(xí),從而適應(yīng)這種變化?!斑w移學(xué)習(xí)”方法的提出,旨在通過利用已有數(shù)據(jù)集的可遷移性,輔助目標(biāo)領(lǐng)域預(yù)測分類模型的建立,從而減少對目標(biāo)領(lǐng)域帶標(biāo)記數(shù)據(jù)的需求。但是,目前遷移學(xué)習(xí)很依賴源領(lǐng)域與目標(biāo)領(lǐng)域之間的可遷移性關(guān)系,而多源遷移學(xué)習(xí)方法則是從多個源領(lǐng)域數(shù)據(jù)集中選擇合適的數(shù)據(jù)集進(jìn)行知識遷移以減少負(fù)遷移,從而避免單一領(lǐng)域數(shù)據(jù)集可能帶來的風(fēng)險。
隨著深度學(xué)習(xí)的不斷發(fā)展,面對現(xiàn)實問題時數(shù)據(jù)集越來越多,問題也變得越來越復(fù)雜。當(dāng)有大規(guī)模數(shù)據(jù)集為測試數(shù)據(jù)集時,人工標(biāo)記后的訓(xùn)練數(shù)據(jù)集礙于效率與成本的問題,難以滿足當(dāng)下對神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度提升的要求。因此,無監(jiān)督遷移學(xué)習(xí)的研究對行人重識別重難題的解決有著關(guān)鍵作用。
研究方向與成果
無監(jiān)督領(lǐng)域:無監(jiān)督神經(jīng)網(wǎng)絡(luò)提出后,網(wǎng)絡(luò)訓(xùn)練的效率大大提升,數(shù)據(jù)集的規(guī)模也越來越大。有學(xué)者提出了使用聚類無監(jiān)督算法,該方法在無監(jiān)督領(lǐng)域是嶄新的方向,它根據(jù)數(shù)據(jù)的聚類情況讓計算機學(xué)習(xí)到特征,大大減輕了數(shù)據(jù)標(biāo)注的壓力。但由于是簡單的聚類算法,很多特征計算機無法學(xué)習(xí)成功。因此,該方法雖然減輕了數(shù)據(jù)標(biāo)注壓力,但實際效果并不理想。
遷移學(xué)習(xí)模塊:遷移學(xué)習(xí)是深度學(xué)習(xí)發(fā)展的里程碑,提出了將針對某一問題已有的訓(xùn)練模型,微調(diào)遷移后應(yīng)用到另一問題上的新思路。這對無監(jiān)督學(xué)習(xí)的發(fā)展是一大突破,成功運用遷移學(xué)習(xí)方法實現(xiàn)的算法往往并不復(fù)雜。
注意力模型:注意力模型方法的提出使得解決行人重識別問題有了新方向,這是最新提出的圖像處理模塊,意在將指定圖像進(jìn)行判定,并根據(jù)特征選擇圖片中的一部分為注意力模塊進(jìn)行辨別。行人重識別算法涉及到實際應(yīng)用時,也會遇到更多不確定情況,目前在行人重識別問題中,針對解決無監(jiān)督多源域遷移學(xué)習(xí)的問題還沒有成熟的算法。前人為了綜合各個注意力模塊,提出了使用遷移學(xué)習(xí)進(jìn)行多源域數(shù)據(jù)集統(tǒng)一的方法,但該方法面臨數(shù)據(jù)樣本特征會在優(yōu)化過程中弱化,數(shù)據(jù)源域在訓(xùn)練中逐漸出現(xiàn)邊界消失,最后無法達(dá)到多源域訓(xùn)練目的等問題。
核心技術(shù)與算法可行性
對多源域數(shù)據(jù)集的統(tǒng)一處理:當(dāng)前的無監(jiān)督遷移學(xué)習(xí)方法大部分都是單源域數(shù)據(jù)集訓(xùn)練,注意力模型的應(yīng)用也不廣,于是我們大膽提出假設(shè),將遷移學(xué)習(xí)中的注意力模塊試用于多源域數(shù)據(jù)集范疇,并規(guī)范數(shù)據(jù)表示格式,使規(guī)范后的數(shù)據(jù)可以同時遷移多個模型進(jìn)行訓(xùn)練,以解決單源域數(shù)據(jù)訓(xùn)練使用效果不佳的問題。通過大量訓(xùn)練,讓網(wǎng)絡(luò)學(xué)習(xí)到各個注意力模型信息,提高網(wǎng)絡(luò)在不同影響條件下對行人重識別問題的健壯性,提高網(wǎng)絡(luò)的普適性,令網(wǎng)絡(luò)的判別效果達(dá)到新高度。
通過科研階段普遍認(rèn)可的三大數(shù)據(jù)集Market-1501,DukeMTMC-REID,CUHK03進(jìn)行評估。另外,還可以申請從有關(guān)部門獲取相關(guān)視頻圖像資源,進(jìn)行實際的適配性檢測,以證明所提出模型的準(zhǔn)確性、高效性與魯棒性。
基于深度學(xué)習(xí)的圖片特征提?。弘S著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的發(fā)展,時至今日有許多已成形的特征提取網(wǎng)絡(luò)。網(wǎng)絡(luò)的選取在研究中極為重要,通過多次不同實驗,比較其效果得出各網(wǎng)絡(luò)的特點與優(yōu)越性,綜合已有數(shù)據(jù)分析后,本文認(rèn)為使用殘差網(wǎng)絡(luò)效果更加。因為CNN網(wǎng)絡(luò)對圖像特征的提取,會隨網(wǎng)絡(luò)層數(shù)的增多提取到不同級別的特征,網(wǎng)絡(luò)越深提取到的特征越多,表達(dá)能力越強,深層的網(wǎng)絡(luò)提取到的特征會很抽象,并且存在語義信息。對于早期的特征提取網(wǎng)絡(luò),不斷地增加深度,會出現(xiàn)梯度彌散或梯度爆炸的問題,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練效果不增反減,也使得深度網(wǎng)絡(luò)不能很好地優(yōu)化。而殘差網(wǎng)絡(luò)的優(yōu)點是更容易優(yōu)化,且具有抗干擾性,能夠通過增加深度來不斷提高準(zhǔn)確率。
各樣本映射空間與全新的優(yōu)化方案:對多源域數(shù)據(jù)集樣本的映射處理,需要創(chuàng)新思維定義各數(shù)據(jù)樣本的映射結(jié)果,將樣本對應(yīng)的映射空間反映在全新的參量中,使多源域樣本映射結(jié)構(gòu)兼具數(shù)據(jù)多樣性與數(shù)據(jù)源域的獨立性,同時通過不斷優(yōu)化與目標(biāo)數(shù)據(jù)域的距離,使方法效果更佳。
關(guān)鍵問題解決方案
多源域數(shù)據(jù)集的樣本的分辨率、樣本數(shù)的統(tǒng)一問題
針對此問題,可以對所有樣本進(jìn)行特定的格式化計算,消除數(shù)據(jù)集內(nèi)樣本屬性不同的問題,且保證數(shù)據(jù)集樣本多樣性與數(shù)據(jù)源域的獨立性,以提高多源域數(shù)據(jù)集的訓(xùn)練效果。
神經(jīng)網(wǎng)絡(luò)特征提取效果低下的問題
對此問題,需要進(jìn)行不同網(wǎng)絡(luò)的嵌入對比實驗,并對結(jié)果進(jìn)行分析討論,確定對解決行人重識別問題適配性,更好地特征提取網(wǎng)絡(luò)模型,并嵌入算法中。
新定義樣本映射空間模塊與制定損失優(yōu)化方案的問題
可通過定義權(quán)值參量的計算方法來反映數(shù)據(jù)集樣本的貢獻(xiàn)度與每個數(shù)據(jù)集和目標(biāo)域之間的關(guān)聯(lián)度,通過控制變量比較其結(jié)果,找出最合適的計算方法。結(jié)合貢獻(xiàn)度與關(guān)聯(lián)度這2個權(quán)值對應(yīng)模塊,可以使樣本的映射空間得到全新定義,更好地解決行人重識別問題。
由于行人重識別問題存在巨大的研究價值,很多專家學(xué)者都在提出自己的網(wǎng)絡(luò)算法與優(yōu)化觀點,目前無監(jiān)督遷移學(xué)習(xí)作為較難的問題,其研究方向潛力巨大,當(dāng)前已有國際學(xué)者提出較為成熟的網(wǎng)絡(luò)體系。國內(nèi)也有學(xué)者在不斷改進(jìn)與探索,本文提出的網(wǎng)絡(luò)模型屬于理論研究階段,但可行性與準(zhǔn)確率情況,在數(shù)據(jù)的分析與以往的研究中,均證明改進(jìn)效果明顯,所以有理由相信,我們提出的理論網(wǎng)絡(luò)模型在行人重識別問題上有更好的效果。
越來越多的研究證明,所提方向是正確可靠的,所以,可以將理論研究成果的算法逐步優(yōu)化并與實際結(jié)合,也能夠達(dá)到更加方便生活的目的,故存在很強的研究與應(yīng)用價值。