文|全美在線(北京)教育科技股份有限公司 朱國平、江蘇省住房和城鄉(xiāng)建設(shè)廳執(zhí)業(yè)資格考試與注冊中心 蔣曉曦 徐鋒
【關(guān)鍵字】機器學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);視頻識別;行為識別;無紙化考核
計算機視覺(Computer Vision)是研究計算機如何像人類視覺系統(tǒng)一樣,從數(shù)字圖像或視頻中理解其高層內(nèi)涵的一門學(xué)科,簡言之就是研究如何讓計算機看懂世界,包括對數(shù)字圖像或視頻進行預(yù)處理、特征提取、特征分類、分析理解幾個過程,將現(xiàn)實世界中的高維數(shù)據(jù)向低維符號信息的映射,進而觸發(fā)自主決策。
考試在中國源遠流長,而有考試,一般來說,就會有作弊。隨著科學(xué)技術(shù)的逐步發(fā)展,基于深度學(xué)習(xí)的視頻行為/動作/物體識別的技術(shù)可以在考試中進行應(yīng)用,通過監(jiān)控鏡頭加上運算分析,代替監(jiān)控人員實時的監(jiān)督整個考試的過程,對發(fā)現(xiàn)的違紀行為、違紀物品進行報警。
本文將探索使用DL 方法解決考試監(jiān)控視頻中行為識別/動作識別的問題。從算法介紹、算法實現(xiàn)、具體應(yīng)用效果等方面進行闡釋。
針對考場監(jiān)控場景使用卷積神經(jīng)網(wǎng)絡(luò),需要對監(jiān)控視頻在時間和空間維度都進行多幀連續(xù)特征計算,捕捉有效特征。
傳統(tǒng)卷積:
表示I 層第j 特征map 的x,y 位置的單元值,其中tanh 為雙曲正切函數(shù),bij 為這個特征map 的偏差,
三維卷積:
三維卷積是多個連續(xù)的幀組成一個立方體,使用三維卷積核卷積。采用多種卷積核,提取多種特征,捕獲動作信息。
網(wǎng)絡(luò)結(jié)構(gòu):
使用7 幀 60x40 大小幀序列作為輸入,第一層為硬編碼的卷積核,然后進行兩次卷積和下采樣,最后得到一個128 維的特征集合。
在這里,我們采用一個線性分類器來對這128 維的特征向量進行分類,實現(xiàn)行為識別。模型中所有可訓(xùn)練的參數(shù)都是隨機初始化的,然后通過在線BP 算法進行訓(xùn)練。
1.系統(tǒng)將考生人體骨骼向量化。
(1)以w*h 大小的彩色圖像作為輸入 ;
(2)經(jīng)過VGG 的前10 層網(wǎng)絡(luò)得到一個特征度F ;
(3)網(wǎng)絡(luò)分成兩個循環(huán)分支,一個分支用于預(yù)測置信圖S:關(guān)鍵點(人體關(guān)節(jié)),一個分支用于預(yù)測L:像素點在骨架中的走向(肢體) ;
(4)第一個循環(huán)分支以特征圖F 作為輸入,得到一組S1,L1 ;
(5)之后的分支分別以上一個分支的輸出St-1,Lt-1 和特征圖F 作為輸入 ;
(6)網(wǎng)絡(luò)最終輸出S,L ;
(7)損失函數(shù)計算S,L 的預(yù)測值與groundtruth(S*,L*)之間的L2 范數(shù);
2.關(guān)鍵點檢測(關(guān)節(jié)) 計算方法:
(1)通過第k 個人的兩個關(guān)建點Xj1,k,Xj2,k 之間任意像素p 的單位向量計算L 的groundtruth(Lc*)//其中k 表示第k 個人,j1 和j2 表示兩個能夠相連的關(guān)節(jié)(例如手肘和手腕直間通過手臂相連),c 表示第c 種肢體。
計算方法:計算圖像中第k 個人的關(guān)鍵點Xj1,k 指向Xj2,k 的單位向量Lc,k*(P)=v(v 大小和方向固定)。
其中像素P 是否落在肢體上需要滿足兩個條件
每張圖像中第c 中肢體的Lc*,為k 個人在位置p 的向量平均值
(2)評估兩個關(guān)鍵點之間的相關(guān)性。
關(guān)鍵點dj1,dj2 和PAF 已知之后,計算兩個關(guān)鍵點連線向量和兩關(guān)鍵點連線上各像素的PAF 向量之間的點積的積分作為兩個關(guān)鍵點之間的相關(guān)性。
3.多人檢測:
關(guān)鍵點和關(guān)鍵點之間的相關(guān)性PAF 已知,將關(guān)鍵點作為圖的頂點,將關(guān)鍵點之間的相關(guān)性PAF 看為圖的邊權(quán),則將多人檢測問題轉(zhuǎn)化為二分圖匹配問題,并用匈牙利算法求得相連關(guān)鍵點最優(yōu)匹配。
Dj1,Dj2 是兩種關(guān)節(jié)的集合,Zc 是第c 種肢體的集合,Emn 是兩種關(guān)鍵點之間的相關(guān)性,求最優(yōu)的zc 集合。
最終通過系統(tǒng)反應(yīng)出考生人體結(jié)構(gòu),并對其具體是否違規(guī)予以判別。
如下圖所示,我們通過對考場內(nèi)監(jiān)控視頻進行了計算機化的圖像識別。通過訓(xùn)練,系統(tǒng)能夠自動識別視頻中的人體與物品,同時對視頻內(nèi)的多個人體進行識別:
在人體有明顯動作違規(guī)行為時,能夠進行自動判定。
下一步,系統(tǒng)將在如下幾方面深入開展研究:
1.結(jié)合移動網(wǎng)絡(luò)通信和云計算技術(shù),創(chuàng)建在不同終端(PC、手持設(shè)備、車載設(shè)備等)下的視頻識別方案,著眼實時的可視化、數(shù)據(jù)化考核管理研究。
2.進一步深化動態(tài)數(shù)據(jù)分析模型,采取合理的數(shù)據(jù)挖掘技術(shù)輔助決策工作;同時實時通過系統(tǒng)數(shù)據(jù)分析決策過程的實施情況,利用數(shù)據(jù)對決策結(jié)果進行監(jiān)控,為制定政策、形勢預(yù)判提供有力的技術(shù)支撐。
3.對考生的在考試監(jiān)控中的行為動作和物別識別進一步優(yōu)化,為后續(xù)建立全面無人值守考場夯實基礎(chǔ)。