閆琳
(西安航空職業(yè)技術學院,陜西西安 710089)
隨著人工智能、虛擬現(xiàn)實(VR)等技術的發(fā)展,高職教育也迎來了信息化、智能化轉型的機遇。使用計算機技術對教學場景進行動態(tài)建模,再基于各種感知技術對場景進行信息采集,便可實現(xiàn)智能化的人機交互。最終,基于智能設備完成對于學生的職業(yè)技能培訓,實現(xiàn)“人工智能+職業(yè)教育”的結合[1-5]。
在上述背景下,文中以空乘專業(yè)的職業(yè)培訓為切入點,針對職業(yè)技能教育場景下的動態(tài)建模、智能感知方法進行了研究。在動態(tài)建模方面,引入了基于視頻圖像的環(huán)境建模方法。并結合實際的教學環(huán)境,對光照進行了自然均衡,提升設備對于環(huán)境信息的采集能力[6-8];在智能感知方面,文中使用膠囊結構代替?zhèn)鹘y(tǒng)的神經(jīng)元結構,提升算法在復雜場景下的感知能力[9-12]。
隨著智能設備的普及,對于復雜動態(tài)環(huán)境的場景建模與人體行為感知,將在各個行業(yè)發(fā)揮越來越重要的作用。在進行動態(tài)環(huán)境建模時,需要根據(jù)文中的應用場景,解決動態(tài)環(huán)境光照復雜多變、人體動作識別困難兩個問題。
由于在動態(tài)環(huán)境采集時,光照難以規(guī)律地變化,從而導致采集設備無法準確獲取環(huán)境信息。為了解決該問題,文中引入了一種光照自然均衡算法。其基本流程如圖1 所示。
圖1 算法流程
在進行直方圖均衡時,傳統(tǒng)的方法能夠改進圖像的亮度與對比度,但由于過度追求亮度的均勻分布,經(jīng)常會造成圖像炫光。為此,文中對均衡方法進行了改進[13-16]。對于通道V的(x,y)點,記其亮度為v(x,y)。首先,對直方圖進行歸一化,在此引入歸一化函數(shù):
將直方圖轉化到對數(shù)坐標系:
其中,Hlhet為文中的均衡變換關系。定義光照補償結構圖ics(x,y):
其中,gn是當前環(huán)境下的光感知單元模型:
在進行光補償時,需考慮宏觀的圖像因素。當圖像整體較亮,但亮度差異較大時,需要對亮度小的部分提供更大的光補償權重。為使該方法能夠感知亮度分布的集中度,文中定義了圖像的全局補償感知指數(shù):
接著,根據(jù)物體的光照反射基本原理,能夠獲得直方圖均衡圖像vlh的反射分量vlh(x,y)。隨后對vlh(x,y)進行對數(shù)變換,然后進行歸一化,可以計算得到反射量的估計gv(x,y):
最后,利用反射量的估計值得到vlh補償后的結果:
為了對動態(tài)環(huán)境感知后的人體進行智能識別,還需引入人體行為識別算法。由于動態(tài)環(huán)境下,人體的行為不斷變化,因此相較于靜態(tài)圖像的行為識別,動態(tài)環(huán)境下則需要對行為進行分解再整合。文中引入了融合注意力機制的膠囊網(wǎng)絡,在該網(wǎng)絡中使用膠囊作為信息處理的基本單元,其基本結構如圖2所示。
圖2 膠囊基本結構
相較于神經(jīng)網(wǎng)絡中的神經(jīng)元,膠囊的激活條件是多個人體姿勢之間的比較差值。在圖2 中,ui是圖像低層次特征,Ui是低層次對應的高層次特征,Wij為對應的傳輸權重,預測向量加權后,得到加權和sj=∑icij·Uj|i。其中,Uj|i=Wij·ui,加權和經(jīng)Squash 函數(shù)壓縮后,得到膠囊的輸出vj:
在膠囊網(wǎng)絡中,對于層數(shù)L的膠囊c,需要獲取其姿勢矩陣Mc和激活值ac:
由于在L、L+1 層間,每個感受野(k,i,j)內(nèi)均會產(chǎn)生CL×CL+1個投票,因此在決策時,需要使用最大期望(EM)路由算法。首先,對分配概率Rij進行初始化分配隨后,在路由迭代的過程中,對高斯模型與高層膠囊的激活值進行更新:
最終,能夠獲得模型的參數(shù)pj的更新方法:
相較于傳統(tǒng)的神經(jīng)網(wǎng)絡的神經(jīng)元,依靠膠囊組建的非線性網(wǎng)絡更注重學習動作組合本身的內(nèi)在機制,而不是單純的進行數(shù)據(jù)集的模仿。為了保證膠囊對于視頻動作的捕捉能力,文中還引入了“擠壓-激勵”機制:
“擠壓”后,所有類型的動作均在維度方面有所收縮,實現(xiàn)了信息聚集,能夠捕獲膠囊在類型層上的依賴性:
隨后輸入激勵,整合上下文信息有:
最終,引入尺度變換將“激勵”后的結果與原始的特征層進行修正:
其中,uc∈RH×W×D。
在算法驗證階段,該文使用公開數(shù)據(jù)集J-HMDB與UCF-Sports 進行模型的訓練和測試,驗證算法在智能感知時的有效性。視頻環(huán)境的動態(tài)感知需要消耗大量的運算資源,為了保證順利完成算法的訓練和測試,文中在進行實驗時,使用了目前最強的消費級GPU。該顯卡基于NVIDIA 的安培架構,使用8 nm工藝,運行速率能夠達到19.5 Gbps。仿真環(huán)境的其他硬件參數(shù),如表3 所示。
表3 仿真環(huán)境的硬件參數(shù)
在測試算法前,需要先利用數(shù)據(jù)集進行模型的訓練。在進行場景的智能感知時,會由于類別、定位的判別錯誤產(chǎn)生類別損失與定位損失。因此文中在設計損失函數(shù)時,引入Sigmoid 函數(shù)的交叉熵來計算損失。首先,對于空間位置(k,i,j),能夠得到后驗概率:根據(jù)后驗概率,能夠得到損失函數(shù):
在確定損失后,J-HMDB、UCF-Sports 每個數(shù)據(jù)集中60%的數(shù)據(jù)分別作為訓練數(shù)據(jù)進行模型的訓練,獲得兩個不同的模型;隨后,將剩余40%的數(shù)據(jù)作為測試數(shù)據(jù)分別輸入到對應的模型中。在測試時,文中將f-Map 和v-Map 的IoU 閾值分別設置為0.5 與0.2。最終的測試結果,如表4 所示。
表4 該文算法的仿真結果
為了評估文中算法結果的公正性,該文采用同樣的仿真環(huán)境,使用經(jīng)典的卷積神經(jīng)網(wǎng)絡算法LeNet進行了對比測試。其測試的結果,如表5 所示。
表5 LeNet的仿真結果
從表4 能夠看出,該文算法在J-HMDB 數(shù)據(jù)集上f-Map、v-Map 兩個指標均大于UCF-Sports 數(shù)據(jù)集上的指標。因此,文中在J-HMDB 數(shù)據(jù)集上的感知效果優(yōu)于UCF-Sports。從表5能夠看出,LeNet在J-HMDB上的感知效果同樣優(yōu)于UCF-Sports。分析兩個數(shù)據(jù)集的結構,在J-HMDB 的數(shù)據(jù)集內(nèi)部的視頻中,所要感知的目標大多集中在視頻中央,而UCF-Sports 較分散。由于在損失函數(shù)中,會引入定位誤差,因此較分散的動態(tài)環(huán)境不利用智能感知算法進行處理。
對比表4 與表5 的仿真結果能夠看出,該文引入的智能感知算法在進行動態(tài)環(huán)境的感知時,f-Map、v-Map 兩個指標均優(yōu)于LeNet。以J-HMDB 數(shù)據(jù)集為例,文中算法在f-Map、v-Map 上分別提升5.56%與4.98%。LeNet 是視頻識別、智能感知領域的經(jīng)典算法,因此可以證明文中的算法達到了能夠廣泛使用的性能要求。但結合UCF-Sports 數(shù)據(jù)集的仿真結果,文中算法在該數(shù)據(jù)集上的提升小于J-HMDB。這說明該文算法在處理分散動態(tài)環(huán)境的能力上仍有一定的優(yōu)化空間。
此外,為了評估“擠壓-激勵”機制引入的降維比的參數(shù)對算法性能的影響,文中對不同降維比下的算法性能進行了評估,結果如表6 所示??梢钥闯?,當降維比增加時,參數(shù)增加量會降低,f-Map與v-Map會提升。當降維比取16 時,模型參數(shù)與參數(shù)增加量取得了較好的平衡。
表6 不同降維比下的仿真結果
文中對于高等院校職業(yè)技能訓練智能化過程所需要的動態(tài)建模與智能感知方法進行了研究。在動態(tài)建模方面,引入了光照補償結構圖的光照自然均衡算法,提升視頻設備對于環(huán)境信息的采集能力;在智能感知方面,使用膠囊組建了非線性網(wǎng)絡,實現(xiàn)了復雜環(huán)境下的目標定位與動作識別。文中方法能夠達到業(yè)界的性能要求,并有所提升,可以進行推廣應用。