沈西挺,于 晟,董 瑤+,董永峰,張澤偉
(1.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401;2. 河北工業(yè)大學(xué) 河北省大數(shù)據(jù)計(jì)算重點(diǎn)實(shí)驗(yàn)室,天津 300401)
在基于計(jì)算機(jī)視覺領(lǐng)域的人體動(dòng)作識(shí)別研究中,Kar-pathy 等[2]利用深度卷積神經(jīng)網(wǎng)絡(luò)以視頻中連續(xù)的RGB視頻幀為直接輸入對(duì)人體動(dòng)作進(jìn)行識(shí)別;Shuwang Ji等[3]提出利用視頻數(shù)據(jù)中時(shí)間維度信息,利用3D卷積神經(jīng)網(wǎng)絡(luò)對(duì)人體動(dòng)作進(jìn)行識(shí)別;Jeff 等[4]利用融合卷積層和長時(shí)遞歸層的長時(shí)遞歸卷積網(wǎng)絡(luò)(long-term recurrent convolutional,LRCN)提出了用于人體動(dòng)作識(shí)別的網(wǎng)絡(luò)模型。
在視頻數(shù)據(jù)源下的人體動(dòng)作識(shí)別是將視頻切分成時(shí)間幀圖像,然后對(duì)隨時(shí)間變化的圖像進(jìn)行分類,所以在圖片識(shí)別領(lǐng)域的深度學(xué)習(xí)方法,也被應(yīng)用在視頻序列中人體動(dòng)作識(shí)別的研究中[5]。但人體動(dòng)作識(shí)別的動(dòng)作識(shí)別模式具有不可預(yù)測(cè)性和多樣性,所以在進(jìn)行識(shí)別研究時(shí)需要結(jié)合多方面綜合技術(shù),隨著實(shí)際應(yīng)用中并發(fā)數(shù)據(jù)量的增多,給識(shí)別帶來了一定的難度[6]。為了提高人體動(dòng)作識(shí)別的識(shí)別率,本文構(gòu)建一種基于卷積神經(jīng)網(wǎng)絡(luò)模型和遞歸神經(jīng)網(wǎng)絡(luò)模型的改進(jìn)模型,并利用稠密光流函數(shù)提取視頻前后幀圖像的光流數(shù)據(jù),對(duì)特定場(chǎng)景下視頻中的人體動(dòng)作進(jìn)行識(shí)別。
CNN的訓(xùn)練過程是將處理好的數(shù)據(jù)在卷積層與采樣層的作用下交替訓(xùn)練,即一層卷積層后接一層采樣層,采樣層后接一層卷積,循環(huán)反復(fù),隨著數(shù)據(jù)卷積和采樣的進(jìn)行,逐步提取出特征,組合形成最后的抽象的特征[7]。
卷積層:之所以使用卷積運(yùn)算,是利用卷積運(yùn)算可以使原信號(hào)特征增強(qiáng),并且降低噪音的優(yōu)點(diǎn),達(dá)到特征提取的目的。每個(gè)卷積核提取出一個(gè)特征,形成多個(gè)特征圖,CNN中第i層的第j個(gè)特征圖中位置坐標(biāo)為 (x,y) 的單元的值,如式(1)所示
(1)
式中:b為偏差量,w為與特征圖相連接的卷積核中單元的值。
從嶺跡圖中可以看出,當(dāng)k≥0.02時(shí),嶺跡曲線趨于穩(wěn)定。在R中可以得到自動(dòng)選擇的嶺回歸參數(shù)為0.0237,和我們由嶺跡圖得出的嶺參數(shù)一致。同時(shí)我們得到嶺回歸的參數(shù)估計(jì)值、標(biāo)準(zhǔn)誤差、t值和p值如上表所示,由表可知當(dāng)k值取0.0237時(shí),各自變量的顯著性與之前相比得到了明顯的提高,但是X2、X6、X8的p值均大于0.05,仍然不顯著,其它自變量對(duì)因變量的影響的顯著性則均達(dá)到了99.9%以上。因此在這里選擇剔除X2、X6、X8三個(gè)變量,重新選擇嶺參數(shù)進(jìn)行回歸分析和參數(shù)估計(jì)。
(2)利用兩組不同參數(shù)的稠密光流函數(shù)calc Optical Flow Farneback[11]分別提取出圖像的光流數(shù)據(jù),如式(4)所示,然后采用下采樣方法得到規(guī)模14×30×40,適用于3DCNN網(wǎng)絡(luò)的輸入數(shù)據(jù)。預(yù)處理后的數(shù)據(jù)為后續(xù)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試做準(zhǔn)備
3DCNN相比較2DCNN而言,在輸入數(shù)據(jù)方面考慮了時(shí)間因素,可以看作將多個(gè)連續(xù)的幀圖像組成一個(gè)立方體,然后使用三維卷積核在該立方體中進(jìn)行計(jì)算,提取出多個(gè)特征圖[8],第i層的第j個(gè)特征圖中位置坐標(biāo)為 (x,y,z) 的單元的值,如式(2)所示
由所測(cè)石墨烯的方塊電阻可知,研究的石墨烯其導(dǎo)電性能并不理想,為了改善石墨烯的導(dǎo)電性能,對(duì)石墨烯進(jìn)行HNO3化學(xué)摻雜(doping),以提高石墨烯的功函數(shù).圖2(b)為使用1 nm MgO介質(zhì)層和不使用MgO介質(zhì)層的Gr/Si電池光場(chǎng)J-V曲線比較,經(jīng)化學(xué)摻雜后,電池的效率分別提升至8.62%和7.57%;結(jié)果表明:無論對(duì)石墨烯進(jìn)行摻雜與否,使用MgO介質(zhì)層都能夠顯著提高電池的光電轉(zhuǎn)換效率.
(2)
S4層對(duì)C3層的數(shù)據(jù)做最大池化法,池化的大小為2×2×2,得到特征圖規(guī)模為5×6×8。
遞歸神經(jīng)網(wǎng)絡(luò)隱藏層的神經(jīng)單元將處理的結(jié)果分兩個(gè)方向進(jìn)行傳遞,一個(gè)方向是直接將結(jié)果傳遞到輸出層,另一方向是傳遞到下一時(shí)間點(diǎn)的隱藏層繼續(xù)進(jìn)行運(yùn)算。在這種遞歸結(jié)構(gòu)的影響下網(wǎng)絡(luò)模型可以到達(dá)很深的深度。但是,遞歸神經(jīng)網(wǎng)絡(luò)只適合處理數(shù)據(jù)序列較短的數(shù)據(jù),梯度消失(gradient vanishing)和梯度爆炸(gradient explosion)一直是其存在的兩個(gè)問題。LSTM將記憶單元引入到隱藏層的神經(jīng)元中間,控制時(shí)間序列上的記憶信息,有效的避免了上述問題[9,10]。LSTM隱藏層的前向公式如式(3)所示
(3)
Candes和Plan在文獻(xiàn)[6]中討論了高斯隨機(jī)噪聲和有界噪聲情形下的矩陣填充問題,指出當(dāng)已知元素個(gè)數(shù)p≥Cnrlog6n時(shí),以接近1的概率,通過求解式(3)可以穩(wěn)定恢復(fù)絕大多數(shù)秩不超過r的矩陣.
本文模型采用卷積神經(jīng)網(wǎng)絡(luò)模型、3D卷積神經(jīng)網(wǎng)絡(luò)模型和長短期記憶神經(jīng)網(wǎng)絡(luò)模型,如圖1所示,主要包含4個(gè)部分:①訓(xùn)練2DCNN,提取單幀圖像的特征信息,將圖像的特征放大,然后利用view函數(shù)將輸出結(jié)果按照行優(yōu)先的順序拼接,作為3DCNN的輸入進(jìn)行訓(xùn)練,進(jìn)一步提取出添加了時(shí)間因素的特征信息。②利用稠密光流函數(shù)提取的圖像的光流數(shù)據(jù)作為3DCNN的輸入提取出特征信息。③將①和②提取的特征信息進(jìn)行融合。④將融合后的特征信息作為LSTM的輸入進(jìn)一步提取特征信息,最后利用Softmax進(jìn)行分類實(shí)現(xiàn)人體動(dòng)作識(shí)別。
體育鍛煉能高度協(xié)調(diào)人的社會(huì)性與生物性。一方面,體育鍛煉改善人的生物狀況和機(jī)能,奠定適應(yīng)社會(huì)的生物學(xué)基礎(chǔ);另一方面,體育活動(dòng)能彌補(bǔ)和糾正因生物功能或社會(huì)功能形成或產(chǎn)生的“ 亞健康”。參加體育運(yùn)動(dòng)(特別是集體運(yùn)動(dòng)項(xiàng)目),可以增加大學(xué)生與同學(xué)、老師、教練間的交流,培養(yǎng)自身的團(tuán)隊(duì)意識(shí)和競(jìng)爭意識(shí),使大學(xué)生學(xué)會(huì)正確處理人際關(guān)系,提高適應(yīng)社會(huì)的能力。
圖1 網(wǎng)絡(luò)模型結(jié)構(gòu)
在視頻數(shù)據(jù)源情況下,使用深度學(xué)習(xí)進(jìn)行人體動(dòng)作識(shí)別,需要將視頻數(shù)據(jù)轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)模型可用的格式。在數(shù)據(jù)預(yù)處理時(shí),首先對(duì)對(duì)應(yīng)動(dòng)作的視頻進(jìn)行標(biāo)記,每種動(dòng)作作為一個(gè)分類,然后逐一讀取數(shù)據(jù)集中的視頻文件,并使用imageio方法讀取出圖像數(shù)據(jù)。圖像重定義為合適大小,例如60像素×80像素,形成60×80的圖像數(shù)據(jù)矩陣,在使用灰度圖像時(shí),每張圖片視為一個(gè)通道矩陣,將圖像數(shù)據(jù)分兩類進(jìn)行存儲(chǔ)[14]。
3.1 LA的常規(guī)CT和MRI的評(píng)價(jià)標(biāo)準(zhǔn) LA患者CT檢查特點(diǎn)為:“蝴蝶”或“月暈”狀的低密度改變,大多邊緣模糊,病灶位于腦室周圍白質(zhì)以及半卵圓中心大致對(duì)稱的位置。此外,在患者的兩側(cè)內(nèi)囊,基底節(jié)區(qū)、丘腦以及腦干等區(qū)域還可見到多處的腔隙性梗死灶,伴有不同程度的皮質(zhì)萎縮以及腦室前后角變鈍,腦室擴(kuò)張。
(1)將單幀圖像數(shù)據(jù)以float32格式進(jìn)行逐一存儲(chǔ),形成1×60×80的數(shù)據(jù)規(guī)模,用作CNN網(wǎng)絡(luò)的輸入數(shù)據(jù)。
池化層(降采樣層):由于圖像存在局部相關(guān)性的特性,利用池化層對(duì)圖像進(jìn)行子采樣可以縮減計(jì)算量,同時(shí)還保持圖像在旋轉(zhuǎn)的情況下特征不改變。
(4)
以上3種類型的神經(jīng)網(wǎng)絡(luò)后都接一個(gè)Dropout層用于消除過擬合現(xiàn)象,當(dāng)經(jīng)過LSTM模型的訓(xùn)練之后,得到的特征信息規(guī)模為1×64,添加一個(gè)全鏈接層,將當(dāng)前層的所有節(jié)點(diǎn)和前一層的所有節(jié)點(diǎn)進(jìn)行完全連接,然后,通過使用Softmax分類器對(duì)結(jié)果中的人體動(dòng)作進(jìn)行分類。
本文中使用的2D卷積神經(jīng)網(wǎng)絡(luò)一共有3個(gè)隱藏層(hidden layer),如圖2所示,輸入的數(shù)據(jù)規(guī)模均為1×60×80,整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中,卷積核的大小分別為(5×5)、(3×3)、(3×3),池化層大小均為(2×2),由于高層特征會(huì)隨著抽象程度的提高而增加,所以3個(gè)隱藏層中卷積核的個(gè)數(shù)逐層增加,個(gè)數(shù)分別為16、32、64,并在卷積、池化后按第二維疊加,得到15×5×8結(jié)果,然后使用3D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,卷積核大小為2×3×3,池化層大小為1×2×2得到的結(jié)果添加全連接層,得到64×672結(jié)果。
圖2 2D卷積神經(jīng)網(wǎng)絡(luò)及參數(shù)
2.3 兩組圍生兒結(jié)局對(duì)比 觀察組圍生兒的胎兒窘迫、新生兒感染、新生兒黃疸與低出生體質(zhì)量兒等發(fā)生率明顯高于對(duì)照組(P<0.05)。見表3。
圖3 3D卷積神經(jīng)網(wǎng)絡(luò)及參數(shù)
C1層共有16個(gè)不同的卷積核,卷積核大小為3×3×3,得到特征圖規(guī)模為12×28×38。
S2層對(duì)C1層的數(shù)據(jù)做最大池化法,池化的大小為1×2×2,得到特征圖規(guī)模為12×14×19。
C3層繼續(xù)對(duì)S2層的數(shù)據(jù)進(jìn)行卷積操作,卷積核個(gè)數(shù)為32個(gè),卷積核大小為3×3×3,得到特征圖規(guī)模為10×12×17。
式中:xt表示t時(shí)刻的輸入,ht-1表示截止到上一時(shí)刻的記憶,σ表示激活函數(shù)。
式中:z代表3D卷積的時(shí)間維度。
需要到醫(yī)院化驗(yàn)大便常規(guī),秋冬季還要化驗(yàn)輪狀病毒。很多醫(yī)院都可以掛方便門診開化驗(yàn)單,只要大人帶標(biāo)本在一個(gè)小時(shí)內(nèi)送去化驗(yàn)就可以了,寶寶不用去,因?yàn)槟抢锏牟【?,寶寶要少去為好?/p>
C5層繼續(xù)對(duì)S4層的數(shù)據(jù)進(jìn)行卷積操作,卷積核個(gè)數(shù)為64個(gè),卷積核大小為3×3×3,得到特征圖規(guī)模為3×4×6。
S6層對(duì)C5層的數(shù)據(jù)做最大池化法,池化的大小為2×2×2,得到特征圖規(guī)模為1×2×3。最后,添加全連接網(wǎng)絡(luò)層,得到的變量規(guī)模為64×768。
將經(jīng)過2D卷積神經(jīng)網(wǎng)絡(luò)和3D卷積神經(jīng)網(wǎng)絡(luò)之后的特征信息在第一維度上進(jìn)行特征融合,得到數(shù)據(jù)規(guī)模64×128,調(diào)整數(shù)據(jù)規(guī)模為64×1×128并輸入到LSTM中訓(xùn)練,設(shè)置LSTM中輸入維度大小為128,設(shè)置隱藏層的輸出維度大小為32,通過遞歸運(yùn)算融合前一幀和當(dāng)前幀的特征信息,得到最終特征提取的結(jié)果。
在數(shù)據(jù)處理階段提取的圖像的光流數(shù)據(jù)集合flow_x和flow_y,數(shù)據(jù)規(guī)模均為14×30×40,14為連續(xù)幀圖片的數(shù)量,30×40為每幀圖片的大小,然后使用3D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,一共使用3個(gè)隱藏層,具體參數(shù)如圖3所示。
本文實(shí)驗(yàn)環(huán)境采用基于Python的深度學(xué)習(xí)框架Pytorch平臺(tái),硬件選用Core i5 3.10 GHz的CPU的服務(wù)器。
經(jīng)由我院倫理委員會(huì)批準(zhǔn),將本院2017年1—12月接受的宮頸炎患者78例作為研究對(duì)象,并隨機(jī)分為對(duì)照組與觀察組,每組均39例。對(duì)照組中,年齡26~55歲,平均年齡(40.5±14.5)歲,病程1~5年,平均病程(3.0±1.01)年。觀察組中,年齡25~55歲,平均年齡(40.0±15.0)歲,病程1~6年,平均病程(3.5±1.5)年;兩組一般資料比較結(jié)果P>0.05,可作對(duì)比。
本文采用KTH數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),該數(shù)據(jù)集錄制時(shí)選用25名性別和衣著不同的實(shí)驗(yàn)人員,利用固定的攝像機(jī)采集600個(gè)連續(xù)動(dòng)作組成600個(gè)視頻,錄制視頻使用的幀速率為25 fps,分屬4類情景:包括戶外S1,戶外(鏡頭遠(yuǎn)近尺度變化)S2,戶外(不同衣著)S3,室內(nèi)S4;實(shí)驗(yàn)人員共展示6類動(dòng)作:包括拳擊、拍手、揮手、散步、慢跑和奔跑。視頻中每幀都是一張160像素×120像素的圖像,圖像背景均勻,其中部分?jǐn)?shù)據(jù)如圖4所示。
圖4 KTH數(shù)據(jù)集
本文隨機(jī)從25名實(shí)驗(yàn)對(duì)象中選擇19名實(shí)驗(yàn)對(duì)象的視頻作為訓(xùn)練數(shù)據(jù)集,其余6名實(shí)驗(yàn)對(duì)象的視頻作為驗(yàn)證集,訓(xùn)練數(shù)據(jù)集訓(xùn)練過程中每次迭代都進(jìn)行一次驗(yàn)證,10輪驗(yàn)證取平均值。
實(shí)驗(yàn)中,各模型訓(xùn)練時(shí)的學(xué)習(xí)率(Learning rate)均設(shè)置為0.001,每次送入訓(xùn)練的批大小(Batch_size)為64,在各模型每次迭代時(shí)加入Dropout值為0.5,激活函數(shù)使用ReLU函數(shù)[12],見表1。
表1 實(shí)驗(yàn)參數(shù)
3.4.1 單情景識(shí)別率分析
本文在實(shí)驗(yàn)時(shí),將KTH數(shù)據(jù)集的各情景進(jìn)行分離,分別作為輸入數(shù)據(jù)進(jìn)行識(shí)別分類,從表2可以看出,當(dāng)處于室內(nèi)時(shí),識(shí)別率最高,當(dāng)處于戶外,且視頻鏡頭是遠(yuǎn)近尺度變化時(shí),識(shí)別率最低。
表2 各情景識(shí)別率對(duì)比/%
3.4.2 單動(dòng)作識(shí)別率分析
表3為本文方法和其它文獻(xiàn)方法在KTH數(shù)據(jù)集中,單動(dòng)作分類的識(shí)別率對(duì)比情況,從表中可以看出,本文方法在各動(dòng)作取得的識(shí)別率相對(duì)穩(wěn)定且均處于較高水平。
表3 各動(dòng)作識(shí)別率對(duì)比
3.4.3 總識(shí)別率分析
圖5顯示了本文方法在KTH數(shù)據(jù)集4種情景和6個(gè)動(dòng)作混合情況下的平均識(shí)別率,橫坐標(biāo)(epoch)代表迭代次數(shù),縱坐標(biāo)(acc)代表識(shí)別率,可以看出,識(shí)別率在100代之內(nèi)有個(gè)快速的增長,之后開始緩慢增長,當(dāng)達(dá)到1300代左右時(shí)識(shí)別率達(dá)到峰值,然后一直在93%左右穩(wěn)定波動(dòng)。
4.3.3 人才技術(shù)不足。首先在高校之中,無論是學(xué)生還是年輕教師,或者是資深教授,此類的人才資源可謂是非常充足的,但是大多數(shù)專家教授都有其擅長的領(lǐng)域,而學(xué)生人才也需要一定的鍛煉和指導(dǎo),就在這樣的情況下,對(duì)創(chuàng)業(yè)實(shí)踐活動(dòng)來說,人才資源相比較來說就比較少,而缺少了具有專門性、針對(duì)性的高尖專家和人才,關(guān)于創(chuàng)業(yè)實(shí)踐活動(dòng)的研究便會(huì)有所艱難。關(guān)于創(chuàng)業(yè)基地等硬件條件充足的情況下,專門性的人才相對(duì)缺少,而在缺乏在這一方面所必須的專業(yè)技術(shù)和技能,很多的創(chuàng)業(yè)實(shí)踐活動(dòng)過程中所面臨的難題便會(huì)需要更多的嘗試才能有所收獲,而在這樣的情況下,創(chuàng)業(yè)體系的建設(shè)將會(huì)發(fā)展緩慢。
圖5 本文模型識(shí)別率
本文的融合模型算法與其它文獻(xiàn)中動(dòng)作識(shí)別方法在類似數(shù)據(jù)集上進(jìn)行比較,見表4。從表4中可以發(fā)現(xiàn),本文提出的融合模型的人體動(dòng)作識(shí)別算法優(yōu)于其它算法,識(shí)別效果更好。
表4 識(shí)別率對(duì)比/%
本文提出了一種針對(duì)視頻中人體動(dòng)作識(shí)別的改進(jìn)網(wǎng)絡(luò)模型,該模型首先利用了稠密光流函數(shù)提取出視頻圖像的光流數(shù)據(jù),然后對(duì)基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行改進(jìn),在KTH數(shù)據(jù)集上的測(cè)試結(jié)果表明:本文模型有更好的識(shí)別效果,識(shí)別率優(yōu)于其它模型。
這下可好了,總算來了個(gè)說人話的!我連忙起身道歉,坐到另外那張床上。這女人反身關(guān)上門,坐在我對(duì)面床上,摸過洋煙,點(diǎn)起一支叼在嘴上。她又把煙盒遞向我,我搖搖頭,她順手一丟,就把煙盒丟到床頭柜上。我抬眼打量她,見她正放肆地盯著我,眼都不眨一下!她緩緩?fù)鲁鲆淮疅熿F,還是盯著我,突然哈哈大笑起來,“這東洋人還真是他娘的饞,連老媽子也稀罕!”
本文在對(duì)各情景識(shí)別率對(duì)比時(shí),發(fā)現(xiàn)不同情景下總識(shí)別率有一定差別,且在戶外遠(yuǎn)近尺度變化情境下識(shí)別率較低,預(yù)測(cè)是由于鏡頭遠(yuǎn)近變化影響了特征提取時(shí)信息的連續(xù)性。未來,會(huì)針對(duì)此問題進(jìn)一步進(jìn)行實(shí)驗(yàn)研究。