陳容均,嚴(yán)宣輝*,楊超城
(1.福建師范大學(xué) 計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,福州 350117;2.數(shù)字福建環(huán)境監(jiān)測(cè)物聯(lián)網(wǎng)實(shí)驗(yàn)室(福建師范大學(xué)),福州 350117)
時(shí)間序列數(shù)據(jù)廣泛存在于各個(gè)領(lǐng)域,對(duì)它的分析被認(rèn)為是數(shù)據(jù)挖掘領(lǐng)域最具挑戰(zhàn)性的問(wèn)題[1-2]。時(shí)間序列分析主要分為兩類:1)時(shí)間序列預(yù)測(cè)[3],如對(duì)產(chǎn)品需求量的預(yù)測(cè)有助于提高倉(cāng)庫(kù)的利用率[4];對(duì)道路人流量的預(yù)測(cè)可以提前制定交通管理措施[5-6];對(duì)股票趨勢(shì)的預(yù)測(cè)有助于制定合理的投資策略[7-8]。2)時(shí)間序列的分類,如對(duì)心電圖信號(hào)進(jìn)行分類以幫助醫(yī)生診斷病情[9-10];用可穿戴的移動(dòng)傳感器采集人們運(yùn)動(dòng)時(shí)跑步、走路、游泳等行為活動(dòng)數(shù)據(jù),以便于在老年人康復(fù)、環(huán)境輔助生活、智能家居等多領(lǐng)域中改善人們的生活[11-12];分析電力系統(tǒng)的監(jiān)測(cè)數(shù)據(jù),有助于及時(shí)發(fā)現(xiàn)故障以提高電力系統(tǒng)的安全性[13]??梢钥闯?,時(shí)間序列的應(yīng)用場(chǎng)景十分廣泛,對(duì)時(shí)間序列預(yù)測(cè)和分類的研究有著重要意義。
傳統(tǒng)的時(shí)間序列分類算法通常需要基于數(shù)據(jù)間的某種相似或相異性度量,因此可以將時(shí)間序列分類算法概括為以下四類:1)基于時(shí)域相似性的分類算法。這類算法主要采用基于某種距離度量的最近鄰(One-Nearest Neighbor,1-NN)方法,如歐氏距離和動(dòng)態(tài)時(shí)間歸整(Dynamic Time Warping,DTW)[14]等。2)基于形 狀相似 性的分 類算法。如STC(Shapelet Transform Classifier)[15]是一種基于Shapelet[16]方法的分類模型,它通過(guò)計(jì)算時(shí)間序列特征中與前k個(gè)Shapelet的距離實(shí)現(xiàn)分類。3)基于變化相似性的分類算法。如TSF(Time Series Forest)[17]和RISE(Random Interval Spectral Ensemble)[18]算法通過(guò)時(shí)間序列中所包含的潛在間隔變化信息進(jìn)行分類。4)基于字典相似性的分類算法。如符號(hào)-傅里葉近似的符號(hào)袋算法(Bag Of Symbolic-Fourier approximation Symbols,BOSS)[19]和時(shí)間序列分類的詞匯提取算法(Word ExtrAction for time SEries cLassification,WEASEL)[20],對(duì)時(shí)間序列提取出子序列,每個(gè)子序列通過(guò)符號(hào)化的傅里葉近似法(Symbolic Fourier Approximation,SFA)[21]得到符號(hào)特征,對(duì)符號(hào)特征統(tǒng)計(jì)頻率并作為時(shí)間序列子序列的特征,所有子序列的特征作為邏輯回歸的輸入對(duì)時(shí)間序列分類。
近些年來(lái),深度學(xué)習(xí)被一些學(xué)者用于解決時(shí)間序列的分類問(wèn)題,如多級(jí)小波分解網(wǎng)絡(luò)(multilevel Wavelet Decomposition Network,mWDN)[22]、多尺度卷積神經(jīng)網(wǎng)絡(luò)(Multi-scale Convolutional Neural Network,MCNN)[23]、時(shí)序卷積神經(jīng)網(wǎng)絡(luò)(Time Series Convolutional Neural Network,TSCNN)[24]和時(shí)間序列注意原型網(wǎng)絡(luò)(Time series attentional prototype Network,TapNet)[25]等。最經(jīng)典的方法是將時(shí)序數(shù)據(jù)轉(zhuǎn)換為二維時(shí)序圖像,二維時(shí)序圖像可以建立時(shí)空信息,并且應(yīng)用計(jì)算機(jī)視覺(jué)領(lǐng)域成熟穩(wěn)定的模型如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),對(duì)時(shí)序圖像進(jìn)行分析與挖掘[26]。目前,研究人員提出了眾多的序列圖像化方法。例如,Chan等[27]利用小波變換從信號(hào)中提取信息,通過(guò)伸縮平移等運(yùn)算將信號(hào)轉(zhuǎn)換成為時(shí)頻圖;Wang等[28]用格拉姆角場(chǎng)(Gramian Angular Field,GAF)和馬爾可夫躍遷場(chǎng)(Markov Transition Field,MTF)將時(shí)間序列轉(zhuǎn)為圖像;Hatami等[29]用重現(xiàn)圖(Recurrence Plot,RP)和CNN 進(jìn)行分類得到RP-CNN模型;Rodrigues等[30]提出繪圖CNN 模型,用簡(jiǎn)易繪圖的方式將時(shí)序數(shù)據(jù)轉(zhuǎn)換為圖像,繼而用CNN 進(jìn)行分類。
但上述圖像化方法具有一定的局限性:1)圖像化方法通常只能表現(xiàn)序列數(shù)據(jù)的片面信息,如GAF 只考慮了時(shí)間相關(guān)性,MTF 只考慮了時(shí)間位置關(guān)系,RP 只分析了時(shí)間序列周期性和平穩(wěn)性。單一的圖像化方法只能保留特定的特征,這導(dǎo)致在運(yùn)用圖像化方法之前需要分析時(shí)序數(shù)據(jù)的構(gòu)成因素[31],才能得到一個(gè)相對(duì)較好的結(jié)果。2)用CNN 對(duì)序列圖像進(jìn)行分類時(shí),卷積的平移不變性無(wú)法感受到輸入時(shí)序數(shù)據(jù)的變化,這將弱化網(wǎng)絡(luò)提取空間信息的能力。3)在卷積的過(guò)程中,由于感視野受到卷積核大小的限制[32],無(wú)法學(xué)習(xí)到時(shí)序圖像中動(dòng)態(tài)的時(shí)間關(guān)聯(lián)信息。
為了解決上述問(wèn)題,本文提出一種混合圖像化循環(huán)膠囊神經(jīng)網(wǎng)絡(luò)(Fusion-Imaging Recurrent Capsule neural network,F(xiàn)IR-Capsnet),特色與優(yōu)勢(shì)在于:1)FIR-Capsnet 結(jié)合GAF、RP、MTF 三種圖像化方法的優(yōu)勢(shì),構(gòu)造可以表現(xiàn)時(shí)序數(shù)據(jù)不同特征的多通道圖像,以此融合時(shí)序數(shù)據(jù)所蘊(yùn)含的多側(cè)面時(shí)空特征,如時(shí)間相關(guān)性、位置關(guān)系、周期性和平穩(wěn)性;2)引入膠囊神經(jīng)網(wǎng)絡(luò),提取更多的潛在空間特征,并賦予一種內(nèi)稟的注意力機(jī)制[33],強(qiáng)化淺層特征的提取和挖掘空間信息,提升網(wǎng)絡(luò)魯棒性;3)結(jié)合長(zhǎng)短時(shí)記憶(Long-Short Term Memory,LSTM)網(wǎng)絡(luò)的門機(jī)制與膠囊的旋轉(zhuǎn)不變性實(shí)現(xiàn)神經(jīng)元的激活和凍結(jié),使膠囊特征之間具有記憶關(guān)聯(lián)性,以此學(xué)習(xí)時(shí)序圖像蘊(yùn)含的時(shí)間特征,提高膠囊神經(jīng)元的表達(dá)能力。此外,為了說(shuō)明FIR-Capsnet 將循環(huán)記憶機(jī)制用于膠囊層的優(yōu)勢(shì),本文同時(shí)將循環(huán)記憶機(jī)制運(yùn)用于動(dòng)態(tài)路由算法中,并通過(guò)對(duì)比實(shí)驗(yàn)分析循環(huán)記憶機(jī)制結(jié)合膠囊網(wǎng)絡(luò)在不同階段的優(yōu)勢(shì)。
在單變量時(shí)間序列分類問(wèn)題中,一個(gè)樣本表示為二元組{T,y},其中:T由L個(gè)觀測(cè)值(T1,T2,…,TL)構(gòu)成;y為類別的離散值,有NC種可能性。定義映射函數(shù)y=f*(T;θ),分類算法的目標(biāo)是學(xué)習(xí)該映射的最優(yōu)參數(shù)θ,以盡可能地逼近函數(shù)f*。
時(shí)間序列在一維空間上有多組特征,特征之間通常具有高度的關(guān)聯(lián)性。例如,在一維的空間中,更多體現(xiàn)時(shí)序、周期、頻率等特征。但一維時(shí)間序列上能夠讓人們捕捉到的信息有限,如時(shí)間點(diǎn)之間的相似度難以被分類網(wǎng)絡(luò)提?。?1]。因此,序列轉(zhuǎn)換為圖像后,可以在二維空間中用更多的語(yǔ)義特征如平穩(wěn)性、周期、位置關(guān)系等表達(dá)時(shí)間序列所包含的潛在相空間信息[28]。
圖像化時(shí)間序列常用的轉(zhuǎn)換算法有GAF、RP 與MTF。其中:GAF 考慮時(shí)間相關(guān)性,將一維序列數(shù)據(jù)從直角坐標(biāo)系轉(zhuǎn)換到極坐標(biāo),并且通過(guò)反余弦函數(shù)消去噪聲[28];MTF 考慮了時(shí)間狀態(tài)關(guān)系,對(duì)時(shí)間序列進(jìn)行量化,然后統(tǒng)計(jì)觀測(cè)點(diǎn)之間的轉(zhuǎn)換概率,構(gòu)造馬爾可夫轉(zhuǎn)移矩陣[28];RP 綜合了時(shí)間序列的周期性、混沌性和非平穩(wěn)性,計(jì)算軌跡之間的成對(duì)距離[29]。為了解決圖像化方法的局限性,本文結(jié)合多種圖像化方法融合不同空間特征,如周期、位置、時(shí)間相關(guān)性,形成多通道數(shù)據(jù),再通過(guò)FIR-Capsnet 提取多水平時(shí)空特征,最后對(duì)圖像分類。即對(duì)時(shí)間序列分別進(jìn)行了GAF、RP 和MTF 的3 種轉(zhuǎn)換,最后將圖像化時(shí)間序列合并為一個(gè)3 通道圖像。
膠囊神經(jīng)網(wǎng)絡(luò)作為當(dāng)前新興的深度學(xué)習(xí)模型,在圖像處理中應(yīng)用廣泛[34-36]。它綜合位姿信息將圖像中所有的信息表征為向量,并通過(guò)動(dòng)態(tài)路由算法提取空間信息[33]。因此本文利用膠囊神經(jīng)網(wǎng)絡(luò)提取融合的時(shí)空特征。但膠囊網(wǎng)絡(luò)在某些時(shí)序樣本數(shù)據(jù)集上表現(xiàn)不佳,這是由于它只能捕捉空間特征,忽略了時(shí)間特征。為了在捕捉空間特征的同時(shí)結(jié)合時(shí)間特征,本文結(jié)合LSTM 的門機(jī)制改進(jìn)膠囊網(wǎng)絡(luò),命名為Caps-LSTM。此外,為了對(duì)比循環(huán)記憶機(jī)制在各個(gè)階段的表現(xiàn),本文分別在膠囊層和路由層引入循環(huán)記憶結(jié)構(gòu),得到2種不同的網(wǎng)絡(luò),分別命名為FIR-Capsnet 與混合圖像化記憶循環(huán)膠囊神經(jīng)網(wǎng)絡(luò)(Fusion-Imaging Memory Recurrent Capsule neural network,F(xiàn)IMR-Capsnet),用于比較循環(huán)記憶機(jī)制作用在不同模塊的優(yōu)劣。
FIR-Capsnet 由卷積層、膠囊層、Caps-LSTM 層和路由(Dynamic Routing,DR)[33]層組成,如圖1 所示。
圖1 FIR-Capsnet結(jié)構(gòu)Fig.1 Structure of FIR-Capsnet
卷積層的卷積核大小為m1×m1,通道數(shù)為C1,特征圖大小為H1×W1×C1。膠囊層的卷積核大小為m2×m2,通道數(shù)為C2,向量神經(jīng)元個(gè)數(shù)為D1,得到特征圖大小H2×W2×C2×D1,H2×W2為膠囊層后的特征圖大小。Caps-LSTM 的隱藏單元數(shù)為D1,輸出單元數(shù)為D2。經(jīng)過(guò)Caps-LSTM 的向量神經(jīng)元的個(gè)數(shù)為H2×W2×C2×D2;經(jīng)過(guò)卷積層、膠囊層與Caps-LSTM 層的特征提取,最后路由層將膠囊特征迭代iter次,輸出NC個(gè)類膠囊。最終根據(jù)每個(gè)膠囊的模長(zhǎng),得到屬于各個(gè)類的概率。
由于膠囊網(wǎng)絡(luò)能夠捕捉時(shí)序圖像中的位置相對(duì)關(guān)系,因此本文將膠囊神經(jīng)網(wǎng)絡(luò)引入時(shí)序圖像分類。同時(shí)希望讓網(wǎng)絡(luò)能夠在時(shí)序圖像卷積的過(guò)程中學(xué)習(xí)時(shí)序圖像中潛在的時(shí)間關(guān)聯(lián)性。例如網(wǎng)絡(luò)數(shù)據(jù)流,當(dāng)傳輸控制協(xié)議(Transmission Control Protocol,TCP)連接中的FIN(Function Item Number)位設(shè)置為1 時(shí),表明此報(bào)文段的數(shù)據(jù)發(fā)送完畢,請(qǐng)求釋放連接,后續(xù)因網(wǎng)絡(luò)延遲而造成的滯后數(shù)據(jù)是無(wú)效數(shù)據(jù)[37]。但膠囊網(wǎng)絡(luò)的核心操作是卷積操作,導(dǎo)致膠囊局限于卷積核大小,對(duì)時(shí)域特征不敏感。因此,本文借鑒LSTM 中的門機(jī)制,通過(guò)遺忘門傳遞特征,使時(shí)序圖像的像素之間具有關(guān)聯(lián)性,從而使時(shí)序特征關(guān)聯(lián)區(qū)域不再局限于卷積核的大小。將該層命名為Caps-LSTM 層,它一方面利用膠囊挖掘多水平特征的空間信息,另一方面,則利用門機(jī)制學(xué)習(xí)時(shí)間序列數(shù)據(jù)隱含的時(shí)間關(guān)聯(lián)性。
如圖2 所示,Caps-LSTM 單元的輸入是即時(shí)膠囊狀態(tài)值、前一個(gè)Caps-LSTM 單元輸出膠囊的隱藏值與前一個(gè)Caps-LSTM 單元輸出膠囊的記憶值。在Caps-LSTM 層中,膠囊作為Caps-LSTM 中的輸入,通過(guò)雙向LSTM 捕捉膠囊之間的依賴關(guān)系,得到新的一組膠囊。Caps-LSTM 可以利用輸出門對(duì)膠囊的某些特征閉合,并且通過(guò)遺忘門使膠囊之間具有關(guān)聯(lián)性,對(duì)膠囊的重要特征進(jìn)行前后的雙向傳遞。雖然膠囊層得到的膠囊已經(jīng)被卷積破壞了時(shí)序關(guān)系,但通過(guò)Caps-LSTM層,可以讓膠囊學(xué)習(xí)隱含動(dòng)態(tài)時(shí)間關(guān)聯(lián)特征。Caps-LSTM 的輸入門和遺忘門解決了特征動(dòng)態(tài)關(guān)聯(lián)問(wèn)題,輸出門解決了特征動(dòng)態(tài)閉合問(wèn)題。膠囊通過(guò)Caps-LSTM 能夠輸出更具有表征意義的特征。
圖2 Caps-LSTM層Fig.2 Caps-LSTM layer
Caps-LSTM 用符號(hào)x{t}代表膠囊t的輸入值;h{t-1}代表上一個(gè)膠囊的隱藏層狀態(tài)值;c{t-1}代表長(zhǎng)時(shí)記憶單元值;Γf{t}、Γu{t}、Γo{t}分別代表LSTM 的第t個(gè)單元的輸入門、遺忘門和輸出門表示備選記憶值;c{t}代表即時(shí)單元的記憶值;Wf、Wu、Wc、Wo分別表示輸入門、遺忘門、記憶單元、輸出門的權(quán)重;bf、bu、bc、bo分別表示輸入門、遺忘門、記憶單元、輸出門的偏置;σ代表Sigmoid 函數(shù),能夠?qū)⑤斎胗成涞?~1 的范圍內(nèi)。Caps-LSTM 層的運(yùn)算公式概括如下:
Caps-LSTM 層在處理時(shí)序圖像問(wèn)題時(shí)有明顯優(yōu)勢(shì),本文將在3.7 節(jié)進(jìn)行驗(yàn)證。
經(jīng)過(guò)Caps-LSTM 層的特征呈現(xiàn)了激活和凍結(jié)的狀態(tài),為了充分利用膠囊中的潛在特征,本文用動(dòng)態(tài)路由減少深層高級(jí)特征的丟失[33]。動(dòng)態(tài)路由通過(guò)計(jì)算預(yù)測(cè)膠囊和高層膠囊的相似度實(shí)現(xiàn)低層膠囊i向高層膠囊j路由的過(guò)程,越相似的膠囊被賦予了越大的權(quán)重。圖3 是路由膠囊的簡(jiǎn)易結(jié)構(gòu)。其中:Ui與Pj|i分別表示第i層膠囊與第j層預(yù)測(cè)膠囊;Vj代表第j層的輸出膠囊;Wij是i向j的轉(zhuǎn)換矩陣,即權(quán)重系數(shù),可以通過(guò)反向傳播算法(Back Propagation,BP)更新;Cij是i向j過(guò)渡的耦合系數(shù),可以通過(guò)路由迭代算法更新,Cij越高代表相似度越高,預(yù)測(cè)膠囊越接近輸出膠囊,膠囊之間相關(guān)性越強(qiáng)。路由迭代算法通過(guò)低層膠囊Ui和轉(zhuǎn)換矩陣Wij得到預(yù)測(cè)膠囊Pj|i,將得到的預(yù)測(cè)膠囊與耦合系數(shù)相乘,獲得總輸出向量Sj,Sj經(jīng)過(guò)壓縮函數(shù)得到最終輸出向量Vj。壓縮函數(shù)保證了向量長(zhǎng)度始終在[0,1]的區(qū)間。公式總結(jié)如下:
圖3 動(dòng)態(tài)路由過(guò)程Fig.3 Dynamic routing process
其中:耦合系數(shù)Cij依賴于當(dāng)前膠囊的輸入矢量,而不是依賴于學(xué)習(xí)到的權(quán)重系數(shù)。在路由迭代算法開(kāi)始時(shí),初始化邏輯對(duì)數(shù)bij=0,bij通過(guò)預(yù)測(cè)膠囊Pj|i和輸出膠囊Vj之間的相似性進(jìn)行更新:
當(dāng)路由迭代次數(shù)增大,計(jì)算資源也會(huì)隨之增加,因此常用的路由迭代次數(shù)為3[36]。本文將在3.6 節(jié)對(duì)比和分析不同路由迭代次數(shù)的性能。
為了證明網(wǎng)絡(luò)的有效性,將本文方法與現(xiàn)有的時(shí)間序列圖像化分類方法進(jìn)行對(duì)比實(shí)驗(yàn),并且在消融實(shí)驗(yàn)中消除了循環(huán)記憶機(jī)制的作用,讓它退化為Capsnet 與本文方法進(jìn)行對(duì)照,以此分析循環(huán)機(jī)制的效果;最后,在3.8 節(jié)對(duì)比了循環(huán)記憶膠囊與循環(huán)記憶路由的結(jié)果。
實(shí)驗(yàn)環(huán)境的運(yùn)行平臺(tái)是python3.8+pytorch 1.8.1,并用GPU(Graphics Processing Unit)進(jìn)行加速訓(xùn)練。
實(shí)驗(yàn)采用UCR 時(shí)序數(shù)據(jù)集[38]和人體活動(dòng)識(shí)別(Human Activity Recognition,HAR)數(shù)據(jù)集[12]進(jìn)行分析。
UCR 數(shù)據(jù)集用于時(shí)序分類的權(quán)威數(shù)據(jù)集,為了消除數(shù)據(jù)集中帶入的主觀性,隨機(jī)選取UCR 中的30 個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,包含了不同序列長(zhǎng)度、類型與類別,如表1 所示。
表1 UCR數(shù)據(jù)集信息Tab.1 Information of UCR datasets
除了UCR 數(shù)據(jù)集,本文另外選取了HAR 作為實(shí)際實(shí)驗(yàn)數(shù)據(jù)。HAR 數(shù)據(jù)集的實(shí)驗(yàn)對(duì)象為30 名年齡在19~48 歲之間的志愿者。每個(gè)人在腰部佩戴智能手機(jī)進(jìn)行6 項(xiàng)活動(dòng),分別為:走路、上樓、下樓、坐下、站直和躺下。使用嵌入式加速計(jì)和陀螺儀以50 Hz 的恒定速率捕獲三軸線加速度和角速度。記錄實(shí)驗(yàn)過(guò)程,并且為每一個(gè)樣本標(biāo)記標(biāo)簽。
實(shí)驗(yàn)過(guò)程中,傳感器信號(hào)(加速計(jì)和陀螺儀)通過(guò)應(yīng)用噪聲濾波器進(jìn)行預(yù)處理,然后在2.56 s 和50%重疊的固定寬度滑動(dòng)窗口中采樣(128 個(gè)讀數(shù)/窗口)。從時(shí)域和空域計(jì)算變量獲得特征向量,最后得到共計(jì)10 419 個(gè)時(shí)間序列長(zhǎng)度為762 的樣本數(shù)據(jù)。本文將獲得的數(shù)據(jù)按照7∶3 的比例得到訓(xùn)練與測(cè)試數(shù)據(jù),HAR 數(shù)據(jù)集樣本數(shù)如表2 所示。
表2 HAR數(shù)據(jù)集信息Tab.2 Information of HAR dataset
在實(shí)驗(yàn)中,GAF 的圖像大小取決于分段聚合近似(Piecewise Aggregate Approximation,PAA)[39]窗口尺寸n×n的大小。PAA 將時(shí)間序列沿時(shí)間方向分割成段,對(duì)每一段中的所有觀測(cè)點(diǎn)取均值作為新的序列值。本文將n分別設(shè)置為{ 32,48,64},如果序 列長(zhǎng)度小于n,則n的取值 為min[n,L]。得到的圖像縮放到統(tǒng)一尺度n×n,防止當(dāng)序列長(zhǎng)度不足窗口大小時(shí)尺度不統(tǒng)一。由于MTF 的圖像大小取決于Q個(gè)量化區(qū)間,因此本文對(duì)MTF 的處理與GAF 相同,當(dāng)序列長(zhǎng)度不足Q時(shí),令n為序列長(zhǎng)度和Q的最小值。對(duì)于RP的圖像化方法,將時(shí)延設(shè)為1,得到完全的循環(huán)圖。
在訓(xùn)練FIR-Capsnet 的過(guò)程中,將批訓(xùn)練大小設(shè)為min[sample,64 ],其中,sample為樣本數(shù)量。實(shí)驗(yàn)采用Adam優(yōu)化器,β1=0.9,β2=0.999。同時(shí)使用指數(shù)衰減學(xué)習(xí)率加快收斂,初始學(xué)習(xí)率為0.001,衰減速度為1,學(xué)習(xí)率衰減系數(shù)為0.9。對(duì)所有的數(shù)據(jù)集采用相同的網(wǎng)絡(luò)參數(shù)設(shè)計(jì),卷積層的卷積核大小為5× 5,步長(zhǎng)為2,通道數(shù)為64;膠囊層的卷積核大小為5× 5,步長(zhǎng)為2,通道數(shù)為128,膠囊神經(jīng)元個(gè)數(shù)設(shè)為8;Caps-LSTM 層的層數(shù)設(shè)為1,路由迭代次數(shù)設(shè)置為2。
3.4.1 UCR數(shù)據(jù)集結(jié)果
對(duì)30 個(gè)來(lái)自不同領(lǐng)域的UCR 數(shù)據(jù)集運(yùn)用交叉驗(yàn)證方法進(jìn)行實(shí)驗(yàn),采用30 次實(shí)驗(yàn)的均值作為最后的結(jié)果。4 種圖像化方法與Fusion-CNN 的分類準(zhǔn)確率如表3 所示,優(yōu)勝者加粗表示,其中Fusion-CNN 表示圖像采用融合方式,網(wǎng)絡(luò)采用CNN。表格的底部是結(jié)果的統(tǒng)計(jì)值,分別計(jì)算各類算法的平均準(zhǔn)確率、方差、獲勝的次數(shù)、平均序值和均類誤差(Mean Per-Class Error,MPCE)[40]。MPCE 值計(jì)算公式如下:
表3 在30個(gè)UCR數(shù)據(jù)集上的分類準(zhǔn)確率Tab.3 Classification accuracy on 30 UCR datasets
其中:Dk為第k個(gè)數(shù)據(jù)集的類別數(shù);ek為網(wǎng)絡(luò)在第k個(gè)數(shù)據(jù)集的錯(cuò)誤率。平均序值和MPCE 是評(píng)價(jià)多個(gè)算法在多個(gè)數(shù)據(jù)集下的常用指標(biāo),兩者的值越小算法越優(yōu)異。實(shí)驗(yàn)結(jié)果表明FIR-Capsnet 取得15 次勝利,相較于Fusion-CNN,F(xiàn)IR-Capsnet的平均準(zhǔn)確率提高了7.3 個(gè)百分點(diǎn)。從圖像化角度分析,采用混合圖像化與單一圖像化相比,平均準(zhǔn)確率提高了1.9~2.9 個(gè)百分點(diǎn),與GAF 的比較提升最明顯。
實(shí)驗(yàn)結(jié)果表明:1)融入多通道圖像特征能夠帶來(lái)分類結(jié)果的小幅度提升;2)循環(huán)膠囊神經(jīng)網(wǎng)絡(luò)提高了網(wǎng)絡(luò)的提取時(shí)空特征能力,主要原因是丟棄了池化層,用路由捕捉空間信息,并且用LSTM 記錄時(shí)間信息。本文對(duì)上述網(wǎng)絡(luò)用Nemenyi[31]后續(xù)檢驗(yàn),繪出臨界差分(Critical Difference,CD)圖,如圖4 所示,置信度為95%。圖中的橫軸代表平均序值,平均序值越低,代表算法的表現(xiàn)越優(yōu)異??梢钥闯?,F(xiàn)IRCapsnet 與GAF-Capsnet 和Fusion-CNN 沒(méi)有交疊,表明FIRCapsnet 與GAF-Capsnet、Fusion-CNN 有顯著差異。
圖4 不同圖像化方法的臨界差分圖Fig.4 Critical difference diagram of different imaging methods
3.4.2 HAR數(shù)據(jù)集結(jié)果
為進(jìn)一步研究網(wǎng)絡(luò)對(duì)于各個(gè)類別的分類情況,以HAR數(shù)據(jù)集為例,結(jié)果如表4 所示,表中的數(shù)據(jù)是多次評(píng)估網(wǎng)絡(luò)的結(jié)果。從總體的分類結(jié)果上看,F(xiàn)IR-Capsnet 在HAR 數(shù)據(jù)集上的分類表現(xiàn)優(yōu)于其他網(wǎng)絡(luò),相較于Fusion-CNN,F(xiàn)IRCapsnet 的總體準(zhǔn)確率提高了7.2 個(gè)百分點(diǎn)。FIR-Capsnet 的高準(zhǔn)確率也說(shuō)明網(wǎng)絡(luò)具有較高的泛化能力,能適應(yīng)不同的人體活動(dòng)特征。對(duì)于單種圖像化方法,混合圖像化方法更具有優(yōu)勢(shì)。但在靜態(tài)活動(dòng)站直與躺下的分類準(zhǔn)確率中,F(xiàn)IRCapsnet 結(jié)果不如MTF,這是因?yàn)榛旌蠄D像的GAF 保存的時(shí)間相似度特征在靜態(tài)活動(dòng)中起負(fù)面作用帶來(lái)的影響。這也使MTF 更適合檢測(cè)靜態(tài)活動(dòng),因此在檢測(cè)老年人活動(dòng)狀態(tài)時(shí),MTF-Capsnet 優(yōu)于FIR-Capsnet。
表4 HAR數(shù)據(jù)集上的分類準(zhǔn)確率Tab.4 Classification accuracy on HAR dataset
為了確認(rèn)超參數(shù)對(duì)準(zhǔn)確率的影響,改變圖像尺寸,分析時(shí)間序列窗口對(duì)結(jié)果的影響。分別設(shè)置n為{32,48,64}??紤]到深度學(xué)習(xí)的隨機(jī)性,保持網(wǎng)絡(luò)參數(shù)和隨機(jī)種子不變,將UCR 的30 個(gè)數(shù)據(jù)集上的平均準(zhǔn)確率作為最終的實(shí)驗(yàn)結(jié)果繪制成柱狀圖,如圖5 所示。可以看出,窗口尺寸n×n的增大對(duì)結(jié)果有微弱影響。當(dāng)n=48 時(shí),網(wǎng)絡(luò)效果最佳,并且采用混合圖像化方法在任意窗口尺寸下均可以獲得最優(yōu)的分類準(zhǔn)確率。
圖5 不同方法在30個(gè)UCR數(shù)據(jù)集上的平均準(zhǔn)確率Fig.5 Average accuracies of different methods on 30 UCR datasets
膠囊網(wǎng)絡(luò)中的超參數(shù)iter控制路由迭代的次數(shù),iter越大,迭代次數(shù)越多,訓(xùn)練網(wǎng)絡(luò)的時(shí)間越久;但iter會(huì)影響運(yùn)行效率和分類結(jié)果,并非越大越好。為了探究iter的最優(yōu)選取策略,在HAR 數(shù)據(jù)集上對(duì)膠囊層由低層膠囊路由到高層膠囊進(jìn)行統(tǒng)計(jì)分析高層膠囊就是類膠囊,iter=1 等價(jià)為將所有低層膠囊均勻分配給類膠囊。當(dāng)iter≥2,結(jié)果如圖6 所示,低層向高層路由的頻率為FLH,樣本真實(shí)標(biāo)簽為“站直”,類別為4。
圖6 FLH與iter的關(guān)系Fig.6 Relationship between FLH and iter
可以看出,當(dāng)iter≥2 時(shí),膠囊被路由到類別4(“站直”)的頻率最多;其次是被路由到類別5(“躺下”)。表明在時(shí)序圖像中,路由的迭代次數(shù)并不會(huì)對(duì)分類結(jié)果產(chǎn)生過(guò)多影響,大多數(shù)的膠囊被正確地路由到類膠囊上,但人體活動(dòng)(“躺下”)會(huì)影響最終結(jié)果的輸出。
為了驗(yàn)證循環(huán)機(jī)制在膠囊中的作用,本文設(shè)置了對(duì)照實(shí)驗(yàn)。在Caps-LSTM 中需要設(shè)置循環(huán)的次數(shù),即網(wǎng)絡(luò)的深度。為說(shuō)明FIR-Capsnet 在時(shí)間序列分類問(wèn)題上有良好的效果,本文針對(duì)改進(jìn)的Caps-LSTM 層進(jìn)行摘除和網(wǎng)絡(luò)深度的疊加實(shí)驗(yàn)。首先對(duì)單個(gè)數(shù)據(jù)集進(jìn)行特征關(guān)聯(lián)性分析。當(dāng)iter=0時(shí),Caps-LSTM 層被摘除循環(huán)機(jī)制,變化成膠囊層,即網(wǎng)絡(luò)退化為傳統(tǒng)的Capsnet。本文隨機(jī)地從7 個(gè)領(lǐng)域選取一個(gè)數(shù)據(jù)集作為代表,共選取7 個(gè)數(shù)據(jù)集,如圖7 所示??梢钥闯?,增加Caps-LSTM 層后,除了Sensor(Earthquakes)領(lǐng)域,在剩下的6 個(gè)領(lǐng)域中準(zhǔn)確率都有所上升。這說(shuō)明膠囊的時(shí)間特征關(guān)聯(lián)性在時(shí)序圖像中不可缺少。
圖7 不同iter下7個(gè)數(shù)據(jù)集上的結(jié)果對(duì)比Fig.7 Comparison of results on 7 datasets under different iter
本文保持其余參數(shù)不變,分別在UCR 中的30 個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,最后繪出的CD 圖結(jié)果如圖8 所示。
圖8 循環(huán)次數(shù)比較Fig.8 Comparison of recurrent times
可以看出,iter=1 的平均序值最低,其次是iter=2與iter=3,iter=0 的平均序值最高,結(jié)果表明循環(huán)機(jī)制能夠提升膠囊網(wǎng)絡(luò)的性能,但不能無(wú)限增長(zhǎng)。當(dāng)循環(huán)次數(shù)增大時(shí),Caps-LSTM 層過(guò)度學(xué)習(xí)時(shí)序全局特征而忽略了局部特征。實(shí)驗(yàn)結(jié)果表明,膠囊網(wǎng)絡(luò)融合門的機(jī)制能夠讓膠囊具有時(shí)間特征關(guān)聯(lián)性,縮減了擬合系數(shù),并且每個(gè)膠囊都能獲取整個(gè)時(shí)間序列的特征。
本文進(jìn)一步設(shè)計(jì)了FIMR-Capsnet,對(duì)比循環(huán)記憶機(jī)制置于各個(gè)階段的優(yōu)劣。FIMR-Capsnet 具有3 層結(jié)構(gòu),由卷積層、膠囊層和記憶動(dòng)態(tài)路由(Memory Dynamic Routing,MDR)層組成,如圖9 所示。
圖9 FIMR-Capsnet結(jié)構(gòu)Fig.9 Structure of FIMR-Capsnet
卷積層和膠囊層的組成與FIR-Capsnet 相同,唯一區(qū)別的是在膠囊層得到H2×W2×C2×D1個(gè)膠囊后,對(duì)膠囊采用MDR 算法,不采用DR 算法。MDR 對(duì)膠囊迭代iter次后,同樣得到NC個(gè)類膠囊。對(duì)比實(shí)驗(yàn)中,本文將參數(shù)設(shè)置為與FIRCapsnet 相同。在路由過(guò)程中,當(dāng)經(jīng)過(guò)一個(gè)更大的迭代次數(shù)時(shí),最初的膠囊特征會(huì)因?yàn)樗惴ǖ牟粩嗦酚桑瑢?dǎo)致信息不斷丟失。第一次迭代出的耦合系數(shù)是更接近輸入的,本文希望在計(jì)算時(shí)保留最初的輸入系數(shù),而不是經(jīng)過(guò)多輪迭代后的輸入系數(shù)。最初的輸入能夠矯正預(yù)測(cè)膠囊的路由過(guò)程,以便多輪迭代后輸入系數(shù)能保留迭代過(guò)程中的重要信息。MDR 算法的偽代碼如算法1 所示。相較于動(dòng)態(tài)路由算法,增加了mij記憶單元。記錄每一次的路由迭代信息,當(dāng)算法開(kāi)始時(shí),與耦合系數(shù)相加,不斷循環(huán)直到退出為止。
FIMR-Capsnet 和FIR-Capsnet 在30 個(gè)UCR 數(shù)據(jù)集上的訓(xùn)練結(jié)果如圖10 所示。為了減少參數(shù)中的隨機(jī)性,對(duì)所有的訓(xùn)練集進(jìn)行30 次實(shí)驗(yàn)并取平均值作為最終結(jié)果。圖10 中左上部分代表FIMR-Capsne 更優(yōu),右下部分代表FIR-Capsnet 更優(yōu),越接近左上或右下代表兩者差異越大;W/T/L 分別代表FIR-Capsnet 獲勝/平局/失敗的數(shù)據(jù)集個(gè)數(shù)??梢钥闯觯現(xiàn)IRCapsnet 優(yōu)于FIMR-Capsnet,主要由于膠囊路由過(guò)程并不需要記憶機(jī)制。由3.6 節(jié)可以看出,當(dāng)?shù)螖?shù)iter≥2 時(shí),增加iter的次數(shù)并沒(méi)有讓更多的低層膠囊路由到類膠囊。通過(guò)實(shí)驗(yàn)可以判斷,iter并不會(huì)影響算法準(zhǔn)確率,本文只需要一次動(dòng)態(tài)路由就能達(dá)到接近最優(yōu)的參數(shù)。因此,在動(dòng)態(tài)路由算法中設(shè)計(jì)循環(huán)記憶單元并不能很好地融合路由機(jī)制。
圖10 FIR-Capsnet與FIMR-Capsnet對(duì)照實(shí)驗(yàn)結(jié)果Fig.10 Comparison experiment result of FIR-Capsnet and FIMR-Capsnet
本文應(yīng)用融合圖像化的方法聚合多水平的時(shí)空特征,并設(shè)計(jì)了具有循環(huán)結(jié)構(gòu)的膠囊神經(jīng)分類網(wǎng)絡(luò)FIR-Capsnet 以挖掘時(shí)空特征。實(shí)驗(yàn)結(jié)果表明,在處理時(shí)間序列問(wèn)題上的分類時(shí),與實(shí)驗(yàn)中的圖像化算法相比,F(xiàn)IR-Capsnet 的分類準(zhǔn)確率有小幅提升,各項(xiàng)評(píng)價(jià)指標(biāo)都優(yōu)于對(duì)比算法。本文不僅通過(guò)圖像化融合對(duì)比實(shí)驗(yàn)和關(guān)鍵層的消融實(shí)驗(yàn)驗(yàn)證了Caps-LSTM 層的作用,同時(shí)設(shè)計(jì)了FIMR-Capsnet 比較循環(huán)機(jī)制在不同階段的效果。從實(shí)驗(yàn)結(jié)果可以看出FIMR-Capsnet 的準(zhǔn)確率在大部分?jǐn)?shù)據(jù)集上有不同程度下降,以此反證了FIRCapsnet 將循環(huán)記憶機(jī)制運(yùn)用在膠囊層的合理性。
混合圖像方法結(jié)合了多種圖像化的優(yōu)勢(shì),融合了多水平空間特征,保留了時(shí)間序列更多的語(yǔ)義信息。而循環(huán)膠囊網(wǎng)絡(luò)不僅可以在盡可能保留空間特征的情況下,通過(guò)LSTM 的記憶門、遺忘門和輸出門對(duì)特征激活和抑制,還可以通過(guò)LSTM 的記憶門提取時(shí)序圖像時(shí)序特征。但本文網(wǎng)絡(luò)在時(shí)序分類問(wèn)題上還有進(jìn)步空間,例如,在圖像化序列的過(guò)程會(huì)丟棄序列片段的重要性,如何更好地將片段重要性特征融合至圖像是未來(lái)重要的研究方向之一。