張文君, 陳丹偉
南京郵電大學(xué) 計算機學(xué)院、軟件學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院,南京 210000
隨著移動設(shè)備智能化程度的提高,手機承載了諸多以前只能通過電腦實現(xiàn)的功能和任務(wù).與此同時,5G已經(jīng)漸漸進入我們的日常生活,2015-2020年中國手機即時通信用戶規(guī)模逐年增長.事實上,網(wǎng)絡(luò)性能的大幅提升不僅為即時通信類別的應(yīng)用帶來了較大改變,同時也使得移動設(shè)備能夠為生活、工作、娛樂等各方面的應(yīng)用需求提供支持.由此可見,5G對移動端應(yīng)用市場的蓬勃發(fā)展起到了極大的促進作用.
用戶在使用每個移動端的應(yīng)用時會產(chǎn)生各種各樣的網(wǎng)絡(luò)流量,通過分析這些流量可以獲取很多信息.比如,第一,可以對用戶的行為作出分析,或者對某個地區(qū)某個年齡的用戶行為作出分析,從而刻畫出用戶形象以便更好地推薦;第二,可以實現(xiàn)從攻擊者的視角盡早發(fā)現(xiàn)一些有惡性行為的應(yīng)用并進行防范,從而避免出現(xiàn)隱私泄露等安全問題;第三,可以滿足某些場景或企業(yè)的個性化需求,提高網(wǎng)絡(luò)服務(wù)質(zhì)量.
傳統(tǒng)的移動應(yīng)用流量識別主要有3種方式,基于端口號識別、基于DPI深度包檢測識別和基于機器學(xué)習(xí)的方式.其中,基于端口號和DPI深度包檢測的流量識別方法是依靠研究人員制訂的規(guī)則來進行匹配和識別的,此外,基于統(tǒng)計和基于行為的方法都屬于傳統(tǒng)的機器學(xué)習(xí)方法,故仍需要手工進行特征選擇后,模型才能依據(jù)既定特征對待識別樣本進行識別.然而,隨著近幾年深度學(xué)習(xí)在各領(lǐng)域的大放異彩,研究學(xué)者開始嘗試用深度學(xué)習(xí)解決傳統(tǒng)流量識別方法中的問題.圖1展示了不同流量識別方法的具體流程,深色塊表示機器完成的部分.可以看出,使用深度學(xué)習(xí)方式可以省略人工進行特征設(shè)計的步驟,這已在圖像分類、自然語言處理等多個領(lǐng)域得到了驗證.鑒于此,在流量識別領(lǐng)域我們同樣能夠借助深度學(xué)習(xí)來提高流量識別的能力.同時,考慮到在實際應(yīng)用場景中移動應(yīng)用迭代頻繁的情況,本文采用了元學(xué)習(xí)多任務(wù)訓(xùn)練的方式,解決了識別模型冷啟動的問題,實現(xiàn)了小樣本場景下的移動應(yīng)用行為識別.
圖1 不同流量識別方式的流程
網(wǎng)絡(luò)流量分析[1-3]一直是網(wǎng)絡(luò)安全領(lǐng)域一個重要的研究方向.如今人們對手機的依賴程度越來越高,手機承載著我們越來越多的隱私信息,例如,照片、定位信息、文件甚至是各類金融信息,因此我們嘗試通過對移動應(yīng)用使用中產(chǎn)生的網(wǎng)絡(luò)流量進行分析,識別用戶的行為[4],來達到分析用戶的行為模式或者是用于場景化管理[5-6]的目的.網(wǎng)絡(luò)流量分析一般分為流量采集、流量處理、特征分析、結(jié)果評估4個步驟.
近年來越來越多研究人員開始利用網(wǎng)絡(luò)流量來識別移動應(yīng)用中用戶的行為,Coull等人[6]在研究iMessage用戶產(chǎn)生的流量時,盡管iMessage對流量進行了加密處理,但通過分析用戶與蘋果服務(wù)器交互時產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù)包的大小等側(cè)面信息,仍可以獲取用戶的相關(guān)操作特征,例如可以識別出消息的長度、語言的種類等,同時,對發(fā)消息的行為,包括輸入狀態(tài)和閱讀狀態(tài)等5種行為進行了區(qū)分,正確率在90%以上.Lee等人[7]研究了韓國的一款通信移動應(yīng)用,在對用戶發(fā)消息、發(fā)圖片、添加好友等11種行為產(chǎn)生的網(wǎng)絡(luò)流量差異進行分析時,通過提取這些加密數(shù)據(jù)流的數(shù)據(jù)報文也能夠?qū)τ脩舻男袨檫M行識別.Li等人[8]提出在進行移動應(yīng)用行為識別時,選取數(shù)據(jù)報文的時間序列和長度序列作為特征進行分析,也可以不受加密的影響.
上述文獻使用的都是傳統(tǒng)的分步策略,目前深度學(xué)習(xí)已經(jīng)漸漸開始取代手工設(shè)計特征[9]的操作過程.Nan等人[10]提出將原始的網(wǎng)絡(luò)數(shù)據(jù)流量直接作為輸入,使用一種基于棧式自編碼器SAE的識別方法,開創(chuàng)了端到端方法識別流量的先河.王偉[11]同樣是將原始的網(wǎng)絡(luò)數(shù)據(jù)流量直接作為輸入,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)來輸出模型的分類結(jié)果,將網(wǎng)絡(luò)流量的識別很好地與深度學(xué)習(xí)方式結(jié)合到了一起,并且取得了很好的實驗效果.因此,采用深度學(xué)習(xí)的方式,對網(wǎng)絡(luò)流量的原始數(shù)據(jù)進行學(xué)習(xí)在流量識別領(lǐng)域是可行且效果可觀的.
基于雙域注意力機制和元學(xué)習(xí)的移動應(yīng)用行為識別分類模型如圖2所示,在對流量數(shù)據(jù)進行可視化操作后,利用深度可分離卷積、雙域注意力和元學(xué)習(xí)訓(xùn)練策略[12]等模塊來完成在小樣本情況下的移動應(yīng)用行為識別任務(wù).其中,用深度可分離卷積取代常規(guī)卷積操作,是為了在確保識別準(zhǔn)確率的同時降低模型參數(shù)量,實現(xiàn)更好的泛化性;使用雙域注意力模塊,可以從通道域和空間域2個方面提高輸入特征圖中有用信息的權(quán)重,抑制無用信息,提高識別的準(zhǔn)確率;使用元學(xué)習(xí)的訓(xùn)練方式,將雙域注意力模型作為行為識別的基礎(chǔ)模型,經(jīng)過大量多任務(wù)訓(xùn)練后,能夠解決識別模型的冷啟動問題,實現(xiàn)在小樣本情況時的移動應(yīng)用行為特征識別.
圖2 本文的移動應(yīng)用行為識別模型
在對訓(xùn)練圖片進行預(yù)處理后,特征提取部分本文使用深度可分離卷積來代替常規(guī)的卷積操作.采用深度可分離卷積(Depthwise Separable Convolution)的目的是通過減少模型的參數(shù)來提高計算的效率.
深度可分離卷積主要由逐通道卷積和逐點卷積2個部分組成.逐通道卷積(Depthwise Convolution)是作用于通道層面,如圖3a所示展示的是逐通道卷積的模型,一個卷積核對應(yīng)一個通道.逐點卷積(Pointwise Convolution)與常規(guī)的卷積類似,如圖3b所示展示的是逐點卷積的模型,其實就是將上一步得到的特征圖在深度上進行加權(quán)組合,那么相比于標(biāo)準(zhǔn)的卷積操作[13],深度可分離卷積需要計算的參數(shù)數(shù)量要少很多,計算公式如下所示
圖3 深度可分離卷積示意圖
(1)
其中,H為圖片的高度,W為圖片的寬度,C為通道數(shù),N為通道數(shù)的個數(shù).
本文在特征提取部分使用深度可分離卷積并非強行用精度換時間,在深度卷積的部分沒有讓通道之間的數(shù)據(jù)互相影響,逐點卷積又讓通道間信息產(chǎn)生交互,用更低通道的特征圖來存儲特征信息.在實際的實驗中,谷歌團隊的MobileNet相比于VGG16和GoogleNet在保持精度的情況下,大大減少了模型的計算參數(shù),提高了效率.綜上所述,本文使用深度可分離卷積來進行行為特征識別工作.
應(yīng)用行為轉(zhuǎn)化的灰度圖其實也包含較多無關(guān)信息,例如在生成圖片時用于補足長度的黑色部分,或者是流量信息的固定格式等.為了降低無關(guān)信息的干擾影響,并且模型能在分類中的效果和效率都有所提升.本文在卷積操作后引入了雙域注意力模塊,這樣能在學(xué)習(xí)的過程中更加關(guān)注對于分類有幫助的信息.本文使用的雙域注意力模塊如圖4所示.
圖4 雙域注意力模塊
對于空間注意力來說,由于將每個通道中的特征都做同等處理,忽略了通道間的信息交互;而通道注意力則是將一個通道內(nèi)的信息直接進行全局處理,容易忽略空間內(nèi)的信息交互.因此,將兩者結(jié)合作用于本文的行為識別任務(wù)中.
1) 通道注意力的計算
常規(guī)雙域注意力中通道注意力的計算,首先是對輸入特征圖進行基于全局平均池化的預(yù)處理,然后進行通道注意力的提取.但是,從頻域的角度進行分析后發(fā)現(xiàn),全局平均池化只是頻域中特征分解的特例,因此直接做全局平均池化會損失很多重要信息.本文的通道注意力是基于DCT頻域分析進行的,其計算公式為
h∈{0,1,…,H-1},w∈{0,1,…,W-1}
(2)
Freqi=2DDCT(Xi)i∈{0,1,…,n-1}
(3)
其中,Xi表示第i個通道的特征圖,n表示總通道數(shù), 2D表示計算的是二維頻域,DCT表示將Xi作為輸入,則n個通道的注意力預(yù)處理結(jié)果進行拼接后可以表示為
Freq=cat([Freq0,F(xiàn)req1,…,F(xiàn)reqn-1])
(4)
其中,cat函數(shù)表示將多個元素收尾拼接起來,則通道注意力的計算公式為
Mapc(F)=σ(W0(Freq))
(5)
其中,Mapc(F)表示待生成的通道注意力,σ表示Sigmoid激活函數(shù),用來將注意力權(quán)重縮放為[0,1],W0表示通道注意力中神經(jīng)網(wǎng)絡(luò)全連接層的參數(shù),W0是需要進行學(xué)習(xí)的.
2) 空間注意力的計算
空間注意力將通道注意力模塊的輸出作為輸入.首先,將輸入的特征圖進行全局最大池化和全局平均池化處理,然后,將得到的結(jié)果進行拼接,經(jīng)過一個卷積操作后降維到一個通道寬度的特征圖,經(jīng)過Sigmoid函數(shù)激活后生成空間注意力特征圖,再與輸入的特征圖相乘,得到最后生成的特征圖.計算公式如下所示
Maps(F)=σ(F7*7([AvgPool(F);MaxPool(F)]))
(6)
本文使用元學(xué)習(xí)[14-16]作為模型的學(xué)習(xí)器,即將含雙域注意力的識別模型作為基礎(chǔ)模型,再使用元學(xué)習(xí)的方式同時進行多個訓(xùn)練任務(wù),然后通過獲取不同任務(wù)合成的梯度方向來更新學(xué)習(xí)器.
一般的深度學(xué)習(xí)是將訓(xùn)練數(shù)據(jù)分為不同的批次,而對于元學(xué)習(xí)而言,是將訓(xùn)練數(shù)據(jù)分為不同的任務(wù)[17-19],用于訓(xùn)練的任務(wù)稱為訓(xùn)練任務(wù)T={T1,T2,T3,…},而在每一個任務(wù)里又分了支持集和請求集,支持集對應(yīng)了傳統(tǒng)深度學(xué)習(xí)中的訓(xùn)練數(shù)據(jù)集,請求集則對應(yīng)了傳統(tǒng)深度學(xué)習(xí)中的測試數(shù)據(jù)集,在每一輪訓(xùn)練中,對于當(dāng)前task,使用支持集來訓(xùn)練該模型,再用請求集去驗證計算誤差來更新學(xué)習(xí)器的參數(shù).用于測試的任務(wù)我們稱為測試任務(wù),那么對于這一部分的任務(wù)而言,也是分了2個數(shù)據(jù)集,即支持集和請求集,一個用于在F上訓(xùn)練找到一個適合這個分類任務(wù)的f,另一個用于在實際的分類器上進行分類,檢驗產(chǎn)生的f的分類效果,從而評價F的學(xué)習(xí)能力[20].對于分類任務(wù)我們使用的損失函數(shù)是交叉熵?fù)p失函數(shù),則
(7)
其中,N指的是類別的數(shù)量,y用0或者1來表示與該類是否相同,P表示在識別模型中預(yù)測這個樣本屬于某個類別的概率.
在具體實現(xiàn)一輪訓(xùn)練任務(wù)的時候,首輪任務(wù)需要我們將學(xué)習(xí)器的參數(shù)初始化,并且需要提前設(shè)定好一個批次的任務(wù)數(shù)量,然后將這一批次的任務(wù)投入到識別網(wǎng)絡(luò)中進行訓(xùn)練,用請求集的數(shù)據(jù)去計算在當(dāng)前參數(shù)θ下的損失,第二個任務(wù)采用同樣的初始參數(shù),重復(fù)上述的步驟再進行一次損失的計算,直到這一批次的任務(wù)訓(xùn)練結(jié)束,將計算的損失和作為我們學(xué)習(xí)器的損失,則
(8)
本文提出了一種基于雙域注意力和元學(xué)習(xí)的移動應(yīng)用行為識別方式,實現(xiàn)了在小樣本情況下對移動應(yīng)用行為的識別,使用了深度可分離卷積進行特征提取,并用雙注意力機制對有用信息進行增益,另外還采用元學(xué)習(xí)的訓(xùn)練方式解決冷啟動問題.本文在實驗中采用了自己采集的數(shù)據(jù)集,也采用了網(wǎng)絡(luò)公開的數(shù)據(jù)集進行對比實驗.經(jīng)過驗證,本文提出的方法能夠在小樣本情況下進行移動應(yīng)用行為的識別,并且在識別準(zhǔn)確率上超過了其他小樣本識別方法.
本實驗的數(shù)據(jù)集是微信使用時所產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù)流量.流量的采集主要是通過自動化測試工具Appium來實現(xiàn)的,該工具能通過編寫腳本自動執(zhí)行相關(guān)操作.使用Appium的原因是它的功能很強大且可以跨平臺使用,這使得我們后期在采集安卓和ios的流量時可忽略系統(tǒng)的差異性.
在數(shù)據(jù)集構(gòu)造方面主要分為4個步驟:
步驟一:流量采集.流量采集使用的是基于Appium的自動化平臺,通過自行編寫的腳本在手機上執(zhí)行既定的應(yīng)用行為.之后使用Wireshark進行抓包,獲取pacp格式的文件.pacp是一種常用的存儲網(wǎng)絡(luò)數(shù)據(jù)流的存儲格式,大部分的抓包軟件都可以獲取這一類的數(shù)據(jù).對于元學(xué)習(xí)任務(wù),本文采集的數(shù)據(jù)為微信的應(yīng)用數(shù)據(jù),共抓取了6種行為的流量,采集的用戶行為種類如表1所示.在實際使用中,每次使用4種行為作支持集,2種行為作請求集,且假設(shè)測試用的樣本為小樣本.
表1 數(shù)據(jù)集包含的行為種類
步驟二:流量篩選.在進行流量采集的時候,盡管在自動執(zhí)行的測試機上只運行了我們需要的移動應(yīng)用,但是Wireshark在進行流量捕獲的時候,會將所有流經(jīng)網(wǎng)卡的網(wǎng)絡(luò)數(shù)據(jù)流都保存下來,因此,得到的初始數(shù)據(jù)存在很多與實驗無關(guān)的網(wǎng)絡(luò)流量,此外,超時重傳的數(shù)據(jù)包,在傳輸過程中丟失或者損壞的數(shù)據(jù)包,在連接初始用于3次握手沒有攜帶數(shù)據(jù)的確認(rèn)數(shù)據(jù)包,在數(shù)據(jù)傳輸階段接收方發(fā)送的ACK數(shù)據(jù)包,以及用于斷開連接的數(shù)據(jù)包,這些與實驗無關(guān)的數(shù)據(jù)包都要進行過濾.
步驟三:流量切分.依據(jù)Taylor等人[21]的論文觀點,流量切分時依照不同的突發(fā)(Brust)閾值對流量進行切分,并依據(jù)目的IP和端口號進行流分離.在實驗中,我們采用相同的閾值來切分連續(xù)的行為流量,在后續(xù)也對時間閾值的選擇進行了實驗.
步驟四:生成流量圖片.取每個數(shù)據(jù)報的前N個字節(jié),N=1 024,對于每一個圖片而言,每個字節(jié)都對應(yīng)了一個灰度,從而形成一張32*32尺寸大小的灰度圖片.
通過分析發(fā)現(xiàn),不同的應(yīng)用行為網(wǎng)絡(luò)流量的差異性較大,例如,發(fā)送文字的數(shù)據(jù)包大小比發(fā)送圖片的數(shù)據(jù)包小很多,而微信發(fā)紅包、轉(zhuǎn)賬等行為的數(shù)據(jù)包集中在300~1 300 B左右,需要進一步分析識別.
雖然元學(xué)習(xí)解決的是小樣本問題,但是在訓(xùn)練時仍需要大量的訓(xùn)練任務(wù).在傳統(tǒng)的機器學(xué)習(xí)中,我們用一個訓(xùn)練集去訓(xùn)練模型,再用另一個測試集去評判模型的質(zhì)量,而對于元學(xué)習(xí)而言,我們不再專注于一個特定的任務(wù),而是通過從數(shù)據(jù)集中抽樣出一個任務(wù)集T={T1,T2,T3,…,Tn},每次選取一個任務(wù)進行學(xué)習(xí),而每個任務(wù)中都包含了訓(xùn)練樣本(支持集)和測試樣本(請求集),通過對任務(wù)的訓(xùn)練,來實現(xiàn)讓模型學(xué)習(xí)到一定的先驗知識的目的,從而能夠在新的識別任務(wù)中有好的識別效果.
在訓(xùn)練數(shù)據(jù)中,有m種不同類型的樣本,從中隨機選4(4 算法1從數(shù)據(jù)集中生成小樣本識別任務(wù) 數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(xn,yn)},xi∈Rd,yi∈L D〈t〉表示D中滿足yi=t的所有元素(xi,yi),t∈L Query Set大小為B,每類樣本數(shù)量為K 輸出:小樣本識別任務(wù)T={Sa,Qu,K} 依賴:RandSample(P,R)表示從集合P中均勻且隨機抽取R個樣本 1La(la0,…,la3)=RandSample(L,4),Lb(lb0,lb1)=RandSample(L,2) 2 生成支持集(Support Set) 3 fori=1 to 4: 4Sa〈i〉=RandSample (D〈lai〉,K) 預(yù)算的決策層,作為國土資源的財政稅收預(yù)算管理的重要組織機構(gòu),過于看重預(yù)算滿意度,造成了預(yù)算草案帶有很大的主觀成分,沒有真實反映當(dāng)前國土資源部門的財政稅收的目標(biāo)。這種不科學(xué)的決策很不利于預(yù)算管理工作的順利開展,也阻礙了財政稅收預(yù)算管理工作發(fā)揮其實際的作用。 5Sa=Sa∪Sa〈I〉 6 end 7 生成請求集(Query Set) 8Qu〈0〉=RandSample (D〈lb0〉,B/2) 9Qu〈1〉=RandSample (D〈lb1〉,B/2) 10Qu=Qu〈1〉∪Qu〈2〉 11T={Sa,Qu,K} 本文采用準(zhǔn)確率(Accuracy)和召回率(Recall)作為評估模型的指標(biāo).準(zhǔn)確率用來評價模型對于行為識別整體的效果,如表2所示,其中TP(True Positive)表示正例預(yù)測為正例的樣本數(shù);FP(False Positive)表示反例預(yù)測為正例的樣本數(shù);TN(True Negative)表示正例預(yù)測為反例的樣本數(shù);FN(False Negative)表示反例預(yù)測為反例的樣本數(shù). 表2 評估指標(biāo)參數(shù)介紹 (9) (10) 其中,ACC表示準(zhǔn)確率,REC表示召回率. 由于元學(xué)習(xí)的訓(xùn)練方式同一般的深度學(xué)習(xí)方式略有差別,因此首先需要確定本文提出的識別模型的收斂性,如圖5所示展示了該行為識別模型在本文自行采集的數(shù)據(jù)集上的損失函數(shù)隨迭代次數(shù)的變化. 圖5 模型訓(xùn)練收斂 由圖可知,在100次迭代之后模型趨于穩(wěn)定,證明該識別模型是可以進行下一步實驗的,并且我們將100作為后續(xù)實驗的迭代次數(shù). 為了獲得比較好的實驗效果,本文對元學(xué)習(xí)樣本參數(shù)的選取以及在流量的行為劃分時時間閾值的選取進行了測試. 由圖6可知,在進行流量的行為劃分時,由于采取了不同的閾值,行為的劃分直接影響了識別的準(zhǔn)確率,同時,觀察得知在時間閾值為1.25 s時可以取得最好的識別效果.當(dāng)小于1.25 s時存在將一個行為拆分開,而當(dāng)大于1.25 s時存在將多個不同用戶行為合并的情況,因此后續(xù)選取1.25 s作為時間閾值進行實驗. 圖6 行為劃分參數(shù)實驗 另一個方面就是考慮在小樣本的情況下,每次訓(xùn)練任務(wù)的樣本數(shù)量對實驗效果的影響,本文選取了K=5,10,15這3種情況進行實驗,都是小樣本的場景,但是樣本數(shù)量差別較大,實驗結(jié)果如表3所示. 表3 樣本數(shù)量對實驗結(jié)果的影響 實驗結(jié)果表明,在樣本數(shù)量為5或者10時效果都比較好,模型具有泛化能力,由此可見元學(xué)習(xí)的學(xué)習(xí)方式是學(xué)習(xí)如何提取特征和學(xué)習(xí)如何進行比較,而不是記住了訓(xùn)練樣本的特征,從而能在新的識別任務(wù)中有較好的表現(xiàn). 本文采用的注意力機制是基于通道和空間的雙域注意力機制,為了探究是否單獨的通道或空間注意力會帶來更好的效果,實驗時采用了5種不同的注意力模塊,如圖7所示.其中還引入了一個高效的通道注意力(ECA)模塊來進行對比實驗(如圖7e),該模塊是一個輕量級注意力模塊. 圖7 不同注意力模塊 將各類應(yīng)用行為都按照每次任務(wù)10個樣本,仍以4種行為舉例,隨機抽取訓(xùn)練任務(wù)和測試任務(wù),最后得到的實驗結(jié)果如圖8所示. 圖8 不同注意力模塊實驗結(jié)果 實驗結(jié)果表明不同的注意力模塊確實會對實驗結(jié)果產(chǎn)生影響,單一種類的注意力機制可能會忽視某些特征,而對于本文的行為識別,空間注意力機制對識別的效果影響要更大一些,對于類似長度的網(wǎng)絡(luò)流量在形成灰度圖后,觀察圖形的紋理會更有利于進行識別,而順序的改變對實驗結(jié)果基本沒有影響,因此本文選取雙域注意力機制構(gòu)建識別模型. 本文基于雙域注意力機制和元學(xué)習(xí)的移動應(yīng)用行為識別模式采用了元學(xué)習(xí)多任務(wù)的方式,因此模型在行為識別方面應(yīng)具有一定的泛化性.為了驗證這一點,本文除了在自己所采集的數(shù)據(jù)集之外,還選用了網(wǎng)絡(luò)公開的Instagram行為數(shù)據(jù)集,該數(shù)據(jù)集包括了4種行為:發(fā)文字消息、發(fā)圖片、發(fā)布動態(tài)、點贊,與本文自行采集的微信行為有較大的相似性,因此在訓(xùn)練時采用微信的數(shù)據(jù)對模型進行訓(xùn)練,在測試的時候直接使用Instagram的行為數(shù)據(jù)集進行測試,實驗結(jié)果如圖9所示.結(jié)果表明,本文提出的模型能夠?qū)nstagram的應(yīng)用行為有較好的識別效果,表明了對于相似類型的移動應(yīng)用,本文所提模型可以將學(xué)到的特征應(yīng)用于新的小樣本行為識別任務(wù)中. 圖9 識別模型泛化性實驗 在小樣本領(lǐng)域?qū)崿F(xiàn)對移動應(yīng)用行為的識別是一個比較新的研究領(lǐng)域,本文選取了用于行為識別的CUMMA模型以及專門用于小樣本分類的MAML模型,進行對比實驗,實驗結(jié)果如圖10所示. 圖10 實驗結(jié)果對比 可以看出,本文提出的小樣本行為識別方法識別效果較好,對比實驗中其他的模型和現(xiàn)有的行為識別模型,都需要大量樣本進行訓(xùn)練,并且只針對特定類型的行為進行識別,可知本文的識別模型更具有實用性. 移動智能設(shè)備和移動應(yīng)用承載了諸多個人信息和日常工作娛樂功能,通過分析移動應(yīng)用在使用時產(chǎn)生的網(wǎng)絡(luò)流量可以在網(wǎng)絡(luò)管理、隱私保護以及行為識別方面提供有價值的信息.本文針對小樣本場景下的移動應(yīng)用行為識別方式進行了研究,提出了一種基于雙域注意力機制的行為識別方式,該方式提高了移動應(yīng)用行為識別的準(zhǔn)確性;文章還采用了元學(xué)習(xí)的訓(xùn)練方式,解決了小樣本場景下,移動應(yīng)用行為識別冷啟動的問題.當(dāng)然,本文提出的應(yīng)用行為識別方式還存在不足和需要改進的地方,使用深度可分離卷積雖然降低了計算量,但注意力機制會增加一部分計算量,因此還需要進一步深入研究計算資源消耗的問題,尋找更加高效的注意力實現(xiàn)方式.3.3 評估指標(biāo)
3.4 模型收斂性
3.5 時間閾值和樣本數(shù)量影響
3.6 注意力機制分析
3.7 泛化性分析
3.8 實驗結(jié)果
4 結(jié)束語