張彭明,張曉梅,胡建鵬
(上海工程技術(shù)大學(xué)電子電氣工程學(xué)院,上海 201620)
隱式認(rèn)證是基于行為特征的新興認(rèn)證方式,其通過智能手機(jī)傳感器采集用戶操作設(shè)備的行為信息,提取相關(guān)行為特征作為隱式密碼,并利用分類算法識別用戶身份。隱式認(rèn)證能持續(xù)監(jiān)測行為信息,在整個交互期間實時認(rèn)證用戶身份,保障系統(tǒng)安全性,且認(rèn)證過程都在后臺進(jìn)行,用戶不必再記憶和頻繁輸入密碼,提升了設(shè)備交互體驗。
基于行為的隱式認(rèn)證大多通過增加更多的特征種類、訓(xùn)練復(fù)雜性模型來提高認(rèn)證準(zhǔn)確性。研究表明,多種行為特征融合可提高認(rèn)證準(zhǔn)確率。將觸摸、點擊等行為相結(jié)合[1-3],分析用戶點擊位置、速度、軌跡長度等行為信息[4],從多個維度描述用戶行為特征,結(jié)合較復(fù)雜的分類算法[5],在手機(jī)上獲得較高的認(rèn)證準(zhǔn)確率。另一部分研究結(jié)合了加速度、陀螺儀等傳感器捕捉用戶在運動狀態(tài)的行為信息[6-7]。這些認(rèn)證方式在一定程度上提高了系統(tǒng)安全性,但加入過多的特征往往會導(dǎo)致模型變得復(fù)雜,且訓(xùn)練困難,從而產(chǎn)生過擬合,在某些用戶上反而降低了準(zhǔn)確性。有些行為特征采集不便,無法滿足認(rèn)證條件[8]。此外某些特征需要配備專有穿戴設(shè)備(智能手表、手環(huán)等)才能完成認(rèn)證[9-11],不僅使系統(tǒng)認(rèn)證機(jī)制變得繁瑣,同時也增加了額外的成本。過多的特征也會導(dǎo)致行為分析變得困難,模型訓(xùn)練時間過長,運算量大,在計算力與能耗有限的手機(jī)等移動設(shè)備中難以普及。
針對以上認(rèn)證機(jī)制存在的問題,本文將易采集的劃屏行為特征、訓(xùn)練分類模型作為前級認(rèn)證,根據(jù)前級歷史認(rèn)證結(jié)果的均值動態(tài)設(shè)定信任值,并將分類概率與信任值比對作為后級認(rèn)證,最終判斷是否為真實用戶。通過滑動窗口機(jī)制記錄模型前級認(rèn)證結(jié)果,將歷史認(rèn)證概率取均值后動態(tài)更新信任值,用于后續(xù)認(rèn)證。
行為特征具有不易被模仿的特點,近年來基于行為特征的隱式認(rèn)證發(fā)展迅速。根據(jù)采集的行為特征不同,現(xiàn)有相關(guān)工作整理為基于擊鍵行為、基于步態(tài)行為、基于觸屏行為。
基于不同的人具有各自獨特的輸入方式,擊鍵認(rèn)證在輸入過程中分析擊鍵特性(如擊鍵時延、擊鍵力度,擊鍵持續(xù)時間、擊鍵位置等)進(jìn)行身份識別。早期,智能手機(jī)大多是物理鍵盤。當(dāng)時研究的持續(xù)認(rèn)證方式以擊鍵特征為主,不需要額外昂貴的硬件設(shè)備,具有成本低、靈活性高特點。擊鍵認(rèn)證又分為固定文本和自由文本研究。LEE 等[12]研究學(xué)習(xí)用戶按鍵動態(tài)特征,提出參數(shù)化模型方法,模型可以為每個用戶選擇最具區(qū)別的功能。其錯誤拒絕率為11%。ALSULTAN 等[13]基于自由文本擊鍵動力學(xué),通過結(jié)合決策級和特征級融合方案,融合決策層用于多數(shù)表決法的相融輸出,其錯誤接受率為0,錯誤拒絕率為0。LU 等[14]提出將用戶的擊鍵數(shù)據(jù)劃分為定長擊鍵序列,并根據(jù)擊鍵的時間特征將擊鍵序列轉(zhuǎn)換為擊鍵向量序列。采用遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型,訓(xùn)練學(xué)習(xí)單個擊鍵向量特征。其實驗結(jié)果的等錯誤率(Equal Error Rate,EER)為4%~10%。HO 等[15]提出一類樸素貝葉斯算法,根據(jù)預(yù)處理階段的時長對擊鍵特征屬性排序,改進(jìn)分類有效性。但擊鍵行為在大多數(shù)移動設(shè)備上逐漸減少,不具有很好的普適性[16],因此基于該行為特征的隱式認(rèn)證并不適用于目前流行的智能手機(jī)等移動設(shè)備。
YANG 等[17]利用手機(jī)內(nèi)置加速度傳感器監(jiān)測用戶步態(tài)特征變化,實現(xiàn)了對用戶身份的認(rèn)證,但僅限于平坦路面情況。TRIVINO 等[18]分析了整個步態(tài)周期內(nèi)加速度變化,使用模糊有限狀態(tài)機(jī)(Fuzzy Finite State Machine,F(xiàn)FSM)來模擬信號進(jìn)化感知,其中每種狀態(tài)都使用關(guān)于人類步態(tài)生理階段的知識來建立,并描述了信號在其演化過程中經(jīng)歷狀態(tài)的規(guī)則,模型EER 為3%。因此步態(tài)識別更隱秘且數(shù)據(jù)獲取方便,但步態(tài)識別也存在一定的缺陷,例如服飾、行走的路面、視角、鞋帽、背包等攜帶物都會影響其步態(tài),進(jìn)而影響其準(zhǔn)確率,最終導(dǎo)致無法通過認(rèn)證。步態(tài)行為應(yīng)用受限于特定環(huán)境,在行走情況下才能認(rèn)證,不是用戶與設(shè)備交互的日常行為。
觸屏行為是手機(jī)等智能移動設(shè)備的主要交互行為,且觸屏特征不需要額外設(shè)備,易于采集分析,數(shù)據(jù)獲取實時性較高,更適用于持續(xù)隱式認(rèn)證。用戶劃屏軌跡、速度或點擊位置的差異,對屏幕產(chǎn)生的壓力不同,行為特征區(qū)分性明顯。觸屏又分為滑動觸屏和點擊觸屏。BO 等[19]建立基于觸摸識別的行為特征,不但融合了加速度傳感器與陀螺儀信息,還結(jié)合具體APP 使用行為,分析用戶在不同APP下的使用行為變化。FRANK 等[20]基于上下、左右滾動操作提取了30 個觸摸特征,旨在測試這種行為模式如何隨著時間推移表現(xiàn)出一致性。隨著使用時間延長,EER 在不斷上升,認(rèn)證性能逐步下降,說明該特征不適用于長期身份認(rèn)證。GONG 等[21]基于行為觸摸模式的穩(wěn)定性和靈敏度屬性基礎(chǔ)出發(fā),把觸摸行為當(dāng)作是一些隨機(jī)“秘密”的函數(shù),由用戶潛意識形成的函數(shù)特征,以此來抵抗隱私安全攻擊?;谝陨咸卣鞯腅ER 為18%。WANG 等[22]融合點擊和滑動操作提取了多個特征點,首次在跨設(shè)備認(rèn)證中做了嘗試。在單設(shè)備上特征AUC 為0.9,F(xiàn)1 分?jǐn)?shù)為0.94。在跨設(shè)備上AUC 為0.81,F(xiàn)1分?jǐn)?shù)為0.905,在跨設(shè)備上首次實現(xiàn)了較高的認(rèn)證結(jié)果。YANG 等[23]融合觸摸生物識別技術(shù),通過單分類支持向量機(jī)(Support Vector Machines,SVM)算法訓(xùn)練所有者模型,并使用模型計算每種類型的準(zhǔn)確率。模型平均準(zhǔn)確率達(dá)到了95.85%,也取得了較好的認(rèn)證效果。依據(jù)歐洲訪問控制系統(tǒng)標(biāo)準(zhǔn)(EN-50133-1)的要求[24],基于觸屏行為的用戶認(rèn)證仍需要進(jìn)一步研究以提高系統(tǒng)的準(zhǔn)確性。本文提出一種基于動態(tài)信任值的分級隱式認(rèn)證機(jī)制,通過觸屏行為特征得到的認(rèn)證概率均值對認(rèn)證結(jié)果進(jìn)行動態(tài)調(diào)整,從而提高了認(rèn)證準(zhǔn)確率。
隱式認(rèn)證架構(gòu)如圖1 所示。
圖1 隱式認(rèn)證架構(gòu)Fig.1 Architecture of implicit authentication
在該認(rèn)證方案中,先通過智能手機(jī)設(shè)備傳感器獲取行為數(shù)據(jù),并對數(shù)據(jù)做預(yù)處理,提取細(xì)化行為特征信息;然后傳入分類器中訓(xùn)練模型,在交叉驗證評估后得到認(rèn)證模型;并與動態(tài)信任值做二級認(rèn)證,輸出真實或假冒用戶。在前級認(rèn)證時輸出認(rèn)證概率,并通過滑動窗口機(jī)制計算窗口內(nèi)概率均值,更新當(dāng)前信任值。
首先通過手機(jī)內(nèi)置傳感器獲取原始劃屏數(shù)據(jù),包含時間戳、觸摸類型坐標(biāo)、x坐標(biāo)、y坐標(biāo)、手指壓力、x方向、y方向移動速率信息。原始數(shù)據(jù)格式為:
用戶劃屏行為對比如圖2 所示。從圖2 可以看到,同一用戶的劃屏坐標(biāo)集中在相同范圍,軌跡線非常相似。橫向?qū)Ρ确治觯? 個用戶劃屏軌跡的起始x、y坐標(biāo)不同,劃屏長度不同。用戶1 和用戶3 軌跡的彎曲程度均不同。用戶2 的x、y坐標(biāo)與其他用戶差異更大,表明坐標(biāo)位置區(qū)分度較高。分析表明手指劃屏?xí)r壓力隨著軌跡在不斷變化:用戶1 開始時壓力變化平穩(wěn),在軌跡后半部分壓力有所增加;用戶2的壓力值在劃屏軌跡內(nèi)較為恒定;剛開始用戶3 的壓力值較低,在軌跡中部達(dá)到最大,在軌跡結(jié)束時降到最小。對于速度特征也具有類似的變化,表明不同用戶使用設(shè)備的行為習(xí)慣有較大差異。
圖2 用戶劃屏行為對比Fig.2 Swiping behavior comparison of users
基于以上分析,提取每次劃屏的原始特征變化信息,再通過隨機(jī)森林(Random Forest,RF)得出特征貢獻(xiàn)率,對特征進(jìn)行評估,行為特征貢獻(xiàn)率如圖3 所示。
因RF 不受數(shù)據(jù)量綱影響,得出的特征貢獻(xiàn)率較為客觀。從圖3 可以看出,與速度相關(guān)的特征貢獻(xiàn)率較高,其中劃屏速度均值特征貢獻(xiàn)率高達(dá)17.46%,說明用戶手指翻頁速度不同,閱覽習(xí)慣差異明顯。與前者相比,位置變化相關(guān)的特征貢獻(xiàn)率略低,但對不同用戶而言,仍具有區(qū)分性。坐標(biāo)x、y最大值表明手指劃屏的區(qū)域位置信息,說明不同用戶在手機(jī)劃屏的起止位置、范圍不同,具有一定的差異性。與壓力變化相關(guān)特征貢獻(xiàn)率較低,說明劃屏手指壓力僅在一定范圍內(nèi)變化,這些特征仍有一定差異性。兩次劃屏軌跡間隔時間和壓力變化中位值特征排在最后,貢獻(xiàn)率很低,信息量少。去除這些特征后,把其余特征作為用戶特征集,用于訓(xùn)練模型。
圖3 不同行為特征貢獻(xiàn)率對比Fig.3 Contribution rate comparison between different behavior features
2.2.1 噪聲數(shù)據(jù)處理
在實驗中,采集數(shù)據(jù)時不免會出現(xiàn)噪聲數(shù)據(jù)。原始數(shù)據(jù)中主要有兩種噪聲干擾。首先是冗余噪聲數(shù)據(jù),在用戶手指劃屏開始和結(jié)束時刻,手指在屏幕上處于靜止?fàn)顟B(tài)但未離開屏幕。由于傳感器非常靈敏,在一瞬間重復(fù)記錄了軌跡的起始點與結(jié)束點處的相關(guān)信息,產(chǎn)生大量冗余位置點,對后續(xù)軌跡內(nèi)其他特征計算產(chǎn)生影響,應(yīng)予以剔除。因冗余噪聲數(shù)據(jù)僅出現(xiàn)在軌跡起止前后幾個點,因此采取截斷法處理冗余噪聲數(shù)據(jù),即可消除影響。其次在閱讀過程中,存在用戶誤觸屏幕等客觀因素的干擾,導(dǎo)致在軌跡內(nèi)出現(xiàn)異常值,產(chǎn)生了離群點數(shù)據(jù)。本文采用箱線圖法通過四分位邊界值檢測離群點和異常值,并用上、下四分位與中位數(shù)值之和的均值來對異常值修正,檢測算法如式(1)、式(2)所示,數(shù)據(jù)修正如式(3)所示:
其中:Q1為下四分位數(shù);Q2為中位數(shù);Q3為上四分位數(shù);IQ為四分位間距;Wup為上限邊界值;Wdown為下限邊界值;Zdown為下界異常值修正;Zup為上界異常值修正。
2.2.2 數(shù)據(jù)歸一化處理
因特征量綱不同,數(shù)據(jù)不能直接用于分類器訓(xùn)練,需要進(jìn)行歸一化處理。本文采用min-max 標(biāo)準(zhǔn)化方法把特征值映射在[0,1]區(qū)間內(nèi)。
其中:n為用戶總的劃屏軌跡數(shù);q為n范圍內(nèi)的軌跡序號;i為軌跡內(nèi)的特征序號;為第q次軌跡的第i個特征值;為在該軌跡內(nèi)第i個特征新的映射值。
不同的分類器在特征集上表現(xiàn)會有差異。為了驗證特征更適合哪種分類器,本文選取SVM、RF 和多層感知機(jī)(Multilayer Perceptron,MLP)三種分類器,篩選出更適合本文特征的機(jī)器學(xué)習(xí)算法,并評估行為特征有效性。
2.3.1 支持向量機(jī)
SVM 是有監(jiān)督二分類模型,從訓(xùn)練集的兩個類中尋找超平面,作為分類決策邊界。對于復(fù)雜高維特征,可用核函數(shù)對數(shù)據(jù)進(jìn)行映射,使得數(shù)據(jù)集易于分類。分類器模型如式(5)所示:
其中:w為模型權(quán)重;C為懲罰參數(shù);b為偏差項;xi為特征集內(nèi)第i種特征向量;yi為特征學(xué)習(xí)的監(jiān)督標(biāo)簽;Li為樣本點(xi,yi)距離超平面的最大間隔。SVM 分類結(jié)果取決于f(x)=(wTx+b)超平面,如果f(x)≥0,分類結(jié)果為真,否則為假。本文采集的特征維度不高,數(shù)據(jù)量較大,因此選用線性核SVM,且線性核SVM 不易過擬合,訓(xùn)練模型速度快。
2.3.2 隨機(jī)森林
RF 是利用多棵決策樹對樣本進(jìn)行訓(xùn)練并預(yù)測的分類算法。它由多個相互不關(guān)聯(lián)的決策樹組成,類似投票機(jī)制,其最終結(jié)果是由多棵樹分類結(jié)果的眾數(shù)決定。特征空間采用樹形結(jié)構(gòu)分割,將空間劃分為某個維度時,選擇獲得最大信息增益的維度劃分作為邊界。森林常用的CART 決策樹基于基尼系數(shù)(Gi)的特征選擇,基尼系數(shù)度量每個子節(jié)點達(dá)到最高的純度,即落在子節(jié)點中的所有觀察都屬于同一分類,此時基尼系數(shù)最小。在二分類中基尼系數(shù)計算如式(6)所示,分類結(jié)果輸出如式(7)所示:
其中:p為樣本屬于正類別的概率;Gi(D)為集合D的不確性;Gi(D,A)為經(jīng)過A=a分割后集合D的不確定性。RF 中的每棵決策樹不斷遍歷特征子集尋找基尼系數(shù)最小特征的分割點,將數(shù)據(jù)集分成兩類。
2.3.3 多層感知機(jī)
MLP 是一種前饋神經(jīng)網(wǎng)絡(luò),由輸入層、隱藏層和輸出層三部分組成,每一層全連接到下一層。除輸入層外,每層節(jié)點都帶有非線性激活函數(shù)的神經(jīng)元,調(diào)節(jié)輸出權(quán)重。MLP 算法具有很強的數(shù)據(jù)擬合能力,在非線性數(shù)據(jù)上取得較好的結(jié)果。本文采用ReLu 激活函數(shù),輸出該層各節(jié)點權(quán)重,在輸出層采用Sigmoid 激活函數(shù),建立三層網(wǎng)絡(luò)快速訓(xùn)練模型。用二值交叉熵計算損失,作為二分類結(jié)果輸出,如式(8)~式(11)所示:
其中:aj為隱藏層神經(jīng)元輸出值;g(hj)為激活函數(shù);wij xij為偏移值;當(dāng)前神經(jīng)元輸出值經(jīng)g(hj)輸入到下一層神經(jīng)元節(jié)點aj;hk為輸出層中第k個輸出神經(jīng)元加權(quán)之和;ak為最終輸出結(jié)果。MLP 結(jié)構(gòu)如圖4所示。
圖4 MLP 結(jié)構(gòu)Fig.4 Structure of MLP
在一定時間內(nèi)真實用戶行為習(xí)慣變化具有連續(xù)性,不會產(chǎn)生較大誤差。對于攻擊者而言,在某段時間內(nèi)模仿的行為具有不穩(wěn)定性,易產(chǎn)生認(rèn)證結(jié)果突變,與滑動窗口內(nèi)概率值變化較大。通過比對誤差檢測認(rèn)證異常突變。首先分類器認(rèn)證成功后,輸出模型為真實用戶的概率,計算概率與信任值偏差,若偏差在閾值范圍內(nèi),則表明是真實用戶,反之則認(rèn)定為假冒用戶。在長時間使用中,用戶自身劃屏行為也會產(chǎn)生微小偏差,導(dǎo)致認(rèn)證準(zhǔn)確率下降,因此需要在檢測完畢后更新信任值?;瑒哟翱诟怕手导蠟閁={p1,p2,…,pi,…,pL},計算滑動窗口U集合內(nèi)的均值更新信任值,之后剔除最早加入窗口內(nèi)的概率值p1,并把本次認(rèn)證的概率值加入滑動窗口中。信任值檢測機(jī)制如式(12)所示,更新機(jī)制如式(13)所示:
其中:Pk為第k次軌跡特征被判定為真實用戶的概率;為第k次動態(tài)信任值,是前一次滑動窗口U集合內(nèi)均值;L為滑動窗口大?。籈R為偏差項。更新流程如圖5 所示,其中Sk為第k次的劃屏行為特征。
圖5 動態(tài)信任值更新機(jī)制Fig.5 Update mechanism of dynamic trust value
為采集用戶行為數(shù)據(jù),本文基于開源的電子書閱讀APP,在保證基本功能同時,加入數(shù)據(jù)收集服務(wù)。選用華為HonorV10 手機(jī)作為實驗設(shè)備,把實驗APP 部署在手機(jī)中,通過Android API 獲取傳感器數(shù)據(jù)。
本次實驗召集了10 名用戶參與,由6 名男生和4 名女生組成,所有用戶均為在校大學(xué)生。閱讀器內(nèi)下載有不同用戶喜歡的電子書,用戶與書號一一對應(yīng),不限制使用環(huán)境。為了防止用戶因閱讀疲倦導(dǎo)致日常行為發(fā)生變化,實驗規(guī)定每人每天輪流使用設(shè)備閱讀1 小時,共10 天完成數(shù)據(jù)收集。最終,共收集12 000 條數(shù)據(jù)用于訓(xùn)練測試。全部數(shù)據(jù)經(jīng)預(yù)處理后按70%、20%和10%,分為訓(xùn)練集、測試集和驗證集。訓(xùn)練集用于篩選和訓(xùn)練分類器,并收集模型在訓(xùn)練集上輸出的概率值,用于分析設(shè)定信任值最低閾值點,信任值更新步長,記錄認(rèn)證概率值得滑動窗口大小等模型參數(shù)。驗證集用于評估整個認(rèn)證系統(tǒng)性能和模型調(diào)參,優(yōu)化分類器。為了驗證動態(tài)信任值模型性能,評估模型泛化能力,在實驗環(huán)節(jié)把10 個用戶依次標(biāo)記為真實用戶,其他為冒名者,重復(fù)進(jìn)行10 輪次訓(xùn)練驗證。
本文選用以下常用評價指標(biāo),對實驗各環(huán)節(jié)進(jìn)行評估。
1)ROC 曲線下面積
曲線下面積的意義是隨機(jī)選一對正例和負(fù)例,正例得分大于負(fù)例得分的概率。曲線下面積同時考慮分類器對于正例和負(fù)例的分類能力,即使在不平衡的樣本分布中,仍能夠?qū)Ψ诸惼髯龀龊侠碓u價,如式(14)所示:
其中:M為正例數(shù);N為負(fù)例數(shù);i為M中一個正例的序號;ri為第i個正例在M+N中所有預(yù)測值排序后的排名。
2)錯誤接受率和錯誤拒絕率
錯誤接受率是負(fù)例被分類器錯誤標(biāo)記為正例所占總體正例樣本的比率,衡量分類器的可靠性,如式(15)所示:
其中:FP為負(fù)例預(yù)測正例數(shù);TN為負(fù)例預(yù)測負(fù)例數(shù)。
錯誤拒絕率是正例被分類器錯誤標(biāo)記為負(fù)例所占總體正例樣本的比率,衡量分類器的易用性。錯誤拒絕率越高,分類器對用戶越不友好,模型難以使用,如式(16)所示:
其中:TP為正例預(yù)測正例數(shù);FN為正例預(yù)測負(fù)例數(shù)。
3)正負(fù)例分類準(zhǔn)確率
正負(fù)例分類準(zhǔn)確率是正確分類的正例與負(fù)例占總體分類的結(jié)果比率,用于評估加入信任值前后模型整體的分類性能,如式(17)所示:
本文在調(diào)整模型各自最佳參數(shù)后,采用AU和準(zhǔn)確率評估算法在特征集上的表現(xiàn),3 種分類器各自的認(rèn)證結(jié)果如圖6 所示。
圖6 MLP、RF、SVM 算法ROC 曲線Fig.6 ROC curves of MLP,RF,SVM algorithms
從圖6 可以看到,3 種分類器AU面積均在0.95 以上,說明選取的行為特征具有較高的區(qū)分性,能較好地識別真實或假冒用戶。在AU達(dá)到0.4 之前,3 種分類器的準(zhǔn)確率都迅速上升,變化比較一致,表明算法響應(yīng)迅速。在準(zhǔn)確率到達(dá)0.4 之后,RF 算法變化遲緩,說明其錯誤分類開始增多,性能不穩(wěn)定,AU與準(zhǔn)確率都低于其他兩種算法。SVM 算法與MLP 算法變化趨勢一致,在準(zhǔn)確率達(dá)到0.8 之后,SVM 算法逐漸減緩,略低于MLP 算法。因此,MLP 算法穩(wěn)定性好,準(zhǔn)確率高,更適合本文特征集。
在本實驗中用戶4 被標(biāo)定為真實用戶,經(jīng)訓(xùn)練后模型輸出的概率分布如圖7 所示(彩色效果見《計算機(jī)工程》官網(wǎng)HTML 版)。從圖7 可以看到,用戶4的認(rèn)證概率P分布較集中,大部分在70%以上,表明其劃屏行為穩(wěn)定。有少部分在70%以下,這可能是用戶實驗中誤操作或行為偶然變化,不屬于用戶4的日常行為。而用戶1 的概率值在0~100%分布雜亂,說明其行為特征變化較不穩(wěn)定。在80%~100%,用戶2、用戶3 和用戶5 概率值趨于0,與用戶4 有明顯差異。用戶6~9 的概率值大部分在20%以下,僅有少部分值高于70%,與真實用戶認(rèn)證結(jié)果分布區(qū)別較大。因此經(jīng)以上分析,在認(rèn)證剛開始時信任值初始設(shè)定為80%,信任值最低閾值設(shè)定為70%,可以最大限度過濾大部分假冒用戶登入系統(tǒng)。
圖7 用戶概率分布對比Fig.7 Probability distribution comparison of users
在設(shè)定最低閾值后,對連續(xù)劃屏的認(rèn)證結(jié)果進(jìn)行比較,得出用戶在兩次認(rèn)證間的概率差值,用于分析假冒用戶和真實用戶的概率值穩(wěn)定性。概率偏差分布如圖8 所示(彩色效果見《計算機(jī)工程》官網(wǎng)HTML 版)。實驗表明在設(shè)定最低閾值為70%時,已經(jīng)濾掉大部分假冒用戶,僅有用戶0、用戶1、用戶7 和用戶9 概率值高于閾值。用戶4 的連續(xù)認(rèn)證概率差波動均衡,大部分點在±15%范圍內(nèi)。而其余用戶概率差較大,分布在0~100%區(qū)間內(nèi)。雖然假冒用戶通過了分類器認(rèn)證,但其認(rèn)證概率極不穩(wěn)定,在連續(xù)認(rèn)證期間波動很大,表明假冒用戶僅是僥幸通過了分類器初級檢測,但不能持續(xù)還原真實用戶行為。基于以上分析,設(shè)定信任值的偏差項ER 為15%,進(jìn)一步過濾假冒用戶認(rèn)證結(jié)果。在連續(xù)認(rèn)證情況下,用戶認(rèn)證概率與信任值偏差在±15%內(nèi),判定為真實用戶。
圖8 連續(xù)劃屏認(rèn)證的概率偏差分布Fig.8 Probability deviation distribution of continuous screen marking authentication
從圖8 可以看出,真實用戶連續(xù)多次的認(rèn)證概率不是恒定的,直接設(shè)定固定信任值會導(dǎo)致較高的拒絕率,造成大量誤判。但圖7 可以看出,真實用戶概率通常穩(wěn)定在某個范圍。保持信任值隨真實用戶認(rèn)證概率在一定范圍內(nèi)變化,可有效增強真實用戶通過率,降低假冒者攻擊成功率。因此,本文設(shè)定認(rèn)證概率連續(xù)變化的均值作為當(dāng)前信任值。認(rèn)證概率值記錄在長度為L的數(shù)組內(nèi),當(dāng)記錄個數(shù)大于L時,將窗口向后滑動,并計算窗口內(nèi)均值更新信任值。
為保證有效過濾假冒用戶,本文分析了窗口長度L與FA,F(xiàn)R之間的關(guān)系,如表1 所示。窗口長度從2~6,隨著窗口增大,F(xiàn)A逐漸下降,F(xiàn)R有輕微上升。隨著記錄的歷史值增多,更新的信任值越來越趨于真實用戶認(rèn)證概率變化,識別率升高。窗口長度大于6 之后FR陡然增大,而FA下降緩慢,表明記錄過多的歷史值得出的信任值變化遲緩,越來越趨于恒定,與真實用戶概率值偏差過大,導(dǎo)致真實用戶被錯誤分類?;谝陨戏治?,窗口大小L=6 時模型FA和FR均較低,分類最優(yōu)。
表1 窗口長度與FA、FR之間關(guān)系Table 1 The relationship between window length FA,F(xiàn)R %
首先把數(shù)據(jù)集內(nèi)10 個用戶輪流標(biāo)記為真實用戶,分析加入信任值前后,模型在不同用戶上的分類準(zhǔn)確率,結(jié)果如表2 所示。加入信任值機(jī)制前,模型準(zhǔn)確率都在94%以下,其中有些用戶的認(rèn)證準(zhǔn)確率僅有89.41%,說明在少量特征下,僅基于初級分類模型不足以保證隱式認(rèn)證安全。加入信任值機(jī)制后,所有用戶的分類準(zhǔn)確率均提升到96%以上,其中在用戶4 上準(zhǔn)確率達(dá)到98.63%,準(zhǔn)確度顯著提高。說明根據(jù)歷史認(rèn)證結(jié)果,動態(tài)調(diào)整信任值方式能有效提升認(rèn)證安全性。
表2 在不同用戶上模型的認(rèn)證表現(xiàn)Table 2 Authentication performance of model on different users %
本文對比了與劃屏行為特征相關(guān)的研究工作,從特征維數(shù)、準(zhǔn)確率、等錯誤率3 個方面進(jìn)行綜合分析,結(jié)果如表3所示。
表3 不同算法的相關(guān)工作對比Table 3 Related work comparison between different algorithms
文獻(xiàn)[25]采用ANN算法實現(xiàn)了93.9%的準(zhǔn)確率,等錯誤率為7%,優(yōu)于本文初始采用的MLP算法,說明其采用ANN 分類器訓(xùn)練的模型準(zhǔn)確率較高,但仍低于本文加入信任值機(jī)制的認(rèn)證模型。而文獻(xiàn)[26]采用的KDRN算法準(zhǔn)確率高達(dá)98.23%,高于MLP算法,與基于信任值的認(rèn)證模型準(zhǔn)確率相近,但其等錯誤率較高,且采用的特征量較多。文獻(xiàn)[27]采用RF算法的等錯誤率較高于本文算法。文獻(xiàn)[28]通過歐氏距離計算特征相似度,在較少特征上取得與文獻(xiàn)[26]相近的效果,準(zhǔn)確率稍高于MLP算法,但低于采用信任值機(jī)制的模型分類結(jié)果。以上分析表明,基于動態(tài)信任值的隱式認(rèn)證在較少的特征下仍取得了較高的準(zhǔn)確率,在等錯誤率方面達(dá)到最優(yōu)。
本文提出基于動態(tài)信任值的隱式認(rèn)證,依據(jù)持續(xù)認(rèn)證情況下真實用戶認(rèn)證結(jié)果的穩(wěn)定性和連續(xù)性信息動態(tài)設(shè)定信任值,檢測當(dāng)前認(rèn)證概率與最近歷史認(rèn)證的結(jié)果偏差,分析評估用戶真實性。實驗結(jié)果表明,與只有前級認(rèn)證相比,加入動態(tài)信任值機(jī)制后可提高模型準(zhǔn)確率,降低分類誤識率,并有效阻止冒名者訪問智能設(shè)備。同時本文采用的特征維數(shù)較少,數(shù)據(jù)易采集且易于實現(xiàn)應(yīng)用。下一步將對認(rèn)證準(zhǔn)確率、數(shù)據(jù)采集頻率和設(shè)備能耗的均衡性進(jìn)行研究。