基于集成學(xué)習(xí)和雙并行自適應(yīng)機(jī)制的擊鍵動(dòng)力學(xué)認(rèn)證方法

2024-01-01 00:00:00崔立軍于寶華榮江

石河子大學(xué)學(xué)報(bào)(自然科學(xué)版) 2024年4期

摘要：身份認(rèn)證是指在計(jì)算機(jī)系統(tǒng)中確認(rèn)操作者身份的過程，擊鍵動(dòng)力學(xué)作為一種成本低廉、難以模仿的身份認(rèn)證方式得到許多學(xué)者的廣泛關(guān)注。然而，現(xiàn)有的方法往往存在誤判率和漏判率偏高、泛化能力差等弊端。針對以上問題，本文提出一種將集成學(xué)習(xí)和自適應(yīng)更新機(jī)制結(jié)合的方式，在提高模型分類性能的同時(shí)適應(yīng)新數(shù)據(jù)中的特征變化。通過使用公開的CMU數(shù)據(jù)集和通用的評(píng)估指標(biāo)（EER）將本文的方法與其他先進(jìn)的技術(shù)進(jìn)行比較，實(shí)驗(yàn)表明本文所提出的二次集成學(xué)習(xí)方法性能優(yōu)異，使用雙并行自適應(yīng)更新機(jī)制后表現(xiàn)出可靠的泛化能力，在CMU數(shù)據(jù)集上得到了3.22%的EER，模型性能優(yōu)于相同實(shí)驗(yàn)條件下的同類研究。

關(guān)鍵詞：身份認(rèn)證；擊鍵動(dòng)力學(xué)；集成學(xué)習(xí)；自適應(yīng)更新

中圖分類號(hào)：TP393.0文獻(xiàn)標(biāo)志碼：A文獻(xiàn)標(biāo)識(shí)碼

Keystroke dynamics authentication method based on ensemble learning and

dual parallel adaptive mechanism

CUI" Lijun1，YU" Baohua1*，RONG" Jiang2

（1 College of Information Science and Technology， Shihezi University，Shihezi，Xinjiang 832003， China;

2 Network Information Center， Xinjiang University of Political Science and Law， Tumxuk，Xinjiang 844000， China）

Abstract：" Identity authentication refers to the process of confirming the identity of an operator in a computer system. Keystroke dynamics， as a low-cost and difficult to imitate method of identity authentication， has received widespread attention from many scholars. However， existing methods often have drawbacks such as high 1 positive and 1 negative rates， and poor generalization ability. In response to the above issues， this article proposes a method that combines ensemble learning and adaptive update mechanism to improve the classification performance of the model while adapting to feature changes in new data. By comparing our method with other advanced technologies using publicly available CMU datasets and universal evaluation metrics （EER）， experiments show that our proposed quadratic ensemble learning method has excellent performance. After using a dual parallel adaptive update mechanism， it exhibits reliable generalization ability， achieving an EER of 3.22% on the CMU dataset. The model performance is better than similar studies under the same experimental conditions.

Key words： identity authentication;keystroke dynamics;ensemble learning;adaptive update

傳統(tǒng)的計(jì)算機(jī)系統(tǒng)通常采用密碼認(rèn)證的方式驗(yàn)證用戶身份，該身份驗(yàn)證方式的安全性與密碼強(qiáng)度呈正相關(guān)［1］。隨著計(jì)算機(jī)運(yùn)算能力的提升和新型網(wǎng)絡(luò)攻擊方式的種類愈發(fā)增長，密碼認(rèn)證的缺點(diǎn)逐漸暴露出來，一些特征較為明顯的弱密碼很容易被字典爆破攻擊的方式破解。此外，各應(yīng)用平臺(tái)積累了海量與用戶相關(guān)的各類數(shù)據(jù)，使得針對用戶特征、行為方式、性格偏好等方面的分析模型不斷涌現(xiàn)，進(jìn)一步加劇了網(wǎng)絡(luò)攻擊的潛在風(fēng)險(xiǎn)。一些軟件平臺(tái)通過強(qiáng)制使用密碼策略在一定程度上能夠起到防范作用，但在撞庫攻擊和社會(huì)工程學(xué)等攻擊方式面前仍然面臨較大的挑戰(zhàn)［2］。

為了解決密碼認(rèn)證的缺點(diǎn)，研究者嘗試采用擊鍵動(dòng)力學(xué)對密碼認(rèn)證提供額外保護(hù)，該認(rèn)證方式通常由訓(xùn)練階段和驗(yàn)證階段構(gòu)成。在訓(xùn)練階段收集真實(shí)用戶的擊鍵序列，提取時(shí)間間隔等關(guān)鍵特征后構(gòu)建訓(xùn)練模型；在驗(yàn)證階段，使用模型對用戶輸入的擊鍵序列進(jìn)行驗(yàn)證，只有擊鍵頻率與真實(shí)用戶相符的請求才能通過驗(yàn)證，從而保證了即使密碼泄露，異常用戶也無法登錄。

擊鍵動(dòng)力學(xué)雖然解決了密碼泄露后任何訪問者都能通過驗(yàn)證的弊端，但該認(rèn)證方式無法像密碼認(rèn)證方式做到絕對的準(zhǔn)確率，驗(yàn)證閾值過低會(huì)導(dǎo)致誤報(bào)率變高，正常用戶的使用體驗(yàn)較差；驗(yàn)證閾值過高會(huì)提高漏報(bào)率，許多與正常用戶擊鍵頻率相似的異常用戶就會(huì)通過驗(yàn)證。此外，隨著用戶使用系統(tǒng)時(shí)間的增長，擊鍵頻率可能發(fā)生改變，模型的性能會(huì)隨時(shí)間增長而下降，從而產(chǎn)生概念漂移［3］。該現(xiàn)象的出現(xiàn)通常與兩個(gè)因素有關(guān)，首先是數(shù)據(jù)問題，當(dāng)新的數(shù)據(jù)與模型不相關(guān)時(shí)，模型的性能就會(huì)下降；然后是模式問題，即目標(biāo)領(lǐng)域的統(tǒng)計(jì)屬性隨著時(shí)間推移以一種任意的方式變化導(dǎo)致模型不再適用。在擊鍵動(dòng)力學(xué)中，用戶的擊鍵頻率可能隨著文本熟練度、設(shè)備、情緒等多種因素改變，模型容易受這些影響因子的干擾而降低性能［4］，因此需要自適應(yīng)更新機(jī)制［5］處理這類不確定性問題，這種機(jī)制能使模型從新數(shù)據(jù)中學(xué)習(xí)特征變化趨勢并用于自身更新，從而提升模型的泛化能力。

本文以公共數(shù)據(jù)集為基準(zhǔn)，尋找合適的模型或算法作為基分類器，采用基于Adaboost的集成學(xué)習(xí)算法強(qiáng)化模型性能，提出一種基于滑動(dòng)窗口和增長窗口并行的自適應(yīng)更新機(jī)制，并對更新閾值的設(shè)置范圍進(jìn)行研究，通過該機(jī)制降低數(shù)據(jù)特征變化對模型性能的影響，從而解決概念漂移問題。

1 資料與方法

1.1 相關(guān)資料

1980年，Caines等［6］通過打字模式的報(bào)告，證明了打字頻率可以區(qū)分不同的用戶，此后，隨著該領(lǐng)域研究的不斷深入，擊鍵動(dòng)力學(xué)逐漸成為繼指紋、聲紋、步態(tài)后又一種新的生物認(rèn)證方式。目前國內(nèi)外學(xué)者主要使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法進(jìn)行擊鍵動(dòng)力學(xué)的分類方法研究。傳統(tǒng)機(jī)器學(xué)習(xí)經(jīng)常采用各類距離、支持向量機(jī)、決策樹等經(jīng)典方法進(jìn)行分類。Ivannikova等［7］提出了一種基于曼哈頓距離的Dependence Clustering （DC）聚類算法，使用DC算法將訓(xùn)練集劃分成簇，然后將測試樣本和每個(gè)聚類平均值之間的曼哈頓距離中位數(shù)作為該測試樣本的異常分?jǐn)?shù)；Khodabakhsh等［8］基于縮放曼哈頓距離建立學(xué)習(xí)曲線來生成預(yù)測模板，該方法在注冊數(shù)據(jù)較少的情況下對準(zhǔn)確率的提升更為明顯，同時(shí)，這項(xiàng)研究還證明了盲檢測攻擊的可行性；Bhatia等［9］使用廣義模糊模型（GFM）并取得了比高斯混合模型（GMM）更好的效果；Ali等［10］采用了將部分可觀察隱馬爾可夫模型（POHMM）和支持向量機(jī)（SVM）相結(jié)合的方式，其中部分可觀察隱馬爾可夫模型為特征提取器，一類支持向量機(jī)（OneClassSVM）作為異常檢測器；Mhenni等［11］用動(dòng)物物種定義和標(biāo)記用戶群體，以反映他們在生物識(shí)別系統(tǒng)中的行為（主要以是否易識(shí)別和是否易被模仿為主），并為每種用戶開發(fā)了自適應(yīng)策略以識(shí)別用戶的擊鍵動(dòng)態(tài)。與傳統(tǒng)機(jī)器學(xué)習(xí)相比，深度學(xué)習(xí)能夠自動(dòng)從原始數(shù)據(jù)中發(fā)掘高級(jí)特征、捕獲數(shù)據(jù)的非線性關(guān)系來構(gòu)建更復(fù)雜的模型，因此許多學(xué)者使用深度學(xué)習(xí)尋找更合適的擊鍵動(dòng)力學(xué)分類器。Andrean等［12］使用多層感知器（MLP）模型在CMU數(shù)據(jù)集中挑選了15名用戶進(jìn)行分類并取得了較好的效果，該多層感知器具有1個(gè)輸入層、2個(gè)隱藏層和1個(gè)輸出層；Maheshwary等［13］使用三層神經(jīng)網(wǎng)絡(luò)分類器完成了認(rèn)證工作，在數(shù)據(jù)輸入前，他們還使用了線性回歸算法為特征向量分配權(quán)重；考慮到擊鍵數(shù)據(jù)具有時(shí)序性，Lu等［14］提出一種基于CNN-RNN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，首先使用CNN執(zhí)行卷積運(yùn)算來提取擊鍵序列的n-gram特征，再將處理后的特征序列輸入到RNN網(wǎng)絡(luò)中，實(shí)驗(yàn)表明這種模型在持續(xù)身份認(rèn)證上具有更好的可靠性和可擴(kuò)展性。

除了尋找合適的分類方法外，如何讓模型適應(yīng)用戶的擊鍵行為變化也是許多研究者致力解決的問題。比較基礎(chǔ)的方法有滑動(dòng)窗口和增長窗口［15］，前者在接收一組新數(shù)據(jù)后會(huì)移除舊的數(shù)據(jù)，增刪數(shù)據(jù)的策略一般為先進(jìn)先出（FIFO），以此保持?jǐn)?shù)據(jù)集的大小不變；后者會(huì)在每次分類后直接將新的數(shù)據(jù)加入到數(shù)據(jù)集中。在此基礎(chǔ)上還有一些改進(jìn)的應(yīng)用方式，Mhenni等［16］使用了雙序列自適應(yīng)算法，作者設(shè)置了一個(gè)時(shí)間閾值，如果超出該閾值會(huì)應(yīng)用滑動(dòng)窗口，否則使用增長窗口，這種方法結(jié)合了滑動(dòng)窗口和增長窗口的性能，最大限度地減少了數(shù)據(jù)樣本的數(shù)量。Pisani等［17］使用的是雙并行自適應(yīng)算法，該算法同時(shí)訓(xùn)練2個(gè)模型，一個(gè)采用滑動(dòng)窗口，另一個(gè)采用增長窗口，分類結(jié)果由2個(gè)模型綜合得出。

1.2 數(shù)據(jù)來源與預(yù)處理

在用戶的擊鍵數(shù)據(jù)中通?？梢蕴崛《喾N類型的特征，例如時(shí)間特征、空間特征、統(tǒng)計(jì)特征等［18］。時(shí)間特征可以通過監(jiān)聽鍵盤按下和彈起的時(shí)間戳獲得；空間特征在移動(dòng)端應(yīng)用更為廣泛，研究人員可以通過觸摸屏和陀螺儀等傳感器提取空間特征；統(tǒng)計(jì)特征屬于二級(jí)特征，即從原始特征中提取的新特征，例如極值、平均值、標(biāo)準(zhǔn)差等可以通過一級(jí)特征計(jì)算得到。無論在移動(dòng)端還是PC端，時(shí)間特征都是應(yīng)用最廣泛的特征，它不僅方便提取、無需依賴多余硬件，還能很容易地與其他類型的特征組合使用。本文選擇從原始數(shù)據(jù)中提取時(shí)間特征，基本特征DU、DD和UD定義如下，圖1展示了2個(gè)鍵之間的各類延遲時(shí)間。

本文的研究重點(diǎn)是靜態(tài)文本驗(yàn)證，因此需要將相鄰兩鍵之間的延遲時(shí)間擴(kuò)展到到用戶輸入密碼的整個(gè)擊鍵時(shí)間序列，每個(gè)用戶提取的特征數(shù)量由密碼的長度決定。為了減少不同數(shù)據(jù)集造成的影響，方便本實(shí)驗(yàn)與其他研究橫向?qū)Ρ?，本文選擇了在靜態(tài)認(rèn)證中應(yīng)用廣泛的CMU擊鍵動(dòng)力學(xué)基準(zhǔn)數(shù)據(jù)集［19］作為實(shí)驗(yàn)的基礎(chǔ)數(shù)據(jù)集。CMU數(shù)據(jù)集中共有51名受試者，在8次會(huì)話中，每個(gè)受試者在一次會(huì)話中需要輸入相同的密碼.tie5roanl 50次，即每個(gè)人需輸入400次密碼，并且相鄰兩次會(huì)話之間至少間隔一天，以此捕捉受試者輸入的行為特征變化。數(shù)據(jù)集由34個(gè)特征組成，第一列是用戶id，第二列是會(huì)話序列（范圍在1到8之間），第三列是每次會(huì)話中輸入密碼的序號(hào)（范圍在1到50之間），剩下的31列表示鍵入密碼的時(shí)間特征，該數(shù)據(jù)集的特征提取方式與本文介紹的數(shù)據(jù)預(yù)處理方式相同。為了方便對比，本文使用了與文獻(xiàn)［20］類似的數(shù)據(jù)集構(gòu)建方式。在模型訓(xùn)練階段，訓(xùn)練集構(gòu)建步驟如下：

步驟1：開始遍歷用戶列表，指定當(dāng)前被遍歷的用戶為正常用戶，其余50人為非法用戶。

步驟2：取正常用戶的前4次會(huì)話（每次會(huì)話50條數(shù)據(jù)，共計(jì)200條）作為正樣本。

步驟3：遍歷非法用戶集合，從每個(gè)非法用戶的擊鍵數(shù)據(jù)集中隨機(jī)取出5條數(shù)據(jù)（共計(jì)250條）作為負(fù)樣本。出于實(shí)際使用情況和交叉驗(yàn)證的考量，在該階段取出的負(fù)樣本將不會(huì)被放入測試集中。

步驟4：將正負(fù)樣本共計(jì)450條數(shù)據(jù)合并在一起組成訓(xùn)練集，為數(shù)據(jù)添加標(biāo)簽后訓(xùn)練單分類模型。

步驟5：重新從步驟1開始直至用戶列表遍歷結(jié)束。在遍歷結(jié)束后每個(gè)用戶都會(huì)對應(yīng)一個(gè)擊鍵動(dòng)力學(xué)固定文本認(rèn)證模型。

在模型預(yù)測階段，數(shù)據(jù)集構(gòu)建方式與訓(xùn)練集基本相同，僅有部分步驟存在差異，測試集構(gòu)建步驟如下：

步驟1：開始遍歷用戶列表，指定當(dāng)前被遍歷的用戶為正常用戶，其余50人為非法用戶。

步驟2：將合法用戶的后4次會(huì)話（每次會(huì)話50條數(shù)據(jù)，共計(jì)200條）作為正樣本。

步驟3：對于非法用戶，考慮到這樣的應(yīng)用場景：正常用戶登錄次數(shù)多，數(shù)據(jù)量大，非法用戶首次登錄且對合法用戶泄露的密碼并不熟悉，因此從每個(gè)非法用戶取出第一次會(huì)話的前5條數(shù)據(jù)（共計(jì)250條）數(shù)據(jù)作為負(fù)樣本。

步驟4：將正負(fù)樣本共計(jì)450條數(shù)據(jù)組成測試集，將測試集輸入到對應(yīng)用戶的擊鍵動(dòng)力學(xué)模型中，得到該用戶單分類模型的EER。

步驟5：重新從步驟1開始直至用戶列表遍歷結(jié)束。在遍歷結(jié)束后對51名用戶的分類模型EER取平均值即可得到模型在CMU數(shù)據(jù)集的綜合性能。

1.3 基于集成學(xué)習(xí)的模型構(gòu)建

對原始數(shù)據(jù)進(jìn)行特征提取后，使用特征集訓(xùn)練分類模型。本文采用集成學(xué)習(xí)中的Adaboost算法進(jìn)行訓(xùn)練，該算法基于Boosting思想，在每一次迭代產(chǎn)生弱預(yù)測模型并加權(quán)到總模型中，通過這種提升方式最終得到一個(gè)強(qiáng)預(yù)測模型，算法1給出了模型訓(xùn)練的主要步驟。

算法 1： Adaboost Based Model Implementation Algorithm

Input：X：{（x1，y1），（x2，y2）…（xn，yn）} （y=1 or-1） ;T： iteration times;

Output： strong classifier M

1： initialize the weights of training dataset， D1=（ω11，ω12…，ω1n），ω1i=1n，i=1，2，…n

2. initialize dictionary train_obj to save temporary data

2： while T gt; 0 do

3：" "train weak classifier Gm（x） using Dm and X

4：" "compute classification error， εm=∑ni=1ωmiI（Gm（xi≠yi））

5：" "compute the weight of the weaker classification， αm=12ln（1-εm）εm

6：" "update the sample weights Dm+1 of the training set， Dm+1（i）=Dm（i）·e（-αm·yi·Gm（xi））Zm

7：" "save the current classifier and weights to dict train_obj

8：" "subtract 1 from t

9： end while

10： extract temporary data from dict train_obj and obtain a strong classifier M， M=sign（∑αm·Gm（x））

首先初始化訓(xùn)練數(shù)據(jù)權(quán)值，訓(xùn)練在該權(quán)值分布下誤差率最小的基分類器，基分類器對外輸出為1或-1，代表該數(shù)據(jù)樣本是否為用戶本人輸入：

Gm（x）：x→｛-1，+1｝，（1）

其中m代表第m輪的訓(xùn)練數(shù)據(jù)權(quán)值分布?；诸惼鞯恼`差率可以表示為

εm=∑ni=1ωmiI（Gm（xi≠yi））.（2）

計(jì)算出誤差率后，即可得出基分類器的權(quán)重參數(shù)αm，該參數(shù)表示當(dāng)前迭代次數(shù)下的基分類器在預(yù)測中的重要程度，公式可以表達(dá)為

αm=12ln（1-εm）εm.（3）

從上式可以看出，分類誤差率εm越大，對應(yīng)的基分類器的權(quán)重系數(shù)越小。在本次迭代得到基分類器的權(quán)重后，還需要更新訓(xùn)練集的樣本權(quán)重，使上一輪分類錯(cuò)誤的樣本在下一輪得到更大的權(quán)重。假設(shè)第m輪迭代時(shí)，樣本的權(quán)值分布為Dm，其中Dm（i）表示樣本i的權(quán)值，則第m+1輪迭代時(shí)，樣本的更新權(quán)值分布為

Dm+1（i）=Dm（i）·e（-αm·yi·Gm（xi））Zm，（4）

Zm=∑ni=1ωm，ie（-αm·yi·Gm（xi））.（5）

Dm+1（i）是更新后樣本的權(quán)重，Zm是規(guī)范化因子。當(dāng)算法達(dá)到預(yù)設(shè)的迭代次數(shù)上限或達(dá)到期望的分類性能閾值時(shí)，算法將結(jié)束迭代，對迭代過程中生成的基分類器和權(quán)重參數(shù)用加權(quán)平均法結(jié)合起來，構(gòu)成最終的強(qiáng)分類器f（x）

f（x）=∑αm·Gm（x）.（6）

本文研究的擊鍵動(dòng)力學(xué)屬于二分類問題，分類器需要判斷一條擊鍵序列數(shù)據(jù)是用戶本人還是非法用戶，因此引入符號(hào)函數(shù)，當(dāng)數(shù)據(jù)得分大于0時(shí)輸出標(biāo)簽+1，小于0時(shí)輸出標(biāo)簽-1，

f（x）=sign（∑αm·Gm（x））.（7）

1.4 自適應(yīng)更新機(jī)制

用戶在使用系統(tǒng)的過程中，可能會(huì)因?yàn)閷ξ谋臼炀毝鹊脑黾?、情緒變化、更換設(shè)備等因素改變原有的擊鍵頻率［17］，導(dǎo)致模型的性能逐漸下降，這種情況即為概念漂移現(xiàn)象。為了解決概念漂移問題，本文引入了自適應(yīng)更新機(jī)制，根據(jù)新的測試數(shù)據(jù)更新模型，提高模型的魯棒性和泛化性。

本文采用滑動(dòng)窗口和增長窗口2種自適應(yīng)算法結(jié)合的方式更新模型。使用滑動(dòng)窗口更新算法會(huì)讓模型更關(guān)注新的數(shù)據(jù)，并淡化舊數(shù)據(jù)的影響，增長窗口算法讓模型同時(shí)兼顧新舊數(shù)據(jù)的影響。將2種自適應(yīng)算法結(jié)合使用能夠較好的降低概念漂移或新模式的出現(xiàn)造成的影響。算法2給出了模型自適應(yīng)更新的主要步驟。

算法 2：Dual Parallel Based Adaptive Algorithm

Input：X1：last growing window dataset; X2： last sliding window dataset;x; "N：window size

Output：updated parallel model

1： if X2 = 1 then：

2：" "X2←X1 # deep copy dataset x for future use

3： else

4：" "X1{t-N+1：t}=［x｛t-N+1｝，x｛t-N+2｝，…x｛t-1｝，x｛t｝］

5：" "#delete the oldest data in X2

6：" "X2{t-N+1：t}=［x｛t-N+1｝，x｛t-N+2｝，…x｛t-2｝，x｛t-1｝］

7：" "M1←Algorithm1（X1）

8：" "M2←Algorithm1（X2）

9：" "output M1，M2

10： end if

1.5 評(píng)價(jià)指標(biāo)

考慮到本文的任務(wù)為二分類，且正常用戶與異常用戶存在數(shù)據(jù)不平衡的問題，為了合理的對模型分類性能進(jìn)行評(píng)價(jià)，本文選取等錯(cuò)誤率（EER）作為評(píng)估標(biāo)準(zhǔn)。EER可以在1-TPR和FPR相等時(shí)得出，此時(shí)漏判率和誤判率相等，模型能夠同時(shí)兼顧安全性和可用性，計(jì)算公式如下：

TPR=TPTP+FN，（8）

FPR=FPFP+TN.（9）

其中TP代表被正確判定為正常用戶的樣本數(shù)量，TN代表被正確判定為異常用戶的樣本數(shù)量，F(xiàn)P代表被誤判為正常用戶的異常樣本數(shù)量，F(xiàn)N代表被誤判為異常用戶的正常樣本數(shù)量。

1.6 研究方法

本文根據(jù)前三節(jié)提出的方法設(shè)計(jì)以下技術(shù)路線：（1）采集數(shù)據(jù)并提取時(shí)間序列；（2）選擇合適的算法作為Adaboost的基分類器并構(gòu)建擊鍵動(dòng)力學(xué)模型；（3）根據(jù)模型的判別結(jié)果，使用自適應(yīng)機(jī)制對模型進(jìn)行更新，使其能夠適應(yīng)用戶擊鍵頻率的變化，解決“概念漂移”問題，本文的技術(shù)路線如圖2所示。

2 結(jié)果與分析

2.1 基分類器對比

集成學(xué)習(xí)是一種將多個(gè)基本的學(xué)習(xí)模型組合在一起，最終形成一個(gè)強(qiáng)大的學(xué)習(xí)系統(tǒng)來提高模型性能的機(jī)器學(xué)習(xí)方法。在集成學(xué)習(xí)中，各個(gè)基分類器可以各自在不同的特征子集或不同的模型空間進(jìn)行學(xué)習(xí)，從而降低模型的泛化誤差。而基分類器是影響集成學(xué)習(xí)性能的最主要因素，本節(jié)的目的是尋找一個(gè)具有獨(dú)立性、多樣性、高準(zhǔn)確率的模型作為基分類器。在基分類器的選擇中，本文將決策樹、縮放曼哈頓距離、高斯混合模型和同樣作為集成學(xué)習(xí)的隨機(jī)森林算法作為備選項(xiàng)，以上幾種模型和算法在以往的固定文本認(rèn)證研究中被廣泛使用，具有良好的性能。本節(jié)使用模型測試階段生成的預(yù)測分?jǐn)?shù)繪制用戶的ROC曲線，從ROC曲線下方的面積大小可以很直觀的比較模型的性能差異，實(shí)驗(yàn)發(fā)現(xiàn)各用戶TPR和FPR閾值數(shù)量差距較小，通過插值法將閾值數(shù)量對齊求平均值，圖3描繪了各模型預(yù)測分?jǐn)?shù)得到的平均ROC曲線。對數(shù)據(jù)集中每位用戶進(jìn)行實(shí)驗(yàn)后計(jì)算EER的平均值和標(biāo)準(zhǔn)差，結(jié)果如表1所示。

從圖3可以看出，隨機(jī)森林、縮放曼哈頓和高斯混合模型的ROC曲線面積（AUC）相差較小，相比這三種模型/算法，決策樹的分類效果一般，這與其結(jié)構(gòu)簡單容易出現(xiàn)過擬合現(xiàn)象有關(guān)。分析表1的數(shù)據(jù)可知，隨機(jī)森林的平均等錯(cuò)誤率最低，為8.79%，其次是縮放曼哈頓算法，其EER為9.62%，與文獻(xiàn)［19］的結(jié)果基本相同，實(shí)驗(yàn)結(jié)果表明隨機(jī)森林算法已經(jīng)優(yōu)于文獻(xiàn)［19］的最佳方法。與縮放曼哈頓和高斯混合模型相比，隨機(jī)森林的EER標(biāo)準(zhǔn)差更高，在實(shí)驗(yàn)中可以觀察到個(gè)別用戶的EER分布與整體分布存在較大偏差，但是絕大多數(shù)用戶的EER都處于極低且差距較小的狀態(tài)。此外，隨機(jī)森林是一種低方差模型，它通過組合多個(gè)決策樹來減少預(yù)測的方差。這意味著隨機(jī)森林能夠在訓(xùn)練數(shù)據(jù)上獲得較低的誤差，并且對于噪聲和隨機(jī)性具有較好的魯棒性。將隨機(jī)森林作為Adaboost的基分類器可能會(huì)在每個(gè)迭代中提供一個(gè)較低的訓(xùn)練誤差。綜上所述，從實(shí)驗(yàn)結(jié)果和模型特點(diǎn)的角度分析，隨機(jī)森林適合作為基分類器。

2.2 基分類器參數(shù)調(diào)整

本文在上一節(jié)通過實(shí)驗(yàn)論證將隨機(jī)森林選為基分類器。由于隨機(jī)森林算法是由多個(gè)決策樹共同構(gòu)建而成，因此決策樹的數(shù)量是該算法的重要參數(shù)。對于具有一定規(guī)模的數(shù)據(jù)集，當(dāng)決策樹的數(shù)量較少時(shí)，隨機(jī)森林所需的計(jì)算資源和時(shí)間會(huì)減少，但同時(shí)可能會(huì)過度依賴個(gè)別決策樹的預(yù)測結(jié)果，導(dǎo)致模型對訓(xùn)練集過擬合；當(dāng)決策樹的數(shù)量較多時(shí)，由于隨機(jī)森林中的每個(gè)決策樹都需要進(jìn)行訓(xùn)練和預(yù)測，模型的訓(xùn)練時(shí)間和計(jì)算成本都會(huì)增加；此外，過度增加決策樹的數(shù)量會(huì)使隨機(jī)森林的性能在某個(gè)階段達(dá)到飽和點(diǎn)，此時(shí)不僅無法提高模型的性能，還會(huì)讓模型變得更加復(fù)雜，降低了模型的可解釋性。表2展示了在相同的數(shù)據(jù)集下不同數(shù)量的決策樹對隨機(jī)森林EER和時(shí)間的影響，考慮到硬件設(shè)備和算法本身的隨機(jī)因素，表中的數(shù)據(jù)為10次實(shí)驗(yàn)的平均值。

從表2可以看出，決策樹在20～200范圍內(nèi)，各參數(shù)的EER和標(biāo)準(zhǔn)差的差距較小，均在0.3%以內(nèi)，但是訓(xùn)練時(shí)間和測試時(shí)間相差數(shù)倍。當(dāng)決策樹數(shù)量大于100后，增加決策樹的數(shù)量并沒有降低EER，模型逐漸趨于穩(wěn)定，只有時(shí)間開銷在線性增長。因此，綜合考慮分類性能和時(shí)間開銷，決策樹數(shù)量設(shè)置為30更加合適。

2.3 基于Adaboost的集成學(xué)習(xí)

本節(jié)使用隨機(jī)森林作為Adaboost的基分類器訓(xùn)練模型，因?yàn)殡S機(jī)森林算法和Adaboost同為集成學(xué)習(xí)算法，將二者進(jìn)行組合產(chǎn)生的效果未知，因此本節(jié)還將使用經(jīng)典的決策樹作為對照組基分類器。

表3展示了分別使用決策樹和使用隨機(jī)森林作為基分類器的集成學(xué)習(xí)模型性能。

由于實(shí)驗(yàn)數(shù)據(jù)中多個(gè)用戶的TPR和FPR閾值數(shù)相差較大，不適合使用插值法填充數(shù)據(jù)，因此圖4使用與51名用戶均值EER相近的用戶16的ROC曲線來展示模型的分類能力。

從圖4可以看出，使用隨機(jī)森林作為基分類器得到的ROC曲線比使用決策樹的面積更大。表3也證實(shí)了這種現(xiàn)象，當(dāng)基分類器是決策樹時(shí)，51名用戶的平均等錯(cuò)誤率均值分別為為6.48%（0.0740），在集成學(xué)習(xí)的加持下，多個(gè)決策樹組成的強(qiáng)分類器的效果不僅優(yōu)于基分類器決策樹和隨機(jī)森林，其性能相比于前面的縮放曼哈頓和高斯混合模型也有明顯的提升；而使用隨機(jī)森林做為基分類器可以得到4.74%（0.0650）的EER。從圖表數(shù)據(jù)可以明顯看出，相比基于決策樹的Adaboost模型，使用效果更好的隨機(jī)森林基分類器能夠得到更低的EER和更穩(wěn)定的標(biāo)準(zhǔn)差，說明Adaboost算法有效中和了隨機(jī)森林存在的過擬合和抗噪聲差的問題。實(shí)驗(yàn)表明將集成學(xué)習(xí)中的Bagging算法和Boosting算法進(jìn)行結(jié)合，采用二次集成學(xué)習(xí)的方式是有效的。

2.4 自適應(yīng)更新機(jī)制

2.4.1 自適應(yīng)更新方法對比

本實(shí)驗(yàn)驗(yàn)證自適應(yīng)更新算法對模型性能的提升，以及不同自適應(yīng)算法間的性能差異。根據(jù)前面的實(shí)驗(yàn)結(jié)果，本文選擇以隨機(jī)森林為基分類器的Adaboost模型作為對照組，在此模型的基礎(chǔ)上對其使用增長窗口、滑動(dòng)窗口和雙并行自適應(yīng)算法作為實(shí)驗(yàn)組，參數(shù)設(shè)置前面實(shí)驗(yàn)相同，由以上實(shí)驗(yàn)條件得到的用戶16的ROC曲線如圖5所示。

實(shí)驗(yàn)結(jié)果表明3種自適應(yīng)算法的平均EER分別為3.66%（0.0615）、3.44%（0.0613）和3.22%（0.0590）。使用自適應(yīng)算法后模型性能得到提升，并且使用雙并行自適應(yīng)算法的模型表現(xiàn)效果最佳。表4給出了本文與使用了CMU數(shù)據(jù)集的方法的比較，在使用相同數(shù)據(jù)集的情況下，本文使用的模型優(yōu)于其他研究提出的方法。

2.4.2 自適應(yīng)更新的閾值研究

本節(jié)對自適應(yīng)更新的觸發(fā)閾值進(jìn)行研究。上一節(jié)的實(shí)驗(yàn)采用算法2的思想，每當(dāng)模型接收新的數(shù)據(jù)后都會(huì)進(jìn)行更新，此時(shí)該二分類問題的閾值threshold為0.5。本節(jié)以0.05為步長，探討更新閾值與模型判別性能和更新時(shí)間的關(guān)系，結(jié)果如圖6所示。

由圖6可以看出，隨著更新閾值不斷增加，模型性能出現(xiàn)了輕微的下降，由于更新次數(shù)減少導(dǎo)致訓(xùn)練所需的時(shí)間也在變少。

該結(jié)果說明當(dāng)閾值過高時(shí)，模型只將判別概率"" 最大的數(shù)據(jù)用于自適應(yīng)更新，這種方式反而會(huì)丟失一些新的特征數(shù)據(jù)，無法學(xué)習(xí)到用戶擊鍵序列新的特征變化。因此，在投入實(shí)際應(yīng)用時(shí)，如果需要更高的判別性能，應(yīng)該將用戶輸入的每一條數(shù)據(jù)都用于自適應(yīng)更新中；如果對響應(yīng)時(shí)間有額外需求，可以適當(dāng)提高模型的更新閾值，圖6的結(jié)果表明當(dāng)閾值設(shè)置為0.8時(shí)，平均EER與最優(yōu)性能只有0.1%左右的差距，但模型所需時(shí)間明顯下降。圖7以混淆矩陣的形式展示了不同更新閾值下模型的分類性能變化情況，由于更新閾值不同，各混淆矩陣的樣本值并不相同，混淆矩陣能夠明顯反應(yīng)出更新閾值與模型判別性能和更新數(shù)量的關(guān)系。

由圖7可以看出，模型對負(fù)樣本的分類準(zhǔn)確率極高，在不同閾值下均能實(shí)現(xiàn)正確分類；隨著更新閾值逐漸增加，混淆矩陣中正樣本的更新數(shù)量和錯(cuò)誤分類數(shù)量呈遞減趨勢。但由于樣本更新數(shù)量的遞減趨勢遠(yuǎn)大于錯(cuò)誤分類數(shù)量，導(dǎo)致模型對正樣本的分類準(zhǔn)確率隨更新閾值變化先升后降，該現(xiàn)象與圖6的柱狀圖走勢基本符合。以上結(jié)果表明，使用Adaboost與雙并行自適應(yīng)更新機(jī)制相結(jié)合擊鍵動(dòng)力學(xué)模型對異常用戶的識(shí)別效果顯著，同時(shí)設(shè)置合適的更新閾值能夠有效降低模型對正常用戶的誤判率。

3 結(jié)論

擊鍵動(dòng)力學(xué)靜態(tài)文本認(rèn)證作為一種可靠的生物識(shí)別認(rèn)證方式常與密碼認(rèn)證組成安全性更高的雙因素身份認(rèn)證，針對靜態(tài)文本認(rèn)證模型隨著用戶擊鍵頻率變化性能逐漸下降的“概念漂移”問題，本文提出一種基于集成學(xué)習(xí)的雙并行自適應(yīng)身份認(rèn)證模型，并得出以下結(jié)論：

針對靜態(tài)文本認(rèn)證方式字符長度短、數(shù)據(jù)量少、文本較為固定的特點(diǎn)，可以提取其單向圖和雙向圖擊鍵序列作為關(guān)鍵特征，與決策樹、縮放曼哈頓距離、高斯混合模型相比，基于集成學(xué)習(xí)思想的隨機(jī)森林算法在處理不平衡數(shù)據(jù)上表現(xiàn)出更好的分類性能，并在基分類器數(shù)量為30時(shí)EER最低且訓(xùn)練和驗(yàn)證時(shí)間較短；此外，將隨機(jī)森林和決策樹作為Adaboost的基分類器進(jìn)行對比實(shí)驗(yàn)表明，在擊鍵動(dòng)力學(xué)靜態(tài)文本認(rèn)證領(lǐng)域使用二次集成學(xué)習(xí)取得了最低的EER，驗(yàn)證了該方法的可行性。

在二次集成學(xué)習(xí)的基礎(chǔ)上，本文使用雙并行自適應(yīng)更新機(jī)制抵消“概念漂移”現(xiàn)象對模型性能的影響，該方法通過比較數(shù)據(jù)特征變化與閾值差異決定模型的更新策略，使模型充分適應(yīng)新數(shù)據(jù)的特征變化，實(shí)驗(yàn)表明該方法比單獨(dú)使用滑動(dòng)窗口或增長窗口的方式更顯著地降低了“概念漂移”現(xiàn)象的影響，有效提升了模型的泛化能力。

參考文獻(xiàn)（References）

［1］宋憲榮，張猛. 網(wǎng)絡(luò)可信身份認(rèn)證技術(shù)問題研究［J］. 網(wǎng)絡(luò)空間安全， 2018， 9（3）： 69-77.

SONG X R， ZHANG M. Research on the technology of network trusted identity authentication.［J］. Cyberspace Security， 2018， 9（3）： 69-77.

［2］冉瑞生，高天宇，房斌. 融合PVT多級(jí)特征的口罩人臉識(shí)別研究［J］. 石河子大學(xué)學(xué)報(bào)（自然科學(xué)版）， 2024， 42（1）： 126-132.

RAN R S， GAO T Y， FANG B. Research on masked face recognition by fusing multi-level features of PVT［J］. Journal of Shihezi University（Natural Science）， 2024， 42（1）： 126-132.

［3］ PISANI P H， MHENNI A， GIOT R， et al. Adaptive biometric systems： Review and perspectives［J］. ACM Computing Surveys （CSUR）， 2019， 52（5）： 1-38.

［4］ MONACO J V. Robust keystroke biometric anomaly detection［J］. arXiv：1606.09075V2， 2017：1-32.

［5］ GIOT R， ROSENBERGER C， DORIZZI B. Hybrid template update system for unimodal biometric systems［C］//2012 IEEE Fifth International Conference on Biometrics： Theory， Applications and Systems （BTAS）. IEEE， 2012： 1-7.

［6］ GAINES R S， LISOWSKI W， PRESS S J， et al. Authentication by keystroke timing： some preliminary results［R］. Rand Report RNsf，1980.

［7］ IVANNIKOVA E， DAVID G， HAMALAINEN T. Anomaly detection approach to keystroke dynamics based user authentication［C］//2017 IEEE Symposium on Computers and Communications （ISCC）. IEEE， 2017： 885-889.

［8］ KHODABAKHSH A， HAASNOOT E， BOURS P. Predicted templates： Learning-curve based template projection for keystroke dynamics［C］//2018 International Conference of the Biometrics Special Interest Group （BIOSIG）. IEEE， 2018： 1-5.

［9］ BHATIA A， HANMANDLU M， VASIKARLA S， et al. Keystroke dynamics based authentication using gfm［C］ //2018 IEEE International Symposium on Technologies for Homeland Security （HST）. IEEE， 2018： 1-5.

［10］ ALI M L， TAPPERT C C. Pohmm/svm： A hybrid approach for keystroke biometric user authentication［C］//2018 IEEE International Conference on Real-time Computing and Robotics （RCAR）. IEEE， 2018： 612-617.

［11］ MHENNI A， CHERRIER E， ROSENBERGER C， et al. Analysis of doddington zoo classification for user dependent template update： Application to keystroke dynamics recognition［J］. Future Generation Computer Systems， 2019， 97： 210-218.

［12］ ANDREAN A， JAYABALAN M， THIRUCHELVAM V. Keystroke dynamics based user authentication using deep multilayer perceptron［J］. International Journal of Machine Learning and Computing， 2020， 10（1）： 134-139.

［13］ MAHESHWARY S， PUDI V. Mining keystroke timing pattern for user authentication［C］//New Frontiers in Mining Complex Patterns： 5th International Workshop， NFMCP 2016， Held in Conjunction with ECML-PKDD 2016， Riva del Garda， Italy， September 19， 2016， Revised Selected Papers 5. Springer International Publishing， 2017： 213-227.

［14］ LU X F， ZHANG S， YI S W. Continuous authentication by free-text keystroke based on CNN plus RNN［J］. Procedia computer science， 2019， 147： 314-318.

［15］ KANG P， HWANG S， CHO S. Continual retraining of keystroke dynamics based authenticator［C］//Advances in Biometrics： International Conference， ICB 2007， Seoul， Korea， August 27-29， 2007. Proceedings. Springer Berlin Heidelberg， 2007： 1203-1211.

［16］ MHENNI A， CHERRIER E， ROSENBERGER C， et al. Double serial adaptation mechanism for keystroke dynamics authentication based on a single password［J］. Computers amp; Security， 2019， 83： 151-166.

［17］ PISANI P H， LORENA A C， CARVALHO A C. Adaptive approaches for keystroke dynamics［C］//2015 international joint conference on neural networks （IJCNN）. IEEE， 2015： 1-8.

［18］ LINN J. Common authentication technology overview.［J］. Rfc Geer Zolot Associate， 1993， 11（3）：82-89.

［19］ KILLOURHY K S， MAXION R A. Comparing anomaly-detection algorithms for keystroke dynamics［C］//2009 IEEE/IFIP International Conference on Dependable Systems amp; Networks. IEEE， 2009： 125-134.

［20］ EPP C， LIPPOLD M， MANDRYK R L. Identifying emotional states using keystroke dynamics［C］// Proceedings of the sigchi conference on human factors in computing systems. 2011： 715-724.

［21］ SAE N， MEMON N. Distinguishability of keystroke dynamic template［J］. Plos one， 2022， 17（1）： e0261291.

（責(zé)任編輯：編輯郭蕓婕）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于集成學(xué)習(xí)和雙并行自適應(yīng)機(jī)制的擊鍵動(dòng)力學(xué)認(rèn)證方法