馬磊
摘要:針對(duì)電子商務(wù)中用戶身份易被竊取冒用這一問(wèn)題,設(shè)計(jì)研究了利用鼠標(biāo)輸入行為特征進(jìn)行身份識(shí)別的方法,通過(guò)采集網(wǎng)上購(gòu)物過(guò)程中用戶的鼠標(biāo)行為數(shù)據(jù),使用聚類算法進(jìn)行鼠標(biāo)行為模式的固化,通過(guò)比較鼠標(biāo)行為特征向量間的距離進(jìn)行用戶行為合法性判斷。方法應(yīng)用在電子商務(wù)系統(tǒng),誤檢率與漏檢率均在可接受范圍內(nèi),可作為電子商務(wù)中用戶身份認(rèn)證的一種新的輔助手段。
關(guān)鍵詞:電子商務(wù);鼠標(biāo)行為;異常檢測(cè);身份認(rèn)證;特征向量
中圖分類號(hào):TP393.08 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)02-0241-02
Abstract: The phenomenon of identity theft in e-commerce frequently happens, and credible problem has aroused wide public concern. In order to solve this problem, this paper discusses the method of identity authentication and anomaly detection by using the feature of mouse behavior. Mouse behavior data is collected during shopping and clustering algorithm is used to build the normal mouse behavior pattern. The distance between feature vectors is compared with the defined threshold to differentiate legal and illegal users. This method can be used as a new auxiliary method in user identity authentication in e-commerce, with low FAR and FRR.
Key words: e-commerce; mouse behavior; anomaly detection; identity authentication; feature vector
1 引言
隨著互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)已經(jīng)成為人們?nèi)粘I畈豢扇鄙俚牟糠帧H欢捎诰W(wǎng)上交易和網(wǎng)絡(luò)支付平臺(tái)的迅速興起,網(wǎng)絡(luò)支付安全體系尚不健全,網(wǎng)絡(luò)購(gòu)物人數(shù)不斷增加,各種消費(fèi)欺詐、用戶信息泄漏問(wèn)題頻出[1-2]。網(wǎng)絡(luò)交易中用戶的身份驗(yàn)證普遍采用數(shù)字證書(shū)的方法[3],但是數(shù)字證書(shū)使用的用戶名、密碼等信息易泄露,這種方法并不能很好地解決用戶身份可信的問(wèn)題。
本文研究了通過(guò)用戶行為模式進(jìn)行身份認(rèn)證的方法,提出利用鼠標(biāo)行為認(rèn)證的方法,對(duì)電子商務(wù)中用戶購(gòu)物行為的安全性加以保障。在以往的案例中,對(duì)用戶行為的建模研究多運(yùn)用于個(gè)性化推薦等方面[4],旨在提升用戶的網(wǎng)購(gòu)體驗(yàn)。本文的方法以電子商務(wù)活動(dòng)中用戶的購(gòu)物行為所產(chǎn)生的鼠標(biāo)行為數(shù)據(jù)為研究對(duì)象,根據(jù)用戶特有的鼠標(biāo)行為進(jìn)行抽象建模,固化合法用戶的鼠標(biāo)行為模式,進(jìn)而通過(guò)模式匹配判斷新的購(gòu)物行為是否屬于異常行為。該策略無(wú)需輔助設(shè)備,可直接部署使用,不存在硬件設(shè)備的時(shí)效性和攜帶不便問(wèn)題,便于優(yōu)化用戶操作體驗(yàn)。
2 基于鼠標(biāo)行為的異常行為檢測(cè)方法
2.1 異常行為檢測(cè)原理
用戶在電子商務(wù)網(wǎng)站實(shí)施的操作是多樣化的:登錄網(wǎng)站,瀏覽選購(gòu)商品,加入或清空購(gòu)物車,提交或取消訂單等。在討論用戶異常行為時(shí),類似于清空購(gòu)物車,取消訂單等的行為,對(duì)用戶的錢財(cái)不會(huì)造成損失。所以本文選擇了對(duì)用戶利益可能有實(shí)質(zhì)性傷害的有序行為,即要購(gòu)買某個(gè)商品必須操作的流程,進(jìn)行分析。
可以把這些流程抽象成一個(gè)類似自動(dòng)機(jī)的模型。自動(dòng)機(jī)有狀態(tài)集,初態(tài),終態(tài),輸入字符和轉(zhuǎn)移函數(shù),在某個(gè)狀態(tài)下,輸入某個(gè)字符,根據(jù)轉(zhuǎn)移函數(shù)就轉(zhuǎn)移到相應(yīng)的狀態(tài)[5]。圖1表示了抽象的類自動(dòng)機(jī)模型。該“類自動(dòng)機(jī)”可以表示為5-元組D=(Q, ∑, δ, q0, F),其中:
(1) Q 是非空有窮集合,稱為狀態(tài)集。圖1中用圓角矩形表示,每個(gè)圓角矩形表示一種狀態(tài)。
(3) F 是終止?fàn)顟B(tài)集合 (F?Q)。圖1中終態(tài)有兩種,即兩種判斷結(jié)果狀態(tài):正常與異常狀態(tài)。
(4) ∑ 是抽象符號(hào)的有限集合。圖1中,∑={0,1}。字符1抽象表示滿足一定的條件,0表示不滿足該條件。
(5) δ 是狀態(tài)轉(zhuǎn)移函數(shù)。
在此模型中,當(dāng)輸入字符為0時(shí),即該階段的鼠標(biāo)行為特征向量不匹配時(shí),則當(dāng)前狀態(tài)直接轉(zhuǎn)移到終態(tài)集中的異常狀態(tài),判斷出當(dāng)前用戶行為是異常的。只有每次輸入的抽象字符是1,即每個(gè)階段的鼠標(biāo)行為特征向量都匹配時(shí),才能最終轉(zhuǎn)移到終態(tài)集中的正常狀態(tài),判斷出當(dāng)前用戶的行為是正常的。綜上所述,檢測(cè)異常行為的過(guò)程就是運(yùn)行該“類自動(dòng)機(jī)”的過(guò)程。
運(yùn)行上述“類自動(dòng)機(jī)”過(guò)程中,最重要的環(huán)節(jié)是判斷每個(gè)階段的輸入符號(hào)為1還是0,即每個(gè)階段的鼠標(biāo)行為特征向量是否匹配,具體地可以這樣操作:利用該階段時(shí)用戶的鼠標(biāo)行為數(shù)據(jù),通過(guò)數(shù)學(xué)運(yùn)算得到鼠標(biāo)行為特征值,并利用基于歐式距離的K-Means聚類算法生成當(dāng)前用戶鼠標(biāo)行為特征向量,并與之前根據(jù)訓(xùn)練階段所采集的鼠標(biāo)行為數(shù)據(jù)分析生成的正常用戶行為特征向量,進(jìn)行匹配,超過(guò)一定的閾值,則可以判斷出當(dāng)前行為屬于異常行為,否則為正常行為。整個(gè)過(guò)程如圖2所示。
2.2 鼠標(biāo)行為特征向量定義和匹配
考慮到在一般的電商網(wǎng)站中,很少或基本不會(huì)進(jìn)行雙擊操作,所以主要采集鼠標(biāo)單擊和移動(dòng)兩種操作產(chǎn)生的數(shù)據(jù)。單擊時(shí)采集數(shù)據(jù)項(xiàng)有:網(wǎng)站頁(yè)面序號(hào), X、Y軸坐標(biāo)值,時(shí)間戳,其中網(wǎng)站頁(yè)面序號(hào)這個(gè)數(shù)據(jù)項(xiàng)代表了用戶購(gòu)物的狀態(tài),表示用戶進(jìn)行到登錄、瀏覽、下單等幾個(gè)階段中哪一步。使用上述數(shù)據(jù)項(xiàng),通過(guò)數(shù)學(xué)計(jì)算可得到單擊時(shí)間間隔,單擊范圍分布等。在采集移動(dòng)鼠標(biāo)數(shù)據(jù)時(shí),需要預(yù)先設(shè)定一個(gè)采樣率[6]。移動(dòng)時(shí)采集數(shù)據(jù)項(xiàng)包括:網(wǎng)站頁(yè)面序號(hào),X、Y軸坐標(biāo)值,時(shí)間戳。通過(guò)這幾項(xiàng)數(shù)據(jù),后續(xù)可以計(jì)算出移動(dòng)速度,加速度,移動(dòng)角度值等特征屬性。
K-Means聚類算法是一種迭代的聚類算法,該算法事先設(shè)置K值,算法的結(jié)果是將數(shù)據(jù)劃分為K個(gè)簇集和相應(yīng)簇心。每個(gè)簇集的簇心就是該簇集中所有數(shù)據(jù)的均值,物理意義就是簇集中數(shù)據(jù)的行心[7]。
鼠標(biāo)行為特征向量的設(shè)計(jì),可以利用上述采集到的特征屬性值和K-Means聚類算法??紤]到應(yīng)用環(huán)境為電子商務(wù)購(gòu)物網(wǎng)站,在購(gòu)物過(guò)程中每個(gè)狀態(tài)跳轉(zhuǎn)都可以定義獨(dú)特的特征向量。具體地,如在圖1中從“未登錄”狀態(tài)轉(zhuǎn)移時(shí),考慮到每個(gè)用戶的手速和操作習(xí)慣等不同,可以把單擊時(shí)間間隔均值及其標(biāo)準(zhǔn)差作為特征向量的一部分;另外,單擊區(qū)域也因人而異,可將采集到的大量單擊點(diǎn)坐標(biāo),通過(guò)基于歐氏距離的K-Means聚類算法,得到最密集簇的簇心坐標(biāo)作為特征向量的一部分。其余的狀態(tài)轉(zhuǎn)移時(shí)設(shè)計(jì)的特征向量類似于上述內(nèi)容,故不再贅述。
特征向量的匹配,則需要計(jì)算特征向量間的距離??紤]到特征向量中的各個(gè)特征分量的數(shù)量級(jí)和單位不同,可以先對(duì)特征向量中的各個(gè)特征分量做歸一化處理,然后求特征向量之間歐式距離。若該距離超過(guò)一定的閾值,則可以判斷出待測(cè)的特征向量異常,檢測(cè)流程直接跳轉(zhuǎn)至異常狀態(tài),拒絕該用戶的后續(xù)操作。具體如圖3所示。
3 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)有6名用戶參與,采集這些用戶在購(gòu)物網(wǎng)站中產(chǎn)生的鼠標(biāo)行為數(shù)據(jù),生成行為特征向量,使用上節(jié)所述的檢測(cè)方法進(jìn)行用戶身份的識(shí)別。實(shí)驗(yàn)中采用Failed Acceptance Rate (FAR,漏檢率)和Failed Rejection Rate (FRR,誤檢率)[8]兩個(gè)指標(biāo)進(jìn)行效果分析。最終實(shí)驗(yàn)結(jié)果如表1所示,從表中數(shù)據(jù)可以得出:該方法的平均FAR為10.50%,F(xiàn)RR為9.72%,說(shuō)明系統(tǒng)可以較好地識(shí)別用戶,檢測(cè)出異常的用戶行為。
4 結(jié)論
本文針對(duì)電子商務(wù)中頻繁的用戶身份冒用現(xiàn)象,給出了利用用戶鼠標(biāo)行為特征進(jìn)行用戶身份認(rèn)證,進(jìn)行用戶行為異常檢測(cè)的方法。該方法不需要額外的硬件輔助,只需要在購(gòu)物網(wǎng)站中嵌入代碼采集用戶鼠標(biāo)數(shù)據(jù)就可以對(duì)用戶身份進(jìn)行識(shí)別。同時(shí)用戶鼠標(biāo)行為特征信息區(qū)別于傳統(tǒng)的用戶名密碼信息,具有獨(dú)特性、不易模仿性和不易盜取性,運(yùn)用到電子商務(wù)用戶身份認(rèn)證領(lǐng)域,具有一定的實(shí)用價(jià)值。
參考文獻(xiàn):
[1] 胡偉雄. 電子商務(wù)安全與認(rèn)證[M]. 北京: 高等教育出版社, 2010.
[2] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心. 第31次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[DB/OL]. (2013-01). http://news.xinhuanet.com/tech/2013-01/15/c_124233840.htm.
[3] 朱玲玲. 網(wǎng)絡(luò)安全中的用戶身份認(rèn)證機(jī)制[J]. 中國(guó)科技信息, 2006, 1(1): 46-47.
[4] 吳勝兵. Web 數(shù)據(jù)挖掘的應(yīng)用與研究[M]. 南昌大學(xué), 2007.
[5] Hopcroft J E, 霍普克羅夫特, Motwani R, et al. 自動(dòng)機(jī)理論, 語(yǔ)言和計(jì)算導(dǎo)論[M]. 機(jī)械工業(yè)出版社, 2004.
[6] Pusara M, Brodley C E. User re-authentication via mouse movements[C]//Proceedings of the 2004 ACM workshop on Visualization and data mining for computer security. ACM, 2004: 1-8.
[7] Machine learning: An artificial intelligence approach[M]. Springer Science & Business Media, 2013.
[8] Hand D J. Measuring classifier performance: a coherent alternative to the area under the ROC curve[J]. Machine learning, 2009, 77(1): 103-123.