亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

個(gè)性化身份驗(yàn)證

2010-11-15 01:32:30候傳宇

巢湖學(xué)院學(xué)報(bào) 2010年6期

關(guān)鍵詞：用戶系統(tǒng)

徐旭候傳宇

（1合肥工業(yè)大學(xué)計(jì)算機(jī)信息學(xué)院，安徽合肥 230000）

（2宿州學(xué)院信息工程學(xué)院，安徽宿州 234000）

個(gè)性化身份驗(yàn)證

徐旭1，2候傳宇2

（1合肥工業(yè)大學(xué)計(jì)算機(jī)信息學(xué)院，安徽合肥 230000）

（2宿州學(xué)院信息工程學(xué)院，安徽宿州 234000）

身份認(rèn)證是網(wǎng)絡(luò)安全中一個(gè)重要問(wèn)題，論文結(jié)合了Web日志挖掘和決策樹分類這兩方面的知識(shí)，提出了一種新的認(rèn)證方式，個(gè)性化身份驗(yàn)證，在用戶登陸系統(tǒng)后可以對(duì)其身份進(jìn)行二次驗(yàn)證。

身份驗(yàn)證；Web日志挖掘；決策樹

隨著網(wǎng)絡(luò)的飛速發(fā)展，人們對(duì)網(wǎng)絡(luò)的依賴程度也越來(lái)越大。網(wǎng)絡(luò)的發(fā)展給我們帶來(lái)了很大的方便。但同時(shí)也衍生出了一些問(wèn)題。隨著人們的生活和工作重心往網(wǎng)絡(luò)上的轉(zhuǎn)移，網(wǎng)絡(luò)安全也成為一個(gè)越來(lái)越重要的話題。在考慮安全問(wèn)題時(shí)，大部分都是關(guān)注于第一次身份驗(yàn)證時(shí)的安全問(wèn)題，當(dāng)用戶利用正確的口令登陸系統(tǒng)以后，就不再進(jìn)行身份驗(yàn)證了，對(duì)于非法用戶竊取用戶口令并以該用戶口令登陸系統(tǒng)這種情況沒有做任何的處理。為了解決這個(gè)問(wèn)題，本文提出了個(gè)性化身份驗(yàn)證的觀點(diǎn)。

1 常見身份認(rèn)證方式

1.1 用戶口令認(rèn)證

傳統(tǒng)的認(rèn)證技術(shù)主要采用基于口令的認(rèn)證方法。當(dāng)被認(rèn)證對(duì)象要求訪問(wèn)提供服務(wù)的系統(tǒng)時(shí)，提供服務(wù)的認(rèn)證方要求被認(rèn)證對(duì)象提交該對(duì)象的口令，認(rèn)證方收到口令后，將其與系統(tǒng)中存儲(chǔ)的用戶口令進(jìn)行比較，以確認(rèn)被認(rèn)證對(duì)象是否為合法訪問(wèn)者。這種認(rèn)證方法的優(yōu)點(diǎn)在于簡(jiǎn)單實(shí)用。然而，基于口令的認(rèn)證方法存在很多不足。

用戶每次訪問(wèn)系統(tǒng)時(shí)都要輸入口令，這樣很容易泄密；口令在傳輸過(guò)程中可能被截獲；系統(tǒng)中所有用戶的口令以文件形式存儲(chǔ)在認(rèn)證方，攻擊者可以利用系統(tǒng)中存在的漏洞獲取系統(tǒng)的口令文件；只能進(jìn)行單向認(rèn)證，即系統(tǒng)可以認(rèn)證用戶，而用戶無(wú)法對(duì)系統(tǒng)進(jìn)行認(rèn)證，攻擊者可能偽裝成系統(tǒng)騙取用戶的口令。

1.2 基于智能卡的認(rèn)證

基于智能卡的用戶身份認(rèn)證機(jī)制主要利用硬件實(shí)現(xiàn)，它將用戶安全信息存在智能卡中，并在認(rèn)證服務(wù)器中存入某個(gè)事先由用戶選擇的隨機(jī)數(shù)。用戶訪問(wèn)系統(tǒng)資源時(shí)，用戶輸入智能卡信息，系統(tǒng)首先判斷智能卡的合法性，然后由智能卡認(rèn)證用戶身份，若用戶身份合法，再將智能卡中的隨機(jī)數(shù)送給認(rèn)證系統(tǒng)作進(jìn)一步認(rèn)證。

1.3 數(shù)字證書認(rèn)證

數(shù)字證書是一個(gè)經(jīng)證書授權(quán)中心（也叫認(rèn)證中心，Certificate Authority簡(jiǎn)稱CA）數(shù)字簽名的包含公開密鑰擁有者信息以及公開密鑰的文件。

當(dāng)用戶向某一服務(wù)器提出訪問(wèn)請(qǐng)求時(shí)，服務(wù)器要求用戶提交數(shù)字證書。收到用戶的證書后，服務(wù)器利用CA的公開密鑰對(duì)CA的簽名進(jìn)行解密，獲得信息的散列碼，然后服務(wù)器用與CA相同的散列算法對(duì)證書的信息部分進(jìn)行處理，得到一個(gè)散列碼，將此散列碼與對(duì)簽名解密所得到的散列碼進(jìn)行比較，若相等則表明此證書確實(shí)是CA簽發(fā)的，而且是完整的未被篡改的證書。這樣，用戶便通過(guò)了身份認(rèn)證。服務(wù)器從證書的信息部分取出用戶的公鑰，以后向用戶傳送數(shù)據(jù)時(shí)，便以此公鑰加密，對(duì)該信息只有用戶可以進(jìn)行解密。

1.4 Kerberos認(rèn)證

Kerberos采用對(duì)稱密鑰體制對(duì)信息進(jìn)行加密，其基本思想是：能正確對(duì)信息進(jìn)行解密的用戶就是合法用戶。當(dāng)用戶進(jìn)行登錄時(shí)，Kerberos對(duì)用戶進(jìn)行初始認(rèn)證通過(guò)認(rèn)證的用戶可以在整個(gè)登錄期間得到相應(yīng)的服務(wù)，Kerberos既不依賴用戶登錄的終端，也不依賴用戶所請(qǐng)求的服務(wù)的安全機(jī)制，它本身提供了認(rèn)證服務(wù)器來(lái)完成用戶的認(rèn)證。

2 個(gè)性化身份驗(yàn)證

個(gè)性化身份驗(yàn)證是指：在用戶登陸系統(tǒng)以后，繼續(xù)對(duì)用戶進(jìn)行監(jiān)測(cè)，并收集用戶的個(gè)性化信息，在規(guī)定時(shí)間以后，根據(jù)收集到信息來(lái)對(duì)用戶進(jìn)行第二次身份驗(yàn)證，這樣就對(duì)用戶身份被非法使用這一情況做了相應(yīng)的處理。

用戶在使用網(wǎng)絡(luò)時(shí)都有自己的習(xí)慣，比如密碼設(shè)置長(zhǎng)度的多少，密碼輸出時(shí)間的多少，鼠標(biāo)的點(diǎn)擊習(xí)慣，經(jīng)常使用的操作系統(tǒng)，瀏覽器類型，瀏覽信息的不同，瀏覽愛好的不同等等，要想找到兩個(gè)使用習(xí)慣完全相同的用戶，那幾乎是不可能的事情。因此，我們可以把用戶的使用習(xí)慣作為判斷用戶身份的依據(jù)。

Web日志挖掘可以幫助我們收集用戶在瀏覽網(wǎng)頁(yè)時(shí)的個(gè)性化信息，它可以對(duì)存儲(chǔ)在客戶端、Web服務(wù)器端和代理服務(wù)器端中的服務(wù)器日志文件、Cookies、用戶注冊(cè)信息及用戶顯式輸入的數(shù)據(jù)等進(jìn)行挖掘處理，從中得到用戶的個(gè)性化信息，交給身份驗(yàn)證系統(tǒng)，來(lái)對(duì)用戶的身份進(jìn)行驗(yàn)證。決策樹算法是數(shù)據(jù)挖掘中一種非常重要的分類算法，我們可以利用決策樹算法，結(jié)合收集到的個(gè)性化信息，來(lái)對(duì)用戶的身份進(jìn)行驗(yàn)證。有了這兩種技術(shù)，就可以實(shí)現(xiàn)個(gè)性化身份驗(yàn)證了。在進(jìn)行系統(tǒng)設(shè)計(jì)時(shí)，可分為四個(gè)模塊，如下圖1所示。

圖1 個(gè)性化身份驗(yàn)證系統(tǒng)的模塊功能

數(shù)據(jù)收集模塊功能：主要是收集用戶的密碼輸入時(shí)間，用戶鼠標(biāo)的電擊習(xí)慣和用戶使用Web系統(tǒng)所產(chǎn)生的日志文件，把它們存儲(chǔ)到數(shù)據(jù)庫(kù)中。

數(shù)據(jù)預(yù)處理模塊功能：進(jìn)行數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別等操作，對(duì)日志中的數(shù)據(jù)進(jìn)行過(guò)濾，轉(zhuǎn)換成事務(wù)數(shù)據(jù)庫(kù)，方便下一階段使用。

模式挖掘模塊功能：對(duì)上一階段的數(shù)據(jù)進(jìn)行分析整理，建立用戶的個(gè)性化信息模型。

身份驗(yàn)證模塊：利用以前該用戶的個(gè)性化信息和數(shù)據(jù)庫(kù)中其他用戶的個(gè)性化信息來(lái)建立訓(xùn)練集和測(cè)試集，以次來(lái)建立決策樹，并用決策樹用戶的身份進(jìn)行二次驗(yàn)證。

2.1 數(shù)據(jù)收集模塊設(shè)計(jì)

本模塊又可以分成三個(gè)部分，分別是用戶密碼輸入時(shí)間的收集，鼠標(biāo)點(diǎn)擊習(xí)慣的收集和Web日志數(shù)據(jù)的收集。

2.1.1 用戶密碼輸入時(shí)間的收集

我們可以在服務(wù)器的登陸程序中加入一個(gè)腳本文件，通過(guò)腳本文件來(lái)收集用戶登陸時(shí)的密碼輸入時(shí)間。

2.1.2 鼠標(biāo)點(diǎn)擊習(xí)慣的收集

我們可以在服務(wù)器中加入一段程序代碼，通過(guò)其來(lái)記錄用戶登陸系統(tǒng)以后的鼠標(biāo)左右鍵使用習(xí)慣。

2.1.3 Web日志數(shù)據(jù)的收集

Web應(yīng)用系統(tǒng)是一個(gè)多層次的系統(tǒng)，包括客戶端，代理服務(wù)器端和Web服務(wù)器端，因此對(duì)日志數(shù)據(jù)的收集主要集中在客戶端，代理服務(wù)器端和Web服務(wù)器端進(jìn)行的。利用Web挖掘技術(shù)很容易就可以從日志文件中獲的我們所需要的信息。

2.2 數(shù)據(jù)預(yù)處理模塊設(shè)計(jì)

2.2.1 數(shù)據(jù)凈化

把Web日志文件中和本設(shè)計(jì)無(wú)關(guān)的數(shù)據(jù)刪除掉，同時(shí)把有用的數(shù)據(jù)轉(zhuǎn)換為相應(yīng)的格式。在這一階段，根據(jù)系統(tǒng)需要，我們需要建立幾張表結(jié)構(gòu)。

（1）用戶瀏覽網(wǎng)頁(yè)地址表

該表用來(lái)記錄從用戶第一次登陸以來(lái)到用戶最后一次登陸這段時(shí)間內(nèi)，所訪問(wèn)過(guò)的URL。這張表整個(gè)系統(tǒng)只有一張，表結(jié)構(gòu)如下所示：

表1 用戶瀏覽網(wǎng)頁(yè)記錄表

該表建立以后，當(dāng)有用戶登陸系統(tǒng)進(jìn)行瀏覽，如果是第一次瀏覽一個(gè)URL，就把該URL插入表中，如不是第一次，則在表中找到相應(yīng)記錄，把登陸次數(shù)加一，同時(shí)把訪問(wèn)時(shí)間加入到瀏覽時(shí)間中

（2）用戶密碼輸入時(shí)間表

該表用來(lái)記錄用戶每次登陸系統(tǒng)時(shí)輸入密碼的平均時(shí)間。該表結(jié)構(gòu)如下：

表2 用戶密碼輸入時(shí)間表

用戶在登陸系統(tǒng)時(shí)，系統(tǒng)記錄下用戶此次輸入密碼所用的時(shí)間T，再?gòu)谋碇腥〕鲇脩舻拿艽a輸入平均時(shí)間AT和登陸次數(shù)C，然后利用公式AT=（AT*C+T）/（C+1），重新計(jì)算出該用戶的密碼輸入平均時(shí)間，再存入該表中。

（3）鼠標(biāo)點(diǎn)擊習(xí)慣表

用來(lái)記錄用戶在操作鼠標(biāo)時(shí)，是喜歡雙擊鼠標(biāo)左鍵還是喜歡點(diǎn)擊鼠標(biāo)右鍵的情況的。用戶在注冊(cè)時(shí)，就需要提供自己的點(diǎn)擊習(xí)慣，該表結(jié)構(gòu)如下：

表3 鼠標(biāo)點(diǎn)擊習(xí)慣表

在點(diǎn)擊習(xí)慣這個(gè)屬性中，用0來(lái)表示雙擊左鍵，用1來(lái)表示點(diǎn)擊右鍵。

（4）用戶日志表

該表用來(lái)記錄從Web服務(wù)器日志文件中獲取的一些用戶信息。這張表中的數(shù)據(jù)來(lái)源于客戶端日志和服務(wù)器日志文件，也可以是用戶在注冊(cè)賬戶的填入。該表結(jié)構(gòu)如下所示：

表4 用戶日志表

2.2.2 用戶識(shí)別

要識(shí)別出每個(gè)用戶并不是一件簡(jiǎn)單的事情，由于防火墻，代理服務(wù)器等的存在，使得我們很難去識(shí)別一個(gè)用戶。一般來(lái)說(shuō)，人們?cè)谧R(shí)別的過(guò)程中，經(jīng)常會(huì)遇到多個(gè)用戶用同一IP訪問(wèn)服務(wù)器，同一用戶用多個(gè)IP訪問(wèn)服務(wù)器等問(wèn)題，因此識(shí)別用戶的身份就比較困難。本文所采用的解決方法是根據(jù)表4中的后四個(gè)屬性值來(lái)進(jìn)行用戶識(shí)別的，如果四個(gè)屬性值有三個(gè)是一致的，那我們就可以識(shí)別用戶了。用戶識(shí)別以后，我們?cè)侔言撚脩舻氖褂眯畔⒎謩e存儲(chǔ)在上文建立的表1到表4中。

2.2.3 會(huì)話識(shí)別

會(huì)話指用戶對(duì)服務(wù)器的一次有效訪問(wèn)。日志文件中不同用戶訪問(wèn)的頁(yè)面屬于不同的會(huì)話。會(huì)話識(shí)別就是把一系列的頁(yè)面訪問(wèn)劃分成獨(dú)立的會(huì)話，用戶會(huì)話識(shí)別是否準(zhǔn)確直接決定了后續(xù)的挖掘結(jié)果，一般我們通過(guò)設(shè)置一個(gè)timeout值來(lái)判斷會(huì)話是否結(jié)束。如果用戶訪問(wèn)的時(shí)間差超過(guò)了這個(gè)值，那我們就認(rèn)為該用戶開始了一個(gè)新的會(huì)話。

會(huì)話識(shí)別后，把識(shí)別的所有用戶會(huì)話存儲(chǔ)在數(shù)據(jù)庫(kù)中。表的格式如下：

表5 用戶會(huì)話表

2.2.4 路徑補(bǔ)全

用戶在瀏覽的時(shí)候有可能會(huì)使用瀏覽器上的后退功能，這就造成了用戶訪問(wèn)的當(dāng)前頁(yè)和上一次訪問(wèn)的頁(yè)面之間沒有直接的超鏈接關(guān)系。如何解決這個(gè)問(wèn)題呢？我們可以這樣做：根據(jù)Web日志中的引用頁(yè)cs字段，確定當(dāng)前訪問(wèn)的頁(yè)面來(lái)自于哪一頁(yè)，如果用戶的歷史訪問(wèn)記錄有多個(gè)頁(yè)面和當(dāng)前訪問(wèn)頁(yè)面有引用關(guān)系，則將訪問(wèn)時(shí)間最接近當(dāng)前頁(yè)的頁(yè)面作為當(dāng)前請(qǐng)求的來(lái)源，將Web日志中遺漏的頁(yè)面補(bǔ)充在路徑中。例如在會(huì)話Y1-Y40-Y260-Y270-Y300中，從頁(yè)面Y260到頁(yè)面Y270沒有直接的超鏈接，通過(guò)查找Web日志文件中的cs-uri-stem字段與其對(duì)應(yīng)的cs字段，可知道當(dāng)前頁(yè)的引用頁(yè)是Y40，路徑補(bǔ)全后的會(huì)話為Y1-Y40-Y260-Y40-Y270-Y300。

2.3 模式挖掘模塊設(shè)計(jì)

本文中模式挖掘模塊的作用就是從數(shù)據(jù)預(yù)處理階段所得到的數(shù)據(jù)中提取出可以用來(lái)進(jìn)行個(gè)性化身份認(rèn)證的信息，并把這些數(shù)據(jù)組織起來(lái)，交給身份驗(yàn)證模塊來(lái)進(jìn)行下一步處理。

該模塊的數(shù)據(jù)來(lái)源就是我們上一階段所提到的那幾張表格，那么這些表中的那些數(shù)據(jù)是我們需要的呢？我們來(lái)分析一下。

首先，我們來(lái)看下用戶的密碼輸入時(shí)間。用戶的密碼輸入時(shí)間一般都是固定，上下在1秒之內(nèi)變化。當(dāng)用戶的密碼被非法用戶竊取后，由于非法用戶對(duì)于密碼的不熟悉，在登陸系統(tǒng)時(shí)，密碼輸入時(shí)間肯定和該用戶的密碼輸入時(shí)間差異比較大，因此我們可以把密碼輸入時(shí)間來(lái)作為判斷用戶身份的一個(gè)指標(biāo)。如果密碼輸入時(shí)間比規(guī)定時(shí)間相差2秒以上，那我們就可以認(rèn)為此次登陸用戶的這項(xiàng)指標(biāo)不合格。

接著，我們來(lái)看下用戶的鼠標(biāo)點(diǎn)擊習(xí)慣。有的用戶喜歡雙擊鼠標(biāo)左鍵來(lái)執(zhí)行一個(gè)文件，而有的用戶則喜歡通過(guò)鼠標(biāo)右鍵來(lái)執(zhí)行一個(gè)文件。而且用戶的點(diǎn)擊習(xí)慣一旦確定以后，就很少發(fā)生改變，因此，如果系統(tǒng)監(jiān)測(cè)出一個(gè)用戶使用雙擊左鍵，另一個(gè)用戶使用鼠標(biāo)右鍵來(lái)執(zhí)行，那我們就可以基本上判斷兩個(gè)用戶不是同一個(gè)用戶。因此，鼠標(biāo)點(diǎn)擊習(xí)慣也可以做為判斷用戶身份的一個(gè)指標(biāo)。

我們?cè)賮?lái)看下表5中的用戶IP地址、操作系統(tǒng)類型、瀏覽器類型以及主機(jī)名這四個(gè)字段。一般來(lái)說(shuō)，用戶的IP的地址都是位于一個(gè)IP地址段的，不同地方的用戶，它的IP地址段一般不同，但同一個(gè)地方的用戶，他們的IP地址段就有可能相同，因次，我們可以把利用它來(lái)對(duì)用戶進(jìn)行識(shí)別，但區(qū)分度不大。操作系統(tǒng)類型和瀏覽器類型，對(duì)于這兩個(gè)字段，大部分的用戶所使用的都是一樣的，但也有不同的，所以這兩個(gè)字段的區(qū)分度也不大。最后一個(gè)字段，主機(jī)名。用戶有可能使用不同的計(jì)算機(jī)來(lái)登陸系統(tǒng)，因此，這一個(gè)的區(qū)分度也不大。但是，如果我們把這四個(gè)綜合起來(lái)一起進(jìn)行判斷的話，它的區(qū)分度還是比較好的。我們把這四個(gè)字段合在一起，稱為常用計(jì)算機(jī)情況，構(gòu)成一個(gè)指標(biāo)，如果四個(gè)都正確的話，我們就可以認(rèn)為這一個(gè)指標(biāo)是合格的，否則，只要有一個(gè)不正確，我們就認(rèn)為這個(gè)指標(biāo)是不合格的。

最后我們來(lái)看下用戶瀏覽網(wǎng)頁(yè)的記錄。絕大部分的用戶在上機(jī)第一個(gè)瀏覽網(wǎng)頁(yè)時(shí)所訪問(wèn)的第一個(gè)網(wǎng)頁(yè)都是固定的幾個(gè)網(wǎng)頁(yè)，在一個(gè)很小的范圍內(nèi)。不同的用戶上機(jī)時(shí)第一個(gè)瀏覽的網(wǎng)頁(yè)大都是不同的，因此，我們可以把用戶第一個(gè)瀏覽的網(wǎng)頁(yè)作為一個(gè)指標(biāo)。用戶的興趣愛好也是有差別的，有的用戶喜歡瀏覽小說(shuō)網(wǎng)頁(yè)，有的喜歡瀏覽電影信息，有的喜歡瀏覽新聞等等，因此，也可以用戶瀏覽時(shí)間最長(zhǎng)的網(wǎng)頁(yè)作為一個(gè)指標(biāo)，來(lái)對(duì)用戶的身份進(jìn)行驗(yàn)證。

通過(guò)上面的分析，我們得到了五個(gè)用來(lái)進(jìn)行身份驗(yàn)證的指標(biāo)，分別是用戶密碼輸入時(shí)間，鼠標(biāo)點(diǎn)擊習(xí)慣、常用計(jì)算機(jī)習(xí)慣、第一個(gè)瀏覽的網(wǎng)頁(yè)和瀏覽時(shí)間最長(zhǎng)的網(wǎng)頁(yè)。我們下一步所要做的操作就是怎樣把這些數(shù)據(jù)組織成決策樹所能使用的屬性。

我們可以根據(jù)用戶ID，每個(gè)用戶都創(chuàng)建一張表，表名就是用戶登陸名，結(jié)構(gòu)如下所示：

表6 用戶決策樹屬性表

下面我們來(lái)看下表6中記錄的生成。

當(dāng)用戶登陸進(jìn)入系統(tǒng)，在規(guī)定時(shí)間后，就要對(duì)用戶身份進(jìn)行二次驗(yàn)證。

第一步、根據(jù)用戶ID，找到和該用戶對(duì)應(yīng)的表6，在該表中生成一條空白記錄。在用戶身份字段插入1。

第二步、根據(jù)用戶ID，在表4中找到該用戶ID對(duì)應(yīng)的記錄，把該記錄的用戶IP地址、操作系統(tǒng)、瀏覽器和主機(jī)名這四個(gè)字段值和我們收集的個(gè)性化信息進(jìn)行比較，如果這四個(gè)字段值都一樣，就在表6中的常用計(jì)算機(jī)情況字段插入1，否則插入0。

第三步、根據(jù)用戶ID，在表3中找到該用戶ID對(duì)應(yīng)的記錄，把該記錄點(diǎn)擊習(xí)慣字段值插入表6的鼠標(biāo)點(diǎn)擊習(xí)慣字段。

第四步、根據(jù)用戶ID，在表2中找到該用戶ID對(duì)應(yīng)的記錄，把該記錄平均輸入時(shí)間字段值和此次我們所收集到的密碼輸入時(shí)間進(jìn)行比較，如果上下差別在2秒左右，就在表6的用戶密碼輸入時(shí)間字段插入1，否則，插入0。

第五步、對(duì)表1中的記錄按照用戶ID字段和瀏覽次數(shù)字段進(jìn)行進(jìn)行分類匯總，然后根據(jù)用戶ID，在表1中找到該用戶ID對(duì)應(yīng)的第一條記錄，把該記錄URL地址字段值和此次我們收集到的用戶瀏覽的第一個(gè)網(wǎng)頁(yè)的URL地址相比較，如果相等，在表6中第一個(gè)瀏覽的網(wǎng)頁(yè)字段插入1，否則插入0。

第六步、對(duì)表1中的記錄按照用戶ID字段和瀏覽時(shí)間字段進(jìn)行進(jìn)行分類匯總，然后根據(jù)用戶ID，在表1中找到該用戶ID對(duì)應(yīng)的第一條記錄，把該記錄URL地址字段值和此次我們收集到的用戶瀏覽時(shí)間最長(zhǎng)的網(wǎng)頁(yè)的URL地址相比較，如果相等，在表6中瀏覽時(shí)間最長(zhǎng)的網(wǎng)頁(yè)字段插入1，否則，插入0。

2.4 身份驗(yàn)證模塊設(shè)計(jì)

2.4.1 訓(xùn)練集和測(cè)試集的生成

我們先建立一樣表train，該表的結(jié)構(gòu)和表6一樣。然后我們把該用戶對(duì)應(yīng)的表6中的記錄全部插入到表train中，再?gòu)姆?wù)器中其他用戶對(duì)應(yīng)的表6中，每張表隨機(jī)抽取若干條記錄，每條記錄的用戶身份字段值都改為0，也插入到表6中，就構(gòu)成了訓(xùn)練集train。測(cè)試集test的生成方法和訓(xùn)練集的生成方法一樣，按照同樣步驟，我們?cè)偕蓽y(cè)試集test。

2.4.2 生成決策樹

本文采用的算法是經(jīng)典的ID3算法，下面我們來(lái)看下該算法的描述：

輸入：訓(xùn)練樣本集train，由離散值屬性表示；候選屬性集合attribute_list

輸出：一棵決策樹

算法：

（1）創(chuàng)建節(jié)點(diǎn) N

（2）if train都在同一類C then

（3）返回N作為葉節(jié)點(diǎn)，以類C標(biāo)記；

（4）if attribute_list為空 then

（5）返回N作為葉節(jié)點(diǎn)，標(biāo)記為train中最普遍的類；

（6）選擇attribue_list中具有最高信息增益的屬性branch_attribute；

（7）標(biāo)記結(jié)點(diǎn) N 為 branch_attribute；

（8）For each branch_attribute中的已知值 ai

（9）由節(jié)點(diǎn)N生成一個(gè)條件為branch_att ribute=ai的分支；

（10）設(shè) Si是 train 中 branch_attribute=ai的樣本的集合；

（11）if Si為空 then

（12）加上一個(gè)樹葉，標(biāo)記為train中最普遍的類；

（13）else 加上一個(gè)由 Generate_decision（Si，attribute_list，branch_attribute）返回的節(jié)點(diǎn)

3 結(jié)束語(yǔ)

本文主要介紹了一種新的認(rèn)證技術(shù)，個(gè)性化身份認(rèn)證技術(shù)。它彌補(bǔ)了傳統(tǒng)認(rèn)證技術(shù)只對(duì)用戶進(jìn)行一次驗(yàn)證的不足，在用戶登陸系統(tǒng)以后對(duì)其進(jìn)行了二次驗(yàn)證，給用戶的安全又添加了一道防線。

[1]Pitkow J.In search of reliable usage data on the WWW.6th Int.World Wide Web Conf.，Santa Clara，California，1997：1343-1355.

[2]涂承勝，魯明羽，陸玉昌.Web內(nèi)容挖掘技術(shù)研究[J].計(jì)算機(jī)應(yīng)用研究，2003，11：5-9.

[3]Perkowitz M，Etzioni O.Adaptive sites：automatically learning from user access patterns.6th Int.World Wide Web Conf.，Santa Clara，California，1997.

[4]蔣外文，喻興標(biāo)，熊東平.Web 使用挖掘研究[J].微機(jī)發(fā)展，2005，15（8）：37-40.

[5]Jiawei Han，MichelineKarnber著，范明等譯，數(shù)據(jù)挖掘概念和技術(shù)[M].北京：機(jī)械工業(yè)出版社，2007.

AN ANT COLONY ALGORITHM BASED IMPROVEMENT FOR TSP SOLUTIONS

XU Xu1，2HOU Chuan-yu2
（1 Hefei University of Technology school of computer&Information ，Hefei Anhui 230009）
（2 Institute of Information Engineering Suzhou University，Suzhou Anhui 234000）

Authentication is an important issue in network security，Sexual services is a popular information technology，This combination of Web log mining and decision tree classification of knowledge in these two areas，a new authentication，personalized authentication，after the user login system can be a secondary verification of their identity.

Authentication； Web log mining； decision tree

TP393.081

1672－2868（2010）06－0025－05

2010－09-06

安徽省高校優(yōu)秀青年人才基金項(xiàng)目（項(xiàng)目編號(hào)：2010SQRL193）

徐旭（1981-），男，安徽宿州人。講師，碩士研究生，研究方向：Web數(shù)據(jù)挖掘

責(zé)任編輯：陳侃