亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的學(xué)習(xí)者身份異常檢測

        2011-09-04 06:09:42董云耀
        關(guān)鍵詞:置信度數(shù)據(jù)挖掘關(guān)聯(lián)

        董云耀,黃 煒

        (杭州電子科技大學(xué)計算機應(yīng)用技術(shù)研究所,浙江杭州310018)

        0 引言

        網(wǎng)絡(luò)學(xué)習(xí)者的身份識別是當(dāng)前網(wǎng)絡(luò)安全方面的研究熱點,目前較為可靠的識別方式是諸如人臉實時監(jiān)控[1]的監(jiān)督式方式。但此類識別的成本較高,普及也較困難,而且也不能脫離人力監(jiān)督的環(huán)境?;跀?shù)據(jù)挖掘的學(xué)習(xí)者身份識別思想的提出,正是為了克服上述的缺點,它是一種在學(xué)習(xí)者不知情的情況下的無監(jiān)督式的識別技術(shù),尤其適合于諸如在線學(xué)習(xí)系統(tǒng)等場合。行為模式是人們在進行某一方面活動時所體現(xiàn)出的某種規(guī)律性。由大量實踐經(jīng)驗得出,學(xué)習(xí)者的行為規(guī)律往往反映了其身份特征,且行為之間也會帶有某種規(guī)律性的聯(lián)系,而這些具有規(guī)律性的行為可被反映成行為模式。數(shù)據(jù)挖掘是指通過分析數(shù)據(jù),挖掘數(shù)據(jù)中隱含的模式。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到身份識別中[2],對學(xué)習(xí)者留下的一系列行為數(shù)據(jù)進行挖掘,就能得到學(xué)習(xí)者的行為模式。本文提出了一種基于數(shù)據(jù)挖掘的學(xué)習(xí)者身份真實性判斷方法,通過比較學(xué)習(xí)者的當(dāng)前行為,可以檢測出身份的異常。

        1 分類算法概述

        分類是最常見的數(shù)據(jù)挖掘任務(wù)之一,它指基于一個可預(yù)測屬性把事例分成多個類別,每個事例包含一組屬性,其中有一個可預(yù)測屬性。分類任務(wù)要求找到一個模型,該模型將類別屬性定義為輸入屬性的函數(shù)。典型的分類算法有決策樹算法、貝葉斯算法和神經(jīng)網(wǎng)絡(luò)算法。

        決策樹的基本原理是遞歸地將數(shù)據(jù)拆分成子集,以便每一個子集包含目標(biāo)變量類似的狀態(tài)。每一次對樹進行拆分,都要評價所有的輸入屬性對可預(yù)測屬性的影響。對事例進行預(yù)測的過程是從根節(jié)點到葉節(jié)點的路徑,所選擇的路徑基于決策樹中節(jié)點的拆分條件。

        貝葉斯分類法是統(tǒng)計學(xué)分類方法,可以預(yù)測類成員關(guān)系的可能性。經(jīng)分類算法的比較研究發(fā)現(xiàn),一種稱作樸素貝葉斯分類法的簡單貝葉斯分類算法可以與決策樹和經(jīng)過挑選的神經(jīng)網(wǎng)絡(luò)分類算法相媲美。貝葉斯分類基于貝葉斯定理,使用條件概率和無條件概率的組合對輸入屬性和輸出屬性之間的相關(guān)性進行計數(shù)。

        神經(jīng)網(wǎng)絡(luò)主要解決數(shù)據(jù)挖掘的分類和回歸任務(wù),它包含一組節(jié)點和邊,節(jié)點的類型有3種:輸入、隱含和輸出。每條邊都通過一個相關(guān)聯(lián)的權(quán)值來連接兩個節(jié)點,邊的方向代表預(yù)測過程中的數(shù)據(jù)流。輸入事例的屬性值被規(guī)范化后,被映射到輸入層的神經(jīng)元,然后每個隱含層的節(jié)點會處理輸入,觸發(fā)一個輸出到后面的層中,最后輸出神經(jīng)元開始處理和生成一個輸出值。

        2 Apriori關(guān)聯(lián)算法

        利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則可以挖掘出學(xué)習(xí)者的行為模式。關(guān)聯(lián)規(guī)則的重要概念包括支持度和置信度??紤]項集{A,B},采用的支持度和置信度為:

        式中,N代表總的記錄個數(shù),N(A,B)代表記錄中A和B同時出現(xiàn)的記錄數(shù)。

        Apriori算法是經(jīng)典的數(shù)據(jù)挖掘關(guān)聯(lián)分析算法,可以有效挖掘出數(shù)據(jù)集中不同項之間的關(guān)系。本文借鑒了Apriori算法思想,提出了一種利用置信度產(chǎn)生異常正向規(guī)則集合的身份真實性判斷方法,使在線學(xué)習(xí)者的身份異常檢測成為可能。

        3 學(xué)習(xí)者身份異常檢測原理

        3.1 原理描述

        利用數(shù)據(jù)挖掘技術(shù)中的分類算法,通過對數(shù)據(jù)集的挖掘,來提取出有用的模式,就能對學(xué)習(xí)者的身份進行分類預(yù)測。為避免預(yù)測帶來的魯莽性,對于身份預(yù)測的結(jié)果,我們還要進行最后的關(guān)聯(lián)分析,以確保身真實性檢測的準(zhǔn)確性。如若學(xué)習(xí)者的當(dāng)前行為項中出現(xiàn)問答頻率高?擅長題型為客觀題這一項,其含義為學(xué)習(xí)者在學(xué)習(xí)時積極問答,而最終考試時主觀題答得很不好,若關(guān)聯(lián)行為模式中出現(xiàn)這一項的概率僅為2%,則有理由懷疑其身份的真實性。

        雖然異常行為并不一定意味身份冒充行為,但至少可以引起監(jiān)管人員的關(guān)注,當(dāng)異常較大時,則有充足的理由對其身份的真實性產(chǎn)生懷疑。

        3.2 行為模式挖掘

        本文設(shè)定的項集為 I(i1,i2,i3,i4,i5,i6),其中,i1為答題速度,i2為關(guān)聯(lián)掌握,i3為問答頻率,i4為擅長題型,i5為平時成績,i6為最終成績。

        利用數(shù)據(jù)挖掘技術(shù)的分類算法,通過訓(xùn)練所有學(xué)習(xí)者留下的數(shù)據(jù)集,可以得到學(xué)習(xí)者的行為模式,即身份預(yù)測模型。利用數(shù)據(jù)挖掘技術(shù)的關(guān)聯(lián)規(guī)則算法,通過真實的學(xué)習(xí)者與考核者留下的訓(xùn)練集,可以產(chǎn)生異常的規(guī)則集合。

        和Apriori算法不同,要得到學(xué)習(xí)者的異常關(guān)聯(lián)行為模式,不僅要考慮頻繁項集,也要考慮非頻繁項集。且只考慮i1?i2的置信度,而不用再考慮i2?i1的置信度,因為行為項往往具有方向聯(lián)系性,可由知識專家(如教師)進行選擇和排序,當(dāng)行為項i1能很好地反映i2時,就只考慮i1?i2的置信度,而不用再考慮i2?i1的置信度,這樣降低了復(fù)雜性,能更好地反映學(xué)習(xí)者內(nèi)在的行為關(guān)聯(lián)模式。另外,排除一對多的關(guān)聯(lián),即不考慮(i1?i2,i3),因為那樣會使原有內(nèi)在行為關(guān)聯(lián)模式趨向模糊。所以有如下的定義:

        定義 1 正向規(guī)則集合 Pn(i1,i2,…,in)={(i1?i2),…,(i1?in),(i2?in),…,(in-1?in)},(i1?i2)表示i1取各個屬性值v1時與i2取各個屬性值v2時的關(guān)聯(lián)集合。例如,當(dāng)i1、i2的屬性值都可取0或1 時,則(i1?i2)=(i1=0?i2=0,i1=0?i2=1,i1=1?i2=0,i1=1?i2=1);

        定義2 異常正向規(guī)則集合Ps,它為置信度低于閾值PJudge的正向規(guī)則集合,可以反映學(xué)習(xí)者的異常關(guān)聯(lián)行為;

        定義3 置信度比較函數(shù)。

        式中,Pi為當(dāng)前正向規(guī)則集合,Ps為異常正向規(guī)則集合(即學(xué)習(xí)者的異常關(guān)聯(lián)行為模式),函數(shù)值為1表示當(dāng)前學(xué)習(xí)者存在異常行為模式,值為0則表示無異常。

        4 實驗及分析

        實驗測試平臺為利用ASP.NET開發(fā)的《計算機網(wǎng)絡(luò)課程》在線學(xué)習(xí)系統(tǒng),測試項為由該系統(tǒng)產(chǎn)生的200份學(xué)習(xí)與考核數(shù)據(jù),其中100份為本人學(xué)習(xí)本人考試數(shù)據(jù),另外100份為本人學(xué)習(xí)他人考試數(shù)據(jù)。平時成績由每章測試中反映出,關(guān)聯(lián)掌握從每節(jié)測試、每章測試中反映出(每章測試中包含每節(jié)測試相同或相似的題目),擅長題型從每節(jié)過關(guān)測試、每章測試中反映出,問答頻率從系統(tǒng)設(shè)置的問答系統(tǒng)中反映出,最終成績從最終考核測試中反映出。

        分別用3種分類算法對200份數(shù)據(jù)集建立預(yù)測模型,再進行身份預(yù)測,最終情況如表1所示。

        表13 種分類算法預(yù)測情況對比 (%)

        可以發(fā)現(xiàn)決策樹的預(yù)測情況最好。分析其原因為:貝葉斯算法假定了輸入屬性的相互獨立性,而學(xué)習(xí)者行為項往往具有聯(lián)系性;神經(jīng)網(wǎng)絡(luò)算法最適用于分析復(fù)雜的非線性關(guān)系,而本文中學(xué)習(xí)者的行為項可看做是線性關(guān)系。

        為避免預(yù)測帶來的魯莽性,對于身份預(yù)測的結(jié)果,還要進行最后的關(guān)聯(lián)檢測,以確保身份驗證的準(zhǔn)確性。利用100份本人學(xué)習(xí)與本人考試數(shù)據(jù),首先由異常正向規(guī)則集合Ps產(chǎn)生過程(取閾值PJudge=0.08)計算得出:置信度(問答頻率高?擅長題型客觀題)=0.07,置信度(問答頻率高,關(guān)聯(lián)掌握好?最終成績差)=0.08,置信度(平時成績差,關(guān)聯(lián)掌握不好?最終成績好)=0.05。由此得到Ps{問答頻率高?擅長題型客觀題,問答頻率高,關(guān)聯(lián)掌握好?最終成績差,平時成績差,關(guān)聯(lián)掌握不好?最終成績好}。

        最后利用置信度比較函數(shù)P_Com(Pi,Ps)對預(yù)測結(jié)果進行檢測,最終結(jié)果如表2所示。

        表2 先分類預(yù)測后關(guān)聯(lián)檢測情況對比 (%)

        加上關(guān)聯(lián)分析的檢測后,對于決策樹分類預(yù)測,雖然100份真正確預(yù)測率稍有減少,但100份假正確預(yù)測率大幅度提高了,總體的預(yù)測正確率也大幅度提高了。

        5 結(jié)束語

        學(xué)習(xí)者的身份異常檢測涉及到數(shù)據(jù)挖掘技術(shù)中的分類算法和關(guān)聯(lián)規(guī)則算法。只用分類算法不能消除單一身份驗證存在的誤差,加上關(guān)聯(lián)規(guī)則算法的進一步檢測可提高身份驗證的準(zhǔn)確性。實驗表明,利用數(shù)據(jù)挖掘技術(shù)對學(xué)習(xí)者的行為進行挖掘,可以有效發(fā)現(xiàn)其行為模式。采用分類和關(guān)聯(lián)規(guī)則相結(jié)合的預(yù)測算法,則為準(zhǔn)確判斷用戶身份提供了可能。檢測過程也有值得商榷的地方,比如是否還需考慮題目難度對學(xué)習(xí)者身份的影響、使用置信度判別時閾值的確定等,如何接近100%的身份真實性判斷還有待進一步的研究。

        [1] 江林升.實時人臉識別在網(wǎng)絡(luò)化考試身份認(rèn)證中的應(yīng)用[J].中國電化教育(自然科學(xué)版),2010,37(8):117-120.

        [2] Lee Wenke,Stolfo S J,Mok K W.A Data Mining Framework for Building Intrusion Detection Models[A].Proceedings of the 1999 IEEE Symposium on Security and Privacy[C].Berkely California,1999:120 -132.

        [3] ZhaoHui Tang,Jamie MacLennan.Data Mining with SQL Server 2005[M].北京:清華大學(xué)出版社,2007:191-205.

        [4] 武小年,周勝源.數(shù)據(jù)挖掘在用戶行為可信研究中的應(yīng)用[J].信息安全與通信保密,2009,15(8):243-245.

        [5] 李佟鴻,麥永浩.數(shù)據(jù)挖掘在網(wǎng)絡(luò)取證中的應(yīng)用方法研究[J].技術(shù)研究與應(yīng)用,2008,24(8):54-56.

        [6] 何典,宋中山.基于Web挖掘的個性化網(wǎng)絡(luò)教育研究[J].計算機與現(xiàn)代化,2005,12(5):100-101.

        猜你喜歡
        置信度數(shù)據(jù)挖掘關(guān)聯(lián)
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        “一帶一路”遞進,關(guān)聯(lián)民生更緊
        正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
        奇趣搭配
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        久久久9色精品国产一区二区三区| 有坂深雪中文字幕亚洲中文| 狠狠综合亚洲综合亚洲色| 人妻体内射精一区二区三区| 黑人巨茎大战俄罗斯美女| 亚洲av日韩av无码污污网站| 欧美尺寸又黑又粗又长| 亚洲日韩欧美一区二区三区| 亚洲国产成人精品福利在线观看| 扒开非洲女人大荫蒂视频| 国产视频一区二区三区久久亚洲| 高黄暴h日本在线观看| 亚洲丁香五月天缴情综合| 欧美情侣性视频| 亚洲AV秘 无码二区在线| 日美韩精品一区二区三区| 日本免费大片一区二区| 特级无码毛片免费视频尤物| 亚洲AV综合久久九九| 92自拍视频爽啪在线观看| 人妻少妇中文字幕,久久精品| 一二三四区中文字幕在线| 99精品国产一区二区三区a片| 亚洲AV永久青草无码性色av| 亚洲国产线茬精品成av| 国产亚洲熟妇在线视频| 日韩夜夜高潮夜夜爽无码 | 国产精品亚洲一区二区麻豆| 欧美真人性野外做爰| 精品久久久噜噜噜久久久| 最新日韩av在线不卡| 风韵丰满妇啪啪区老老熟女杏吧| 人妻人妇av一区二区三区四区| 日韩人妻另类中文字幕| 特级婬片国产高清视频| 亚洲欧美日韩国产色另类 | 亚洲女同系列在线观看| 好男人社区影院www| 91精品视品在线播放| 中文字幕在线观看乱码一区| 国产午夜福利在线观看中文字幕|