亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合特征值的托攻擊檢測(cè)算法

        2021-10-28 05:08:58雷夢(mèng)寧丁愛玲王新美韓佳倩
        關(guān)鍵詞:特征用戶檢測(cè)

        雷夢(mèng)寧,丁愛玲,王新美,韓佳倩,曹 苗

        (長安大學(xué) 信息工程學(xué)院,陜西 西安 710061)

        0 引 言

        互聯(lián)網(wǎng)時(shí)代的迅速發(fā)展,使“信息過載”現(xiàn)象愈發(fā)嚴(yán)重,尋找一種可以辨別有效信息的手段至關(guān)重要。隨著用戶對(duì)信息篩選的需求,搜索引擎應(yīng)運(yùn)而生,其通過在特定位置輸入一些簡單的關(guān)鍵詞尋找與該關(guān)鍵詞相關(guān)的信息。但其提供的海量信息仍需用戶消耗大量時(shí)間精力去篩選。

        推薦系統(tǒng)(recommender systems)[1-4]的出現(xiàn)有效緩解了信息過多帶來的影響,其能夠在海量的搜索結(jié)果中,依據(jù)用戶的瀏覽記錄、行為習(xí)慣、興趣愛好等記錄進(jìn)行分析,為用戶推薦最符合搜索預(yù)期的信息,從而縮短用戶尋找有效信息的時(shí)間,為客戶信息檢索帶來了極大的便利。其中,協(xié)同過濾(collaborative filtering,CF)作為推薦系統(tǒng)中最為有效的手段之一,廣泛應(yīng)用于生活中的各種領(lǐng)域,如Facebook、YouTube等。

        推薦系統(tǒng)依靠其龐大的用戶群體來為客戶推薦較為準(zhǔn)確的信息,一些商家利用該系統(tǒng)的開放性,通過注入大量攻擊概貌[5]影響系統(tǒng)推薦結(jié)果,以此來提高或降低商品的系統(tǒng)推薦頻率,從而謀取暴利。這種行為被稱為托攻擊(shilling attacks)[6-7]。其不正當(dāng)?shù)纳虡I(yè)競爭行為造成系統(tǒng)推薦信息虛假或精確度不高等影響,偏離客戶搜索預(yù)期。因此對(duì)托攻擊進(jìn)行防范檢測(cè)具有重大的意義。

        現(xiàn)有的托攻擊檢測(cè)方法對(duì)基本托攻擊模型檢測(cè)效果明顯,文獻(xiàn)[8-9]提出了一種基于特征分析的托攻擊檢測(cè)算法,可以針對(duì)不同類型的托攻擊選取有效的檢測(cè)指標(biāo),通過托攻擊檢測(cè)指標(biāo)識(shí)別出攻擊用戶。但該方法不適合用在復(fù)雜的攻擊模型下。文獻(xiàn)[10]對(duì)推薦系統(tǒng)中現(xiàn)有的托攻擊檢測(cè)技術(shù)和魯棒性能進(jìn)行了分析,發(fā)現(xiàn)現(xiàn)有的檢測(cè)算法大多是基于評(píng)分值差異提取的特征,容易造成誤判率過高的問題。

        受此啟發(fā),文中針對(duì)用戶選擇評(píng)分項(xiàng)目方式的不同,提出了一種基于混合特征值的托攻擊檢測(cè)算法。該算法考慮到項(xiàng)目流行度和新穎度的特性,選擇了五項(xiàng)特征檢測(cè)指標(biāo)構(gòu)建特征模型對(duì)托攻擊進(jìn)行檢測(cè)。最后,通過在MovieLens數(shù)據(jù)集上的實(shí)驗(yàn),驗(yàn)證該特征模型可以有效檢測(cè)出攻擊用戶。

        1 相關(guān)工作

        1.1 攻擊概貌

        攻擊概貌由攻擊者的所有評(píng)分構(gòu)成,包括四個(gè)部分[7]:填充項(xiàng)目集、選擇填充項(xiàng)目集、未評(píng)分項(xiàng)目填充集、目標(biāo)項(xiàng)目集。填充項(xiàng)目是攻擊者選取其他評(píng)分項(xiàng)目進(jìn)行填充,填充項(xiàng)往往是隨機(jī)的,可以掩護(hù)目標(biāo)項(xiàng)目躲避檢測(cè)。選擇填充項(xiàng)目是特定的,由攻擊者精心挑選,進(jìn)行有效攻擊。即攻擊用戶除對(duì)目標(biāo)項(xiàng)目進(jìn)行評(píng)分外,還對(duì)其他項(xiàng)目進(jìn)行評(píng)分,使得攻擊用戶與正常用戶更加接近,增加檢測(cè)難度。攻擊概貌的結(jié)構(gòu)如表1所示。

        表1 攻擊概貌的結(jié)構(gòu)

        1.2 攻擊類型

        文獻(xiàn)[11]提出了隨機(jī)攻擊和均值攻擊,其為兩種基本的標(biāo)準(zhǔn)攻擊模型,文獻(xiàn)[12-13]提出了流行攻擊、分段攻擊和love/hate攻擊。Gunes等[14]在流行攻擊基礎(chǔ)上,討論了逆流行攻擊等混淆攻擊。不同攻擊模型對(duì)推薦系統(tǒng)評(píng)分集所需的先驗(yàn)知識(shí)不同。表2列出了4種常見攻擊模型的生成策略,其中IS代表選擇填充項(xiàng)目集,IF代表填充項(xiàng)目集,IT代表目標(biāo)項(xiàng)目集。

        表2 四種攻擊模型

        表中,rmax表示在評(píng)分時(shí)給予最高分,rmin表示給予最低分,rrandom表示隨機(jī)評(píng)分,raverage表示均值評(píng)分。由表2可以觀察到,不同攻擊模式的主要區(qū)別在于對(duì)裝填項(xiàng)目的評(píng)分方式不同。

        根據(jù)攻擊用戶信息的生成策略可知,攻擊用戶與真實(shí)用戶不同之處主要體現(xiàn)在3個(gè)方面:①目標(biāo)項(xiàng)目的評(píng)分;②填充項(xiàng)目的評(píng)分;③由于所有的攻擊用戶信息采用同樣的生成策略,致使攻擊用戶信息之間具有高度的相似性。文中利用以上數(shù)據(jù)差異生成統(tǒng)計(jì)特征,提出基于混合特征的攻擊檢測(cè)算法,以此區(qū)分正常用戶與攻擊用戶。

        1.3 托攻擊檢測(cè)指標(biāo)

        特征指標(biāo)用于捕捉攻擊用戶與正常用戶在評(píng)分方式上的差異。文獻(xiàn)[15-16]中定義的9個(gè)統(tǒng)計(jì)量從不同角度反映了攻擊用戶概貌有別于真實(shí)用戶概貌的特征。

        文獻(xiàn)[8]針對(duì)流行攻擊對(duì)統(tǒng)計(jì)量進(jìn)行了研究,給出了有效檢測(cè)指標(biāo)排行,文中選擇其前三項(xiàng)作為檢測(cè)指標(biāo),如下所示:

        (1)K近鄰用戶相似度(DegSim)。

        在進(jìn)行托攻擊時(shí),大量注入系統(tǒng)的攻擊概貌往往具有相同的攻擊模型,具有數(shù)量大,相似度高的特點(diǎn),故攻擊用戶的此項(xiàng)特征值比真實(shí)用戶高。DegSim的計(jì)算公式如下:

        (1)

        (2)均值方差(MeanVar)。

        對(duì)用戶評(píng)分項(xiàng)目進(jìn)行均值方差運(yùn)算,體現(xiàn)用戶模型評(píng)分項(xiàng)目與所有評(píng)分項(xiàng)目平均值之間的二階矩關(guān)系,第u個(gè)用戶的MeanVar的計(jì)算公式如下:

        (2)

        (3)加權(quán)評(píng)分一致度(WDA)。

        此特征值通過計(jì)算相應(yīng)項(xiàng)目評(píng)分?jǐn)?shù)目的逆向權(quán)重,以此衡量用戶對(duì)項(xiàng)目的評(píng)分背離該項(xiàng)目評(píng)分均值的程度。第u個(gè)用戶的加權(quán)評(píng)分一致度的計(jì)算公式如下:

        (3)

        其中,Nu表示用戶u評(píng)價(jià)過的項(xiàng)目個(gè)數(shù),NRi表示項(xiàng)目i被評(píng)價(jià)過的次數(shù),ri表示項(xiàng)目i的評(píng)分均值,ru,i表示用戶u對(duì)項(xiàng)目i的評(píng)分。

        目前很多檢測(cè)器通過計(jì)算出各個(gè)特征指標(biāo)值,形成用戶評(píng)分矩陣構(gòu)建特征模型,以此作為屬性對(duì)分類器進(jìn)行訓(xùn)練,最終能夠?qū)⒄鎸?shí)用戶和攻擊用戶進(jìn)行分類。文中結(jié)合以上三個(gè)特征指標(biāo)得到特征模型,繪制三維圖,如圖1所示,圖中“+”代表攻擊用戶,即圓圈中的數(shù)據(jù),“o”代表正常用戶。由圖可知該特征模型可以較好地區(qū)分真實(shí)用戶和攻擊用戶,但部分攻擊用戶與正常用戶數(shù)據(jù)重疊,存在一定誤判率。

        該特征模型在實(shí)際應(yīng)用中準(zhǔn)確率和召回率不夠高,為進(jìn)一步提高檢測(cè)準(zhǔn)確率,文中加入對(duì)項(xiàng)目流行度和新穎度的考量。考慮到項(xiàng)目流行度、項(xiàng)目新穎度以及攻擊用戶裝填項(xiàng)目服從不同的概率分布,其所得到的用戶平均流行度以及新穎度數(shù)值與正常用戶的平均流行度以及新穎度數(shù)值始終具有差異,因此文中提出了兩個(gè)新的特征檢測(cè)指標(biāo),分別是檢測(cè)項(xiàng)目與流行項(xiàng)目之間的卡方估計(jì)值(Chi-square of popular item,CHIP)和與新穎項(xiàng)目之間的卡方估計(jì)值(Chi-square of novel item,CHIN),通過這兩個(gè)指標(biāo)統(tǒng)計(jì)檢測(cè)項(xiàng)目與所選的流行項(xiàng)目或新穎項(xiàng)目之間的相關(guān)程度。其中流行項(xiàng)目的選擇依據(jù)項(xiàng)目流行度(item popularity,IPop),新穎項(xiàng)目的選擇依據(jù)項(xiàng)目新穎度(item novelty,INov),其計(jì)算公式分別如下所示:

        (4)

        其中,Di表示所給數(shù)據(jù)庫中所有真實(shí)用戶的合集,rui表示用戶u對(duì)任意一個(gè)項(xiàng)目i的評(píng)分。若rui=?,則φ(rui)=0,若rui≠?,則φ(rui)=1。

        (5)

        其中,|Dg|表示現(xiàn)在集合中的所有用戶數(shù)目,Novu,i表示該用戶對(duì)其任意一個(gè)項(xiàng)目的新穎程度,Nu表示用戶u的項(xiàng)目評(píng)分?jǐn)?shù),也就是相似度。

        流行項(xiàng)目以及新穎項(xiàng)目的卡方估計(jì)值通用公式如下:

        CHI=|I|×

        (6)

        其中,I表示數(shù)據(jù)集中所有的項(xiàng)目,A表示既屬于有評(píng)分項(xiàng)目又屬于流行項(xiàng)目/新穎項(xiàng)目的個(gè)數(shù),B表示屬于有評(píng)分的項(xiàng)目但是不屬于流行項(xiàng)目/新穎項(xiàng)目的個(gè)數(shù),C表示雖然不屬于有評(píng)分項(xiàng)目卻屬于流行項(xiàng)目/新穎項(xiàng)目的個(gè)數(shù),D表示既不屬于有評(píng)分項(xiàng)目的也不屬于流行項(xiàng)目/新穎項(xiàng)目的個(gè)數(shù)。通過計(jì)算用戶評(píng)分項(xiàng)目與新穎項(xiàng)目/流行項(xiàng)目之間的關(guān)聯(lián)程度,得到特征矩陣。

        2 K-means聚類算法

        聚類作為統(tǒng)計(jì)數(shù)據(jù)分析中的一項(xiàng)重要技術(shù),目前在各個(gè)領(lǐng)域得到廣泛應(yīng)用,如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等。它通過靜態(tài)分類的方法,將更為相似的對(duì)象分到相同的組別,即該組別中的對(duì)象擁有較多相似的屬性。

        K-means聚類算法源于信號(hào)處理中的一種向量量化方法,其主要目的是將所給的樣本數(shù)據(jù)聚類。其算法流程為:

        (1)隨機(jī)創(chuàng)建K個(gè)對(duì)象作為起始聚類中心;

        (2)計(jì)算每個(gè)對(duì)象與K個(gè)聚類中心點(diǎn)之間的歐氏距離,將每個(gè)對(duì)象分到距聚類中心距離最短的類別中;

        (3)重新對(duì)每一類中的對(duì)象進(jìn)行計(jì)算,找到新的聚類中心點(diǎn),重復(fù)(2)過程;

        (4)直到聚類中心點(diǎn)的位置不再改變,樣本聚類完成。

        文中使用K-means聚類算法對(duì)攻擊用戶與真實(shí)用戶集合進(jìn)行初步分類。

        3 基于混合特征值的托攻擊檢測(cè)算法

        文中構(gòu)建了一種新的特征模型,該特征模型由兩部分組成:①由特征指標(biāo)Degsim、MeanVar、WDA組成特征模型的第一層;②由特征指標(biāo)CHIP和CHIN組成特征模型的第二層。在該特征模型的基礎(chǔ)上提出了一種基于混合特征值的托攻擊檢測(cè)算法,將其命名為T-Kmeans算法。該算法的具體步驟如下:

        步驟一:向用戶評(píng)分矩陣注入攻擊概貌,得到混合數(shù)據(jù)集;對(duì)其提取特征Degsim、MeanVar、WDA、CHIP、CHIN,并按列排序,得到用戶特征向量矩陣V。

        步驟二:提取特征向量矩陣V的前三列,即DegSim、MeanVar、WDA三個(gè)特征值,通過K-means聚類算法將用戶初步聚成兩類,稱為第一真實(shí)用戶集合和第一攻擊用戶集合。

        步驟三:對(duì)特征矩陣V的后兩列進(jìn)行閾值判斷操作;將大于閾值的標(biāo)記為真實(shí)用戶,小于閾值的標(biāo)記為攻擊用戶,稱其為第二真實(shí)用戶集合和第二攻擊用戶集合;其中閾值的選擇根據(jù)經(jīng)驗(yàn)選擇[17]。

        步驟四:將步驟二、步驟三中得到的第一攻擊用戶集合和第二攻擊用戶集合做交集,得到最終檢測(cè)結(jié)果,即攻擊用戶集合,剩余的用戶則為真實(shí)用戶集合。

        算法流程如圖2所示。

        圖2 T-Kmeans算法流程

        4 仿真實(shí)驗(yàn)

        文中實(shí)驗(yàn)采用Movielens數(shù)據(jù)集,包括943個(gè)觀眾對(duì)1 682部電影的隨機(jī)評(píng)價(jià),共計(jì)100 000條評(píng)分,采取5分制,即最高分記5分,最低分記1分,未評(píng)分的記為0。

        實(shí)驗(yàn)選取的攻擊模型為流行攻擊,攻擊目的為推攻擊。分別在攻擊規(guī)模為3%,5%,8%,10%,12%,填充規(guī)模為3%,5%,8%,10%的條件下進(jìn)行實(shí)驗(yàn)。

        4.1 算法評(píng)估標(biāo)準(zhǔn)

        文中通過計(jì)算準(zhǔn)確率(precision)和召回率(recall),與主成分分析(principal components analysis,PCA)檢測(cè)方法進(jìn)行對(duì)比,以此評(píng)估T-Kmeans檢測(cè)算法的有效性與準(zhǔn)確率。其計(jì)算公式如下:

        (7)

        (8)

        其中,TP表示被正確識(shí)別的攻擊用戶的數(shù)目,F(xiàn)P表示被誤判的真實(shí)用戶的數(shù)目,F(xiàn)N表示未被識(shí)別出來的攻擊用戶的數(shù)目。

        4.2 實(shí)驗(yàn)結(jié)果與對(duì)比

        4.2.1 準(zhǔn)確率對(duì)比

        將文中提出的檢測(cè)方法的準(zhǔn)確率與PCA檢測(cè)算法的準(zhǔn)確率進(jìn)行對(duì)比,得到的實(shí)驗(yàn)結(jié)果如圖3(a)~(d)所示。

        如圖3所示,在填充規(guī)模分別為3%、5%、8%、10%的情況下,隨著攻擊規(guī)模的增大,PCA檢測(cè)算法和 T-Kmeans檢測(cè)算法的準(zhǔn)確率都在持續(xù)增加,但T-Kmeans檢測(cè)算法準(zhǔn)確率一直比PCA檢測(cè)算法準(zhǔn)確率高,且最高時(shí)候可達(dá)到98%,這說明在小規(guī)模攻擊情況下T-Kmeans檢測(cè)算法在準(zhǔn)確率方面比PCA檢測(cè)算法效果好。

        4.2.2 召回率對(duì)比

        將文中檢測(cè)方法的召回率與PCA檢測(cè)算法的召回率進(jìn)行對(duì)比,得到的實(shí)驗(yàn)結(jié)果如圖4(a)~(d)所示。

        圖3 T-Kmeans與PCA準(zhǔn)確率對(duì)比

        圖4 T-Kmeans與PCA召回率對(duì)比

        如圖4所示,在填充規(guī)模分別為3%、5%、8%、10%的情況下,隨著攻擊規(guī)模的增大,T-Kmeans檢測(cè)算法的召回率變動(dòng)較大,但其一直比PCA檢測(cè)算法的召回率高,且最高時(shí)候可達(dá)到97%,這說明T-Kmeans檢測(cè)算法在召回率方面比PCA檢測(cè)算法的檢測(cè)效果好。

        5 結(jié)束語

        文中提出了一種基于混合特征值的托攻擊檢測(cè)算法。該算法構(gòu)建了一種新的特征模型,在傳統(tǒng)Degsim、MeanVar、WDA這三個(gè)特征檢測(cè)指標(biāo)基礎(chǔ)上,考慮到項(xiàng)目與流行項(xiàng)目、項(xiàng)目與新穎項(xiàng)目之間的關(guān)聯(lián)程度,引入CHIP,CHIN檢測(cè)指標(biāo),構(gòu)成特征模型。通過對(duì)Degsim、MeanVar、WDA形成的特征矩陣進(jìn)行K-means聚類,以及對(duì)CHIP、CHIN形成的特征矩陣進(jìn)行閾值判斷,并進(jìn)行求交集操作,得到最終檢測(cè)出的攻擊用戶集合。實(shí)驗(yàn)結(jié)果表明,該算法提高了檢測(cè)準(zhǔn)確度,具有一定的優(yōu)越性。

        猜你喜歡
        特征用戶檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        精品国模一区二区三区| 欧美成人精品a∨在线观看| 日本一道综合久久aⅴ免费 | 亚洲av无码成人专区片在线观看 | 精品国产高清一区二区广区| 国产精品麻花传媒二三区别| 最新国产午夜福利| 亚洲av中文无码乱人伦在线咪咕| av网站一区二区三区| 亚洲av三级黄色在线观看| 亚洲av午夜成人片精品电影| 免费看黑人男阳茎进女阳道视频| 黄色视频在线免费观看| 无码 制服 丝袜 国产 另类| 一区二区三区在线视频爽| 成人性生交大全免费看| 亚洲国产日韩a在线乱码| 久久www免费人成—看片| 老熟妇高潮喷了╳╳╳| 精品综合久久久久久8888| 大屁股流白浆一区二区 | 亚洲国产一区二区三区在观看| 亚洲无av码一区二区三区| 一本久道竹内纱里奈中文字幕| 国产亚洲精品av一区| 蜜臀人妻精品一区二区免费| 亚洲国产丝袜美女在线| 看日本全黄色免费a级| 国产欧美日韩一区二区三区 | 亚洲乱码av中文一区二区| 性做久久久久久久| 131美女爱做视频| 人妻系列无码专区久久五月天| 少妇一区二区三区精选| 久久婷婷五月综合97色直播| 久久丫精品国产亚洲av不卡| 欧美理论在线| 国产粉嫩嫩00在线正在播放| 最新中文字幕日韩精品| 性饥渴的农村熟妇| 少妇寂寞难耐被黑人中出 |