亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        在線社交網(wǎng)絡(luò)中基于機器學習的多維用戶信任評估方法

        2023-01-19 10:07:46張欣欣周趙斌
        關(guān)鍵詞:定義特征用戶

        周 嶠,張欣欣,周趙斌,許 力

        (福建師范大學計算機與網(wǎng)絡(luò)空間安全學院,福建省網(wǎng)絡(luò)安全與密碼技術(shù)重點實驗室,福建 福州 350117)

        隨著移動互聯(lián)網(wǎng)技術(shù)的發(fā)展,F(xiàn)acebook、Twitter、新浪微博等在線社交網(wǎng)絡(luò)(OSNs)已經(jīng)成為人們生活中不可或缺的一部分.如此龐大的用戶群體中蘊含了一定比例的不可信用戶,他們會在網(wǎng)絡(luò)中發(fā)送大量垃圾信息,以達到虛假廣告宣傳、詐騙等目的[1].這類行為不僅影響了普通用戶的使用體驗,還會加重網(wǎng)絡(luò)負載、降低平臺公信力,最終導致大量用戶流失.

        為了避免上述情況的發(fā)生,如何檢測網(wǎng)絡(luò)中的不可信用戶成為了一個重要的研究課題.信任作為人際交往中的重要依據(jù),很自然地被引入到以人為主體的OSNs中[2].現(xiàn)有的信任評估方法大致可分為信任傳遞和信任建模[3].

        信任傳遞通常基于圖論,研究如何在用戶間傳遞信任.Avesani等[4]通過迭代計算不同跳數(shù)用戶的信任值獲得一張信任網(wǎng)絡(luò)圖.Wang等[5]將信任傳播與流體運動相類比,估計出用戶能夠接收到的信任值.但這類方法存在著一些問題待解決:如何選取合適的路徑、確定路徑長度、聚合用戶信任值以及解決傳播過程中的衰減問題等[6].

        信任建模則重點關(guān)注用戶自身,試圖從用戶的相關(guān)數(shù)據(jù)中提取出有效的特征來評估用戶的可信程度[7].Liu等[8]根據(jù)用戶間的交互行為來評估用戶是否可信.Nepal等[9]通過聚合其他用戶對目標用戶及其所在社團的信任生成最終的信任評估結(jié)果.但是此類方法中特征的權(quán)重值往往是固定的,并且需要依靠方案設(shè)計者的經(jīng)驗進行設(shè)置,因而無法根據(jù)環(huán)境變化自動調(diào)整,而這與OSNs的動態(tài)性相悖.

        機器學習作為一種能夠根據(jù)輸入數(shù)據(jù)智能建立數(shù)學模型的方法,能夠很好地解決特征權(quán)重設(shè)置的問題[10].Sadiq等[11]考慮了包括粉絲數(shù)、好友數(shù)在內(nèi)的多項特征,用于評估用戶的信任程度.但是該方法沒有考慮用戶之間的關(guān)系,而在OSNs中用戶關(guān)系相關(guān)的特征能夠用于獲取更多有用的信息.Chen等[12]考慮了多種用戶屬性以及用戶之間的關(guān)系,提出了進行信任評估的機器學習框架.但其提出的特征中包含大量需要迭代計算的全局性特征,而在擁有海量用戶且動態(tài)變化的OSNs中計算這些特征會造成較大的系統(tǒng)開銷.

        還有一些學者選擇使用深度學習的方法來進行信任評估.C-DeepTrust[13]將用戶評級、用戶評論、用戶偏好等信息輸入到多層神經(jīng)網(wǎng)絡(luò)中,并通過輸出的上下文感知相似度來判斷用戶之間的信任關(guān)系.TrustGNN[14]將信任的傳播性和組合性整合到圖神經(jīng)網(wǎng)絡(luò)中以進行信任評估.但這些方法沒有深入挖掘用戶自身的信任特征,最終結(jié)果也只能反映兩兩用戶之間的信任關(guān)系,無法對用戶的身份進行判斷.

        為了應(yīng)對上述挑戰(zhàn)問題,本文提出了一種基于機器學習且考慮多維特征的用戶信任評估方法MDTrust.該方法首先從用戶的歷史數(shù)據(jù)中提取出4類共13項特征,以充分模擬現(xiàn)實中的信任建立過程.其次,考慮到在具有海量數(shù)據(jù)的OSNs中獲取全局性特征的計算開銷,本文提出了名為最大平均值對數(shù)誤差的特征計算方式,用來計算用戶的局部性特征以代替全局性特征進行用戶信任評估.該方法使用6種機器學習模型,對所提出的特征權(quán)重進行自動學習.在真實的Twitter數(shù)據(jù)集上進行實驗的結(jié)果表明,MDTrust使用最大平均值對數(shù)誤差計算得到的特征在識別不可信用戶方面能夠取得很好的效果,各項評估指標的結(jié)果均高于同類型的其他方法,并且識別效果不會隨著用戶數(shù)量變化而波動.

        1 提出方案

        1.1 問題描述

        用U={u1,u2, … ,un}表示OSNs中的用戶,用F={fg11,…,fg1l1,…,fgk1,…,fgklk}表示從用戶數(shù)據(jù)中提取得到的特征,其中g(shù)i表示第i類特征,li表示第i類特征的數(shù)量.本文將用戶信任評估定義為二元分類問題,即對于用戶un而言,其信任值tn要么為0,要么為1,對應(yīng)用戶身份可信和不可信2種情況.其計算方法可表示為tn=Φ(Fn),Φ(·)為選擇的機器學習模型.本文使用監(jiān)督學習的方法訓練模型,因此每名用戶的信任值tn是已知的,模型的目標是根據(jù)提取出的用戶特征準確預用戶對應(yīng)的信任值.

        1.2 特征選取原則

        在定義特征時遵循以下原則.

        (1) 關(guān)注相對值而非絕對值.不可信用戶可以通過修改自身數(shù)據(jù)以達到偽裝身份的目的,但無法獲得網(wǎng)絡(luò)中所有用戶的數(shù)據(jù),因此修改后的數(shù)據(jù)仍會表現(xiàn)出與普通用戶之間的差別.

        (2) 關(guān)注平均值而非最值.最值可能會使系統(tǒng)錯誤地將某條異常信息作為評價用戶身份的特征.而平均值更偏重于考慮用戶以往所有的行為,并能降低異常值的影響.

        (3) 摒棄全局性特征.考慮到OSNs中的海量數(shù)據(jù),選用需要迭代計算的全局性特征會造成高昂的計算與存儲開銷,因此本文僅選擇用戶的局部性特征進行信任評估.

        基于以上原則,本文參考文獻[12],定義了一種名為最大平均值對數(shù)偏差的特征計算方式

        (1)

        1.3 特征定義

        1.3.1 基于用戶個人資料的特征

        如果一個用戶的個人資料越完整,就越容易獲得其他用戶的信任,因此用戶個人資料中的相關(guān)信息能夠幫助判斷一個用戶的可信程度.方法定義了3項基于用戶個人資料的特征.

        (1)個人資料完整度分數(shù)

        經(jīng)常使用OSNs的用戶會對其個人資料進行個性化設(shè)置,而不可信用戶則通常不會去完善個人資料.本方法定義了衡量個人資料完整度的6個要素.

        對于用戶名、用戶頭像和個人資料背景圖,如果用戶進行了個性化設(shè)置,則將對應(yīng)分值記為1;若使用的是系統(tǒng)默認設(shè)置,則將對應(yīng)分值記為0.

        對于用戶的個人簡介、簡介中包含的網(wǎng)址鏈接和用戶所在的地理位置,如果用戶填寫了相應(yīng)內(nèi)容,則將對應(yīng)分值記為1;若內(nèi)容為空則將對應(yīng)分值記為0.

        用戶ui的個人資料完整度分數(shù)可通過以上6個值取平均值得到.個人資料完整度分數(shù)越高,表示該名用戶對自己的資料進行了詳細的設(shè)置與完善,其可信程度也就越高.

        (2)社團多樣性偏差

        可信用戶會加入感興趣的社團,與志趣相投的其他用戶討論同樣的話題,而不可信用戶則不會花時間在這項活動上[15].公式(2)定義了社團多樣性偏差(CDD)用于衡量用戶加入社團的豐富程度.

        (2)

        其中#coms(ui)表示ui加入的社團數(shù)量.用戶加入的社團越多,其可信度相對來說也會越高.

        (3)賬戶創(chuàng)建時間偏差

        一個賬戶創(chuàng)建的時間越久,使用該賬戶的用戶的可信程度就越高,因為這意味著該用戶之前未發(fā)生過惡意行為,否則其賬戶很可能被封禁.而大多數(shù)不可信用戶的賬戶都是新創(chuàng)建的,因此兩者在賬號創(chuàng)建時間上存在差異.公式(3)定義了賬號創(chuàng)建時間偏差(ATD)來衡量這種差異.

        (3)

        其中days(ui)表示ui的創(chuàng)建天數(shù).用戶賬戶創(chuàng)建的時間越久,說明其可信程度越高.

        1.3.2 基于用戶發(fā)布內(nèi)容的特征

        用戶發(fā)布的內(nèi)容中具有豐富的信息,這些信息能夠幫助衡量用戶的可信程度.本文定義了4項基于用戶發(fā)布內(nèi)容的特征,以捕捉可信用戶與不可信用戶在發(fā)布內(nèi)容上的差異.

        (1)內(nèi)容標簽數(shù)偏差

        用戶在發(fā)布內(nèi)容時會加上標簽以表明內(nèi)容所屬的話題,這樣能夠使得自己發(fā)布的內(nèi)容很快被搜索到.而不可信用戶在發(fā)布內(nèi)容時往往不會加上標簽,因為這樣可能會導致內(nèi)容被舉報的概率增加[16].公式(4)定義了內(nèi)容標簽數(shù)偏差(TND)用來衡量兩類用戶在內(nèi)容標簽數(shù)上的差異.

        (4)

        (2)用戶提及數(shù)偏差

        可信用戶使用OSNs的目的之一就是與好友進行交流,而不可信用戶則很少進行這類社交行為,因此發(fā)布內(nèi)容中的@數(shù)會明顯多于不可信用戶. 公式(5)定義了用戶提及數(shù)偏差(UMD).

        (5)

        (3)URL數(shù)量偏差

        不可信用戶通常會在發(fā)布內(nèi)容中加入URL以吸引用戶點擊,從而達到竊取用戶隱私信息、網(wǎng)絡(luò)詐騙等目的[17].而普通用戶發(fā)布的內(nèi)容中通常不會包含URL鏈接,因此兩者在該項特征上存在差異. 公式(6)定義了URL數(shù)量偏差(UND).

        (6)

        (4)內(nèi)容長度偏差

        通常高質(zhì)量的內(nèi)容其長度會更長,而可信用戶發(fā)布的內(nèi)容質(zhì)量普遍高于不可信用戶,因此兩者在內(nèi)容長度上存在差異. 公式(7)定義了內(nèi)容長度偏差(CLD).

        (7)

        1.3.3 基于用戶反饋的特征

        點贊、轉(zhuǎn)發(fā)、評論等反饋行為可以反映出OSNs中其他用戶對某位用戶的態(tài)度,因此該類特征可以幫助平臺進行用戶信任評估. 本文定義了3項基于用戶反饋的特征.

        (1)轉(zhuǎn)發(fā)次數(shù)偏差

        優(yōu)質(zhì)的內(nèi)容會通常得到大量轉(zhuǎn)發(fā),并且它們的創(chuàng)作者基本上都是可信用戶. 而不可信用戶發(fā)布的內(nèi)容往往不會得到轉(zhuǎn)發(fā). 公式(8)定義了轉(zhuǎn)發(fā)次數(shù)偏差(SND).

        (8)

        (2)點贊次數(shù)偏差

        高質(zhì)量的內(nèi)容往往會獲得更多的點贊數(shù). 如果1名用戶獲得的點贊數(shù)很多,那么他很有可能是一名可信用戶. 公式(9)定義了點贊次數(shù)偏差(LND).

        (9)

        (3)評論次數(shù)偏差

        大多數(shù)用戶傾向于回復高質(zhì)量的內(nèi)容以及與熟悉的用戶互動,因此可信用戶收到的評論數(shù)會多于不可信用戶. 公式(10)定義了評論次數(shù)偏差(RND).

        (10)

        1.3.4 基于用戶關(guān)系的特征

        用戶之間的關(guān)系蘊含著豐富的信息,可信用戶與不可信用戶在用戶關(guān)系上存在著差異,這些信息能夠幫助我們評估用戶的可信度. 本文定義了3項基于用戶關(guān)系的局部性特征進行用戶信任評估.

        (1)關(guān)注數(shù)-粉絲數(shù)比率

        關(guān)注數(shù)和粉絲數(shù)是衡量OSNs用戶可信度的重要指標. 不可信用戶往往不會擁有很多粉絲,并且會嘗試關(guān)注很多用戶以提升在他人眼中的可信程度[18].公式(11)定義了關(guān)注數(shù)-粉絲數(shù)比率(FFR).

        (11)

        其中#friends(ui)和#followers(ui)分別表示ui的關(guān)注者數(shù)量和粉絲數(shù)量. 通常不可信用戶的粉絲數(shù)很少,而關(guān)注數(shù)很多,因此FFR值會大于不可信用戶[16].

        (2)網(wǎng)絡(luò)知名度偏差

        一個用戶的粉絲數(shù)可以反映該用戶的知名度. 雖然不可信用戶可以通過購買虛假粉絲的方式增加粉絲數(shù),但與整個OSNs中知名度高的用戶相比,兩者粉絲數(shù)的差距仍然很大. 公式(12)定義了網(wǎng)絡(luò)知名度偏差(NRD),用于衡量用戶ui和OSNs中最受歡迎的用戶之間粉絲數(shù)的差異.

        (12)

        (3)互相關(guān)注比率

        OSNs中相互關(guān)注比單向關(guān)注更能夠反映用戶之間的互相信任. 不可信用戶無法控制其他用戶關(guān)注自己,因此雙向關(guān)注數(shù)較少[15]. 公式(13)定義了互相關(guān)注比率(MFR).

        (13)

        其中fol(ui)表示ui的粉絲數(shù). 一個用戶擁有的互相關(guān)注數(shù)多,說明其在OSNs的好友數(shù)多,這能夠從一定程度上反映出他人對該用戶的信任程度.

        1.4 基于機器學習的信任評估框架

        MDTrust流程框架分為數(shù)據(jù)收集模塊、特征選擇模塊和機器學習模塊(圖1).數(shù)據(jù)收集模塊負責從OSNs中收集計算特征需要的相關(guān)數(shù)據(jù),并發(fā)送給特征選擇模塊進行處理;特征選擇模塊是整個框架中最重要的部分,其收到原始數(shù)據(jù)后,會根據(jù)本文定義的特征計算方式從原始數(shù)據(jù)中提取出一共4類13項特征;得到的特征會作為機器學習模塊的輸入,用來訓練能夠有效區(qū)分可信用戶與不可信用戶的機器學習模型,模型會自動學習特征的重要性,并自動分配特征的權(quán)重.訓練完畢的模型會投入到OSNs中進行網(wǎng)絡(luò)中的用戶信任評估.

        圖1 基于機器學習的信任評估框架Fig.1 The trust evaluation framework based on machine learning

        2 實驗分析

        2.1 評價指標

        在本文中,假陽性(FP)和假陰性(FN)分別代表被錯誤識別為不可信用戶的可信用戶以及被錯誤識別為可信用戶的不可信用戶,而真陽性(TP)和真陰性(TN)分別代表被正確識別的可信用戶和不可信用戶.本文采用了機器學習中常用的5項評價指標用于評估方法效果,分別是正確率(Accuracy),精度(Precision),召回率(Recall),F(xiàn)1分數(shù)(F1-Measure)以及馬修斯相關(guān)系數(shù)(MCC).

        (13)

        (14)

        (15)

        (16)

        (17)

        2.2 數(shù)據(jù)集介紹

        實驗中所采用的數(shù)據(jù)集是由Cresci等發(fā)布的Twitter數(shù)據(jù)集[19].該數(shù)據(jù)集最初用于檢測Twitter中的虛假用戶.表1給出了數(shù)據(jù)集的具體構(gòu)成.

        表1 Twitter數(shù)據(jù)集介紹Tab.1 Description of Twitter dataset

        2.3 對比方法

        本文將MDTrust與其他基于機器學習的信任評估方法[11-12]進行了比較.文獻[11]提出了包括好友數(shù)、粉絲數(shù)在內(nèi)的一共14項特征,用來區(qū)別普通用戶和不可信用戶,但是該方法沒有考慮用戶關(guān)系以及用戶反饋行為相關(guān)的特征;文獻[12]與本文類似,從多個維度提取了與信任相關(guān)的12項特征,但是該方法提出的特征大多數(shù)都是基于數(shù)據(jù)的最值計算得出的,這種計算方法會導致最終得到的特征容易受到異常值的影響,進而影響最終的判斷;并且該方法包含需要迭代計算的全局性特征,這對于具有海量數(shù)據(jù)并且經(jīng)常動態(tài)變化的OSNs而言會造成較大的計算開銷.

        2.4 實驗結(jié)果分析

        實驗采用了基于Python語言的機器學習庫scikit-learn,用于展示本文基于最大平均值對數(shù)偏差得到的特征集合與其他特征集合在不同機器學習模型上的結(jié)果差異.本文首先將完整數(shù)據(jù)集劃分為不同大小的子集,每個子集中的可信用戶數(shù)量相同,通過隨機選擇算法增加不可信用戶的數(shù)量,使得每個子集中不可信用戶數(shù)量占比分別為10%~60%,以評估MDTrust在面對不同比例的不可信用戶時的表現(xiàn).最后評估MDTrust在完整數(shù)據(jù)集上的效果.本文對每組數(shù)據(jù)進行了5次5折交叉驗證用來訓練和測試不同的機器學習模型,并將5次驗證的平均值作為最終的結(jié)果.

        圖2—圖7展示了MDTrust與其他基于機器學習的用戶信任評估方法在邏輯回歸、支持向量機、樸素貝葉斯、貝葉斯網(wǎng)絡(luò)、決策樹、隨機森林6種機器學習模型下,面對不同占比的不可信用戶時的分類正確率.可以觀察到,對于選用的所有機器學習模型,MDTrust的正確率都要高于其他2種方法.這意味著本文提出的最大平均值對數(shù)偏差能夠很好地區(qū)別可信用戶與不可信用戶;此外,MDTrust在面對占比為10%~60%的不可信用戶時依舊能夠保持比較穩(wěn)定的正確率,這說明MDTrust中的局部性特征效果良好,因此本方法不太會受到OSNs中不可信用戶數(shù)量的影響.對于邏輯回歸模型,當不可信用戶占比為20%時,Chen[12]提出的方法與本方法的正確率接近.當占比增加時,Chen的方法和MDTrust在正確率的差距不斷增大,直到不可信用戶占比為60%才有所回升,這可能是因為Chen的方法中包含部分全局性特征,這些特征在用戶數(shù)量較少時不能發(fā)揮其作用,而MDTrust所提出的用戶關(guān)系局部性特征的效果則不會受到用戶數(shù)量影響.Sadiq[11]的方法與MDTrust的正確率一直有較大差距,這可能是因為其方法只考慮了用戶相關(guān)的特征,而忽視了用戶關(guān)系相關(guān)的特征對于用戶信任評估的作用,并且這些特征都是通過直接計算絕對值得到的,而本文充分考慮了包含用戶關(guān)系在內(nèi)的4類特征,并且提出的最大平均值對數(shù)偏差消除了絕對值對結(jié)果的影響.對于其他5種機器學習模型,MDTrust的正確率都要高于對比方法.MDTrust在面對不同情況時正確率的波動幅度均維持在3%以內(nèi).可以說MDTrust在識別用戶身份時正確率優(yōu)秀且穩(wěn)定.

        圖2 使用邏輯回歸模型的正確率Fig.2 Accuracy on logistic regression model

        圖3 使用支持向量機模型的正確率Fig.3 Accuracy on support vector machine model

        圖4 使用樸素貝葉斯模型的正確率Fig.4 Accuracy on naive Bayes model

        圖5 使用貝葉斯網(wǎng)絡(luò)模型的正確率Fig.5 Accuracy on Bayesian network model

        圖6 使用決策樹模型的正確率Fig.6 Accuracy on decision tree model

        圖7 使用隨機森林模型的正確率Fig.7 Accuracy on random forest model

        3種方法在完整數(shù)據(jù)集上的結(jié)果如表2所示,粗體表示每項指標的最優(yōu)值.MDTrust在所有指標上都要優(yōu)于另外2種方法,其中使用隨機森林模型能夠得到最高的正確率,這說明MDTrust使用最大平均值對數(shù)偏差計算得到的特征能夠準確地區(qū)分出可信用戶和不可信用戶.

        表2 完整數(shù)據(jù)集上的測試結(jié)果Tab.2 Results on the full dataset

        3 結(jié)論

        本文提出了一種基于機器學習的多維信任評估方法MDTrust.該方法首先定義了最大平均值對數(shù)偏差用以從OSNs的用戶數(shù)據(jù)中計算特征.其次,本方法從多個維度出發(fā),提取出一共4類13項與信任相關(guān)的特征,以模擬現(xiàn)實中信任的建立.考慮到OSNs的海量數(shù)據(jù)和動態(tài)性,MDTrust僅使用局部性特征進行信任評估.MDTrust使用了6種不同的機器學習模型,以評估提出的特征識別不可信用戶的效果.在Twitter數(shù)據(jù)集上進行的實驗結(jié)果表明,MDTrust不僅能在正確率上取得最好的效果,在其他指標上的表現(xiàn)也是最優(yōu)的.這說明MDTrust能夠有效地區(qū)分可信用戶與不可信用戶.

        猜你喜歡
        定義特征用戶
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        如何獲取一億海外用戶
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        修辭學的重大定義
        當代修辭學(2014年3期)2014-01-21 02:30:44
        白浆出来无码视频在线| 国产成人无码av一区二区在线观看 | 99re免费在线视频| 亚洲国产精品夜男人天堂| 久久久精品毛片免费观看| 国产午夜福利久久精品| 国产精品亚洲一区二区无码| 无码AV无码免费一区二区| 日本精品一级二区三级| 国内精品久久久久久久97牛牛| 最近中文字幕完整版| 高清国产亚洲va精品| 美女视频黄a视频全免费网站色| 极品少妇hdxx麻豆hdxx| 97午夜理论片在线影院| 亚洲欧美日韩精品香蕉| 伊人久久大香线蕉av最新午夜| 久久久中文久久久无码| 九九热在线视频观看这里只有精品| 亚洲AV无码成人精品区H| 国产三级精品av在线| 成人国产精品一区二区网站公司| 四虎永久免费一级毛片| 亚洲av黄片一区二区| 亚洲乱码中文字幕在线| 人人爽人人爽人人爽人人片av | 宅宅午夜无码一区二区三区| 我揉搓少妇好久没做高潮| 久久久久无码国产精品一区| 熟妇与小伙子matur老熟妇e| 性色av成人精品久久| 国产日产在线视频一区| 无码免费一区二区三区| 国产美女一级做a爱视频| 国产激情小视频在线观看 | 婷婷综合缴情亚洲| 国产亚洲av人片在线播放| 一区二区三区中文字幕脱狱者| 超清精品丝袜国产自在线拍| 国产亚洲sss在线观看| 色婷婷av一区二区三区丝袜美腿|