亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于交叉配血的多賬戶(hù)識(shí)別模型研究

        2017-03-06 20:48:39韓亞全曹春萍
        軟件導(dǎo)刊 2017年1期

        韓亞全+曹春萍

        摘要摘要:對(duì)用戶(hù)多賬戶(hù)檢測(cè)識(shí)別是信息整合研究目標(biāo)之一。針對(duì)目前用戶(hù)識(shí)別技術(shù)普遍存在的準(zhǔn)確率低和局域性問(wèn)題,提出了基于交叉配血的多賬戶(hù)識(shí)別模型。該模型要求根據(jù)用戶(hù)行為相似度和語(yǔ)義相似度繪制出多個(gè)賬戶(hù)的關(guān)系圖,然后利用交叉配血原則來(lái)平衡語(yǔ)義和行為,在配置信息的協(xié)同下,對(duì)語(yǔ)義行為模型進(jìn)行一致性識(shí)別。要求用戶(hù)多個(gè)賬戶(hù)互相匹配以提高識(shí)別率,通過(guò)交叉匹配降低假種子賬戶(hù)對(duì)結(jié)果的影響。實(shí)驗(yàn)證明該算法大大提高了識(shí)別準(zhǔn)確率。

        關(guān)鍵詞關(guān)鍵詞:交叉配血;賬戶(hù)識(shí)別;語(yǔ)義分析;用戶(hù)相似度

        DOIDOI:10.11907/rjdk.162322

        中圖分類(lèi)號(hào):TP302文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)001000105

        0引言

        互聯(lián)網(wǎng)中存在大量重復(fù)的用戶(hù)身份信息[1],以國(guó)外知名網(wǎng)站Twitter、Facebook為例,約有47%的用戶(hù)擁有超過(guò)一個(gè)應(yīng)用賬戶(hù),整合這些重復(fù)用戶(hù)信息很有意義,對(duì)網(wǎng)絡(luò)應(yīng)用中的多賬戶(hù)進(jìn)行判定[2]并整合,能夠幫助網(wǎng)絡(luò)服務(wù)提供商全面了解用戶(hù),從而提供更好的個(gè)性化服務(wù)。從網(wǎng)絡(luò)安全角度鑒別用戶(hù)多賬戶(hù),能夠協(xié)助網(wǎng)絡(luò)安全管理者發(fā)現(xiàn)虛假或不法身份[3],保護(hù)用戶(hù)權(quán)益。

        為了整合用戶(hù)信息,首先需要對(duì)用戶(hù)進(jìn)行身份識(shí)別、判定。影響網(wǎng)絡(luò)用戶(hù)身份識(shí)別的特征值主要有:配置信息、好友圈、行為和語(yǔ)義[4]信息等。目前識(shí)別方法主要有兩種:①基于用戶(hù)檔案判定[5]的用戶(hù)識(shí)別。該方法針對(duì)賬戶(hù)公有屬性進(jìn)行判定,然而賬戶(hù)公有屬性相似度很大,導(dǎo)致準(zhǔn)確率極其低下;②基于好友關(guān)系的多賬戶(hù)識(shí)別。該方案依據(jù)賬戶(hù)公共好友進(jìn)行識(shí)別,但是多個(gè)賬戶(hù)并不擁有共同的好友圈,這嚴(yán)重影響識(shí)別準(zhǔn)確度。

        目前用戶(hù)識(shí)別檢測(cè)處于快速發(fā)展階段,許多學(xué)者對(duì)傳統(tǒng)用戶(hù)識(shí)別進(jìn)行了改進(jìn),例如周松松等[6]提出了基于URL的相似度會(huì)話(huà)識(shí)別方法,通過(guò)對(duì)URL的處理進(jìn)行用戶(hù)檢測(cè);業(yè)寧等提出一種Web用戶(hù)行為聚類(lèi)算法,通過(guò)對(duì)Web日志的處理,提取用戶(hù)的訪(fǎng)問(wèn)行為。這些基于用戶(hù)日志和URL的方法,在一定程度上改善了識(shí)別的準(zhǔn)確率,但同時(shí)也引入噪聲,沒(méi)有充分利用用戶(hù)行為,忽視了用戶(hù)的語(yǔ)義。

        為了提高用戶(hù)多賬戶(hù)識(shí)別準(zhǔn)確率,本文提出了基于交叉配血原則的用戶(hù)身份同一性[7]判定方法。通過(guò)對(duì)行為和語(yǔ)義進(jìn)行交叉匹配,生成準(zhǔn)確的種子用戶(hù),進(jìn)而進(jìn)行綜合判定識(shí)別。

        交叉配血最初來(lái)源于生物學(xué),其原理是將獻(xiàn)血人的紅細(xì)胞和血清分別與受血人的血清和紅細(xì)胞混合,若無(wú)凝集反應(yīng)說(shuō)明兩血型相合,反之不相匹配。依據(jù)上述方法可以解決臟血問(wèn)題,從而保證安全輸血。

        交叉配血識(shí)別模型設(shè)計(jì):①將各個(gè)賬戶(hù)的行為看作紅細(xì)胞、語(yǔ)義看作血清,分別與其它賬戶(hù)進(jìn)行交叉匹配;②把匹配度最高的賬戶(hù)作為種子用戶(hù)進(jìn)行下一輪測(cè)試,從而識(shí)別出用戶(hù)所有賬戶(hù)。

        在交叉匹配前需要對(duì)賬戶(hù)的行為、語(yǔ)義進(jìn)行處理,識(shí)別處理過(guò)程如下:①采用矩陣聚類(lèi)算法對(duì)用戶(hù)行為相似度進(jìn)行度量;②采用GVSM 的語(yǔ)義相似度算法對(duì)用戶(hù)語(yǔ)義進(jìn)行分析;③構(gòu)造行為-語(yǔ)義加權(quán)無(wú)向圖;④結(jié)合用戶(hù)的配置相似度并按照交叉配血原則對(duì)用戶(hù)行為-語(yǔ)義進(jìn)行識(shí)別,從而得到準(zhǔn)確的用戶(hù)組。

        1基于交叉配血算法的行為-語(yǔ)義識(shí)別

        1.1多賬戶(hù)識(shí)別模型

        定義1:多賬戶(hù)識(shí)別模型: 通過(guò)用戶(hù)行為和語(yǔ)義相似度構(gòu)建交叉配血的多賬戶(hù)識(shí)別模型G=,其中V表示賬戶(hù),E表示兩個(gè)賬戶(hù)相連,Weight表示兩個(gè)賬戶(hù)語(yǔ)義、行為的相似度。

        根據(jù)行為、語(yǔ)義相似度構(gòu)建無(wú)向圖,行為、語(yǔ)義都存在噪聲干擾,為防止噪聲影響實(shí)驗(yàn)結(jié)果,經(jīng)過(guò)大量實(shí)驗(yàn)分析,本文采取9%為行為噪聲,14%為語(yǔ)義噪聲。根據(jù)選定噪聲閾值構(gòu)建加權(quán)無(wú)向圖,大于閾值的為有效信息,通過(guò)計(jì)算多個(gè)頂點(diǎn)相似距離從而得到賬戶(hù)相似度。

        其中,Wij表示用戶(hù)i和用戶(hù)j的相似度,作為權(quán)值參與相似計(jì)算。

        1.2用戶(hù)行為相似度識(shí)別分析

        用戶(hù)的行為特征主要表現(xiàn)在時(shí)間和空間上,時(shí)間特征包含每次瀏覽頁(yè)面的時(shí)間及有向路徑[8]的瀏覽時(shí)間,空間特征包含頁(yè)面的瀏覽順序和點(diǎn)擊信息等瀏覽行為。本文主要根據(jù)賬戶(hù)的訪(fǎng)問(wèn)日志和登錄日志提取時(shí)間和空間特征值,通過(guò)對(duì)兩個(gè)特征值進(jìn)行聚類(lèi)分析,得出各賬戶(hù)之間的行為相似度,如表1所示。

        行為識(shí)別步驟:①通過(guò)用戶(hù)訪(fǎng)問(wèn)模式分析得到賬戶(hù)時(shí)間特征值;②基于用戶(hù)瀏覽相似度矩陣的聚類(lèi)算法得出用戶(hù)行為相似度。

        用戶(hù)訪(fǎng)問(wèn)模式[9]的訪(fǎng)問(wèn)路徑包含超鏈接,用戶(hù)點(diǎn)擊鏈接訪(fǎng)問(wèn)網(wǎng)站。如果不同賬戶(hù)有相同的訪(fǎng)問(wèn)順序,就意味著用戶(hù)訪(fǎng)問(wèn)行為有一定的相似性。這是一個(gè)抽象的用戶(hù)訪(fǎng)問(wèn),可以被視為知識(shí)一致性頁(yè)面,通過(guò)路徑聚類(lèi)[10]找到用戶(hù)的訪(fǎng)問(wèn)行為,每個(gè)集合代表一類(lèi)用戶(hù)訪(fǎng)問(wèn)模式的相似路徑。通過(guò)處理Web用戶(hù)找到訪(fǎng)問(wèn)模式和用戶(hù)行為偏好,用戶(hù)訪(fǎng)問(wèn)行為偏好不僅反映在瀏覽網(wǎng)頁(yè)的路徑上,而且反映在用戶(hù)訪(fǎng)問(wèn)Web頁(yè)面的時(shí)間上。因此,通過(guò)挖掘用戶(hù)的訪(fǎng)問(wèn)時(shí)間,可以分析多個(gè)賬戶(hù)的行為時(shí)間特征,得到各賬戶(hù)的時(shí)間特征值。

        1.2.2基于用戶(hù)瀏覽相似度矩陣的聚類(lèi)算法

        基于用戶(hù)瀏覽相似度矩陣的聚類(lèi)算法中,L=用來(lái)表達(dá)Web服務(wù)器的日志,uid代表網(wǎng)絡(luò)用戶(hù)ID,ip代表用戶(hù)IP,url表示用戶(hù)請(qǐng)求的url地址,time是相應(yīng)地址的瀏覽時(shí)間。通過(guò)對(duì)日志的處理,可以分析出用戶(hù)在一段時(shí)間內(nèi)的瀏覽行為。該算法降低了對(duì)日志文件、會(huì)話(huà)識(shí)別和事務(wù)標(biāo)識(shí)的要求。

        定義1:用戶(hù)瀏覽行為:用于記錄用戶(hù)瀏覽頁(yè)面留下的信息,如公式(1)所示:

        M=(1)

        其中,lm_userid=UserIDm,lm∈L,lm_ip=IPm,n≥1,hits代表了用戶(hù)瀏覽lm_userid頁(yè)面的次數(shù)。

        定義2:網(wǎng)站模型G: 網(wǎng)站的拓?fù)浣Y(jié)構(gòu)可以看作是一個(gè)有向圖,如公式(2)所示:

        G=(2)

        定義3:urlID-UserID關(guān)聯(lián)矩陣Mm×n:根據(jù)有向圖G的節(jié)點(diǎn)集N可以得到所有網(wǎng)站的url,從相應(yīng)的節(jié)點(diǎn)屬性設(shè)置Np可以獲得每個(gè)節(jié)點(diǎn)的標(biāo)識(shí)和相應(yīng)值的訪(fǎng)問(wèn),可以創(chuàng)建urlID-UserID的相關(guān)矩陣Mm×n,如式(3)所示。

        Sij是用戶(hù)訪(fǎng)問(wèn)頁(yè)面的數(shù)量,i是用戶(hù)j訪(fǎng)問(wèn)頁(yè)面的時(shí)間,每一列向量M[ ,j]表示用戶(hù)j訪(fǎng)問(wèn)該網(wǎng)站的所有頁(yè)面;每一行向量M[i,]意味著訪(fǎng)問(wèn)頁(yè)面i的所有用戶(hù)。行向量反映了用戶(hù)的類(lèi)型,描述了用戶(hù)個(gè)性化的訪(fǎng)問(wèn)子圖,列向量代表網(wǎng)站結(jié)構(gòu),包含用戶(hù)常見(jiàn)的訪(fǎng)問(wèn)模式[11]。通過(guò)測(cè)量每一個(gè)行向量和列向量的相似性可以直接得到相似度。

        Hij=0,表示用戶(hù)沒(méi)有訪(fǎng)問(wèn)的頁(yè)面,Hij =1,表示用戶(hù)j訪(fǎng)問(wèn)了i頁(yè)面,Hij =2,用戶(hù)j對(duì)i頁(yè)面非常感興趣,i是閾值(根據(jù)聚類(lèi)情況而定)。

        定義5:相似性sim(pi,pj):假設(shè)pi和pj是兩個(gè)m維空間向量,pi=(ai1,…,aik …,aim),pj=(aj1,…,ajk …,ajm), 1

        其中,pi 和 pj 表示Nm×n 中第i和第j行向量,pi *pj是兩個(gè)向量的向量積,|pi|×|pj|是向量模的乘積。

        1.2.3算法步驟

        1.3用戶(hù)語(yǔ)義相似度識(shí)別

        定義6:語(yǔ)義相似度:當(dāng)兩個(gè)元素(文字或者符號(hào))具有某種特征時(shí),則定義它們是相似的,可以用sim(x,y)(0≤sim(x,y)≤1)表示兩個(gè)元素x、y的相似度。

        每個(gè)用戶(hù)都有自己的語(yǔ)言表達(dá)特點(diǎn),使用獨(dú)特的敘述方式、頻用詞匯、斷句方式、標(biāo)點(diǎn)符號(hào)等;通過(guò)分析每個(gè)賬戶(hù)發(fā)表的評(píng)論、帖子、回復(fù)信息等,從而分析賬戶(hù)的語(yǔ)義相似度。本文采用的賬戶(hù)語(yǔ)義相似度計(jì)算流程如圖2所示。

        圖2語(yǔ)義分析流程

        采用基于GVSM 的語(yǔ)義相似度算法計(jì)算多個(gè)賬戶(hù)的語(yǔ)義相似度,通過(guò)構(gòu)建語(yǔ)義網(wǎng)計(jì)算兩個(gè)詞的關(guān)聯(lián)度,從而計(jì)算兩個(gè)詞的相似性。語(yǔ)義相關(guān)度 SR(Semantic Relatedness)表示兩個(gè)詞的相似性,采用語(yǔ)義網(wǎng)絡(luò)建設(shè)模式,將每種類(lèi)型的邊賦予權(quán)值,權(quán)值越高說(shuō)明兩個(gè)詞的關(guān)聯(lián)度越高。

        其中,si. m和sj . n分別是ci和cj的詞義,m是ci的詞義數(shù),n是cj的詞義數(shù)。

        基于GVSM的文本相似度[12]計(jì)算模型:

        R(ci,cj)=SR(ci,cj)·( si. m, si.n,O)

        其中,SR(ci,cj)表示語(yǔ)義相關(guān)度,O是詞庫(kù),本文定義文本向量,增加了ci、cj在文本W(wǎng)k中的權(quán)值,定義如下:

        Wk(ci,cj)=(tf-idf(ci,Wk)+tf-idf(cj,Wk))

        ·R(ci,cj)(6)

        由文本向量構(gòu)造GVSM模型,兩個(gè)賬戶(hù)的語(yǔ)義相似度可以定義為:

        sim(Wk,Wp)=

        ∑ni=1∑nj=1wk(ci,cj)·wp(ci,cj)∑ni=1∑nj=1wk(ci,cj)2×∑ni=1∑nj=1wp(ci,cj)2(7)

        1.4行為-語(yǔ)義加權(quán)無(wú)向圖模型構(gòu)建

        定義7:配置相似度(PAS):給出兩個(gè)用戶(hù):v0∈V0和v1∈V1,v0和v1的配置文件,分別表示屬性向量P0={f0i}mi=0(p0∈P0)和P1={f0j}nj=0(p1∈P1),p0和p1的配置屬性相似度PAS(p0, p1)=H(Sp0,p1)∈[0,1],其中Sp0,p1是記錄向量的相似字段,H是C4.5分類(lèi)決策樹(shù)算法模型。

        為了把配置文件的屬性與用戶(hù)賬戶(hù)聯(lián)系起來(lái),本文采用賬戶(hù)親密度(UC)函數(shù)來(lái)衡量?jī)蓚€(gè)賬戶(hù)之間的親密程度,采用賬戶(hù)的距離(UD)函數(shù)[13]衡量?jī)蓚€(gè)賬戶(hù)之間語(yǔ)義和行為的差異性。如果兩個(gè)賬戶(hù)鄰接賬戶(hù)的相似度越大,那么它們的相似度就越高。

        定義8:(User Closeness(UC) ):給出兩個(gè)賬戶(hù)va , vb∈V和一個(gè)賬戶(hù)vm,其中vm與va和vb都相似,F(xiàn)m代表va和vb鄰接頂點(diǎn)的集合[14],a是a的鄰接頂點(diǎn),b是b的鄰接頂點(diǎn),UC函數(shù)表示兩個(gè)賬戶(hù)的鄰接賬戶(hù)權(quán)重和越大,兩個(gè)賬戶(hù)越相似。

        UC(va,vb)=w(va,vb)*

        1-2(∑fm∈Fmw(va,vm)*w(vb,vm))∑a′∈Faw(va′,vm)+∑b′∈Fbw(vb′,vm)(8)

        w(va,vm)表示鄰接兩頂點(diǎn)的路徑權(quán)重。

        為了避免噪聲的影響,本文舍棄了部分相似賬戶(hù),但并不說(shuō)明它們兩個(gè)不相似,如果它們的鄰接頂點(diǎn)相似度很高,證明兩個(gè)賬戶(hù)很近,也就是說(shuō),它們之間的距離是接近的(語(yǔ)義和行為達(dá)到平衡)。定義賬戶(hù)距離(UD)函數(shù)如下:

        定義9:(User Distance (UD) ):給出兩個(gè)不相鄰賬戶(hù)(va∈V,vb∈V )和一個(gè)與va,vb都鄰接的賬戶(hù)vm,那么va 和vb的距離可以表示為:

        UD(va,vb)=∑fm∈Fmw(va,vm)*w(vb,vm)deg(Fm)(9)

        deg(Fm)表示鄰接頂點(diǎn)集合個(gè)數(shù)。

        定義10:用戶(hù)環(huán)繞分?jǐn)?shù)(USS):給出一個(gè)用戶(hù)v∈V,那么v的環(huán)繞分?jǐn)?shù)USS的計(jì)算公式如下:

        USS(v)=∑s∈SseedUC(v,s)*ηvs

        UD(v,s)*ηv-s(10)

        其中,η是增量系數(shù),“”表示兩個(gè)賬戶(hù)之間直接鄰接,“-”表示不直接相連。

        定義11:用戶(hù)關(guān)系相似分?jǐn)?shù)(URS):給出兩個(gè)用戶(hù)v0∈V0和v1∈V1,v0和v1的關(guān)系相似度計(jì)算公式如下:

        URS(v0,v1)=∑s∈Sseed*

        UC(v1,s)*ηv0sandv1s

        (1-UD(v1,s))*ηv0sandv1-s

        (1-UC(v1,s))*ηv0-sandv1s

        UD(v1,s)*ηv0-sandv1-s(11)

        定義12:用戶(hù)匹配分?jǐn)?shù)(UMS):給出兩個(gè)用戶(hù)vselect∈V0和v∈V1,vselect和v的配置文件是pselect∈P0和pv∈P1,vselect和v的UMS定義為:

        UMS(vselect,v)=PAS(pselect,pv)*|Sseed|+

        URS(vselect,v)(12)

        其中,|Sseed|為識(shí)別的種子賬戶(hù)。

        1.5賬戶(hù)選擇及交叉匹配過(guò)程

        賬戶(hù)選擇過(guò)程分為3步:

        (1)每次迭代的第一步均從行為圖或語(yǔ)義圖中選擇一個(gè)賬戶(hù),選擇用戶(hù)基于以下兩個(gè)規(guī)則:①如果兩個(gè)賬戶(hù)的配置文件具有很高的相似度,那么它們很可能是相同用戶(hù);②USS分值最高的用戶(hù)更可能是匹配的,應(yīng)該被選中?;谏鲜鲆?guī)則生成候選賬戶(hù)。

        (2)計(jì)算每個(gè)賬戶(hù)(行為/語(yǔ)義)的USS。

        (3)對(duì)行為和語(yǔ)義選出的用戶(hù)進(jìn)行排序,最高的作為下一組候選用戶(hù)匹配,過(guò)程如下:在有一個(gè)候選人用戶(hù)v后,需要匹配v用戶(hù),首先,需要從行為圖或語(yǔ)義圖確定候選用戶(hù)vselect,利用交叉配血方法計(jì)算最匹配的用戶(hù),然后返回UMS分值最高的賬戶(hù)。

        算法2:當(dāng)?shù)玫狡ヅ溆脩?hù)vmatched時(shí),將這個(gè)用戶(hù)作為一個(gè)新的候選用戶(hù),然后通過(guò)UserMatch方法得到一個(gè)新的匹配候選人v′matched。如果v′matched恰好也是vselect ,則意味著 vselect的最佳匹配的確是vmatched,也就是說(shuō)這是一個(gè)穩(wěn)定的匹配;如果Va、Vs是一組穩(wěn)定匹配,那么Va和Vs是相似的兩個(gè)賬戶(hù),否則將用戶(hù)vselect放進(jìn)不匹配的數(shù)組,重置vselect和vmatched進(jìn)行下一次迭代。如果沒(méi)有新的種子用戶(hù),也就是所有的用戶(hù)都已經(jīng)參與匹配,則終止迭代過(guò)程,從而得到相似賬戶(hù)組。

        2實(shí)驗(yàn)

        2.1實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

        實(shí)驗(yàn)環(huán)境配置:使用Java語(yǔ)言,實(shí)驗(yàn)機(jī)器采用2G內(nèi)存、500G硬盤(pán),操作系統(tǒng)是Windows XP。

        為了驗(yàn)證本文所提出方法的有效性,實(shí)驗(yàn)設(shè)計(jì)了5個(gè)對(duì)比。為了保護(hù)用戶(hù)隱私安全,本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自Twitter和Facebook公布的匿名數(shù)據(jù)集,由于系統(tǒng)數(shù)據(jù)龐大,實(shí)驗(yàn)僅采取2013-2014年部分區(qū)域網(wǎng)絡(luò)內(nèi)用戶(hù)日志作為實(shí)驗(yàn)數(shù)據(jù),共得到1 678 156條記錄,經(jīng)過(guò)數(shù)據(jù)清洗,刪除一些gif、jpg等非文本記錄,最終

        得無(wú)論是TFR算法還是基于單個(gè)行為或語(yǔ)義的算法,雖然可以實(shí)現(xiàn)比較高的精確度,但卻導(dǎo)致召回率和F1值比較低。所有版本的CMT比TFR擁有更高的F1值,CMTwc算法效果要比CMTbe差,事實(shí)上這些算法包含了很強(qiáng)的修剪過(guò)程,因?yàn)闆](méi)有交叉配血過(guò)程提供一個(gè)嚴(yán)格的條件,會(huì)有很多錯(cuò)誤的種子用戶(hù)作為結(jié)果影響實(shí)驗(yàn)精確度,所以必須以犧牲精確度為代價(jià)獲得較高的召回率。

        根據(jù)上述比較,可以看到CMT大多數(shù)版本擁有很高的召回率,這也意味著交叉配血策略行之有效。CMT除了CMTts外都有較高的性能,CMTwc通過(guò)很強(qiáng)的修剪過(guò)程來(lái)平衡召回率和精確率。在所有算法中,CMT性能最佳,這表明結(jié)合配置文件和行為語(yǔ)義是有效的方法。

        實(shí)驗(yàn)2:為了驗(yàn)證種子用戶(hù)數(shù)量對(duì)不同算法F1值的影響,針對(duì)上述實(shí)驗(yàn)數(shù)據(jù)集,采用不同算法分別選取1 000~4 000個(gè)種子用戶(hù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5所示。

        由圖5可知,隨著種子數(shù)目的增加,CMT和TFR的F值都會(huì)相應(yīng)遞增,當(dāng)增加到一定數(shù)量后遞增速率會(huì)變緩從而達(dá)到穩(wěn)定。CMT算法隨著種子用戶(hù)數(shù)量的增加始終比TFR擁有較高的F值,說(shuō)明CMT算法在處理大量用戶(hù)數(shù)據(jù)時(shí)更為準(zhǔn)確。

        實(shí)驗(yàn)3:為了更加清晰展示實(shí)驗(yàn)結(jié)果,生成如圖6所示各個(gè)系統(tǒng)性能損耗對(duì)比,它展示了5個(gè)系統(tǒng)在用戶(hù)識(shí)別上的性能。采用傳統(tǒng)的方式來(lái)計(jì)算相似度,雖然不需要處理用戶(hù)的行為信息,但復(fù)雜的關(guān)系網(wǎng)使其效率很低。而交叉配血算法提高了識(shí)別率,穩(wěn)定性也是最強(qiáng)的。本文提出的按照交叉配血原則來(lái)計(jì)算用戶(hù)多賬戶(hù)相似度,大大提高了識(shí)別效率,降低了系統(tǒng)開(kāi)銷(xiāo)。3結(jié)語(yǔ)

        為了解決用戶(hù)多賬戶(hù)識(shí)別問(wèn)題,本文提出了一種新穎的交叉配血策略。結(jié)合配置文件屬性、用戶(hù)行為和語(yǔ)義信息,在CMT中使用交叉配血策略,用于檢測(cè)種子用戶(hù),不僅降低了計(jì)算成本,還避免了復(fù)雜的修剪過(guò)程,提高了實(shí)驗(yàn)的準(zhǔn)確性。實(shí)驗(yàn)證明該方案提高了識(shí)別算法性能和準(zhǔn)確率。

        圖6算法實(shí)現(xiàn)效率對(duì)比

        參考文獻(xiàn)參考文獻(xiàn):

        [1]ZHOU XIAOPING. Crossplatform identification of anonymous identical users in multiple social media networks [J].IEEE Transactions on Knowledge and DataEngineering,2015, 28(2):411423.

        [2]YE NA, ZHAO YINLIANG, DONG LILI,et al. User identification based on multiple attribute decision making in social networks [C]. IEEE China Communications,2013:3739.

        [3]蘭麗輝,鞠時(shí)光,金華. 社會(huì)網(wǎng)絡(luò)數(shù)據(jù)發(fā)布中的隱私保護(hù)研究進(jìn)展[J].小型微型計(jì)算機(jī)系統(tǒng),2010,31(12):23182323.

        [4]L ZHIQIANG, S WERIMIN, Y ZHENHUA.Measuring semantic similarity between words using wikipedia [C].2009International Conference on Web Information Systems and Mining,2009:251255.

        [5]MOHTASSEB H ,AHMED A. Twolayer lassification and distinguished representations of users and documents for grouping and authorshipidentification [C]. Intelligent Computing and Intelligent Systems, 2009:651657.

        [6]周松松,馬建紅.基于URL的相似度會(huì)話(huà)識(shí)別方法[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(12):191196.

        [7]業(yè)寧,李威,梁作鵬,等.一種Web用戶(hù)行為聚類(lèi)算法[J].小型微型計(jì)算機(jī)系統(tǒng),2010,25(7):13641367.

        [8]MARISA GUTIERREZ,SILVIA BTONDATO.On models of directed path graphs non rooted directed path graphs[J]. Graphs and Combinatorics,2016,32(2):663684.

        [9]SMITA NIRKHI.Comparative study of authorship identification techniques for cyber forensics analysis[J].(IJACSA) International Journal of Advance Computer Science and Applications,2013,4(5):299320.

        [10]WANG WEN QI,IANGLIA FUZZY.Clustering algorithm based on weighted index and optimization of clustering number[C].the series Advances in Intelligent Systemsand Computing,2014:349359.

        [11]BONCHI F, GIANNOTTI F. Web log data warehousing and mining for intelligent Web caching[J].Data and Knowledge Engineering,2001,39(2):165189.

        [12]劉東,吳泉源,韓偉紅,等.基于用戶(hù)名特征的用戶(hù)身份同一性判定方法[J].計(jì)算機(jī)學(xué)報(bào),2015,38(10):20282040.

        [13]R ZAFARANI,H LIU.Connecting users across social media sites: a behavioralmodeling approach [C]. Proc.of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD13), 2013:4149.

        [14]孫琛琛,申德榮,寇月,等. 面向關(guān)聯(lián)數(shù)據(jù)的聯(lián)合式實(shí)體識(shí)別方法[J].計(jì)算機(jī)學(xué)報(bào),2015,38(9):17391754.

        丁香婷婷激情视频在线播放| 日本a在线天堂| 一本大道综合久久丝袜精品| 91精品国产综合久久久蜜| 欧美人与禽z0zo牲伦交| 亚洲精品自产拍在线观看| 亚洲日本国产乱码va在线观看| 国产免费网站在线观看不卡| 国产麻豆精品精东影业av网站| 国产乱人伦av在线a| 精品久久久久88久久久| 人日本中文字幕免费精品| 97人人模人人爽人人喊网| 亚洲中久无码永久在线观看同| 国产日韩久久久久69影院| 日本一区二区三区四区在线视频| 无码熟妇人妻av影音先锋| 国产第19页精品| 亚洲国产精品免费一区| 精品国产亚洲av高清大片| 亚洲色欲色欲www在线观看| 婷婷综合五月| 精品国产一区二区三广区| 亚洲一区在线观看中文字幕| 内谢少妇xxxxx8老少交 | 中文乱码字幕在线亚洲av| 无码人妻一区二区三区兔费| 狠狠久久亚洲欧美专区| 加勒比熟女精品一区二区av| 青青草狠吊色在线视频| 亚洲精品无码成人a片| 国产一区二区丰满熟女人妻| 人妻人妇av一区二区三区四区| 国产无套粉嫩白浆在线观看| 91麻豆国产香蕉久久精品| 国产av熟女一区二区三区老牛| 亚洲av无码专区国产乱码4se| 丁香五香天堂网| 国产日韩AV无码免费一区二区| 两人前一后地插着她丰满| 中国丰满熟妇xxxx性|