亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        SLTA-PathSim:一種融合節(jié)點(diǎn)屬性和文本信息的相似性度量算法

        2020-05-12 09:09:44劉輝林羅夢瑩
        關(guān)鍵詞:文本

        劉輝林,閆 娜,羅夢瑩

        (東北大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,沈陽110169)

        E-mail:liuhuilin@mail.neu.edu.cn

        1 引 言

        隨著在線社交媒體的發(fā)展,網(wǎng)絡(luò)交互變得極其復(fù)雜.現(xiàn)有的網(wǎng)絡(luò)大多是包含多種類型節(jié)點(diǎn)、鏈接以及豐富語義信息的異質(zhì)信息網(wǎng)絡(luò).通過在異質(zhì)信息網(wǎng)絡(luò)中建模數(shù)據(jù),可以捕捉豐富的語義信息并應(yīng)用于其他網(wǎng)絡(luò)分析任務(wù).

        異質(zhì)信息網(wǎng)絡(luò)分析的一個基本問題是確定合適的相似性度量指標(biāo)來表征節(jié)點(diǎn)之間的相似性.文獻(xiàn)信息網(wǎng)絡(luò)作為一種典型的異質(zhì)信息網(wǎng)絡(luò),描述了科學(xué)文獻(xiàn)的體系結(jié)構(gòu)和客觀規(guī)律.在文獻(xiàn)信息網(wǎng)絡(luò)中搜索與指定作者相似的其他作者有利于各種數(shù)據(jù)挖掘任務(wù).例如,相似性結(jié)果可以指導(dǎo)作者發(fā)現(xiàn)潛在的合作者.因此,兩個作者可能會更早地進(jìn)行學(xué)術(shù)交流,有助于學(xué)術(shù)研究.此外,相似性搜索在推薦系統(tǒng)方面也有廣泛應(yīng)用,例如文章推薦,朋友推薦等.

        相似性度量作為一種常用的評估節(jié)點(diǎn)對之間相似度的無監(jiān)督方法,一直是數(shù)據(jù)庫和web搜索領(lǐng)域的重要研究內(nèi)容.目前,很多學(xué)者對相似性度量方法進(jìn)行了研究,大多針對于同質(zhì)信息網(wǎng)絡(luò).然而,隨著在線社交媒體的發(fā)展,包含多種類型節(jié)點(diǎn)以及交互關(guān)系的異質(zhì)信息網(wǎng)絡(luò)在真實(shí)世界中占據(jù)主要地位,圖1的文獻(xiàn)信息網(wǎng)絡(luò)就是一種常見的異質(zhì)信息網(wǎng)絡(luò).該網(wǎng)絡(luò)包含“作者”、“論文”、“會議”、“術(shù)語”四種不同類型的節(jié)點(diǎn),這些節(jié)點(diǎn)之間構(gòu)成了多種交互關(guān)系.以作者A1和作者A2之間的關(guān)系為例,作者A1撰寫的論文P1和P2與作者A2撰寫的論文P4和P5都發(fā)表在“SIGMOD”會議上,論文P3和P6都包含相同的術(shù)語“Link Prediction”.

        圖1 文獻(xiàn)信息網(wǎng)絡(luò)

        異質(zhì)信息網(wǎng)絡(luò)中的兩個節(jié)點(diǎn)可以通過不同的路徑進(jìn)行連接,不同路徑表達(dá)的語義信息也不盡相同.2011年,孫等人[1]提出了元路徑的概念,為異質(zhì)信息網(wǎng)絡(luò)中的相似性度量提供了一個全新的視角.通過對現(xiàn)有方法進(jìn)行分析和總結(jié),本文在PathSim算法的基礎(chǔ)上,設(shè)計了基于節(jié)點(diǎn)屬性和文本信息的SLTA-PathSim 算法.該算法考慮了論文中作者署名位置、論文標(biāo)題和摘要對挖掘結(jié)果的影響,其主要貢獻(xiàn)如下:

        1)作者署名位置信息是論文的一個重要屬性,在一定程度上反映了作者對論文的貢獻(xiàn)程度.因此,本文提出了基于元路徑和作者署名位置的SL-PathSim算法,在計算交換矩陣時加入了作者署名位置的計算.

        2)由于提交渠道的不同,同一個會議上發(fā)表的多篇論文研究內(nèi)容可能存在差異[2].論文標(biāo)題和摘要反映了論文的主要研究方向,通過分析兩個作者發(fā)表文章的文本相似性可以了解作者的研究興趣是否相近.因此,本文提出了基于元路徑和文本內(nèi)容的TA-PathSim算法,實(shí)現(xiàn)了兩個節(jié)點(diǎn)之間相似性分?jǐn)?shù)的加權(quán)組合.

        3)最后,通過在著名的AMnier數(shù)據(jù)集上進(jìn)行多組相似性搜索實(shí)驗(yàn),對本文提出算法的有效性進(jìn)行了驗(yàn)證.

        2 相關(guān)工作

        相似性度量作為一種常用的評估節(jié)點(diǎn)對之間相似度的無監(jiān)督方法,一直是復(fù)雜網(wǎng)絡(luò)分析領(lǐng)域的一個熱點(diǎn)話題.直觀地說,如果兩個節(jié)點(diǎn)交互得越頻繁則它們的相似程度越高.

        2011年孫等人提出了用于單條對稱元路徑中同種類型節(jié)點(diǎn)間相似性計算的PathSim方法[1],該方法綜合了兩個作者之間的所有路徑以獲得相似性,在搜索相似作者方面取得了良好的效果.為了評估不同類型節(jié)點(diǎn)的相似性,石川等人借鑒異質(zhì)信息網(wǎng)絡(luò)中SimRank算法[3]的基本思想,提出了HeteSim算法[4].該算法采用雙向隨機(jī)游走計算兩個節(jié)點(diǎn)通過給定元路徑的相遇概率,可以在任意元路徑下測量任何節(jié)點(diǎn)之間的相似性.2018年周等人通過對大量文獻(xiàn)進(jìn)行研究,發(fā)現(xiàn)現(xiàn)有方法大多基于用戶指定的元路徑,為此設(shè)計了一種基于元結(jié)構(gòu)的異質(zhì)SMSS框架[5],能夠自動構(gòu)建并捕獲豐富的語義信息.文獻(xiàn)[6]從信息論的角度出發(fā),提出了一種基于元路徑的互信息模型MMI,通過路徑實(shí)例熵的數(shù)量來定義相似性分?jǐn)?shù),減少了因節(jié)點(diǎn)之間缺少連通關(guān)系而造成的誤差.

        上面介紹的方法均屬于根據(jù)專家的先前經(jīng)驗(yàn)來挖掘有用的知識,而如何自動且有效地進(jìn)行網(wǎng)絡(luò)特征的學(xué)習(xí)推動了網(wǎng)絡(luò)嵌入的發(fā)展.網(wǎng)絡(luò)嵌入旨在將每個網(wǎng)絡(luò)嵌入到低維空間中,學(xué)習(xí)節(jié)點(diǎn)的嵌入向量[7].在得到節(jié)點(diǎn)的向量表示之后就可以通過余弦相似性等距離度量方式計算節(jié)點(diǎn)之間的相似性.Bryan Perozzi等人于2014年提出了DeepWalk嵌入算法[8],首先在網(wǎng)絡(luò)上采用隨機(jī)游走策略生成節(jié)點(diǎn)的鄰居集合,然后應(yīng)用Skip-Gram模型訓(xùn)練嵌入.付等人提出了一種針對異質(zhì)信息網(wǎng)絡(luò)的Hin2Vec網(wǎng)絡(luò)嵌入方法[9],不同于DeepWalk,Hin2Vec的核心是一個神經(jīng)網(wǎng)絡(luò)模型,通過同時嵌入網(wǎng)絡(luò)中的節(jié)點(diǎn)和鏈接,更多地利用了網(wǎng)絡(luò)結(jié)構(gòu)和元路徑所表達(dá)的語義信息,使得生成的向量空間與實(shí)際網(wǎng)絡(luò)更加接近.盡管大多數(shù)現(xiàn)有的嵌入方法考慮了異質(zhì)關(guān)系,但它們通常對所有關(guān)系采用單一模型進(jìn)行嵌入,沒有區(qū)分不同的關(guān)系類型,這不可避免地限制了網(wǎng)絡(luò)嵌入的能力.2019年陸等人提出了RHINE模型[10],從數(shù)學(xué)分析角度出發(fā),將作者與論文之間的關(guān)系視為一種點(diǎn)對點(diǎn)結(jié)構(gòu),論文與會議之間的關(guān)系看成一個以另一個為中心的結(jié)構(gòu),針對不同的關(guān)系結(jié)構(gòu)采用不同的嵌入方法.

        系統(tǒng)回顧所有相關(guān)研究,我們發(fā)現(xiàn)以往的研究并沒有考慮節(jié)點(diǎn)屬性和豐富的文本信息來量化相似性.因此,本文在PathSim基礎(chǔ)上提出了一種融合節(jié)點(diǎn)屬性和文本信息的SLTA-PathSim算法,并通過在AMiner數(shù)據(jù)集上進(jìn)行多組對比實(shí)驗(yàn),證明了SLTA-PathSim的有效性.

        3 問題定義

        本節(jié)將簡要介紹文獻(xiàn)信息網(wǎng)絡(luò)中涉及的一些概念、符號以及交換矩陣的定義和計算.

        定義1.異質(zhì)信息網(wǎng)絡(luò)(Heterogeneous Information Network)通常被定義為G=(V,E,A,R),其中V表示網(wǎng)絡(luò)中的節(jié)點(diǎn),E表示這些節(jié)點(diǎn)所形成的鏈接.節(jié)點(diǎn)類型映射函數(shù)為θ:V→A,鏈接類型映射函數(shù)φ:E→R.對于任意節(jié)點(diǎn)v∈V,屬于一個特定的節(jié)點(diǎn)類型θ(v)∈A,對于任意一條邊e∈E,屬于一個特定的鏈接類型φ(e)∈R,并且滿足節(jié)點(diǎn)類型|A|>1或者鏈接類型|R|>1[1,2].

        定義2.文獻(xiàn)信息網(wǎng)絡(luò)(Bibliographic Information Network)是一種典型的異質(zhì)信息網(wǎng)絡(luò).圖1展示了一個包含作者(Author)、論文(Paper)、會議(Venue)以及術(shù)語(Term)四種節(jié)點(diǎn)類型的文獻(xiàn)信息網(wǎng)絡(luò).

        圖2 網(wǎng)絡(luò)模式與典型元路徑

        定義3.網(wǎng)絡(luò)模式(Network Schema)通常被定義成TG=(A,R).類似數(shù)據(jù)庫中的E-R圖,網(wǎng)絡(luò)模式是網(wǎng)絡(luò)的一種元描述.圖2(a)為文獻(xiàn)信息網(wǎng)絡(luò)的網(wǎng)絡(luò)模式示意圖.

        4 SLTA-PathSim算法

        文獻(xiàn)信息網(wǎng)絡(luò)包含多種類型的節(jié)點(diǎn)和鏈接.由于網(wǎng)絡(luò)的異質(zhì)性,同質(zhì)網(wǎng)絡(luò)方法不能簡單地應(yīng)用到異質(zhì)信息網(wǎng)絡(luò)中,進(jìn)而吸引了大量研究人員對異質(zhì)信息網(wǎng)絡(luò)研究的興趣.孫等人提出的PathSim算法雖然在作者相似性評估方面取得了一定的成果,但該方法依賴于路徑實(shí)例的數(shù)量,通過整合節(jié)點(diǎn)間有限的路徑數(shù)計算相似性.

        給定一條對稱元路徑P,對于任意兩個節(jié)點(diǎn)ai和aj,PathSim(ai,aj)定義如公式(1)所示,其中pai→aj指在元路徑P下從節(jié)點(diǎn)ai到達(dá)節(jié)點(diǎn)aj的路徑實(shí)例.

        (1)

        由公式(1)可知,PathSim由兩部分組成:一是給定元路徑P下源節(jié)點(diǎn)與目標(biāo)節(jié)點(diǎn)之間的路徑實(shí)例數(shù),二是節(jié)點(diǎn)到自身的路徑實(shí)例數(shù).如果兩個節(jié)點(diǎn)之間的元路徑實(shí)例越多,相似性就越高.對于單一查詢來說,PathSim算法的時間復(fù)雜度為O(n*d),其中n表示目標(biāo)節(jié)點(diǎn)的數(shù)量,d為交換矩陣MP中目標(biāo)節(jié)點(diǎn)的平均鄰居數(shù).

        盡管PathSim后續(xù)被應(yīng)用于文獻(xiàn)信息網(wǎng)絡(luò)中的多種數(shù)據(jù)挖掘任務(wù),但忽略了節(jié)點(diǎn)屬性和文本信息的影響.針對PathSim的不足,本文提出了一種融合節(jié)點(diǎn)屬性和文本信息的SLTA-PathSim算法.下面幾小節(jié),將對該算法進(jìn)行詳細(xì)描述.

        4.1 基于元路徑和作者署名位置的SL-PathSim算法

        對于計算文獻(xiàn)信息網(wǎng)絡(luò)中兩個作者之間的相似性,論文這一類型節(jié)點(diǎn)起著關(guān)鍵性作用,很多基于元路徑的方法都可以圍繞論文進(jìn)行擴(kuò)展.通過對論文中存在的多種屬性和文本內(nèi)容進(jìn)行分析,與現(xiàn)有方法不同,本文抓住了作者署名位置這一重要屬性對計算結(jié)果的影響.一般來說,作者的署名位置越靠前,作者對論文的貢獻(xiàn)程度越大.基于這樣的想法,本文提出了基于元路徑和作者署名位置的SL-PathSim(Signature Location-PathSim)算法,其時間復(fù)雜度同樣為O(n*d).下面將給出該算法的定義,并通過分析實(shí)例對該算法進(jìn)行介紹.

        根據(jù)交換矩陣的定義,給定對稱元路徑P,對于兩個相同類型的節(jié)點(diǎn)ai和aj,SL-PathSim算法的定義如公式(2)所示.其中sl(ai)表示作者ai的署名位置,sl(ai)=slmax+1-slcur,slmax是ai發(fā)表的所有論文中署名位置的最大值,slcur指作者在當(dāng)前論文中的署名位置.若作者與論文之間不存在寫作關(guān)系,則sl(ai)為0.

        (2)

        圖3是作者Jim和Mike之間基于元路徑APVPA的一個簡單文獻(xiàn)信息網(wǎng)絡(luò)實(shí)例,其中包含作者、論文、會議三種不同類型的節(jié)點(diǎn).

        在元路徑APVPA下,交換矩陣M=WAPWPV…WVPWPA,其中WPA=WAPT,WVP=WPVT.鄰接矩陣WAP表明作者和論文之間是否存在寫作關(guān)系.以圖3中的Jim為例,該作者發(fā)表了三篇論文P1、P2、P5,并沒有發(fā)表論文P3、P4和P6,因此本例中通過PathSim算法計算得到的WAP如表1所示.

        圖3 基于元路徑APVPA的文獻(xiàn)信息網(wǎng)絡(luò)實(shí)例

        表1 PathSim計算的鄰接矩陣WAP

        Table 1 Adjacency matrixWAPcalculated by PathSim

        P1P2P3P4P5P6Jim110010Mike001101

        作為論文節(jié)點(diǎn)的一個重要屬性,作者署名位置信息在一定程度上反映了該作者對論文的貢獻(xiàn)程度.因此,本文在計算交換矩陣時,增加了作者署名位置.同樣以圖3示例中的Jim為例,該作者發(fā)表的三篇文章P1、P2、P5中最大署名位置為2,根據(jù)公式slmax+1-slcur,可以得到:slP1(Jim)=2+1-1=2,slP2(Jim)=2+1-2=1,slP5(Jim)=2+1-1=2.因此,本例中通過SL-PathSim計算得到的WAP如表2所示.

        表2 SL-PathSim計算的鄰接矩陣WAP

        Table 2 Adjacency matrixWAPcalculated by SL-PathSim

        P1P2P3P4P5P6Jim210020Mike001102

        鄰接矩陣WPV表示論文與會議之間的發(fā)表關(guān)系,其通過PathSim算法計算的結(jié)果可以表示為表3.由于作者署名位置僅存在于作者和論文之間,在論文和會議之間并不存在,所以這里直接將PathSim計算的WPV結(jié)果作為SL-PathSim算法的WPV鄰接矩陣.

        表3 PathSim計算的鄰接矩陣WPV

        Table 3 Adjacency matrixWPVcalculated by PathSim

        KDDSIGMODP110P210P310P410P501P601

        4.2 基于元路徑和文本信息的TA-PathSim算法

        文獻(xiàn)信息網(wǎng)絡(luò)中的論文節(jié)點(diǎn)包含多種文本信息,例如論文標(biāo)題,摘要,關(guān)鍵詞等,其中論文標(biāo)題是對文章最簡要的概括.這也與現(xiàn)實(shí)情況相符,兩個作者所撰寫的論文標(biāo)題越相似表明其研究方向越相近,但通過標(biāo)題僅能了解作者的大致研究方向.設(shè)想兩位作者在同一會議上發(fā)表了文章,標(biāo)題都是“網(wǎng)絡(luò)表征學(xué)習(xí)的研究與應(yīng)用”,但二者分別基于同質(zhì)信息網(wǎng)絡(luò)和異質(zhì)信息網(wǎng)絡(luò),雖然兩篇文章的標(biāo)題完全相同,但是研究內(nèi)容卻存在很大差異.如果僅僅考慮論文標(biāo)題之間的相似性,反映的只是論文的部分信息,計算的準(zhǔn)確性就會下降.因此,本文提出了基于元路徑和文本信息的TA-PathSim算法,同時計算論文標(biāo)題和摘要之間的相似性,并取它們的平均值作為兩篇文章的最終文本相似度.

        目前文本特征提取問題的研究工作,逐漸從傳統(tǒng)方法向深度學(xué)習(xí)方法轉(zhuǎn)移[12].傳統(tǒng)的“Bag-of-Words”忽略了詞的順序和單詞之間表達(dá)的語義信息.雖然“N-Grams”模型考慮了順序,但效果沒有顯著改善.為此,本文采用Doc2Vec模型來實(shí)現(xiàn)論文標(biāo)題及摘要相似度的計算,該模型通過PV-DM模型將文本映射成向量,在一定程度上保留了文本的語義信息[13].

        算法1詳細(xì)介紹了Doc2Vec模型的使用流程.首先根據(jù)文獻(xiàn)信息網(wǎng)絡(luò)中論文節(jié)點(diǎn)提供的標(biāo)題集對Doc2Vec模型進(jìn)行訓(xùn)練,然后利用訓(xùn)練出來的模型M將論文標(biāo)題和摘要轉(zhuǎn)化為特征向量,最后通過距離計算公式計算論文標(biāo)題及摘要的相似度.關(guān)于距離公式本文使用的是余弦相似性度量方法,其時間復(fù)雜度為O(n*m),n代表作者的個數(shù),m是兩位作者在同一個會議上發(fā)表文章的數(shù)量.

        算法1.文本相似性的計算

        輸入:文獻(xiàn)信息網(wǎng)絡(luò)G,作者集合A,給定作者a1

        輸出:論文標(biāo)題相似性St,論文摘要相似性Sa,論文相似性Sta

        1. 初始化相似性值列表St,Sa,Sta為φ

        2. 使用論文標(biāo)題集訓(xùn)練Doc2Vec模型得到M

        3.Va1←a1參加的會議

        4. FOR eacha2inADO

        5.Va2←a2參加的會議

        6. IFVa1∩Va2=φ

        7.Sta=0

        8. END IF

        9. ELSE

        10. FOR eachvinVa1∩Va2DO

        11.P1,P2←v中a1,a2發(fā)表的論文

        12.T1,T2←a1,a2發(fā)表論文的標(biāo)題

        13.A1,A2←a1,a2發(fā)表論文的摘要

        14.v1,v2←M(T1),M(T2)

        15.v3,v4←M(A1),M(A2)

        16.St,Sa←cos(v1,v2),cos(v3,v4)

        Sta←(St+Sa)/2.0

        17. END FOR

        18. END ELSE

        19. END FOR

        20. RETURNSta

        給定元路徑P,雖然PathSim能夠捕捉節(jié)點(diǎn)之間微妙的語義信息,但是節(jié)點(diǎn)自身存在很多屬性信息和豐富的文本信息,如何考慮這些信息對挖掘結(jié)果的影響是個關(guān)鍵.因此,在PathSim算法的基礎(chǔ)上,本文將論文標(biāo)題和摘要的相似性作為兩位作者之間基于元路徑相似性分?jǐn)?shù)的權(quán)重.對于相同類型的作者ai和aj,TA-PathSim(ai,aj)定義如公式(3)所示,其中Sta(ai,aj)表示ai和aj在同一會議上發(fā)表論文的標(biāo)題相似性和摘要相似性的平均值.

        (3)

        由于TA-PathSim加入了標(biāo)題和摘要文本相似度的計算,在執(zhí)行和計算過程中會花費(fèi)相應(yīng)的時間,因此執(zhí)行效率要低于PathSim,其時間復(fù)雜度為O(n*d*m),m是兩位作者在同一個會議上發(fā)表的文章篇數(shù).由于對于任意兩位作者a和a′,若不存在一個滿足APV的元路徑使得作者a與作者a′關(guān)聯(lián),那兩個作者a和a′一定不相似[12].因此,本文計算文本相似度的前提是判斷兩位作者是否在同一會議發(fā)表了論文,如果存在這樣的目標(biāo)作者,則執(zhí)行計算,避免查找網(wǎng)絡(luò)中的所有作者,大大縮減了計算時間.

        5 實(shí) 驗(yàn)

        本節(jié)利用PathSim算法對所提出的算法進(jìn)行了定性評估,基于元路徑APVPA搜索并分析與“Christos Faloutsos”相似的Top-10作者,對本文提出算法的有效性進(jìn)行了驗(yàn)證.

        5.1 數(shù)據(jù)集

        由于加入了論文標(biāo)題及摘要的相似性計算,數(shù)據(jù)集的獲取成為了本文的難點(diǎn).以往的研究大多采用DBLP的“4-area-dataset”數(shù)據(jù)集,但該數(shù)據(jù)集包含的標(biāo)題和摘要信息基本一致.因此,本文使用AMiner數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).AMiner是清華大學(xué)計算機(jī)科學(xué)系開發(fā)的數(shù)據(jù)分析與服務(wù)平臺,為計算機(jī)領(lǐng)域的研究者提供了許多前沿知識和研究方向.為了使計算出來的結(jié)果更加真實(shí),本文選取了AMiner數(shù)據(jù)集中1992年到2011年的數(shù)據(jù),并刪除了不包含摘要的論文.此外,考慮到大多數(shù)研究者關(guān)注頂級會議上發(fā)表的論文以及每個研究領(lǐng)域都有相應(yīng)的社區(qū),本文根據(jù)谷歌學(xué)術(shù)指標(biāo)提取了6個領(lǐng)域的數(shù)據(jù),即人工智能(AI)、計算機(jī)視覺(CV)、數(shù)據(jù)挖掘(DM)、數(shù)據(jù)庫(DB)、計算語言學(xué)(CL)和信息系統(tǒng)(IS)[14].處理后的數(shù)據(jù)集包括1.46M論文、476K作者和4K會議.

        5.2 SL-PathSim算法分析

        首先對數(shù)據(jù)集進(jìn)行處理,從而獲得每篇論文中每位作者的署名位置.在計算交換矩陣時,如果作者發(fā)表了一篇論文,slmax+1-slcur可用來表示兩個節(jié)點(diǎn)間的連通性,其中slmax為作者在所有發(fā)表論文中署名位置的最大值,slcur為作者在當(dāng)前論文中的署名位置.

        分析表4中SL-PathSim,PathSim查找的與“Christos Faloutsos”相似的Top-10作者,“Heikki Mannila”和“Ravi Kumar”之間的順序略有不同.“Heikki Mannila”共發(fā)表論文19篇,其中2篇作為第一作者,9篇作為第二作者,7篇作為第三作者,1篇作為第六作者.作者“Ravi Kumar”發(fā)表論文43篇,第一作者7篇,第二作者25篇,第三作者7篇,第四作者3篇,第五作者1篇.根據(jù)上述數(shù)據(jù)以及作者署名位置計算公式我們可以得出結(jié)論,作者“Heikki Mannila”對論文的貢獻(xiàn)程度要大于“Ravi Kumar”.如果目標(biāo)作者和源作者在同一會議上發(fā)表論文,目標(biāo)作者對論文貢獻(xiàn)程度越大,該作者與源作者越相似.因此,“Heikki Mannila”的相似度得分應(yīng)高于“Ravi Kumar”.

        表4 APVPA下PathSim和SL-PathSim搜索的與“Christos Faloutsos”相似的Top-10作者

        Table 4 Top-10 authors similar to “Christos Faloutsos” searched by PathSim and SL-PathSim under APVPA

        PathSimSL-PathSimChristos Faloutsos1.0000Christos Faloutsos1.0000Jiawei Han0.9212Jiawei Han0.8794Philip S.Yu0.8921Philip S.Yu0.8551Jian Pei0.8714Jian Pei0.7404Charu C.Aggarwal0.6943Jieping Ye0.6502Ravi Kumar0.6847Heikki Mannila0.6491Eamonn J.Keogh0.6845Ravi Kumar0.6198Heikki Mannila0.6753Huan Liu0.5752Vipin Kumar0.6715Bing Liu0.5585Hui Xiong0.6677Hui Xiong0.5513

        從表4中我們可以看出,關(guān)于與“Christos Faloutsos”相似的Top-10作者,SL-PathSim和PathSim的查找結(jié)果存在細(xì)微的差別.原因是PathSim算法只是基于元路徑的實(shí)例數(shù)量計算節(jié)點(diǎn)對之間的相似度,僅僅考慮作者是否發(fā)表了一篇論文,并沒有考慮作者對該篇論文的貢獻(xiàn)程度.本文提出的SL-PathSim算法在考慮元路徑實(shí)例數(shù)量的同時考慮了作者署名位置的影響,所以它的結(jié)果更接近事實(shí).

        5.3 TA-PathSim算法分析

        TA-PathSim算法的實(shí)現(xiàn)主要包含四個步驟:首先訓(xùn)練論文標(biāo)題集以獲取Doc2Vec模型,然后利用Doc2Vec模型將論文的標(biāo)題和摘要轉(zhuǎn)化為特征向量,再利用余弦相似性度量方法分別計算標(biāo)題和摘要的相似度,最后計算得到兩個作者的相似度.

        表5 APVPA下PathSim和TA-PathSim搜索的與“Christos Faloutsos”相似的Top-10作者

        Table 5 Top-10 authors similar to “Christos Faloutsos” searched by PathSim and TA-PathSim under APVPA

        PathSimTA-PathSimChristos Faloutsos1.0000Christos Faloutsos1.0000Jiawei Han0.9212Jiawei Han0.6268Philip S.Yu0.8921Philip S.Yu0.6058Jian Pei0.8714Jian Pei0.5917Charu C.Aggarwal0.6943Ravi Kumar0.4703Ravi Kumar0.6847Charu C.Aggarwal0.4676Eamonn J.Keogh0.6845Vipin Kumar0.4666Heikki Mannila0.6753Heikki Mannila0.4645Vipin Kumar0.6715Hui Xiong0.4634Hui Xiong0.6677Eamonn J.Keogh0.4549

        表5給出了TA-PathSim與PathSim搜索到的與“Christos Faloutsos”相似的Top-10作者,其中“Heikki Mannila”和“Eamonn J.Keogh”的排名順序有較大差異.“Heikki Mannila”發(fā)表的文章共有19篇,其中6篇關(guān)于“similarity”,3篇關(guān)于“cluster”.“Eamonn J.Keogh”共發(fā)表21篇論文,其中15篇論文關(guān)于“time series”,4篇論文關(guān)于“similarity”.源作者“Christos Faloutsos”發(fā)表了8篇關(guān)于“proximity measures”和“similarity queries”的論文,2篇論文關(guān)于“time series”,2篇關(guān)于“cluster”.通過上面對作者發(fā)表文章主要內(nèi)容的分析,“Heikki Mannila”的研究興趣與源作者的研究興趣更為相似.因此,“Heikki Mannila”應(yīng)該排在“Eamonn J.Keogh”之前.

        PathSim算法僅僅考慮在同一會議上發(fā)表論文的作者之間的交互關(guān)系,而不考慮作者發(fā)表的論文內(nèi)容是否相似,即作者的研究興趣是否接近.因此,TA-PathSim搜索出來的結(jié)果更加可信.

        5.4 SLTA-PathSim分析

        基于上述算法分析,我們已經(jīng)知道SL-PathSim和TA-PathSim都取得了很好的效果,為此本文對SL-PathSim和TA-PathSim進(jìn)行了整合,將其作為一個擴(kuò)展,即SLTA-PathSim算法.對于相同類型的作者ai和aj,SLTA-PathSim(ai,aj)定義如公式(4)所示,其時間復(fù)雜度為O(n*d*m).為了證明SLTA-PathSim算法的有效性,本文同樣查找了與“Christos Faloutsos”相似的Top-10作者.

        (4)

        表6 APVPA下PathSim和SLTA-PathSim搜索的與“Christos Faloutsos”相似的Top-10作者

        Table 6 Top-10 authors similar to “Christos Faloutsos” searched by PathSim and SLTA-PathSim under APVPA

        PathSimSLTA-PathSimChristos Faloutsos1.0000Christos Faloutsos1.0000Jiawei Han0.9212Jiawei Han0.5982Philip S.Yu0.8921Philip S.Yu0.5806Jian Pei0.8714Jian Pei0.5027Charu C.Aggarwal0.6943Heikki Mannila0.4520Ravi Kumar0.6847Jieping Ye0.4465Eamonn J.Keogh0.6845Ravi Kumar0.4205Heikki Mannila0.6753Huan Liu0.3861Vipin Kumar0.6715Bing Liu0.3828Hui Xiong0.6677Hui Xiong0.3826

        分析表6,SLTA-PathSim算法的搜索結(jié)果與PathSim的搜索結(jié)果相近,但順序略有不同.在元路徑APVPA下,表4中“Heikki Mannila”和“Ravi Kumar”之間的排名順序與表5中的順序相反.通過上面的分析我們已經(jīng)知道“Ravi Kumar”共發(fā)表43篇論文,其中14篇關(guān)于“similarity”和“social network”.如果僅僅考慮源作者和目標(biāo)作者之間所發(fā)表文章的文本內(nèi)容,“Ravi Kumar”與源作者更為相似.但通過分析作者署名位置信息,作者“Heikki Mannila”對文章的貢獻(xiàn)程度比“Ravi Kumar”要大得多.因此,“Heikki Mannila”的相似性分?jǐn)?shù)相對較高,與作者“Christos Faloutsos”更加相似.

        為了進(jìn)一步驗(yàn)證SLTA-PathSim算法的性能,本文將PathCount、Hin2Vec和SLTA-PathSim進(jìn)行了對比.表7是三種算法查找到的與“Christos Faloutsos”相似的Top-10作者.在元路徑APVPA下,Path Count算法只是簡單地判斷兩位作者是否在同一個會議上發(fā)表了文章,如果存在這樣的元路徑就把兩位作者之間的路徑實(shí)例數(shù)量加1.因此,如果目標(biāo)作者與源作者之間存在的路徑實(shí)例數(shù)量越多,兩個作者越相似.由于“Philip S.Yu”與源作者多次在同一會議上發(fā)表文章,所以Path Count查找結(jié)果為“Philip S.Yu”與源作者相似程度比較高.路徑數(shù)僅僅反映了網(wǎng)絡(luò)的局部結(jié)構(gòu)信息,而每個會議包含不同的主題,路徑數(shù)越多僅能說明兩個作者研究領(lǐng)域相似,但具體的研究興趣可能存在較大的區(qū)別.Hin2Vec算法返回一些作者(例如“Andrew Tomkins”),在特定的研究興趣上不同于“Christos Faloutsos”.出現(xiàn)這種現(xiàn)象的原因可能是網(wǎng)絡(luò)嵌入適用于大規(guī)模網(wǎng)絡(luò),而本文使用的數(shù)據(jù)集是20年內(nèi)的作者發(fā)表論文數(shù)據(jù),并且刪除了沒有摘要的數(shù)據(jù),因此其效果低于SLTA-PathSim.

        本文提出的SLTA-PathSim算法,從網(wǎng)絡(luò)結(jié)構(gòu)、節(jié)點(diǎn)屬性和文本內(nèi)容等多角度出發(fā),綜合了能夠影響作者之間相似性的多方面因素.此外,由于存在多個作者與源作者之間的路徑數(shù)相等的情況,具體哪位作者與“Christos Faloutsos”更相似則無法判斷,為此本文進(jìn)一步證明了SLTA-PathSim算法的有效性.

        表7 APVPA下Path Count、Hin2Vec和SLTA-PathSim搜索的與“Christos Faloutsos”相似的Top-10作者

        Table 7 Top-10 authors similar to “Christos Faloutsos” searched by Path Count、Hin2Vec and SLTA-PathSim under APVPA

        Path CountHin2VecSLTA-PathSimChristos Faloutsos78.0000Christos Faloutsos1.0000Christos Faloutsos1.0000Philip S.Yu39.0000Ravi Kumar0.8576Jiawei Han0.5982Jiawei Han33.0000Jiawei Han0.8376Philip S.Yu0.5806Hans-Peter Kriegel27.0000Philip S.Yu0.8349Jian Pei0.5027Hector Garcia-Molina27.0000Andrew Tomkins0.8268Heikki Mannila0.4520JianPei23.0000ChengXiang Zhai0.8234Jieping Ye0.4465Haixun Wang23.0000Jian Pei0.8217Ravi Kumar0.4205Wei Wang′23.0000Charu C.Aggarwal0.8197Huan Liu0.3861H.V.Jagadish22.0000Jimeng Sun0.8144Bing Liu0.3828RaghuRamakrishnan22.0000Bing Liu0.8007Hui Xiong0.3826

        6 總 結(jié)

        通過閱讀大量文獻(xiàn),對現(xiàn)有相似性計算方法進(jìn)行分析和總結(jié),發(fā)現(xiàn)一些算法沒有評估節(jié)點(diǎn)屬性和文本信息對挖掘結(jié)果的影響.為了更好地表達(dá)信息,本文提出了SL-PathSim算法,該算法考慮了作者對論文的貢獻(xiàn)程度.此外,本文還從文本內(nèi)容角度進(jìn)行分析,設(shè)計了基于論文標(biāo)題與摘要相似度的TA-PathSim算法以實(shí)現(xiàn)相似性分?jǐn)?shù)的加權(quán)組合.在指定元路徑APVPA下,利用著名的AMiner數(shù)據(jù)集設(shè)計了多組實(shí)驗(yàn),通過查找與“Christos Faloutsos”相似的Top-10作者,證明了本文所提算法的查找結(jié)果更接近于事實(shí).

        雖然SLTA-PathSim在作者相似性度量方面效果很好,但使用的是預(yù)先定義好的元路徑.如何在大規(guī)模的復(fù)雜異質(zhì)信息網(wǎng)絡(luò)中自動挖掘有用的元路徑是一個極具前景的方向.

        猜你喜歡
        文本
        文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
        重點(diǎn):論述類文本閱讀
        重點(diǎn):實(shí)用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開對具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        從背景出發(fā)還是從文本出發(fā)
        語文知識(2015年11期)2015-02-28 22:01:59
        少妇做爰免费视频了| 国内精品九九久久精品小草| 二区三区视频在线观看| 精品嫩模福利一区二区蜜臀| 久久婷婷五月综合97色直播| 欧美日韩色另类综合| 一级午夜视频| 青青草久热手机在线视频观看 | 国产目拍亚洲精品一区二区| 日本岛国精品中文字幕| 日本女同性恋一区二区三区网站| 色综合久久网| 尤物视频在线观看| 久久久久久久妓女精品免费影院| 日韩伦理av一区二区三区| 精品人妻伦一二三区久久| 国产真实伦在线观看| 在线看片国产免费不卡| 亚洲精品大全中文字幕| 国精品人妻无码一区二区三区性色| 韩国v欧美v亚洲v日本v| 8090成人午夜精品无码| 国产一区二区av在线免费观看 | 一区二区在线观看精品在线观看| 免费超爽大片黄| 在线观看免费a∨网站| 国产精品成人无码a 无码 | 久久www免费人成—看片| 在线欧美不卡| 亚洲一级天堂作爱av| 小妖精又紧又湿高潮h视频69| 337人体做爰大胆视频| 国产精品久久中文字幕第一页 | 狠狠人妻久久久久久综合蜜桃| 欧美精品一区二区性色a+v| 五月天亚洲av优女天堂| 白嫩丰满少妇av一区二区| 一二三四在线观看免费视频| 九九在线精品视频xxx| 亚洲视频专区一区二区三区| 精品国产一二三产品区别在哪|