馬慧芳,胡東林,劉宇航,李志欣
(1.西北師范大學計算機科學與工程學院,甘肅 蘭州 730070;2.桂林電子科技大學廣西可信軟件重點實驗室,廣西 桂林 541004;3.廣西師范大學廣西多源信息挖掘與安全重點實驗室,廣西 桂林 541004)
科研社交網(wǎng)站旨在為研究人員提供在線的以科學研究為導向的活動[1]、作者署名識別[2]、學術(shù)文本功能識別[3]、發(fā)布自己的研究成果(如論文、基金項目)[4,5]以及發(fā)現(xiàn)相同研究領(lǐng)域的學者或團體以快速挖掘出“合作關(guān)系緊密”“潛在的”合作者。在學術(shù)資源非常寶貴的前提下,研究人員數(shù)量的不斷增長給彼此帶來了更多的合作機會。在學術(shù)界,作者之間的頻繁合作對科研發(fā)展有一定的促進作用。然而,如何為研究人員快速選擇最有價值的合作者并非易事,合作者推薦也顯得尤為必要。
近年來,研究人員已從不同的角度提出了合作者推薦方法。如Tang等人[6]提出了解決跨領(lǐng)域中存在的稀疏連接和主題偏離的CTL (Cross- domain Topic Learning)方法。Sun等人[7]提出了一種基于元路徑的關(guān)系預測模型來解決異構(gòu)網(wǎng)絡中存在多種類型的對象(例如作者、主題和論文)以及這些對象之間存在多種類型的鏈接預測問題。Li等人[8]提出了ACRec (Academic Collaboration Recommendation)方法,其使用3個學術(shù)指標的隨機游走方法推薦新合作者,通過計算的鏈接重要性,使隨機游走者更有可能訪問有價值的節(jié)點。Rêgo等人[9]研究了合作網(wǎng)絡的形成模型,認為作者的貢獻與合作者的數(shù)量以及作者與其他作者合作的相對努力大小有關(guān)。Makarov等人[10]使用node2vec網(wǎng)絡嵌入和新的邊緣嵌入運算符嵌入方法研究合作網(wǎng)絡中合作量的預測問題。此外,合作者推薦也可被看作是社區(qū)搜索,一般地,可將科研社交網(wǎng)絡建模為由節(jié)點和邊組成的圖,節(jié)點表示研究者關(guān)注的實體,邊表示實體與實體之間的關(guān)系,如作者合作關(guān)系。行之有效的向科研人員推薦適合的合作者的方法本質(zhì)上就是在圖中找到包含特定節(jié)點的最合適社區(qū),該過程也稱為社區(qū)搜索[11]?,F(xiàn)有的社區(qū)搜索方法包括2類:(1)網(wǎng)絡拓撲相關(guān)的社區(qū)搜索,指尋找包含給定節(jié)點集且滿足k-clique[12]、k-core[13]或k-truss[14]等特定拓撲結(jié)構(gòu)的社區(qū);(2)綜合考慮了網(wǎng)絡拓撲結(jié)構(gòu)和節(jié)點屬性的社區(qū)搜索[15]。Sourabh等人[16]已將社區(qū)搜索方法成功地運用到了推薦系統(tǒng)中。上述工作中,Rêgo等人[9]和Sourabh等人[16]提出的方法與本文方法最相關(guān),但前者沒有采用社區(qū)搜索方法并對合作網(wǎng)絡進行雙加權(quán);后者雖然將社區(qū)搜索方法運用到了合作者推薦方法中,但沒有同時考慮合作網(wǎng)絡的結(jié)構(gòu)信息與屬性信息,并且忽略了推薦的作者質(zhì)量高低以及一篇論文具有多個合作者等特殊情況。
針對以上問題,本文提出了一種融合作者合作強度與研究興趣的合作者推薦CRISI(Collaborator Recommendation via Integrating author’s cooperation Strength and research Interest)方法。首先,利用合作網(wǎng)絡的結(jié)構(gòu)信息(合作強度大小)與屬性信息(研究興趣相似程度)構(gòu)建雙加權(quán)網(wǎng)絡;其次,設計種子替換方法尋找種子節(jié)點,即影響力大的作者;再次,基于分數(shù)k-core社區(qū)搜索方法搜索合適的目標社區(qū),使用這種方式可以推薦與其他研究人員合作強度較高的合作者;最后,在DBLP(Digital Bibliography and Library Project)數(shù)據(jù)集上進行實驗,驗證本文方法的有效性。
二分圖又稱為二部圖,是圖論中的一種特殊模型,在復雜網(wǎng)絡研究中具有重要的意義,它可以模擬2類實體之間的關(guān)系,同類實體之間無邊,不同類實體之間可能有邊。例如作者和論文,查詢和網(wǎng)頁等。以本文使用的DBLP數(shù)據(jù)集為例,構(gòu)建作者和論文形成的二分圖。DBLP作為計算機領(lǐng)域內(nèi)計算機類英文文獻的集成數(shù)據(jù)庫,以作者為核心,按年代列出了作者的科研成果,其中涵蓋了國際期刊和會議等公開發(fā)表的論文。
形式化地,設G=(A∪P,D)是一個作者-論文二分圖,如圖1所示。其中,A={a1,a2,…,an}表示作者集合,P={p1,p2,…,pm}表示論文集合,D表示邊集合,同類節(jié)點(作者與作者、論文與論文)之間無邊,不同類節(jié)點(作者與論文)之間可能有邊。
Figure 1 Example of author-paper bipartite graph圖1 作者-論文二分圖示例
由作者-論文二分圖G構(gòu)建作者合作關(guān)系圖T=(A,E,B),其中A表示作者集合,E表示邊集合,(ai,aj)∈E表示作者ai與作者aj有過合作關(guān)系,即存在邊;B=[b1,b2,…,bn]∈Rk×n是一個屬性矩陣,其屬性向量bi是每一個節(jié)點ai∈A對應的k維向量;使用一個對稱權(quán)重矩陣W=[wij]n×n存儲作者ai和作者aj之間邊上的權(quán)重,其權(quán)重大小由作者間合作強度和作者研究興趣相似度決定。僅僅單方面通過作者間的合作強度(結(jié)構(gòu))或研究興趣相似性(屬性)來計算邊的權(quán)重,這不足以有效地捕獲作者間的合作緊密性。所以,同時對結(jié)構(gòu)和屬性加權(quán)可以有效地提升推薦效果。
本節(jié)詳細描述融合作者合作強度與研究興趣推薦方法的基本過程。首先同時考慮結(jié)構(gòu)和屬性構(gòu)建雙加權(quán)網(wǎng)絡,其次利用提出的種子替換方法挖掘種子節(jié)點,最后使用分數(shù)k-core社區(qū)搜索方法給待推薦作者搜索合適的目標社區(qū),如圖2所示。
Figure 2 Example of integrating author cooperation strength and research interest圖2 融合作者合作強度與研究興趣的示例圖
圖2描述了融合作者合作強度與研究興趣的基本過程。節(jié)點表示作者,每個節(jié)點都有一個與之關(guān)聯(lián)的屬性列表,用于定義作者的屬性。以作者4作為待推薦節(jié)點為例,考慮以下2種情況:(1)直接將作者4作為種子節(jié)點,利用傳統(tǒng)的k-core方法搜索社區(qū),得到與作者4有直接合作關(guān)系的社區(qū),如圖2的右上方框所示,此社區(qū)由作者3、作者4、作者5和作者6構(gòu)成;(2)圖2右下方框使用本文的種子替換方法和分數(shù)k-core方法則可以找到一個由作者3、作者4、作者6、作者7和作者8構(gòu)成的目標社區(qū),如圖2的右下方框所示。通過比較圖2右上方和右下方的2個圖,可以看出,本文方法找到的社區(qū)具有合作關(guān)系強度大、興趣類似的特點。
(1)合作關(guān)系強度計算。在作者合作關(guān)系網(wǎng)絡中,作者間的合作次數(shù)在一定程度上反映了網(wǎng)絡的緊密性。如果作者間的合作次數(shù)越多,作者間的合作關(guān)系強度越大,網(wǎng)絡連接就越緊密。作者間的合作強度定義如式(1)所示:
(1)
其中,cij表示作者ai與作者aj之間的合作強度,xij表示作者ai和作者aj之間的合作次數(shù)。
(2)作者研究興趣相似度計算。以DBLP數(shù)據(jù)集上作者在6個研究領(lǐng)域[17]以及在每個領(lǐng)域已發(fā)表的論文篇數(shù)為依據(jù),構(gòu)建每個作者ai的屬性向量bi=[b1,b2,…,b6]T,其中每個維度的屬性值為作者ai在對應領(lǐng)域發(fā)表的論文數(shù)量,則可利用余弦相似度度量作者研究興趣相似度,定義如式(2)所示:
(2)
其中,sij表示作者ai與作者aj之間的研究興趣相似度值。
最后,定義作者ai與作者aj之間的邊上的雙加權(quán)重如式(3)所示:
wij=r×cij+(1-r)×sij
(3)
其中,r∈(0,1),用來調(diào)整作者間合作強度與研究興趣相似度所占比例的大小。經(jīng)實驗發(fā)現(xiàn),將r設置為0.6時實驗效果最佳,具體分析見4.2.2節(jié)。
在作者合作關(guān)系網(wǎng)絡中,社區(qū)搜索中的查詢節(jié)點對查詢結(jié)果有很大的影響??紤]到直接使用待推薦節(jié)點搜索社區(qū),找到的社區(qū)中成員很有可能質(zhì)量不高,于是本文設計了一種挖掘高質(zhì)量的種子節(jié)點替換方法,從而搜索合作關(guān)系強度較大的目標社區(qū)。以下給出挖掘種子節(jié)點方法的相關(guān)定義及具體描述。
定義1(節(jié)點的鄰居社區(qū))A中任意節(jié)點a的鄰居社區(qū)如式(4)所示:
N(a)={ai|(a,ai)∈E}∪{a}
(4)
其中,(a,ai)∈E表示有邊,E是作者合作關(guān)系圖中的邊集合。
定義2(節(jié)點質(zhì)量) 節(jié)點a的質(zhì)量如式(5)所示:
(5)
其中,|E|表示圖中的總邊數(shù),Q(a)表示節(jié)點a的鄰居邊數(shù)與總邊數(shù)的比值,即表示節(jié)點a的中心性。由于節(jié)點質(zhì)量的計算涉及到節(jié)點鄰居社區(qū)中邊的數(shù)量,引入節(jié)點質(zhì)量作為局部節(jié)點中心度指標,較大的節(jié)點質(zhì)量值意味著節(jié)點的中心性越高,節(jié)點的影響力就越大。
定義3(節(jié)點影響區(qū)域) 2個相鄰節(jié)點ai,aj之間的影響區(qū)域如式(6)所示:
IA(ai,aj)={a|a∈N(ai)∩N(aj)}
(6)
定義4(節(jié)點影響區(qū)域密度) 影響區(qū)域中的節(jié)點密度[18]如式(7)所示:
dIA(ai,aj)=
(7)
定義5(節(jié)點關(guān)系強度) 2個相鄰節(jié)點ai,aj之間的關(guān)系強度如式(8)所示:
(8)
從式(8)中可看出,節(jié)點屬性越相似,影響區(qū)域密度越大,節(jié)點關(guān)系強度值就越大,意味著相鄰節(jié)點之間合作越緊密。
在很多情況下,由于待推薦節(jié)點往往帶有主觀特性且包含的信息量有限,直接將其作為種子節(jié)點,會使得搜索的目標社區(qū)中作者之間鏈接稀疏。算法1將用戶給定的待推薦節(jié)點替換為目標社區(qū)中的種子節(jié)點。
算法1挖掘種子(作者)節(jié)點的方法
輸入:圖T=(A,E,B),節(jié)點ar。
輸出:目標社區(qū)的種子節(jié)點ass。
1:ass=ar;
2:MaxNRS=0;
3:使用式(4)計算N(ar);
4:使用式(5)計算Q(ar);
5:do
6:forallai∈N(ar)do
7: 使用式(5)計算Q(ai);
8:ifQ(ai)>Q(ar)then
9: 使用式(8)計算NRS(ar,ai);
10:ifNRS(ar,ai) >MaxNRSthen
11:MaxNRS=NRS(ar,ai);
12:endif
13:endif
14:endfor
15:while(節(jié)點ass的質(zhì)量小于圖T中所有節(jié)點的質(zhì)量)
16:輸出ass。
在算法1中,第1行將節(jié)點ar賦值給種子節(jié)點ass,第2行將最大節(jié)點關(guān)系強度MaxNRS的初始值設置為0;第8行確保候選鄰居節(jié)點的質(zhì)量大于節(jié)點ar的質(zhì)量;第10~12行確保候選鄰居節(jié)點與節(jié)點ar有最強的關(guān)系;第15行重復使用候選鄰居節(jié)點迭代地替換當前節(jié)點,直到找不到比當前節(jié)點質(zhì)量大的節(jié)點停止;第16行最終輸出與節(jié)點ar合作強度高且質(zhì)量最大的節(jié)點作為種子節(jié)點ass。
社區(qū)搜索中一個非常重要的問題就是定義目標社區(qū)的聯(lián)系緊密程度,研究人員常利用k-core定義局部社區(qū)鏈接的緊密程度,其具體定義[19]如下所示:
定義6(k-core) 給定一個整數(shù)k(k≥0),圖T的k-core是該圖的一個最大子圖H,其中圖H中的每一個節(jié)點的度degH(ai)都大于或等于k,即?ai∈H,degH(ai)≥k。
然而,在現(xiàn)實世界中存在某些論文的作者數(shù)量很龐大,甚至有的有一百多位作者,而這些作者之間雖然存在互相合作關(guān)系,但也僅合作一次,使得搜索到的社區(qū)并不是某個作者想要的。如以本文采用的DBLP數(shù)據(jù)集為例,有114位作者共同參與了同一篇論文的合作,而其中多數(shù)作者從未參與過其他論文的合作,若使用傳統(tǒng)的k-core社區(qū)搜索方法,當k=113時,發(fā)現(xiàn)最終得到的目標社區(qū)中這些作者之間的合作強度較低。所以,本文方法可以有效地基于分數(shù)k-core方法來應對合作次數(shù)少且作者人數(shù)多的情況。
定義7(節(jié)點分數(shù)度) 圖T中節(jié)點ai的分數(shù)度定義如式(9)所示:
(9)
其中,E(ai)表示節(jié)點ai的邊集,wij是作者ai和作者aj構(gòu)建的邊上的權(quán)重。
定義8(分數(shù)k-core) 給定一個有理數(shù)f,圖T的分數(shù)k-core是該圖的一個最大子圖F,圖F中的每一個節(jié)點的分數(shù)度都不小于f,即?ai∈F,FDegF(ai)≥f[20]。
從定義8看出,盡管分數(shù)k-core與k-core定義類似,但分數(shù)k-core中的節(jié)點引入了分數(shù)度的約束,更為嚴格,對應的子圖滿足權(quán)重的約束,即體現(xiàn)了作者間合作強度與研究興趣相似度,使得搜索得到的子圖更有意義。特別地,在作者合作關(guān)系圖中,分數(shù)k-core會將僅僅合作過一次的大量作者形成的子圖過濾掉,具體過程如算法2所示。
算法2分數(shù)k-core社區(qū)搜索方法
輸入:有理數(shù)f,圖T=(A,E,B)。
輸出:子圖F。
1:F=T;
2:forallai∈Ado
3: 使用式(9)計算每個節(jié)點的FDegF(ai);
4:endfor;
5:whileFDegF(ai)>f
6: 刪除節(jié)點ai;
7:endwhile
8:return子圖F;
算法2描述對于給定一個合適的f值,可以找到包含種子節(jié)點在內(nèi)的最大分數(shù)k-core子社區(qū)作為可推薦目標社區(qū)。第2~4行計算每個節(jié)點的分數(shù)度;第5~7行刪除節(jié)點分數(shù)度小于給定f值的節(jié)點;第8行輸出包含種子節(jié)點ass在內(nèi)的具有最大f值的分數(shù)k-core的一個子圖(子社區(qū))F。
合適的合作者推薦有助于提高作者的研究質(zhì)量,加快其研究進程??紤]到作者之間存在合作關(guān)系或某些作者與其他作者之間不存在合作關(guān)系(冷啟動用戶)的2種情況,在作者合作關(guān)系網(wǎng)絡中,對于冷啟動用戶,通過待推薦作者的主頁查找他感興趣的論文,尋找論文中與他有過合作關(guān)系的作者。然后,使用算法1挖掘質(zhì)量高且合作關(guān)系強的作者作為種子節(jié)點。最后,利用算法2搜索合適的目標社區(qū)。
對于一個給定的作者a,先使用上述搜索方法得到目標社區(qū),然后利用式(9)計算該目標社區(qū)中每位作者的節(jié)點分數(shù)度并降序排序形成推薦列表。
數(shù)據(jù)集:本文選取了DBLP數(shù)據(jù)集中2013年1月之前,53 872位作者主要在“人工智能”(AI)、“計算機視覺”(CV)、“數(shù)據(jù)庫”(DB)、“數(shù)據(jù)挖掘”(DM)、“信息檢索”(IR)和“機器學習”(ML)領(lǐng)域發(fā)表的65 006篇論文[17],如表1所示。
Table 1 DBLP experimental data statistics
本文利用以下社區(qū)搜索評價指標:加權(quán)模塊度Q(F)(Modularity)[21]和加權(quán)電導率C(F) (Conductance)[22]來評估推薦社區(qū)的質(zhì)量,其中,F(xiàn)表示特定社區(qū)。
模塊度也稱模塊化度量值,是一種常用的衡量網(wǎng)絡社區(qū)內(nèi)部緊密程度的指標。具體來說,模塊度的大小定義為實際情況下社區(qū)內(nèi)部2個節(jié)點連接強度與將網(wǎng)絡隨機連接情況下社區(qū)內(nèi)2個節(jié)點連接強度的差異,定義如式(10)所示:
(10)
其中,w表示社區(qū)F中邊的權(quán)值總和,wij表示社區(qū)F中節(jié)點ai與aj邊上的權(quán)值,wi表示社區(qū)F中節(jié)點ai的所有連邊的權(quán)值之和。Q(F)值越大表明社區(qū)緊密性越強。
電導率是一種衡量社區(qū)內(nèi)一組節(jié)點的組織緊密度的指標,定義為平行割與社區(qū)容積的比值。平行割指的是社區(qū)內(nèi)節(jié)點與社區(qū)外節(jié)點的連邊數(shù)與社區(qū)內(nèi)部節(jié)點之間的連邊數(shù)比值;社區(qū)容積指的是社區(qū)中所有節(jié)點度的和。具體定義如式(11)~式(13)所示:
(11)
(12)
(13)
其中,Vol(F)表示社區(qū)F的容積;deg(ai)表示節(jié)點ai的度;P_Cut(F)表示社區(qū)F的平行割;C(F)表示社區(qū)F的電導率,電導率越小,表示社區(qū)內(nèi)節(jié)點之間的連接越緊密,C(F)取值為0~1。
對比方法:選取本文方法的3種變體和4種經(jīng)典的合作者推薦方法與本文方法進行比較。具體包括:(1) CRISI-1方法,其利用本文設計的種子替換方法和傳統(tǒng)k-core方法進行社區(qū)搜索;(2)CRISI-2方法,其直接利用待推薦用戶和本文的分數(shù)k-core方法進行社區(qū)搜索;(3)CRISI-3方法,直接利用待推薦用戶和傳統(tǒng)的k-core方法進行社區(qū)搜索;(4) ACRec[8]方法利用3個學術(shù)指標計算鏈接的重要性,以使隨機游走者更有可能訪問有價值的節(jié)點,但此方法只考慮了結(jié)構(gòu)信息并未考慮節(jié)點的屬性信息;(5) CAMLS(Co-Authorship Model with Link Strength)[9]方法研究合作網(wǎng)絡的形成模型,其中作者的利益不僅取決于合作者的數(shù)量,還取決于作者與其他作者合作的相對努力大?。?6)PEER(PEER recommendation in dynamic attributed graphs)[16]在屬性圖上使用動態(tài)社區(qū)搜索,以進行同行推薦;(7)ARBCI(co-Author Recommendations Betweenness Centrality and Interest similarity)[23]方法基于節(jié)點的中介中心性和興趣相似性為作者產(chǎn)生推薦,雖然考慮了節(jié)點的結(jié)構(gòu)和屬性信息,但沒有使用高質(zhì)量的種子節(jié)點搜索社區(qū)和過濾掉合作次數(shù)很少的作者形成的社區(qū)。
4.2.1 種子節(jié)點替換的分析
為了驗證種子節(jié)點替換對社區(qū)搜索結(jié)果的影響,將本文方法與對比方法進行對比實驗,結(jié)果如表2所示。
由表2可以看出,本文提出的CRISI方法的性能優(yōu)于其他7種方法,同時其變體CRISI-1方法的性能與CRISI的接近,原因是這2種方法都使用了種子替換方法找出高質(zhì)量的種子節(jié)點來搜索社區(qū),而其他6種方法都沒有使用此方法,所以它們在種子節(jié)點替換分析結(jié)果中表現(xiàn)的性能較差。
Table 2 Influence of seed node replacement on results
同時發(fā)現(xiàn)變體CRISI-2、PEER和變體CRISI-3這3種方法雖然沒有考慮種子替換方法,但3者都使用了不同的社區(qū)搜索方法來搜索社區(qū),其最終挖掘的社區(qū)緊密性高于ARBCI、CAMLS和ACRec 3種都沒有使用種子替換方法和社區(qū)搜索方法找到的社區(qū)的緊密性。
4.2.2 參數(shù)r的影響
本節(jié)將探索調(diào)節(jié)合作強度與研究興趣的參數(shù)r對推薦結(jié)果的影響。本文通過控制質(zhì)量法來得到參數(shù)對推薦結(jié)果的影響。為了能夠有效地得到參數(shù)r對實驗結(jié)果的影響,將參數(shù)f取0.5,實驗結(jié)果如圖3a和圖3b所示。
Figure 3 Influence of r on Q(F) and C(F) of CRISI圖3 r對CRISI的Q(F)和C(F)的影響
從圖3a和圖3b中可以看出,參數(shù)r會影響推薦效果。進一步通過在2個評價指標上的實驗結(jié)果表明,在合作強度占比較小(小于0.5)時,CRISI方法的性能相對較差,而在合作強度占比超過一半時,CRISI方法的性能有所提升。特別地,當合作強度占比達到0.6時,CRISI方法的性能達到最佳。這說明合作強度的重要性略大于研究興趣的相似性。
4.2.3 參數(shù)f的影響
由于CRISI和CRISI-2方法都使用了分數(shù)k-core方法來搜索社區(qū),所以本節(jié)使用這2種方法來分析參數(shù)f對實驗結(jié)果的影響,實驗結(jié)果如圖4a和4b所示。
Figure 4 Influence of f on Q(F) and C(F) of CRISI and CRISI-2圖4 f對CRISI和CRISI-2的Q(F)和C(F)的影響
圖4a和圖4b分別展示了參數(shù)f變化時CRISI與CRISI-2方法得到的Q(F)和C(F)。隨著參數(shù)f值的增大,CRISI方法始終優(yōu)于CRISI-2方法。特別地,CRISI方法的社區(qū)緊密性的影響最好,而由于CRISI-2方法沒有使用種子替換方法找出質(zhì)量最大的節(jié)點來搜索社區(qū),導致搜索的社區(qū)中作者之間的合作強度很小,與本文方法的差距相對較大。當f取值為0.5時,CRISI方法的評價指標Q(F)和C(F)達到了最佳,CRISI-2方法在f取值為0.4時搜索的社區(qū)緊密性達到了最好。當CRISI方法和CRISI-2方法的f取值分別超過0.5和0.4后,這2種方法在評價指標Q(F)和C(F)上的性能都有所降低,由于f值越大,更多的作者會被過濾掉,使得搜索得到的社區(qū)中作者人數(shù)減少??梢钥闯?,將參數(shù)f取值設為0.5時,本文方法的推薦效果最好。
4.2.4 離群點(冷啟動用戶)的分析
合作者關(guān)系網(wǎng)絡中可能存在某些作者與其他作者之間沒有合作關(guān)系,給這些沒有參與合作的作者推薦合作者就顯得比較困難,本文方法在3.4節(jié)給出了解決辦法。表3展示了8種方法在離群點上的實驗結(jié)果,粗體字表示8種方法中的最佳性能。
從表3看出,CRISI方法在解決離群點問題上表現(xiàn)的性能最好,CRISI方法的模塊度Q(F)為0.41,電導率C(F)為0.009。特別地,雖然本文方法的3種變體和CAMLS方法都沒有同時使用種子替換方法和社區(qū)搜索方法來搜索社區(qū),但它們都考慮了離群點這一因素,因此它們最終得到的目標社區(qū)中各成員之間的連接緊密性高于沒有考慮離群點的PEER、ARBCI和ACRec 3種方法??梢姡疚姆椒梢愿玫貞獙﹄x群點問題。
Table 3 Experimental results of outliers testing 表3 測試離群點的實驗結(jié)果
4.2.5 雙加權(quán)對實驗結(jié)果的影響
在本節(jié),為了分析邊上的權(quán)重對推薦結(jié)果的準確性的影響,統(tǒng)計了權(quán)重在不同合作者數(shù)量下的推薦精度,如圖5a和圖5b所示。
Figure 5 Influence of weigh on results of different recommendation methods圖5 權(quán)重對不同推薦方法結(jié)果的影響
具體來說,依據(jù)作者社交關(guān)聯(lián)作者的數(shù)量和本文方法得到的權(quán)重將作者劃分成5組,如圖5a和圖5b所示。從柱狀圖可以看出:不同推薦方法在不同權(quán)重范圍下具有很大的差異,而本文CRISI方法始終表現(xiàn)最優(yōu)。從圖5中也發(fā)現(xiàn),同時對結(jié)構(gòu)和屬性加權(quán)的5種方法的性能都比較好,而CAMLS、PEER、ACRec 3種方法沒有同時對結(jié)構(gòu)和屬性加權(quán),所以在2個評價指標上表現(xiàn)相對較差,這表明雙加權(quán)在合作者推薦方法中是很有必要考慮的。
Figure 6 Example of a fractional k-core community search on the author’s partnership graph圖6 作者合作關(guān)系圖上的分數(shù)k-core社區(qū)搜索示例
圖6a是一個完整的作者合作關(guān)系圖,圖6b是圖6a中陰影部分所示的子圖。其中,節(jié)點表示作者,邊上數(shù)字表示權(quán)重,其由作者合作強度與研究興趣相似度計算得到。圖6c是采用式(9)計算分數(shù)度得到的推薦列表。現(xiàn)以灰色節(jié)點Beng Chin Ooi作為待推薦節(jié)點為例,使用算法1挖掘種子節(jié)點,則整個替換過程為圖6b中的黑粗實線路線,最終找到的種子節(jié)點為黑色節(jié)點Jiawei Han。如果不使用本文方法,直接使用待推薦作者Beng Chin Ooi搜索社區(qū),則搜索的社區(qū)為圖6b中右邊虛線構(gòu)成的橢圓部分,社區(qū)緊密性明顯較差。若以作者Jiawei Han作為種子節(jié)點,將f設為0.5并使用分數(shù)k-core社區(qū)搜索方法搜索社區(qū),就會過濾掉僅僅參與一次合作的作者,如Sung Young Lee、Takahiro Hara和Christian S.Jensen,最終將推薦列表中分數(shù)度大于0.5的作者推薦給作者Beng Chin Ooi,即圖6b中黑粗虛線構(gòu)成的社區(qū)。可見,使用本文方法搜索得到的社區(qū)緊密性高。
為了給作者推薦一個合作關(guān)系更緊密的社區(qū),本文提出了一種融合作者合作強度與研究興趣的合作者推薦方法。首先,本文從合作者強度(結(jié)構(gòu))和研究興趣(屬性)2方面構(gòu)建雙加權(quán)網(wǎng)絡;然后,利用種子替換方法找到高質(zhì)量的種子節(jié)點;最后,利用分數(shù)k-core社區(qū)搜索方法搜索合適的目標社區(qū),即給待推薦作者推薦合作關(guān)系緊密的群體。通過在DBLP數(shù)據(jù)集上進行驗證,實驗結(jié)果表明所提出的方法具有很好的推薦性能。在今后的工作中考慮給定作者和作者的研究主題來搜索合適的合作者群體。