劉 欣, 杜秀春, 康文杰
(1.長沙學(xué)院計(jì)算機(jī)工程與應(yīng)用數(shù)學(xué)學(xué)院,湖南 長沙 410022; 2.國防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院,湖南 長沙410073)
基于同構(gòu)合著網(wǎng)絡(luò)的合作者推薦模型研究
劉 欣1, 杜秀春2, 康文杰2
(1.長沙學(xué)院計(jì)算機(jī)工程與應(yīng)用數(shù)學(xué)學(xué)院,湖南 長沙 410022; 2.國防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院,湖南 長沙410073)
隨著社會(huì)網(wǎng)絡(luò)的快速發(fā)展,對同構(gòu)合著網(wǎng)絡(luò)中合著關(guān)系推薦問題的研究現(xiàn)已成為一個(gè)研究熱點(diǎn).首先定義了合著關(guān)系和同質(zhì)性;其次給出不同情況下合著關(guān)系特征,建立合著關(guān)系推薦模型,并提出了不同情況下產(chǎn)生合著關(guān)系推薦的算法.實(shí)驗(yàn)表明,通過該模型可為作者推薦適合的合著者.
同構(gòu)合著網(wǎng)絡(luò);作者相似性;學(xué)科相似性;信任度
隨著科學(xué)和工程領(lǐng)域的快速進(jìn)步,合作的趨勢朝著兩個(gè)不同的方向發(fā)展,一方面,合作的形式日益趨向于多樣化、復(fù)雜化;另一方面,合作的范圍突破地域的限制并逐步擴(kuò)大,跨地區(qū)、跨國家之間的合作日益密切而且合作強(qiáng)度不斷增大.這就需要一個(gè)合作推薦模型來為科研工作者推薦合作對象,為將來的合作提供一個(gè)推薦的平臺(tái).
社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)和行為共同演化來促進(jìn)人與人之間的合作[1],尤其是科研合作網(wǎng)絡(luò),這種動(dòng)態(tài)的社會(huì)合作網(wǎng)絡(luò)結(jié)構(gòu)可以促進(jìn)合作,網(wǎng)絡(luò)節(jié)點(diǎn)間鏈路的重連可以促使合作達(dá)到很高的水平[2].Brzozowski 和 Roman在惠普公司內(nèi)部社交網(wǎng)站W(wǎng)atercooler上做了一次評測推薦方案實(shí)驗(yàn),主要提出類三種推薦方法:基于網(wǎng)絡(luò)結(jié)構(gòu)推薦,基于用戶行為推薦和基于用戶檔案相似度推薦,實(shí)驗(yàn)結(jié)果表明用戶的社交行為更能反映真實(shí)的自我和更容易被推薦者接受[3].與以上結(jié)論完全不一致的是,Aiello[4]等人發(fā)現(xiàn)標(biāo)簽?zāi)軌蚩坍嬘脩舻呐d趣相似度,不同于以前僅根據(jù)結(jié)構(gòu)相似性的是他們考慮了用戶在標(biāo)簽、圈子、圖書和音樂等這些行為上的相似性.越相似的網(wǎng)絡(luò)節(jié)點(diǎn)對產(chǎn)生連邊的可能性越大,張千明[5]等人將基于相似性的鏈路預(yù)測模型應(yīng)用于標(biāo)簽分類問題中,通過相似性計(jì)算出未標(biāo)簽節(jié)點(diǎn)與所有已標(biāo)簽節(jié)點(diǎn)標(biāo)簽的相似度.鏈路預(yù)測有望為網(wǎng)絡(luò)演化提供一個(gè)簡單同一且相對公平的比較平臺(tái)[6].類似地,如何刻畫網(wǎng)絡(luò)中節(jié)點(diǎn)的相似性也是一個(gè)重大的理論問題,只有能夠快速準(zhǔn)確地評估某種相似性定義,才能進(jìn)一步研究網(wǎng)絡(luò)特征對相似性指標(biāo)選擇的影響[7].Yizhou Sun[8-10]等人提出了在異構(gòu)書目網(wǎng)絡(luò)中合作關(guān)系預(yù)測思想并給出了具體的基于元路徑的關(guān)系預(yù)測模型以及元路徑的拓?fù)涮卣?Xiao Yu[11]等人建立基于元路徑的預(yù)測模型,并提出用兩相引用概率研究方法來更加高效有用地預(yù)測引文關(guān)系.Ball 和Newman[12]用極大似然模型研究類采訪獲取的社會(huì)網(wǎng)絡(luò)關(guān)系,發(fā)現(xiàn)對于非互惠的邊,大多數(shù)是由社會(huì)地位低的個(gè)體指向社會(huì)地位高的個(gè)體,而互惠邊通常在社會(huì)地位相似的人體之間產(chǎn)生.呂琳瑗[13]利用鏈路預(yù)測的方法推斷影響航空網(wǎng)絡(luò)演化的重要因素,研究結(jié)果表明兩個(gè)城市之間是否存在航空線路與它們的經(jīng)濟(jì)水平緊密相關(guān),其中與GDP第三產(chǎn)業(yè)關(guān)聯(lián)更為突出.文獻(xiàn)[14]和[15]對現(xiàn)有推薦系統(tǒng)評價(jià)指標(biāo)進(jìn)行了系統(tǒng)的闡述,總結(jié)了推薦系統(tǒng)評價(jià)指標(biāo)的最新研究進(jìn)展,從準(zhǔn)確度、多樣性、新穎性及覆蓋率等方面進(jìn)行多角度的闡述,并對各自的優(yōu)缺點(diǎn)以及適應(yīng)的環(huán)境做了深入的分析.
首先給出了合著關(guān)系和同質(zhì)性的定義;其次給出了不同情況下合著關(guān)系的特征;再次建立了合著這推薦模型,并給出了不同情況下產(chǎn)生合作關(guān)系的算法;最后通過實(shí)驗(yàn),并對作者之間的合著者推薦模型進(jìn)行合理性、正確性分析與檢驗(yàn).
合著關(guān)系是已發(fā)表的學(xué)術(shù)論文中作者之間共同署名的關(guān)系.合作關(guān)系是指社交網(wǎng)絡(luò)中人與人之間已合作的關(guān)系和潛在的合作關(guān)系.潛在的合作關(guān)系是指社會(huì)網(wǎng)絡(luò)中那些還沒有建立合作關(guān)系的節(jié)點(diǎn)在將來很有可能合作的關(guān)系,它既受已合作關(guān)系的影響,又受自身屬性的影響.在本文中,合著關(guān)系和合作關(guān)系是同一種關(guān)系,因?yàn)楸疚难芯糠秶会槍W(xué)術(shù)論文,對合作關(guān)系的預(yù)測也只是研究作者將來可能的合作對象.而合作關(guān)系定義相對廣泛一些,它不僅包含合著關(guān)系,而且包含其他領(lǐng)域的合作關(guān)系.
1.1 合著關(guān)系的描述
定義(合著關(guān)系矩陣):在合著網(wǎng)絡(luò)中,我們假設(shè)網(wǎng)絡(luò)中n個(gè)不同的節(jié)點(diǎn),用RM=(R1,R2,…,Rn)′表示節(jié)點(diǎn)之間合著關(guān)系矩陣,Ri(1≤i≤n)表示第i個(gè)節(jié)點(diǎn)與其他節(jié)點(diǎn)之間的合作關(guān)系.則合著關(guān)系矩陣表示如下:
其中,節(jié)點(diǎn)之間的關(guān)系rij(1≤i,j≤n)表示第i個(gè)節(jié)點(diǎn)與第j個(gè)節(jié)點(diǎn)之間的合作關(guān)系,rij=0表示第i個(gè)節(jié)點(diǎn)與第j個(gè)節(jié)點(diǎn)之間以前沒有合作,rij=k表示第i個(gè)節(jié)點(diǎn)與第j個(gè)節(jié)點(diǎn)之間合著k次.顯然,rij=rji,這是因?yàn)榈趇個(gè)節(jié)點(diǎn)與第j個(gè)節(jié)點(diǎn)之間的合作次數(shù)與第j個(gè)節(jié)點(diǎn)與第i個(gè)節(jié)點(diǎn)之間合作次數(shù)相同.因此RM=(R1,R2,…,Rn)′是對稱矩陣,具有對稱矩陣的所有屬性.
1.2 同質(zhì)性
同質(zhì)性是指合著網(wǎng)絡(luò)中節(jié)點(diǎn)具有相同的屬性或特征,同質(zhì)性可以分為兩類:作者相似性和學(xué)術(shù)相似性.
(1)作者相似性(AuthorComparability)是指作者之間綜合能力的相似程度.這種相似程度取決于一個(gè)因數(shù),即作者在某會(huì)議上發(fā)表論文的數(shù)量,職位.不同刊物或會(huì)議上發(fā)表論文可以反映不同的學(xué)術(shù)水平,發(fā)表論文數(shù)量的多少表示作者的水平程度高低.所以可以將論文刊物或會(huì)議分為四個(gè)等級:等級A(A類會(huì)議或期刊),等級B(B類會(huì)議或期刊),等級C(C類會(huì)議或期刊),等級D(EI),等級E(核心期刊),等級F(普通期刊).
作者相似性矩陣:AT=(A1,A2,...,An)′=
Ai(0in)表示作者i,ai,bi,ci,di,ei和fi分別對應(yīng)于作者在四個(gè)等級論文刊物或會(huì)議上發(fā)表論文的數(shù)量,以及它們所對應(yīng)的影響因子為I1=0.5、I2=0.25、I3=0.125、I4=0.1、I5=0.075、I6=0.05。所以,作者Ai與作者Aj的相似性AC為:
(1)
(2)學(xué)科相似性(ProfessionalDisciplineSimilarity): 是指兩個(gè)科學(xué)家所從事科研領(lǐng)域的相似程度.能否跨學(xué)科合作主要取決于其學(xué)科之間的可合作程度,我們通過計(jì)算歷史合作次數(shù)與總次數(shù)的比例來定義學(xué)科相似度.所以學(xué)科與學(xué)科的學(xué)術(shù)相似性AS為:
(2)
這里, 表示學(xué)科與學(xué)科可能合作程度,表示學(xué)科和學(xué)科歷史合作次數(shù),表示學(xué)科論文總數(shù),因此是隨時(shí)間動(dòng)態(tài)變化的.
(3)地域相似性
地域相似性(RegionalSimilarity)是指學(xué)?;蚩蒲袉挝凰幍牡乩砦恢脤ζ渑c其他合作單位合作的影響.在互聯(lián)網(wǎng)高度發(fā)展的今天,我們不得不承認(rèn)很多單位之間作者的合著依然受到其地域和學(xué)校級別的限制,例如在湖南,國防科大、中南大學(xué)和湖南大學(xué)合著比較頻繁,而與其他學(xué)校的合著次之,因?yàn)榈赜蛳嗤那闆r下,與學(xué)校的級別也有很大的關(guān)系.我們將這類特性公式化如下:
(3)
Ld(Ai,Aj)表示地域差,同一城市取值為0,同一省份取值為1,同一國家為2,不同國家為3.max(|Ld(Ai,Aj)|)表示最大地域差為3.Sd(Ai,Aj)表示單位級別差,985高校或國家重點(diǎn)單位為4,211高校為3,一本類高校為2,二本類高校為1,其他為0.如果高校級別相同,此時(shí)Sd(Ai,Aj)=0,因此RS(Ai,Aj)=|Ld(Ai,Aj)|/max(|Ld(Ai,Aj)|)表示地域相似性只與地域有關(guān)。
在合著網(wǎng)絡(luò)中,任意兩個(gè)節(jié)點(diǎn)之間的合作都存在三個(gè)關(guān)系,即(1)直接合著關(guān)系、(2)間接合著關(guān)系和無合著關(guān)系.無合著關(guān)系又可以分為可達(dá)路徑合著關(guān)系和不可達(dá)路徑合著關(guān)系
(1)直接合著關(guān)系
直接合著關(guān)系就是指兩個(gè)作者直接合作完成學(xué)術(shù)研究、論文撰寫及共同署名發(fā)表過至少一篇以上論文.如圖1,作者a與作者b合作1,2,…,k次.
圖1 直接合著關(guān)系
(2)間接合著關(guān)系
圖2 作者A和作者B有k個(gè)共同合作者的情況圖
間接合著關(guān)系就是指兩個(gè)作者沒有共同署名發(fā)表過論文,但他們可能有共同合作者,該作者跟他們都存在直接合著關(guān)系.如圖2所示,k個(gè)共同合著者中只要有一個(gè)合著者介紹就會(huì)促成作者a和作者b之間的合作.
(3)無合著關(guān)系
無合著關(guān)系是指排除直接合著關(guān)系和間接合著關(guān)系情況之外的關(guān)系,可能存在如下兩種情況.
①可達(dá)路徑合著關(guān)系
路徑可達(dá)是指在合著關(guān)系網(wǎng)絡(luò)中總能找到一條以上路徑從作者a到達(dá)作者b.圖3顯示作者a要與作者b合作,需要有k個(gè)合著者的共同引薦.
圖3 作者A經(jīng)k個(gè)作者傳遞推薦和作者B建立關(guān)系圖
②不可達(dá)路徑合著關(guān)系
不可達(dá)路徑合著關(guān)系就是找不到一條路徑可以從作者a到達(dá)作者b.但也存在合作的可能性且受到作者相似度、學(xué)術(shù)相似度和地域相似度的影響.如果作者水平相當(dāng)、且在同一地域,他們的合著幾率會(huì)大很多,是合著推薦的最佳人選.如圖4,作者a與作者b所在的網(wǎng)絡(luò)隔離,作者a或作者b也可是是孤立節(jié)點(diǎn).
圖4 作者a和作者b在兩個(gè)相互隔離的網(wǎng)絡(luò)中
基于給出的合著網(wǎng)絡(luò)基本性質(zhì)(即同質(zhì)性)與合著關(guān)系特征,便可以建立合著關(guān)系推薦模型來解決不同情況下合著者推薦問題.針對前面描述的四種合著關(guān)系,可給出在不同關(guān)系下的合著推薦計(jì)算方法.而推薦合著的概率也與作者之間的信任度有關(guān),下面給出每種情況下信任度的計(jì)算方法.
3.1 直接合著關(guān)系的推薦模型
定義(信任度):在合著網(wǎng)絡(luò)中,信任度(Trustdegree)表示作者A對其合著者的信任程度,其與作者的合作次數(shù)、能力和影響力有關(guān),能力可以用作者發(fā)表論文水平來衡量,而影響力通過與該作者合著的人的平均度來度量.因此,信任度TD:
(4)
3.2 間接合著關(guān)系的推薦模型
間接合著關(guān)系中作者之間的信任度與推薦者和作者相似性有很大的關(guān)系,在合著網(wǎng)絡(luò)中,推薦者的介數(shù)(Betweenness)越高,推薦概率越大.同樣,作者越相似,被推薦的概率越大.因此,推薦概率與介數(shù)和作者相似性有關(guān).推薦概率被定義如下:
(5)
這里,pk(Ai,Aj)表示共同合著者k推薦作者i和作者j之間合著的概率,Betw(Ak)表示作者k的介數(shù),Betwmax表示所有作者介數(shù)的最大值,AC(Ai,Aj)為作者i與作者j之間的作者相似性.
推薦者越多,作者之間的信任就越大.而且只要有一個(gè)推薦成功就成功,因此,信任度TD:
(6)
3.3 無合著關(guān)系的推薦模型
無合著關(guān)系的推薦主要依賴三點(diǎn),作者相似性,學(xué)術(shù)相似性和地域相似性.地域相似性越大,信任度越小.所以,信任度TD:
(7)
這里,當(dāng)存在可達(dá)路徑合著關(guān)系時(shí),α=1表示需要n個(gè)推薦者傳遞推薦促成作者i和作者j合作.當(dāng)存在不可達(dá)路徑合著關(guān)系時(shí),α=0.
為驗(yàn)證合作關(guān)系模型,采集了某科研單位科研工作者以及相關(guān)合作者80名,論文206篇,從中挖掘相關(guān)合著者信息對可能的合作關(guān)系進(jìn)行研究.
首先隨機(jī)選出18個(gè)節(jié)點(diǎn)并給出它們的作者相似性因素,用于計(jì)算作者相似性.不難發(fā)現(xiàn)圖中節(jié)點(diǎn)71為孤立節(jié)點(diǎn),這樣可計(jì)算節(jié)點(diǎn)71與其他節(jié)點(diǎn)之間的信任度,信任度越高,被推薦的概率越大.這里先給出所有作者的相似矩陣列表如(表1),根據(jù)此表可以算出作者相似性.
表1 作者相似矩陣表
表2 區(qū)域相似性表
圖5 作者學(xué)術(shù)水平圖
根據(jù)表1計(jì)算得出作者的學(xué)術(shù)水平圖,如圖5,再根據(jù)作者的學(xué)術(shù)水平可以得出作者71與其他作者之間的作者相似度,如圖6地域相似性與作者所處的地理位置有關(guān),表2顯示作者集{71,73,80}為一個(gè)地區(qū),學(xué)校等級為1,而作者集{1,3,17,33,40,55,63,79}為地區(qū)2,學(xué)校等級為3,兩個(gè)集合之間的地區(qū)差為1,學(xué)校等級差為2,所以他們中作者的區(qū)域相似性為(1/3)2+1=1/27.如圖6,帶三角形的域相似性,帶菱形的線表示作者相似性,帶正方形的線為學(xué)術(shù)相似性.
圖6 作者71與其他作者之間的作者相似性和學(xué)術(shù)相似性
由于作者71是孤立節(jié)點(diǎn),沒有跟其他節(jié)點(diǎn)合作過,所以公式(7)中為0.通過作者相似性,區(qū)域相似性,學(xué)術(shù)相似性,我們可以根據(jù)公式(7)計(jì)算作者71與其他作者之間的信任度,并將其較大的值作為合著推薦者.如圖7所示,節(jié)點(diǎn)71與其他節(jié)點(diǎn)之間的信任度從高到低依次是33、19、61和56等,因此我們推薦這些節(jié)點(diǎn)作為作者71的合著者.
圖7 節(jié)點(diǎn)71與其他節(jié)點(diǎn)之間的信任度
本文通過對同構(gòu)合著網(wǎng)絡(luò)的研究,建立合作可能性預(yù)測模型并給出了合著關(guān)系矩陣和合作信任度的計(jì)算方法,通過對不同情況下合著關(guān)系特征的分析,提出了在同構(gòu)合著網(wǎng)絡(luò)圖中推薦可能合作者的思想,經(jīng)實(shí)驗(yàn)結(jié)果表明該模型的確能夠?yàn)榭蒲泄ぷ髡咄扑]可能的合作對象提供一個(gè)很好的平臺(tái),為今后科學(xué)家之間的合作找到了一條捷徑.
[1]FehlK,vanderPostDJ,SemmannD.Co‐evolutionofbehaviourandsocialnetworkstructurepromoteshumancooperation[J].Ecologyletters, 2011, (6): 546-551.
[2]RandDG,ArbesmanS,ChristakisNA.Dynamicsocialnetworkspromotecooperationinexperimentswithhumans[J].ProceedingsoftheNationalAcademyofSciences, 2011, (48): 19193-19198.
[3]BrzozowskiMJ,RomeroDM.whoshouldIfollow?Recommendingpeopleindirectedsocialnetworks[A].Proceedingsofthe5thInternationalConferenceonInformationandKnowledgeManagement[C].NewYork:IEEEPress, 2011:1825-1834.
[4]AilloLM,BarratA,SchifanellaR,etal.Friendshippredictionandhomophilyinsocialmedia[J].ACMTransactionsontheWeb, 2012, (2):9.
[5]ZhangQM,ShangMS,LuL.Similarly-basedclassificationinpartiallylabelednetworks[J].InternationalJournalofModernPhysicsC, 2010, (6): 813
[6]WangWQ,ZhangQM,ZhouT.EvaluatingNetworkModels:ALikelihoodAnalysis[J].EurophyicsLetters, 2012, (2): 5769-5778.
[7]ZhouT,LuL,ZhangYC.Predictingmissinglinksvialocalinformation[J].TheEuropeanPhysicalJournalB-CondensedMatterandComplexSystems, 2009, (4): 623-630.
[8]SunY,BarberR,GuptaM,etal.Co-authorrelationshippredictioninheterogeneousbibliographicnetworks[A].ProceedingsofInternationalConferenceonAdvancesinSocialNetworksAnalysisandMining[C]. 2011: 121-128.
[9]SunY,HanJ,YanX,etal.Pathsim:Metapath-basedtop-ksimilaritysearchinheterogeneousinformationnetworks[J].ProceedingsoftheVldbEndowment, 2011, (11):992-1003.
[10]SunY,NorickB,HanJ,etal.Integratingmeta-pathselectionwithuser-guidedobjectclusteringinheterogeneousinformationnetworks[A].Proceedingsofthe18thACMSIGKDDinternationalconferenceonKnowledgeDiscoveryandDataMining[C].ACM, 2012: 1348-1356.
[11]YuX,GuQ,ZhouM,etal.Citationpredictioninheterogeneousbibliographicnetworks[A].Proceedingsofthe12thSIAMInternationalConferenceonDataMining[C]. 2012: 1119-1130.
[12]BallB,NewmanMEJ.Friendshipnetworksandsocialstatus[J].NetworkScience, 2012,(1):16-30.
[13] 劉宏鯤,呂琳媛,周濤.利用鏈路預(yù)測推斷網(wǎng)絡(luò)演化機(jī)制[J]. 中國科學(xué):物理學(xué) 力學(xué) 天文學(xué), 2011, (7): 816.
[14] 劉建國,周濤,郭強(qiáng),等.個(gè)性化推薦系統(tǒng)評價(jià)方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,(3):1-10.
[15] 朱郁筱,呂琳媛.推薦系統(tǒng)評價(jià)指標(biāo)綜述[J].電子科技大學(xué)學(xué)報(bào),2012, (2):163-175.
(作者本人校對)
Research on Co-author Recommender Model Based on Homogeneous Coauthor Networks
LIU Xin1, DU Xiuchun2, KANG Wenjie2
(1. College of Computer Engineering and Applied Mathematics, Changsha University,Changsha Hunan 410022, China;2. School of Computer, National University of Defense Technology, Changsha Hunan 410073, China)
With the rapid development of social network, cooperation relationship recommender has become a tend. First, we define coooperation relationship and homogeneity in this paper. Second, the characteristics of coopration relationship in different conditions are given. Third,we build the model of co-author recommender, and propose different methods to recommend the best co-author. Finally experimental data is collected and calculated. Experiments show that the proposed methods are reasonable and effective.
homogeneous coauthor networks; author comparability; professional discipline similarity; trust degree
2017-03-14
湖南省教育廳基金(批準(zhǔn)號(hào):14C0095)資助項(xiàng)目.
劉欣(1978— ),男,湖南常德人,長沙學(xué)院計(jì)算機(jī)工程與應(yīng)用數(shù)學(xué)學(xué)院講師,博士.研究方向:計(jì)算機(jī)網(wǎng)絡(luò)與社會(huì)網(wǎng)絡(luò).
TP391
A
1008-4681(2017)02-0062-05