秦紅武,趙 猛,馬秀琴,趙德志,閆文英
西北師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州 730070
合作是現(xiàn)代科研工作取得快速進(jìn)展的一大助力因素,有研究證實(shí),合作和生產(chǎn)力之間有很強(qiáng)的關(guān)聯(lián):多產(chǎn)的研究者往往有更多的合作[1]。在科研領(lǐng)域,典型的合作關(guān)系是共同完成一篇論文。如今,一篇論文的共同作者往往來自不同學(xué)校、機(jī)構(gòu)、地區(qū)。就合作的影響力來說,個(gè)人署名的論文也很難比團(tuán)體署名的論文具有更大的影響力。傳統(tǒng)的科研合作通常都局限在一個(gè)小范圍內(nèi),合作者之間都彼此認(rèn)識(shí),隨著互聯(lián)網(wǎng)的出現(xiàn),知識(shí)的獲取變得前所未有的便利。學(xué)者們?cè)诰W(wǎng)絡(luò)上互相交流,學(xué)術(shù)社交網(wǎng)絡(luò)隨之?dāng)U大,選擇哪些學(xué)者作為未來研究的合作者有了更多的選擇。很多研究人員開始去尋找原本并不認(rèn)識(shí)、全新的或遠(yuǎn)距離的合作者,以尋求更多創(chuàng)新,擴(kuò)大自己的學(xué)術(shù)交往范圍。但是,學(xué)術(shù)信息的不斷增長(zhǎng),社交網(wǎng)絡(luò)的不斷擴(kuò)大,信息過載使得如何選擇合作者成為了擺在研究人員面前的問題。學(xué)術(shù)合作者推薦的眾多算法和模型有效地解決了這個(gè)問題,它根據(jù)用戶的歷史合作關(guān)系、興趣,以及自身的偏好,過濾掉冗余的信息,為用戶推薦可能產(chǎn)生合作關(guān)系的候選學(xué)者。因此,基于學(xué)術(shù)大數(shù)據(jù)的合作者推薦系統(tǒng)應(yīng)運(yùn)而生。
目前,已有不少基于學(xué)術(shù)大數(shù)據(jù)自動(dòng)為科研人員推薦合作者的研究。文獻(xiàn)[2]中利用主題聚類模型提取學(xué)者學(xué)術(shù)領(lǐng)域,并采用重啟隨機(jī)游走模型建立并計(jì)算研究人員的特征向量進(jìn)行合作者推薦。文獻(xiàn)[3]中從學(xué)者間是否有相似的研究興趣和社會(huì)可及性推薦潛在的合作者。文獻(xiàn)[4]中提取目標(biāo)學(xué)者的網(wǎng)絡(luò)結(jié)構(gòu)特征,從而對(duì)候選學(xué)者進(jìn)行聚類,選取每簇中影響力最高的學(xué)者進(jìn)行推薦。文獻(xiàn)[5]中利用影響力大的學(xué)者作為社區(qū)的核心的節(jié)點(diǎn),在此基礎(chǔ)上使用復(fù)雜網(wǎng)絡(luò)拓?fù)潢P(guān)系分析進(jìn)行學(xué)術(shù)社區(qū)檢測(cè),計(jì)算學(xué)者的影響力,識(shí)別其中的權(quán)威學(xué)者進(jìn)行推薦。文獻(xiàn)[6]通過化簡(jiǎn)合作網(wǎng)絡(luò)的結(jié)構(gòu),構(gòu)造出一個(gè)具有多種節(jié)點(diǎn)和鏈路的異構(gòu)網(wǎng)絡(luò),然后利用采用兩種重要度的度量,對(duì)網(wǎng)絡(luò)中的邊進(jìn)行加權(quán),使得隨機(jī)游走模型能夠偏向具有一定特征的階段。除了以上的研究之外,還有從各個(gè)角度對(duì)學(xué)者進(jìn)行衡量的推薦工作[7-8]。
但是這些已存在的工作默認(rèn)為研究者推薦最好或者最有價(jià)值的合作者,并且大多側(cè)重于模型的建立和為研究者推薦最好的合作者,卻忽視了一個(gè)重要問題:最好的一定是最合適的合作者嗎?在現(xiàn)實(shí)世界中,最好的合作者往往是某領(lǐng)域內(nèi)學(xué)術(shù)水平較高的研究人員,試想如果一個(gè)高水平的研究者被大量的推薦給同領(lǐng)域或者跨領(lǐng)域的其他研究人員,他能否有精力去接受如此多的合作呢?或者高水平的學(xué)者是否愿意和與自己水平差距過大的學(xué)者展開合作呢?顯然,學(xué)者之間學(xué)術(shù)水平的不一致將直接影響合作關(guān)系的建立和研究工作的開展。因此,進(jìn)一步對(duì)學(xué)者在學(xué)術(shù)水平上進(jìn)行劃分,研究學(xué)術(shù)水平的差異對(duì)學(xué)者合作過程中所產(chǎn)生的影響,以及如何在推薦時(shí)縮小學(xué)者之間的水平差距是十分有必要的。同時(shí),需要思考一個(gè)新的問題:如何使推薦的合作切實(shí)可行?合作者推薦問題,并非僅僅考慮學(xué)者間是否有相同的研究興趣,還要考慮目標(biāo)學(xué)者與推薦學(xué)者在社會(huì)網(wǎng)絡(luò)關(guān)系中是否具有一定的可達(dá)性。因此,可以知道,傳統(tǒng)的基于協(xié)同過濾的推薦模式由于僅僅計(jì)算他們某種屬性的相似度,不考慮是否具有一定聯(lián)系的推薦模式在合作者推薦中并不適用。
為了解決上述問題,本文提出了一種考慮學(xué)者間學(xué)術(shù)水平差距的合作者推薦模型(FCR)。該模型首先利用K-means 算法依據(jù)學(xué)術(shù)水平將學(xué)者劃分為三個(gè)不同的水平層次。然后在同水平層內(nèi)構(gòu)建合作者網(wǎng)絡(luò),并在該合作者網(wǎng)絡(luò)中使用鏈路預(yù)測(cè)算法中的Katz指標(biāo)篩選出可能與目標(biāo)學(xué)者產(chǎn)生合作關(guān)系的節(jié)點(diǎn),并計(jì)算他們研究方向的相似性,綜合考慮后按照計(jì)算的得分進(jìn)行Top-N推薦。
根據(jù)實(shí)體之間的關(guān)系,可以建立多種多樣的學(xué)術(shù)網(wǎng)絡(luò)(圖1),例如,學(xué)者和論文的關(guān)系形成了合作者網(wǎng)絡(luò);被引用文獻(xiàn)與引用文獻(xiàn)之間形成了引文網(wǎng)絡(luò);兩篇文章共同引用同一篇文獻(xiàn)或者多篇相同的文獻(xiàn),由共引關(guān)系構(gòu)成了共引網(wǎng)絡(luò);兩篇文章共同被一篇文章引用的關(guān)系構(gòu)成了文獻(xiàn)耦合網(wǎng)絡(luò);兩篇論文的關(guān)鍵詞以及其共現(xiàn)關(guān)系構(gòu)成了共詞網(wǎng)絡(luò)。其中合作者網(wǎng)絡(luò)的實(shí)質(zhì)是一種社會(huì)網(wǎng)絡(luò),用來表示人與人之間的某種聯(lián)系。一個(gè)合作者網(wǎng)絡(luò)G=(V,E) 由學(xué)者實(shí)體節(jié)點(diǎn)集合V=(v1,v2,…,vn)與合作關(guān)系集合E=(e1,e2,…,em)構(gòu)成,如果多個(gè)學(xué)者共同屬于一篇文章的作者,那么他們之間將有一條邊,表示他們具有合作關(guān)系。本文的科研合作者網(wǎng)絡(luò)均不考慮合作關(guān)系的方向性,即認(rèn)為合作的形成是無方向,相互的。
在科研合作者網(wǎng)絡(luò)中進(jìn)行合作者推薦本質(zhì)是發(fā)掘?qū)W者間的潛在的合作關(guān)系,它可以看作是一種鏈路預(yù)測(cè)問題,即通過已知的網(wǎng)絡(luò)節(jié)點(diǎn)和網(wǎng)絡(luò)結(jié)構(gòu)預(yù)測(cè)可能出現(xiàn)的邊。鏈路預(yù)測(cè)問題定義為:給定t時(shí)刻的社交網(wǎng)絡(luò),如何準(zhǔn)確地預(yù)測(cè)t′時(shí)刻將加入到該網(wǎng)絡(luò)中的邊。鏈路預(yù)測(cè)作為數(shù)據(jù)挖掘領(lǐng)域中較為成熟的挖掘方法,在基于社交網(wǎng)絡(luò)的推薦中有十分廣泛的應(yīng)用[9-10]。Guns等人[11]將鏈路預(yù)測(cè)算法與機(jī)器學(xué)習(xí)技術(shù)相結(jié)合,通過構(gòu)建加權(quán)合作網(wǎng)絡(luò),根據(jù)不同度量計(jì)算方法計(jì)算每個(gè)節(jié)點(diǎn)所對(duì)應(yīng)的分?jǐn)?shù),該分?jǐn)?shù)用于度量?jī)蓚€(gè)節(jié)點(diǎn)是否有可能產(chǎn)生連接。Wahid 等人[12]提出了一種新的社會(huì)網(wǎng)絡(luò)鏈接預(yù)測(cè)方法,該方法利用三種不同的頂點(diǎn)中心度來描述社交網(wǎng)絡(luò)中節(jié)點(diǎn)的受歡迎程度和相似性,由此計(jì)算兩個(gè)節(jié)點(diǎn)產(chǎn)生連接的可能性。Qian 等人[13]提出了一種好友推薦模型,該模型在加權(quán)網(wǎng)絡(luò)上利用鏈路預(yù)測(cè)算法和構(gòu)建的節(jié)點(diǎn)相似性指標(biāo)給目標(biāo)用戶推薦潛在的好友。Zeng 等人[14]在基于公共鄰居節(jié)點(diǎn)上附加優(yōu)先連接索引,以基于最近鄰居的本地信息來估計(jì)兩個(gè)節(jié)點(diǎn)間存在連接的可能性。
當(dāng)前,基于網(wǎng)絡(luò)結(jié)構(gòu)相似的鏈路預(yù)測(cè)由于其方法簡(jiǎn)單且實(shí)際操作性強(qiáng)而引起大量研究。基于網(wǎng)絡(luò)結(jié)構(gòu)相似的鏈路預(yù)測(cè)算法主要依賴于網(wǎng)絡(luò)結(jié)構(gòu)信息,如節(jié)點(diǎn)的度、聚集系數(shù)[15]、節(jié)點(diǎn)間的路徑[16]、社團(tuán)結(jié)構(gòu)[17]等。按照所用網(wǎng)絡(luò)結(jié)構(gòu)信息的不同,可以分為三類相似性指標(biāo):(1)基于局部信息的相似性指標(biāo),它利用節(jié)點(diǎn)的度等局部信息,計(jì)算節(jié)點(diǎn)間的相似性,由于復(fù)雜度低,適用于大規(guī)模的網(wǎng)絡(luò)。這類指標(biāo)主要包括:Jaccard指標(biāo)、Sorenso指標(biāo)、大度節(jié)點(diǎn)有利指標(biāo)、大度節(jié)點(diǎn)不利指標(biāo)、LHN-I指標(biāo)。(2)基于路徑的相似性指標(biāo),通過節(jié)點(diǎn)間路徑的信息,如節(jié)點(diǎn)間路徑數(shù)量,路徑中間節(jié)點(diǎn)的信息計(jì)算得到的相似性。這類指標(biāo)有三個(gè):局部路徑(local path)指標(biāo)、Katz指標(biāo)、LHN-II。(3)基于隨機(jī)游走的相似性指標(biāo),該類指標(biāo)基于隨機(jī)游走模型,通過模擬隨機(jī)粒子的轉(zhuǎn)移,計(jì)算節(jié)點(diǎn)間的步長(zhǎng),訪問概率等信息計(jì)算得到相似性。主要包括平均通勤時(shí)間、重啟隨機(jī)游走、SimRank、Cos+、局部隨機(jī)游走的指標(biāo)[18]等。
云計(jì)算的出現(xiàn),系統(tǒng)可將復(fù)雜的鏈路預(yù)測(cè)算法在大規(guī)模的網(wǎng)絡(luò)上以并行的方式分布執(zhí)行。在并行方式下的算法的迭代效率要比普通的數(shù)據(jù)并行系統(tǒng)下的執(zhí)行效率有數(shù)量級(jí)的提高[19]。
本文提出的FCR 模型是為了推薦最合適的合作者給目標(biāo)學(xué)者,即學(xué)術(shù)水平相近,研究興趣一致的合作者。該模型使用K-means 聚類算法將學(xué)者劃分為若干簇,每一簇中的學(xué)者學(xué)術(shù)水平相似,然后在同簇學(xué)者間構(gòu)建合作者網(wǎng)絡(luò),利用Katz相似性指標(biāo)尋找和目標(biāo)學(xué)者有可能產(chǎn)生合作關(guān)系的候選學(xué)者,同時(shí),結(jié)合LDA主題提取模型從學(xué)者發(fā)表論文的摘要中提取出其研究興趣向量,并計(jì)算兩個(gè)學(xué)者間研究方向的接近程度,最后,將Katz 路徑指標(biāo)和研究興趣的相似度綜合考慮進(jìn)行推薦。FCR模型主要流程如圖2所示。詳細(xì)步驟如下:
(1)從微軟學(xué)術(shù)數(shù)據(jù)集中獲取學(xué)者發(fā)表的論文信息,包括共同作者、摘要、被引量、期刊影響因子等,并根據(jù)學(xué)者間的合作關(guān)系生成合作者網(wǎng)絡(luò)。
(2)將合作網(wǎng)絡(luò)中的學(xué)者根據(jù)其學(xué)術(shù)水平的大小和從事研究工作的長(zhǎng)短,利用K-means聚類算法將學(xué)者分為三個(gè)簇。
(3)步驟(2)中聚類后,計(jì)算目標(biāo)學(xué)者與其所在簇中學(xué)者的Katz相似性指標(biāo)。
(4)從論文摘要中提取學(xué)者的研究主題信息,計(jì)算目標(biāo)學(xué)者與同簇學(xué)者間的研究主題相似性。
(5)綜合考慮學(xué)者的Katz路徑相似性指標(biāo)與研究主題相似度,按照Rankscore評(píng)分大小排序后,對(duì)學(xué)者進(jìn)行Top-N推薦。
模型中用到的關(guān)鍵參數(shù)如表1。
表1 FCR模型的關(guān)鍵參數(shù)符號(hào)Table 1 Key notations in FCR model
對(duì)學(xué)者的學(xué)術(shù)水平進(jìn)行度量是一件很有挑戰(zhàn)的工作,目前雖然有著許多個(gè)人學(xué)術(shù)水平的評(píng)價(jià)方法,例如成果總數(shù)(P)、引文總數(shù)(C)、篇均引文數(shù)(CPP)、相對(duì)指標(biāo)、相對(duì)引文率(RCR)、皇冠指數(shù)(CI)、期刊影響因子(IF)等、但是尚并沒有一個(gè)公認(rèn)的統(tǒng)一標(biāo)準(zhǔn)。
考慮常用的幾種學(xué)術(shù)水平的評(píng)價(jià)指標(biāo),主要包括以下三個(gè)方面:發(fā)表論文量、總引文數(shù),以及發(fā)表期刊的影響因子。綜合上述指標(biāo),本文將學(xué)術(shù)水平的計(jì)量方式,定義為學(xué)者每篇論文所在期刊的影響因子與論文被引次數(shù)乘積的均值,計(jì)算公式如下:其中,EP是學(xué)者發(fā)表的論文集合,IF(p)表示發(fā)表論文p所在期刊的影響因子,c為論文p的被引次數(shù)。
在對(duì)學(xué)者的水平進(jìn)行定義之后,本文考慮同水平學(xué)者從事研究工作的時(shí)間的長(zhǎng)短也應(yīng)該具有一定相似性,所以FCR模型將在AL的基礎(chǔ)上,同時(shí)考慮學(xué)者研究工作時(shí)間的長(zhǎng)短,即學(xué)者首次發(fā)表論文和最近一次發(fā)表論文的年份區(qū)間,本文利用這兩個(gè)指標(biāo)對(duì)學(xué)者進(jìn)行聚類。
本文提出的模型利用K-means 均值聚類算法(Kmeans clustering algorithm)依據(jù)學(xué)術(shù)水平對(duì)學(xué)者們進(jìn)行聚類,該算法是無監(jiān)督學(xué)習(xí)的聚類算法,它采用距離作為樣本間相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)樣本的距離越近,那么它們的相似度就越大。該聚類算法通過給定算法聚類的個(gè)數(shù)K,找出K個(gè)聚類的中心c1,c2,…,cK,經(jīng)過多次迭代計(jì)算,使得每個(gè)簇內(nèi)樣本xi到所在簇的簇心cv的平方距離的和Wn最小,假設(shè)數(shù)據(jù)集為X={x1,x2,…,xn},分為K個(gè)簇S={s1,s2,…,sK},則Wn表達(dá)式如下:
K-means算法的思想主要分為以下幾個(gè)步驟:
(1)隨機(jī)選擇K個(gè)樣本點(diǎn)作為各個(gè)簇的初始質(zhì)心C={c1,c2,…,cK}。
(2)計(jì)算每個(gè)點(diǎn)分別到K個(gè)質(zhì)心的距離的歐式距離d,然后將該點(diǎn)分配到最近的聚類中心,由此生成K個(gè)簇,公式如下:
其中,Nt為第i個(gè)簇中樣本的個(gè)數(shù)。
(4)不斷迭代(2)~(4),直至質(zhì)心C={c1,c2,…,ck}收斂,或者達(dá)到迭代設(shè)定的次數(shù)。
可以知道,在劃分完畢時(shí),每一簇內(nèi)的學(xué)者,其學(xué)術(shù)水平是相似的。對(duì)于目標(biāo)學(xué)者,本文只考慮他所在簇內(nèi)的學(xué)者是否有可能與他合作。
K-means算法的初始階段,要選取K個(gè)點(diǎn)作為初始的聚類中心,然后再此基礎(chǔ)上進(jìn)行反復(fù)迭代。選取的點(diǎn)不同,聚類的結(jié)果就可能不同,所以這個(gè)算法的聚類結(jié)果對(duì)初始值依賴性很強(qiáng),此外,如果碰到最極端的初始值選取情況,將使得算法的運(yùn)行時(shí)間加長(zhǎng),聚類過程難以收斂,因而聚類結(jié)果更加難以預(yù)測(cè)。為了緩解上述問題,在選擇K-means 聚類的初始質(zhì)心時(shí),可以采用以下幾種初值的選取方法:
(1)將樣本直觀地分成K類,計(jì)算各類的均值作為初始聚類的中心。
(2)通過“密度法”選擇代表點(diǎn)作為初始聚類中心。
(3)通過不斷擴(kuò)大聚類個(gè)數(shù),直至解出K類問題的代表點(diǎn),即先將全部樣本看成一個(gè)類,樣本總均值的點(diǎn)就是第一類的初始聚類中心,之后選擇和第一類初始聚類中心最遠(yuǎn)的一個(gè)樣本作為2 類聚類的第二個(gè)聚類中心。以此類推,直至找到第K個(gè)聚類中心點(diǎn)。
(4)進(jìn)行多次初值選擇、聚類,找出一組最優(yōu)的聚類結(jié)果。
(5)采用遺傳算法或者免疫規(guī)劃方法進(jìn)行混合聚類。
在合作關(guān)系的拓展過程中,一對(duì)合作者,他們的一階朋友比二階朋友更有可能加入到他們的合作關(guān)系中去,同理,二階朋友相比于三階朋友,有更大的概率加入與目標(biāo)學(xué)者的合作關(guān)系中去。由此,可以發(fā)現(xiàn)合作關(guān)系的傳遞是一個(gè)衰減的過程,在挖掘潛在的合作學(xué)者時(shí)需要對(duì)這種衰減情況進(jìn)行模擬,Katz指標(biāo)是鏈路預(yù)測(cè)算法中基于路徑的相似性指標(biāo),其主要思想是考慮網(wǎng)絡(luò)中所有節(jié)點(diǎn)的路徑數(shù),對(duì)長(zhǎng)路徑賦予較小的權(quán)重,短段路徑賦予較大的權(quán)重,該相似性指標(biāo)被定義為:
通過該指標(biāo),可以發(fā)現(xiàn)隨著連接路徑長(zhǎng)度的增加,長(zhǎng)路徑的占比逐漸減少,使得短路徑的作用增大。即距離目標(biāo)學(xué)者近,且可以有多條路徑相連的節(jié)點(diǎn)學(xué)者間的相似度更大。由此,可以篩選出潛在的與目標(biāo)學(xué)者產(chǎn)生連接的候選學(xué)者,在此基礎(chǔ)上考慮他們的研究興趣是否相似。
本文為目標(biāo)學(xué)者推薦具有相同研究興趣的合作者,需要對(duì)學(xué)者的研究主題進(jìn)行提取并且計(jì)算相似度。FCR 模型使用LDA(latent dirichlet allocation)主題提取模型,也稱為三層貝葉斯概率模型(詞-主題-文檔),從學(xué)者所發(fā)表論文的摘要中提取研究興趣。LDA模型假設(shè)文本中的詞是由某個(gè)主題生成,這些詞在不同的主題上服從Dirichlet 分布,同樣,這些主題被分布在所得到的文本中,并且服從Dirichlet分布,Dirichlet概率密度計(jì)算函數(shù)計(jì)算公式如下:
LDA主題提取模型流程如圖3。
其中θ是“文檔-主題”概率分布,α是θ的超參數(shù),是一個(gè)K維向量。φ是“主題-詞”概率分布,β是φ的超參數(shù)。W為詞,z是詞的主題分布,N是一篇文檔中詞的數(shù)目,M是總的文檔數(shù),K為主題個(gè)數(shù)。
由于一個(gè)學(xué)者往往有許多處于不斷變化的研究主題,因此本文選取學(xué)者近4年的前T個(gè)主題作為學(xué)者的研究興趣向量,如表2。
表2 學(xué)者研究主題概率分布Table 2 Probability distribution of research topics
本文通過計(jì)算學(xué)者研究興趣向量夾角的余弦值評(píng)估學(xué)者間研究興趣分布的相似程度,即余弦相似度,計(jì)算公式如下,其中T是研究主題向量的維數(shù):
研究者大多與學(xué)術(shù)水平相差較小的研究者展開較多的合作是一個(gè)普遍的現(xiàn)實(shí)情況,其次,合作的研究者們研究方向一般具有一定程度的相似性。最終,本文在學(xué)術(shù)水平相似的基礎(chǔ)上,認(rèn)為興趣相似度高的學(xué)者將會(huì)有合作的可能,并以研究主題的相似度和路徑相似性指標(biāo)Katz為依據(jù),綜合考慮進(jìn)行排序推薦,排序得分的計(jì)算公式如下:
其中,SKatz為Katz 路徑相似度,TopicSim為興趣相似度。對(duì)目標(biāo)學(xué)者與每個(gè)節(jié)點(diǎn)學(xué)者的Rankscore進(jìn)行排序得到Top-N推薦列表。
微軟學(xué)術(shù)知識(shí)圖譜(microsoft academic graph,MAG)是微軟公司提供的一個(gè)公開的學(xué)術(shù)知識(shí)庫,由包括Bing Web 檢索以及Bing 學(xué)術(shù)檢索引擎在內(nèi)的動(dòng)態(tài)的的知識(shí)庫構(gòu)成。通過項(xiàng)目學(xué)術(shù)知識(shí)服務(wù)(project academic knowledge)對(duì)接收到的查詢請(qǐng)求進(jìn)行響應(yīng),可查詢的實(shí)體數(shù)據(jù)包括:論文、作者、作者單位、期刊、會(huì)議、機(jī)構(gòu)、研究領(lǐng)域等(如圖4)。
在接下來的實(shí)驗(yàn)中,本文將計(jì)算機(jī)領(lǐng)域中的學(xué)者數(shù)據(jù)進(jìn)行提取,共計(jì)獲取75 877 個(gè)學(xué)者信息,其中包括學(xué)者ID、學(xué)者論文被引總數(shù)、總論文數(shù),論文摘要、發(fā)表日期、刊物等。按照研究方向的不同分為四類,分別是數(shù)據(jù)挖掘方向(18 940 人),數(shù)據(jù)庫方向(23 468 人),圖像處理方向(19 144人),深度學(xué)習(xí)方向(14 325人)。為了避免學(xué)者重名對(duì)推薦的影響,實(shí)驗(yàn)采用學(xué)者的唯一ID作為標(biāo)識(shí)。
實(shí)驗(yàn)時(shí),將他們?cè)?016—2019 年的數(shù)據(jù)作為訓(xùn)練集,用于生成合作者網(wǎng)絡(luò)以及計(jì)算學(xué)者的學(xué)術(shù)水平,2019—2021年的數(shù)據(jù)作為測(cè)試集,從而驗(yàn)證模型的推薦表現(xiàn)。通過構(gòu)造合適的查詢語句,獲取到的數(shù)據(jù)如表3和表4。
表3 學(xué)者的學(xué)術(shù)水平數(shù)據(jù)Table 3 Academic data of scholars
表4 論文的數(shù)據(jù)Table 4 Data of paper
實(shí)驗(yàn)時(shí)采用推薦系統(tǒng)中常用的評(píng)價(jià)指標(biāo):準(zhǔn)確率、召回率、F1指數(shù)。此外,還使用平均絕對(duì)誤差(MAE)來衡量模型的推薦學(xué)者與目標(biāo)學(xué)者在學(xué)術(shù)水平上的匹配程度。
令R(u)是模型在測(cè)試集上給出的用戶u的預(yù)測(cè)推薦列表,而T(u)是用戶u在訓(xùn)練集上的推薦列表,則準(zhǔn)確率和召回率以及F1指數(shù)的定義如下:
準(zhǔn)確率:
本文用平均絕對(duì)誤差(MAE)來衡量推薦的學(xué)者與目標(biāo)學(xué)者學(xué)術(shù)水平的匹配程度:
其中,ru是目標(biāo)學(xué)者u的學(xué)術(shù)水平,ri為推薦學(xué)者的學(xué)術(shù)水平。該誤差值將用于反映模型的推薦學(xué)者與目標(biāo)學(xué)者之間學(xué)術(shù)水平的平均差距。
FCR模型依據(jù)步驟先后的不同,可以分為離線階段和在線階段(圖5),離線階段模型主要對(duì)數(shù)據(jù)集中的用戶特征進(jìn)行提取并保存,例如學(xué)者的研究興趣,學(xué)術(shù)水平,以及對(duì)學(xué)者聚類的結(jié)果,這些數(shù)據(jù)可以在推薦之前作為中間結(jié)果存儲(chǔ)到數(shù)據(jù)庫中。在線階段主要對(duì)學(xué)者間的Katz路徑相似度進(jìn)行計(jì)算,并按照計(jì)算的結(jié)果生成推薦列表并進(jìn)行TOP-N推薦。由于離線階段相當(dāng)于數(shù)據(jù)預(yù)處理的過程,因此,本文模型的離線階段的時(shí)間復(fù)雜度將不被算入到總的時(shí)間復(fù)雜度中。
假設(shè)學(xué)者合作網(wǎng)絡(luò)中節(jié)點(diǎn)的數(shù)量為v,m是網(wǎng)絡(luò)包含的所有節(jié)點(diǎn)中最大的度,則計(jì)算Katz路徑相似度指標(biāo)(公式(5))的時(shí)間復(fù)雜度為:矩陣乘法的時(shí)間復(fù)雜度O(mv),加上矩陣逆運(yùn)算的時(shí)間復(fù)雜度為O(v3)以及矩陣減法的復(fù)雜度為O(v) ,因此FCR 模型的復(fù)雜度為O(v3)。相比而言,基于共同鄰居的推薦方法的時(shí)間復(fù)雜度為O(v2) ,基于隨機(jī)游走的推薦模型復(fù)雜度為O(v3)。由于FCR 模型只在同簇水平學(xué)者間進(jìn)行推薦,同簇水平學(xué)者的劃分在離線階段就已完成,因此推薦時(shí)的節(jié)點(diǎn)數(shù)v一般要小于其他推薦模型。所以,本文模型時(shí)間復(fù)雜度要低于常用的基于隨機(jī)游走的推薦模型,F(xiàn)CR 模型時(shí)間復(fù)雜度雖然高于基于共同鄰居的推薦模型,但是共同鄰居的方法沒有考慮全部的路徑,其推薦效果受到限制。
K-means 算法需要在運(yùn)行前設(shè)置聚類的個(gè)數(shù),雖然在對(duì)學(xué)者進(jìn)行劃分時(shí),可以劃分多個(gè)簇,每個(gè)簇中學(xué)者的水平相近,但是劃分的簇?cái)?shù)不是越多越好,過于細(xì)致的劃分可能會(huì)影響推薦時(shí)的表現(xiàn)。為了探討聚類個(gè)數(shù)對(duì)模型推薦表現(xiàn)的影響,本組實(shí)驗(yàn)在4個(gè)不同研究領(lǐng)域的學(xué)者數(shù)據(jù)集中隨機(jī)挑選共7 500名目標(biāo)學(xué)者進(jìn)行推薦(如表5),聚類結(jié)果如圖6。
表5 不同領(lǐng)域的目標(biāo)學(xué)者數(shù)量分布表Table 5 Distribution of target scholars in different domain單位:人
對(duì)聚類后的目標(biāo)學(xué)者在同簇中利用本文提出的模型進(jìn)行推薦,對(duì)比不同聚類個(gè)數(shù)對(duì)模型推薦表現(xiàn)的影響。實(shí)驗(yàn)結(jié)果如圖7,可以發(fā)現(xiàn),隨著聚類個(gè)數(shù)的增加,模型對(duì)于四個(gè)研究領(lǐng)域的目標(biāo)學(xué)者的推薦的正確率不斷增加,當(dāng)聚類個(gè)數(shù)K=3 時(shí),推薦的平均正確率最高,達(dá)到了21.3%。相比于不對(duì)學(xué)者進(jìn)行水平劃分(K=1),推薦的平均正確率僅有6.5%。當(dāng)劃分個(gè)數(shù)過多時(shí)(K≥4),推薦的正確率卻在不斷降低,這是由于劃分的簇過多,會(huì)丟失大量潛在合作學(xué)者節(jié)點(diǎn)。因此,設(shè)置一個(gè)合適的劃分簇?cái)?shù)能提高模型的推薦表現(xiàn)。在本文模型中聚類的個(gè)數(shù)K值為3。
學(xué)者往往有多個(gè)研究興趣,因此,選取合適的主題向量維度才能夠準(zhǔn)確衡量?jī)蓚€(gè)學(xué)者研究興趣的相似程度。本組實(shí)驗(yàn)在包含四個(gè)領(lǐng)域的數(shù)據(jù)集上進(jìn)行,通過改變FCR模型中的主題數(shù)的方法進(jìn)行分析。
圖8顯示了FCR模型在四個(gè)數(shù)據(jù)集上,設(shè)置不同主題數(shù)的推薦表現(xiàn),可以發(fā)現(xiàn),當(dāng)主題數(shù)小于80(T<80)時(shí),隨著主題數(shù)的增加,推薦的平均準(zhǔn)確率不斷提高,在約等于100個(gè)主題數(shù)時(shí),推薦的準(zhǔn)確率趨于穩(wěn)定,此外,當(dāng)主題數(shù)為0(T=0)時(shí),模型等同于移除研究主題,僅考慮學(xué)者的路徑的可達(dá)性以及學(xué)術(shù)水平是否相似,這時(shí)推薦的正確率則最低。通過本組實(shí)驗(yàn),可以發(fā)現(xiàn)在選取一個(gè)合適的主題數(shù)變量時(shí),F(xiàn)CR模型能夠擁有較好且穩(wěn)定的推薦表現(xiàn)。
第一組實(shí)驗(yàn)將學(xué)者聚成三簇,按照學(xué)術(shù)水平的不同可以將他們分為初級(jí)學(xué)者、中級(jí)學(xué)者和高級(jí)學(xué)者。本組實(shí)驗(yàn)將分別對(duì)他們利用FCR模型進(jìn)行推薦,觀察模型對(duì)于三種學(xué)術(shù)水平特征的學(xué)者的推薦效果,結(jié)果如圖9。
可以看出,F(xiàn)CR 模型對(duì)三種不同水平的學(xué)者,推薦的表現(xiàn)各不相同。其中對(duì)中級(jí)學(xué)者的推薦準(zhǔn)確率最高,達(dá)到了24.3%,而高級(jí)學(xué)者準(zhǔn)確率則為20.8%,初級(jí)學(xué)者的正確率僅為17%。此外,模型中對(duì)于中級(jí)學(xué)者的推薦無論是在召回率,還是F1指數(shù),也好于高級(jí)學(xué)者和初級(jí)學(xué)者,這可能是由于中級(jí)學(xué)者的合作關(guān)系網(wǎng)絡(luò)比較成熟,研究方向也比較穩(wěn)定,而初級(jí)學(xué)者合作關(guān)系稀疏且研究方向比較多變。高級(jí)學(xué)者往往多從事于教學(xué)工作,合作關(guān)系中也會(huì)出現(xiàn)較多的新手學(xué)者,從而難以預(yù)測(cè)這些學(xué)者的合作走向。
為驗(yàn)證本文提出的模型與其他現(xiàn)有模型的推薦表現(xiàn),第三組實(shí)驗(yàn)將本文提出的基于學(xué)術(shù)水平聚類的FCR推薦模型與其他幾種推薦模型在不同數(shù)據(jù)規(guī)模(目標(biāo)學(xué)者人數(shù)=50,150,500,1 000,2 000)上進(jìn)行對(duì)比,對(duì)比模型介紹如表6。
表6 對(duì)比模型介紹Table 6 Comparative model introduction
實(shí)驗(yàn)結(jié)果如圖10,可以發(fā)現(xiàn),相比于其他模型,本文提出的模型無論在準(zhǔn)確率、召回率還是F1 指數(shù)方面都有著最好的表現(xiàn)。在圖10(a)中,平均準(zhǔn)確率比其他模型高約5.3%,圖10(b)中,平均召回率高2.5%,圖10(c)中平均F1指數(shù)高4%。經(jīng)分析可以知道,CNRec推薦模型對(duì)學(xué)者間的共同鄰居進(jìn)行統(tǒng)計(jì),不考慮合作關(guān)系的傳遞衰減情況,并且也只對(duì)有限的連接路徑長(zhǎng)度進(jìn)行討論,因而推薦效果不如本模型使用考慮更多路徑的Katz 路徑相似度的方法。BCR 推薦模型為目標(biāo)學(xué)者推薦能夠帶來最大學(xué)術(shù)收益的學(xué)者,該模型考慮了學(xué)者在網(wǎng)絡(luò)中的影響力,但并不考慮他們之間的學(xué)術(shù)水平差距所帶來的負(fù)面影響,也不考慮他們是否能夠真正建立合作關(guān)系。ACNE 模型利用協(xié)作網(wǎng)絡(luò)嵌入的模式對(duì)學(xué)術(shù)關(guān)系進(jìn)行挖掘,雖然該模型對(duì)學(xué)者之間的學(xué)術(shù)關(guān)系能夠很好的分析,對(duì)某些合作關(guān)系密集的學(xué)者表現(xiàn)不錯(cuò),但是對(duì)于那些合作關(guān)系比較稀疏的初級(jí)學(xué)者,模型的推薦表現(xiàn)不佳。該實(shí)驗(yàn)說明了本文所提出的模型的有效性。
最后,本文使用MAE 指標(biāo)計(jì)算了各個(gè)模型中目標(biāo)學(xué)者與推薦學(xué)者間學(xué)術(shù)水平差距的均值,結(jié)果如表7。
表7 學(xué)術(shù)水平差距的MAETable 7 MAE for academic gaps
可以發(fā)現(xiàn),F(xiàn)CR推薦模型的學(xué)術(shù)水平的平均絕對(duì)誤差與其他模型相比最小,僅為20.51。由于BCR 模型推薦的學(xué)者都是高水平的學(xué)者,所以在這四個(gè)模型中的MAE 值最大,而CNRec 模型推薦的是共同鄰居最多的學(xué)者,因?yàn)楣餐従釉蕉?,有時(shí)也暗含著目標(biāo)學(xué)者與推薦學(xué)者水平具有一定的相似性,但是這種相似十分模糊。ACNE模型只是對(duì)基于合作關(guān)系分析后進(jìn)行推薦,學(xué)術(shù)水平差距并非該模型的推薦考慮因素。上述實(shí)驗(yàn)說明了本文提出的基于學(xué)術(shù)水平相似的合作者推薦模型在推薦時(shí)更偏向于學(xué)術(shù)水平差距不大學(xué)者或者學(xué)術(shù)水平相似的學(xué)者。結(jié)合前面的幾組實(shí)驗(yàn)可知,在一定程度上縮小學(xué)者間的水平差距,能夠增加合作的成功率,提升推薦模型的表現(xiàn)。
在這篇論文中,考慮學(xué)者間學(xué)術(shù)水平對(duì)合作產(chǎn)生的影響,提出了一種在推薦前先對(duì)學(xué)者按照學(xué)術(shù)水平進(jìn)行劃分,在同一學(xué)術(shù)水平類別中進(jìn)行推薦的模型,幫助研究者找到學(xué)術(shù)水平相近,興趣相投,更有可能形成合作關(guān)系的合作者。通過實(shí)驗(yàn),本文的推薦模型在精確度、召回率以及F1指數(shù)評(píng)分方面有著更好的表現(xiàn),同時(shí),推薦的學(xué)者在學(xué)術(shù)水平的匹配度上也優(yōu)于其他模型。盡管如此,這一方面仍然有著進(jìn)一步提升的空間,特別是對(duì)學(xué)者合作關(guān)系的組成分析和研究主題的動(dòng)態(tài)變化的追蹤,以及為合作關(guān)系較為稀疏,并且學(xué)術(shù)特征不明顯的學(xué)者進(jìn)行推薦,這也將是今后的研究方向。本文提出了一種新的推薦思想,即目標(biāo)學(xué)者與推薦學(xué)者之間應(yīng)具有一定的學(xué)術(shù)水平相似性,并驗(yàn)證了將學(xué)術(shù)水平相似性作為影響因素進(jìn)行推薦的可能性。
至于未來的工作,跨領(lǐng)域(跨學(xué)科)學(xué)術(shù)合作者推薦是一個(gè)相當(dāng)有意義的方向。它可以幫助知識(shí)從一個(gè)領(lǐng)域傳播到另外一個(gè)領(lǐng)域,與一般的單領(lǐng)域推薦不同,跨領(lǐng)域推薦呈現(xiàn)出非常不同的模式:(1)稀疏連接:跨領(lǐng)域的合作很少;(2)專長(zhǎng)互補(bǔ):跨領(lǐng)域合作者往往擁有不同的專長(zhǎng)和興趣;(3)主題偏倚:跨領(lǐng)域合作主題集中在一個(gè)主題的子集上。這些都違反了傳統(tǒng)推薦系統(tǒng)的基本假設(shè)[23],由于這些原因,使得跨領(lǐng)域推薦比較困難,如何解決這些問題還需要更多的研究。不過,已有一些跨領(lǐng)域的推薦工作,Guo等人[24]將顯式的共同作者關(guān)系和隱式的共同引用關(guān)系結(jié)合在一起,即提出了一個(gè)混合圖跨領(lǐng)域模型,有效解決了主題偏斜問題。近年來,出現(xiàn)了將遷移學(xué)習(xí)與跨領(lǐng)域推薦結(jié)合的研究,Wang[25]提出了一種基于潛在特征聚類的跨領(lǐng)域推薦方法,利用對(duì)用戶或者物品的描述標(biāo)簽,對(duì)兩個(gè)領(lǐng)域進(jìn)行連接和數(shù)據(jù)遷移,不僅學(xué)習(xí)到兩個(gè)領(lǐng)域間的“共享知識(shí)”,而且還學(xué)習(xí)不同領(lǐng)域間的“特殊知識(shí)”。Wang等人[26]提出了一種新的三元橋遷移學(xué)習(xí)模型,用以預(yù)測(cè)用戶端和項(xiàng)目端的缺失評(píng)分,從而進(jìn)行跨領(lǐng)域推薦。遷移學(xué)習(xí)允許域之間、人物之間,以及訓(xùn)練集和測(cè)試集之間的分布情況可以不相同,通過學(xué)習(xí)不同域之間共有的知識(shí)或者潛在特征,能夠緩解跨領(lǐng)域內(nèi)數(shù)據(jù)稀疏性的問題。需要思考的是,以上這些工作或許同樣需要考慮學(xué)者水平之間的差距問題,因此,如何衡量?jī)蓚€(gè)不同領(lǐng)域間學(xué)者的學(xué)術(shù)水平仍然需要更加深入地進(jìn)行研究。