李春英,湯 庸,肖政宏,李天送
(1.廣東技術師范大學計算機科學學院,廣州 510665;2.華南師范大學計算機學院,廣州 510631)
學術社交網絡服務是典型的以人為中心的計算(Human Centered Computing,HCC),學者是學術社交網絡的主體[1]。學術社交網絡以學者相互建立關系為基礎,以實名或者非實名的方式自主構建社交關系網絡服務。像其他復雜系統(tǒng)一樣,學術社交網絡系統(tǒng)可以模型化為由學者(節(jié)點)以及學者之間的關系(邊)構成的無向無權重復雜網絡圖結構。在這個無向無權重復雜網絡中,有些節(jié)點間的連接關系比較緊密,有些節(jié)點間的連接關系則相對稀疏。與現實生活中由各種關系構成的人際交往圈類似,交往圈內部的人聯系比較多,而交往圈之間的人聯系則相對較少。這種交往圈在學術社交網絡中被稱之為學術社區(qū)。學術社區(qū)是學術社交網絡中非常有意義的屬性。學術社區(qū)檢測是為了對在線學術社交網絡進行分割,從而對學術社區(qū)成員進行標識,找到具有相似研究興趣等共同特征的群體,目的在于區(qū)分學者特定的興趣聯盟,更好地發(fā)現學者的屬性特征、興趣愛好及行為傾向等,為學術社交網絡平臺的各類學術推薦系統(tǒng)提供決策支持。
隨著學術社交網絡的快速發(fā)展,學術社交網絡平臺存在信息過載和信息不對稱等問題,對學者特別是影響力低的青年學者而言,需要花費更多的時間和精力尋找到自己感興趣的內容。為了持久保持學者對學術社交網絡的黏性和滿意度以及依靠網絡拓撲結構進行相關計算具有模型簡單、計算效率高和易于應用等優(yōu)勢,本文提出融合學術社區(qū)劃分的權威學者推薦模型。該模型使用學術社交網絡平臺學者間拓撲結構關系數據對學術社交網絡中的學者進行社區(qū)劃分,使興趣相似的學者聚集在同一個社區(qū),并在學術社區(qū)內部計算學者的影響力進而推薦影響力較大的學者給影響力較小的非直接好友學者,使之建立直接關系進而為影響力低的學者的研究起到導向作用。該推薦模型總體框架如圖1 所示。該推薦服務不僅可以準確地為學者們提供其感興趣的權威學者,而且可以增強學者尤其是影響力低的青年學者對學術社交網絡平臺的使用滿意度和黏度,進一步為學術社交網絡平臺形成良好的口碑及吸引潛在的學者提供幫助。
圖1 學術社交網絡權威學者推薦模型總體框架Fig.1 Overall framework of influential scholar recommendation model in academic social network
為了解決學術社交網絡信息過載問題,學術界從多個角度對學者用戶的偏好進行研究,并取得了豐富的研究成果。文獻[2]提出一種基于論文共同作者學術關系的推薦系統(tǒng)。該推薦系統(tǒng)應用科研人員所著論文的關鍵詞對科研人員進行建模,突出科研人員與研究領域之間的關聯,通過論文共同作者等學術關系計算科研人員之間的相似度并進行推薦。文獻[3]從學者知識結構和學術行為網絡兩個維度出發(fā),構建基于相似興趣的學者推薦模型,挖掘分析學者知識結構特征、學者間合作網絡、機構間合作網絡關系,計算學者在這3 個層面上的相似度并進行整合實現學者推薦。文獻[4]通過綜合分析科研社交網絡中專家所具有的知識信息以及社會關系信息,并以此為基礎,構建鏈接預測模型對科研社交網絡中的用戶進行相關專家推薦。文獻[5]定義出了兩個主要的合作者推薦情境,即基于相似性的合作者推薦和在一個特定的背景限制下的合作者推薦。對于基于相似性的合作者推薦問題,其提出了一個混合方法,分別從專業(yè)知識的相關性、社交網絡的鄰近度和機構層面的合作度3個維度,整合了5種異質文獻網絡的特征。針對在限定背景下的合作者推薦問題,其給出了一個以專業(yè)知識的覆蓋面為導向的合作者推薦機制,該機制提出并使用了一個基于傳統(tǒng)的潛狄利克雷分配(Latent Dirichlet Allocation,LDA)模型的改進方法,以提高其對同一語料庫中不同影響力的文檔的建模性能。文獻[6]提出了一種個性化的導師智能推薦方法,用于在科研社交網絡上為有需求的學生推薦適合自己個人特征的導師。該方法融合了相關度分析、連接度分析、質量度分析以及個性匹配度分析,有助于為有決策需求的學生提供導師選擇支持。文獻[7]從學者的學術能力和合作關系網絡兩個維度構建推薦模型,通過相關學者的學術能力挖掘候選推薦學者的知識覆蓋度,根據歷史合作關系網絡挖掘合作質量,綜合計算在這兩個層面的推薦值實現合作學者推薦。最終以百度學術學者主頁數據進行實證驗證了模型的有效性和有用性。文獻[8]利用在線學術社區(qū)中的實體和關系數據,提出了一種基于異構網絡的方法來推薦學者朋友,并進一步討論了元路徑和相應的學習權重如何幫助理解研究人員的偏好和行為。文獻[9]提出基于深度學習和有偏向隨機游走的多層次融合模型為科研人員推薦潛在的合作者,在DBLP(Digital Bibliography & Library Project)和hep-th(Theoretical High Energy Particle Physics)數據集上的實驗證明了所提出的模型相對于其他方法在精度、召 回 率、F1 得 分、MRR(Mean Reciprocal Rank)和nDCG(Normalized discounted cumulative gain)方面的有效性。文獻[10]通過移除引用的論文節(jié)點來構建具有多種類型節(jié)點和鏈接關系的簡化異構網絡;然后,使用兩個重要的度量來加權網絡中的鏈接關系(邊),以使隨機步行者的行為產生偏差;最后,通過采用帶有重啟的隨機游走算法來檢索相關作者,并根據排名得分輸出排序的合作者推薦列表。文獻[11-12]采用了兼顧內容和網絡拓撲結構的混合方法,文中使用2~3 個特征增強學術合作網絡中科研人員之間聯系的重要性,雖然他們捕獲了科研人員之間協作的聯系和兼容性,但是仍然存在許多隱性因素,例如其隸屬關系的物理距離、年齡或血統(tǒng)以及影響現實生活中協作的個性等。文獻[13]提出基于學者和研究主題的相互依存度共同代表學者和研究主題,并提取學者的基本特征以進行高質量的新合作者推薦。文獻[14]針對科學合作模式可能會隨著學者的職業(yè)年齡而發(fā)生變化的問題,設計了一種對學者的職業(yè)年齡敏感的科學合作推薦(Career Age-Aware Scientific Collaborator Recommendation,CAASCR)模型。該模型從數字圖書館中提取作者身份、提取基于出版物標題/摘要的主題以及用于衡量學者相似性的具有職業(yè)年齡意識的隨機游走,在兩個真實數據集上通過與6 種基線方法進行比較,實驗結果表明提出的模型在精度和召回率方面可以達到最佳性能。在第22 屆國際數據挖掘與知識發(fā)現(22th SIGKDD Conference on Knowledge Discovery and Data Mining)的推薦系統(tǒng)專題中,羅馬大學和谷歌合作了一篇讓人耳目一新的論文:“人們的社會聯系可以保護消費者免受推薦系統(tǒng)扭曲的影響”[15]。該研究表明了人們的社會聯系在推薦系統(tǒng)中具有非常重要的地位。文獻[16-18]對社交網絡進行圖結構的形式化描述,并使用社交網絡的拓撲結構信息挖掘社交用戶所在的朋友圈(社區(qū))進而預測用戶的偏好,并對社區(qū)內的用戶進行相關的推薦服務,取得了一定的效果。文獻[19]提出一種融合社區(qū)結構和興趣聚類的協同過濾推薦算法提高推薦系統(tǒng)的準確性。這些研究進一步表明了融合社區(qū)的推薦算法在一定程度上具有更好的推薦準確性。
現有的大多數方法主要側重于為科研人員推薦可能的學者或合作者,而推薦有影響力的權威學者的方法很少。因此,本文提出一種融合學術社區(qū)檢測的權威學者推薦模型(Influential Scholar Recommendation Model based on Academic Community Detection,ISRMACD)。利用學術社交網絡平臺學者網(SCHOLAT)中學者間的真實社會聯系——好友關系所產生的復雜網絡拓撲結構關系進行學術社區(qū)檢測,并利用社區(qū)檢測結果實現社區(qū)內部的權威學者推薦服務。
學術社交網絡系統(tǒng)可以模型化為由學者作為節(jié)點及學者之間的關系作為邊的復雜網絡拓撲結構G(V,E)的形式,其中V表示社交網絡學者集合,E表示學者間好友關系的集合。文獻[20]已經證明核心學者圈所定義的結構是社區(qū)的核心單位,處在同一個核心學者圈中的節(jié)點,必然處在同一個社區(qū)。在學術社交網絡中,影響力大的學者群體同樣會成為社區(qū)的核心結構。因此對學術社交網絡進行初始化時,著重考慮尋找學術社交網絡中的核心學者圈作為學術社區(qū)的核心結構。該模型按照定義1 的規(guī)則在學術社交網絡中尋找不相交的核心結構并為其中的學者用戶賦予一個相同的標簽及權重,后續(xù)查找核心學者圈的過程則不再考慮已具有標簽的學者用戶節(jié)點。
定義1學術社交網絡被模型化為G(V,E)的圖結構形式,其中V表示學術社交網絡學者節(jié)點集合,即學術社交網絡中任意一個學者節(jié)點i∈V,E表示學術社交網絡學者節(jié)點間相鄰關系的集合。N(i)是學者節(jié)點i的鄰接節(jié)點集合,|N(i)|表示學者節(jié)點i的好友數,也是學者節(jié)點i的度數,本文把它作為學者i的影響力。在圖G中尋找局部影響力最大的學者圈Gm,且不存在學者圈Gt?G,使得Gm?Gt,則稱Gm為核心學者圈(Core Scholar Group,CSG)。
標簽初始化規(guī)則如下所示。
1)設置學術社交網絡中所有學者節(jié)點ui的標簽集Ci=?。
2)設置迭代次數t=1。
3)按照定義1 尋找學術社交網絡中的CSG,并令標簽權重有序對(t,1)∈Ci。其中t為標簽號,一個標簽號將代表一個社區(qū),1為標簽t的權重值。
4)t=t+1。
5)重復步驟3)~4),直到學術社交網絡中沒有再滿足要求的學者節(jié)點,初始化過程結束。
根據標簽初始化規(guī)則,以一個簡單的復雜網絡為例,如圖2 所示。按照定義1 的尋找核心學者圈規(guī)則,算法首先在圖2中選擇度數最大的節(jié)點4,在節(jié)點4 的所有鄰居節(jié)點中,節(jié)點11 是度數最大的一個,因此在網絡中繼續(xù)尋找與節(jié)點4 和節(jié)點11 均相鄰的節(jié)點,只有節(jié)點8 符合定義1 要求的條件。按照此規(guī)則繼續(xù)尋找與節(jié)點4、節(jié)點11和節(jié)點8均相鄰的第4個節(jié)點,發(fā)現該網絡中沒有節(jié)點符合加入的條件。因此,第一個核心學者圈只包含3個節(jié)點4,11和8。依此類推,在圖2中共找出3 個核心學者圈CSG,分別為節(jié)點群(4,11,8)、(3,5,6)和(12,13,14),如圖3 所示。按照標簽初始化規(guī)則分別為每一個CSG 中的節(jié)點賦予相同的標簽及權重,即節(jié)點群{4,11,8}對應的標簽及權重均為1,節(jié)點群{3,5,6}對應的標簽為2、權重為1,節(jié)點群{12,13,14}對應的標簽為3、權重也為1。
圖2 復雜網絡拓撲結構Fig.2 Complex network topology
圖3 初始化后復雜網絡拓撲結構Fig.3 Complex network topology after initialization
通過對學術社交網絡的拓撲結構分析得知,每一個社區(qū)至少包含一個影響力比較大的核心學者圈,社區(qū)的拓撲關系由核心學者圈向周圍擴展。標簽在傳播時,以核心學者圈CSG 中節(jié)點及其對應的標簽權重作為迭代開始時的種子。根據復雜網絡小世界原則,只要節(jié)點的鄰居節(jié)點擁有標簽及權重,在算法的迭代過程中,其一定能獲得標簽和權重。標簽更新時按照式(1)定義的規(guī)則更新節(jié)點的標簽和權重。
其中N(x)表示學者節(jié)點x所有鄰居節(jié)點的集合。在式(1)中,節(jié)點x在第t-1 步已經擁有標簽c,那么當節(jié)點x在第t步更新時,如果其鄰居節(jié)點y也擁有標簽c,則節(jié)點x在第t步更新時,在標簽c下的權重值為其在第t-1步標簽c的權重值與其鄰居節(jié)點y在第t-1 步標簽c的權重值與節(jié)點x度數的比值之和。若被更新節(jié)點x沒有鄰居節(jié)點的標簽c,則bt-1(c,x)值為0,節(jié)點x接收鄰居節(jié)點的標簽c作為新標簽,并按照式(1)計算節(jié)點x在標簽c下對應的權重。
標簽更新過程具體操作步驟如下所示。
1)令迭代次數I=1。
2)隨機排序網絡節(jié)點得到一個序列S。
3)根據標簽更新式(1)定義的規(guī)則更新節(jié)點的標簽及權重。
4)每一輪迭代后刪除權重小于閾值1/L(L為算法每一次迭代后當前節(jié)點擁有的標簽數)的標簽及權重。若所有標簽權重都小于1/L,則保留最大的一個;若最大的標簽有多個,則隨機選擇一個。
5)歸一化所保留的學者節(jié)點標簽權重,使其和為1。
6)如果S中的所有學者節(jié)點都擁有了標簽,則算法停止。
7)否則令I=I+1,重復步驟2)~6)。
算法迭代過程停止后,節(jié)點擁有的標簽數即為學者所屬的社區(qū)個數,每一個標簽代表一個社區(qū),標簽相同的節(jié)點組成一個社區(qū)。按照這些規(guī)則進行后期處理后,在圖2中共發(fā)現3個社區(qū),分別為社區(qū)C1:{4,8,9,10,11},社區(qū)C2:{1,2,3,4,5,6,7}和社區(qū)C3:{12,13,14}。結果如圖4所示。
圖4 復雜網絡社區(qū)檢測結果Fig.4 Community detection results of complex network
社區(qū)發(fā)現算法對學術社交網絡中的學者按照網絡拓撲結構中表現出來的信息進行了相似性聚集。推薦模型接下來對社區(qū)內的學者進行挖掘并尋找影響力較大的學者,將影響力較大的學者推薦給社區(qū)內其他非直接好友學者用戶。該推薦模型第二步的關鍵點在于尋找影響力較大的學者節(jié)點。在學術社交網絡中,如果和一個學者建立聯系的學者數量越多,一定程度上可以說明該學者的影響力(權威)越大,是一個廣受歡迎的學者。因此,在基于好友關系的學術社交網絡中,將學者影響力大小定義為其好友數量,即學者節(jié)點對應的度數,如式(2)所示。其中,ui為復雜網絡中的任意一個學者節(jié)點,d(ui)為學者節(jié)點ui的度數,Uiscore表示學者影響力大小。
按照定義1 的規(guī)則,核心學者圈是社區(qū)內度數較高的學者節(jié)點集合,具有較高的影響力,但是在尋找不相交的核心學者圈時存在較高影響力的學者節(jié)點沒有被加入核心學者圈的情形。為了避免漏掉一些影響力較大的學者,推薦模型將社區(qū)內高于平均影響力的學者作為社區(qū)內影響力較大的學者,分組推薦給社區(qū)內其他非直接好友學者。
假設學術社交網絡有n個學者節(jié)點且節(jié)點的平均度數為k,核心學者圈的平均節(jié)點數為m。最終發(fā)現的學術社區(qū)數為c個。ISRMACD 模型在學術社區(qū)檢測階段所使用的最大時間耗費為尋找社區(qū)中的核心結構CSG,近似為O(n2);在模型的推薦階段,為各個學術社區(qū)建立索引需要的時間復雜度為O(c);計算社區(qū)內節(jié)點的影響力并按照影響力高低進行排序需要的時間復雜度近似為O(km+m2)。因此,該推薦模型的時間復雜度近似為O(n2)。
實驗采用了學者網2016 年5 月30 日的學者好友關系數據集,并對該數據集去除噪聲,保留了最大的一個連通分量,共計3 053 個學者節(jié)點和10 920 條好友關系(邊)構成的學術社交網絡關系圖。在該數據集上應用本文提出的ISRMACD模型進行權威學者推薦。模型在標簽初始化階段共獲得182個核心學者圈,亦即產生了182 個標簽,在這些核心學者圈中學者數最多的是13 位、最少的是3 位,并且有125 個核心學者圈只包含3 位學者,占比超過2/3,即三角形結構往往是一個社區(qū)的核心結構,每個核心學者圈包含的學者數(Number)統(tǒng)計情況如圖5所示。在圖5中橫坐標表示核心學者圈的序號、縱坐標表示核心學者圈中的學者數量。使用這182 個核心學者圈中的學者節(jié)點及其對應的標簽和權重作為種子進行學術社區(qū)檢測,最后檢測到109 個學術社區(qū),其中最大社區(qū)包含1 339 個學者,最小社區(qū)為3 個學者,具體如圖6 所示。在圖6中,橫坐標表示社區(qū)序號,主坐標軸表示社區(qū)內學者用戶(scholar number)的數量,次坐標軸表示社區(qū)內學者的平均影響力(average degree)和社區(qū)內包含的核心學者圈(CSG number)數量。在社區(qū)1 中,學者數是1 339,平均影響力是9.496,包含71 個核心學者圈;而在社區(qū)9 中,學者數是89,平均影響力是56.218,包含3 個核心學者圈。因此在真實社交網絡中,社區(qū)中學者數越多,學者之間的相互聯系相對越稀疏,為非直接好友關系的低影響力學者推薦權威學者顯得更有意義。
圖5 核心學者圈中學者數統(tǒng)計Fig.5 The numbers of scholars in core scholar groups
圖6 社區(qū)內各項數據統(tǒng)計結果Fig.6 Statistical results of various data in communities
一些基于模塊度函數的社區(qū)發(fā)現算法存在分辨率和尺度問題,如社區(qū)發(fā)現結果易淹沒較小的社區(qū)結構[21]。但是從本文的實驗可知,聚類結果中既有包含1 339個學者節(jié)點的大型社區(qū),也有只包含3 個學者節(jié)點的小型社區(qū)。因此,本文的聚類結果反映了真實社交網絡的社區(qū)發(fā)現需求,能夠為進一步的權威學者推薦服務提供比較精確的決策支持。另外,從社區(qū)發(fā)現結果可知,很多學者屬于多個不同的社區(qū),這與學者網數據集有關。學者網數據集中的大多數學者可能因相同工作單位而屬于同一個社區(qū);也可能因不同的學術組織團體而聚集在一起;或因同一個科研團隊/課程團隊而屬于另外一個社區(qū);或因相同研究興趣而與不同單位不同地域的學者構成一個社區(qū)。以學者網創(chuàng)始人湯庸教授為例,在該實驗所采用的連通分量中其分別屬于7 個不同的社區(qū),共有938 個好友,好友遍布海內外各大知名科研院所,是影響力很大的權威學者。湯庸教授目前的研究方向、研究興趣代表了學術領域當前的一些熱點研究問題。將類似于湯庸教授的權威學者推薦給社區(qū)內的其他非直接好友學者,其他學者通過學者網好友社區(qū)內的信息共享可以實時獲得權威學者的科研動態(tài)信息,具有較好的科學研究行動導向作用。
為了對所提出的學者推薦模型進行量化評價,利用在SCHOLAT 數據集上的學術社區(qū)劃分結果及學術社區(qū)內學者影響力權值,在學者數最多的社區(qū)采用每組隨機推薦10 名影響力權值高于社區(qū)內平均影響力權值的學者給社區(qū)內的其他非直接好友學者,以便對推薦模型的準確率、召回率以及準確率和召回率的加權調和平均函數F-Measure進行定量分析。準確率、召回率和F-Measure函數的計算方法分別如式(3)~(5)所示:
本實驗選擇向10 位參與測試的學者分別推薦1 組、2 組和3 組,即10 名、20 名和30 名權威學者來檢測推薦模型的準確率、召回率以及F-Measure函數隨著推薦權威學者數增加情況下的變化情況,實驗結果如圖7 所示,在圖7 中Precision-1、Recall-1 和F-Measure-1 分別表示推薦1 組權威學者時的推薦精度、召回率和F-Measure函數值,Precision-2、Recall-2 和F-Measure-2 分別表示推薦2 組權威學者時的推薦精度、召回率和F-Measure函數值,Precision-3、Recall-3 和F-Measure-3 分別表示推薦3 組權威學者時的推薦精度、召回率和F-Measure函數值。從圖7 可以看出,當推薦10 名權威學者時,推薦模型的推薦準確率總體表現較好,但是推薦模型的召回率比較低。隨著推薦權威學者數的增加,推薦精度總體呈下降趨勢,也許測試用戶不愿意一次接受太多的推薦結果、需要時間來進行消化,但是推薦模型的召回率和F-Measure函數呈上升趨勢,這和召回率和F-Measure函數的計算方法有關,即在推薦總數確定的情況下,隨著被接受的推薦學者的增多,召回率和F-Measure函數的值也隨之增加。總體來講,該推薦模型的推薦精度均在60%以上,推薦準確率較好。
圖7 推薦模型的質量評價Fig.7 Quality evaluation of recommendation model
本文闡述了融合學術社區(qū)檢測的學術社交網絡權威學者推薦模型的工作原理,模型首先對學術社交網絡進行學術社區(qū)檢測,并將學術社區(qū)檢測結果作為興趣相似學者的聚集。社區(qū)的核心結構是每個社區(qū)內節(jié)點度數(影響力)較高的學者,在社區(qū)內具有更高的權威,但是考慮社區(qū)核心結構可能沒有包含全部權威學者,因此,該推薦模型將社區(qū)內影響力高于該社區(qū)平均影響力的學者作為有影響力的權威學者推薦給社區(qū)內的其他非直接好友學者。在SCHOLAT 數據集上的實驗表明該推薦模型取得了較高的推薦準確率,能夠對真實學術社交網絡平臺學者網的功能演化及預測提供有力支持。下一步將對學者網的全部用戶數據(包括多個連通分量)進行動態(tài)社區(qū)發(fā)現,并根據動態(tài)社區(qū)發(fā)現結果實現權威學者在學術社交平臺中的實時在線推薦。研究還發(fā)現,學者網中學生用戶的數據相對都比較稀疏,為了避免數據稀疏及為冷啟動學生用戶提供更好的權威學者推薦服務,引導他們的學習及學術研究,下一步研究考慮結合學者尤其是學生用戶的其他屬性數據,如專業(yè)、研究興趣、瀏覽軌跡等數據進行學術社區(qū)檢測并為相應的推薦服務提供支持。