亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        動態(tài)異構信息融合的科研合作潛力預測

        2023-09-27 06:31:16馬國帥錢宇華張亞宇李俊霞劉郭慶
        計算機應用 2023年9期
        關鍵詞:合作者潛力學者

        馬國帥,錢宇華,3*,張亞宇,李俊霞,劉郭慶

        (1.山西大學 大數(shù)據(jù)科學與產(chǎn)業(yè)研究院,太原 030006;2.山西大學 計算機與信息技術學院,太原 030006;3.計算智能與中文信息處理教育部重點實驗室(山西大學),太原 030006)

        0 引言

        隨著互聯(lián)網(wǎng)以及通信技術的快速發(fā)展,不同地域、單位的學者之間的學術交流越來越頻繁,科研合作已成為當代科學研究的常態(tài)[1]??蒲泻献骺梢詫崿F(xiàn)學者之間的優(yōu)勢互補、科研資源與設備的整合,擴大學者的影響力,促進越來越多的高質量研究成果的產(chǎn)生[2]。一個優(yōu)秀的合作者能有效提高科研的效率與科研合作水平[3]。因此,許多合作者推薦算法根據(jù)學者的研究偏好、學術畫像等特征為他們推薦最可能的合作者[4],但這些算法局限于對潛在的合作者進行分析與推薦,僅判斷了學者之間在某段時間內是否會產(chǎn)生合作,忽略了合作的預期成果產(chǎn)出。若面向合作成果為研究人員推薦合適的學者進行合作,將加速高水平研究成果的產(chǎn)出[5]。

        合作潛力預測旨在通過學者合作預期的成果產(chǎn)出為學者推薦潛在收益最大的合作者[6]。然而,已有的方法僅使用了特征工程以及復雜網(wǎng)絡科學的方法對合作網(wǎng)絡中的部分淺層靜態(tài)屬性進行了人工提取,并且受限于模型的可拓展性以及數(shù)據(jù)的完整性,忽略了合作網(wǎng)絡的演化屬性以及實體之間的關聯(lián)關系,無法提取各實體的深層次潛在特征。

        科研合作網(wǎng)絡中耦合了學者、機構、論文、期刊等多類型實體[7],能否有效利用并融合這些不同的實體屬性信息以及實體之間的關聯(lián)結構信息,是進行合作潛力預測以及學術合作模式挖掘的重要挑戰(zhàn)之一。

        本文針對科研合作網(wǎng)絡中多實體屬性信息融合以及合作潛力預測的模型結構,將合作者推薦與合作潛力預測進行融合并建模為多任務優(yōu)化問題。為了有效提取合作網(wǎng)絡的結構信息以及實體的動態(tài)演化特征,設計了一種基于圖神經(jīng)網(wǎng)絡的合作潛力預測(Collaboration Potential Prediction,CPP)模型,有效提取了合作網(wǎng)絡中各實體的深層動態(tài)屬性信息。首先,在保證數(shù)據(jù)完整性的前提下搜集整理了相關的論文數(shù)據(jù),使用滑窗法依據(jù)學者在不同年份發(fā)表的論文數(shù)據(jù)構建了動態(tài)異構信息網(wǎng)絡;然后,根據(jù)作者與其他實體之間的相關關系以及實體的屬性信息,使用圖神經(jīng)網(wǎng)絡(Graph Neural Network,GNN)學習學者的深層動態(tài)特征表示;最后,將合作者推薦以及合作潛力預測進行協(xié)同優(yōu)化,從而優(yōu)化模型。本文的主要工作如下:

        1)詳細分析了科研合作網(wǎng)絡中的各種實體之間的關聯(lián)關系,使用自注意力機制分層次挖掘多種實體之間的關聯(lián)關系,提出了一種融合動態(tài)異構信息的作者特征嵌入學習模型,有效提取了學者的合作網(wǎng)絡拓撲信息以及相關實體的動態(tài)屬性信息。

        2)將合作潛力與合作者推薦相結合建模為多任務優(yōu)化問題,使用統(tǒng)一模型對兩個任務進行預測,提高了合作潛力預測以及合作推薦的性能以及實用性。

        3)搜集并處理了發(fā)表在中國計算機學會(China Computer Federation,CCF)推薦期刊目錄中的50 余萬篇論文的信息以及相關實體的屬性信息。

        4)在構建科研合作異構信息網(wǎng)絡的基礎上,本文將不同時段的數(shù)據(jù)隨機輸入,對模型進行訓練,提高了模型的泛化性能,所得模型的測試誤差明顯低于對比算法,表明該模型可以較好地適用于短期合作潛力預測以及合作者推薦。

        1 相關工作

        合作者推薦指通過挖掘已有學術數(shù)據(jù)為學者推薦與他一起從事科學研究的學者[8]。一般情況下,具有相似研究方向的學者相較于不同研究方向的學者更有可能進行合作,因此誕生了許多基于學者的研究內容進行合作者推薦的方法?;谘芯績热莸耐扑]主要關注學者過去以及當前的研究內容,基于論文關鍵詞、標題、摘要等,借助向量空間模型、語言模型等計算研究內容之間的相似度。Sharma 等[9]將過去20年來發(fā)表在機器學習領域的論文按時間分為四個階段,使用學者主題模型(Author-Topic Model,ATM)分析,利用Hellinger 距離計算作者間的相似度,找到相似的研究人員;Tang 等[10]提出基于隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型改進后的跨領域主題學習(Crossdomain Topic Learning,CTL)模型,改進了跨領域學者推薦中的稀疏鏈接和主題偏離等問題;周亦敏等[11]利用BERT(Bidirectional Encoder Representations from Transformer)聯(lián)合表示研究者和研究主題,得到句子層面的特征向量表示,并使用邏輯回歸輸出概率最大的Top-K個合作者;蒲姍姍[12]引入面向主題的H 指數(shù)和改進的ATM,分析了專家的知識結構并結合不同研究方向下的學者影響力進行合作者推薦。

        此外,學者之間的相互合作關系構成了合作者網(wǎng)絡,因此大量學者將復雜網(wǎng)絡分析方法嵌入到了合作者推薦算法中,以提高合作者推薦的精度。黃璐等[13]通過分析作者-關鍵詞的二模網(wǎng)絡,綜合考慮了研究內容以及網(wǎng)絡拓撲結構對合作關系的影響,進而對合作者進行預測;張鑫等[14]采用余弦相似度計算利用網(wǎng)絡表示學習到的節(jié)點嵌入式向量表示作為作者的結構相似性,形成了將網(wǎng)絡表示學習的表示和ATM 進行融合的合作者預測方法;熊回香等[15]從學者的學術能力和合作關系網(wǎng)絡兩個維度構建模型,根據(jù)歷史合作關系的合作質量和利用相關學者的學術能力挖掘到的候選推薦學者的知識覆蓋度兩個方面作為合作者推薦的推薦值。Chuan 等[16]使用作者的論文的語義相似度擴展了加權共同鄰居,將合作者推薦轉化為鏈路預測問題;Xia 等[17]在計算研究者之間的鏈接重要性時,使用合作者順序、最新合作時間和合作次數(shù)度量合作者之間的關系,提出了一種基于隨機游走的鏈路預測方法對合作者進行推薦。

        由于深度學習強大的特征提取能力,越來越多的學者使用相關算法進行合作者推薦。林原等[18]使用節(jié)點嵌入模型學習科研合作網(wǎng)絡中各節(jié)點的特征向量,實現(xiàn)對各個節(jié)點的向量化表示,為學者推薦尚未產(chǎn)生合作關系的合作者。Wang 等[19]提出合作網(wǎng)絡嵌入模型,從學者的自身屬性出發(fā),同時考慮了網(wǎng)絡拓撲結構可以有效提高合作者預測的性能。

        然而,這些合作者推薦算法主要關注合作產(chǎn)生的可能性,忽略了學者合作成果的質量[20]。合作者潛力預測旨在預測合作雙方合作后產(chǎn)生的成果的質量,指導學者選擇能使合作雙方利益最大化的學者進行合作。艾科等[6]使用大數(shù)據(jù)分析技術對科研合作數(shù)據(jù)進行多方面分析,提取相關的作者特征,并將合作潛力預測問題轉化為二分類問題,采用集成學習算法構建模型,從而對合作者合作后是否能發(fā)表高水平論文進行預測。然而,在合作關系特征構建過程中,作者的特征僅通過對學者以及論文的屬性信息進行數(shù)據(jù)分析得到,忽略了合作者網(wǎng)絡中的高階信息。此外,受限于數(shù)據(jù)的完整性,文中并未將論文的某些屬性如引用量等信息以及學者的科研機構等其他實體的屬性計算在內,而這些信息嚴重影響著合作潛力預測模型的性能。

        針對已有的合作潛力預測算法存在的不足,本文不僅搜集了大量的論文數(shù)據(jù),也搜集了相關的學者、機構、期刊等科研實體的相關信息,保證了數(shù)據(jù)的完整性;進行合作潛力預測與合作者推薦兩種任務,使模型擴展為多任務優(yōu)化模型,可以同時實現(xiàn)合作潛力預測以及合作者推薦。

        2 異構信息融合的合作潛力預測

        2.1 科研合作異構信息網(wǎng)絡構建

        科研合作網(wǎng)絡中包含了論文、作者、機構、期刊等實體,各種實體之間存在著各種各樣的直接或間接關系,這些實體相互關聯(lián)、密不可分。在進行科研合作模式挖掘時,充分利用這些關系將有利于發(fā)現(xiàn)科研合作機制,從而促進科研從業(yè)人員更好地進行合作交流。

        在科研合作網(wǎng)絡中,學者之間的合作關系構成了合作網(wǎng)絡;學者與所屬機構之間的關系為學者-機構二模網(wǎng)絡;學者與所署名論文之間形成了撰寫關系;論文與所發(fā)表期刊之間構成了刊登與被刊登的關系,實體間的關聯(lián)圖如圖1 所示。

        圖1 科研合作網(wǎng)絡實體關聯(lián)Fig.1 Relationships among entities in scientific collaboration network

        本文分別使用P、A、I、J表示異構信息網(wǎng)絡中的4 種實體:論文、作者、機構、期刊,R表示實體之間的相關關系。RPJ∈R 表示論文與期刊之間的刊登與收錄關系;RAI∈R 表示學者與所屬單位之間的隸屬關系;RAA∈R 表示學者與學者之間的合作關系;RAP∈R 表示學者與論文之間的撰寫關系。若實體i與實體j之間存在直接聯(lián)系,則Rij=1;反之,Rij=0。本文使用G(P,A,I,J,…,RPJ,RAJ,RAA,RAP,…)表示科研合作異構信息圖;F表示實體的特征表示,為論文p的特征向量。

        除了以上4 種實體之間的直接關系外,科研合作異構網(wǎng)絡中仍存在多種間接關系。一般情況下,學者在進行投稿前會對所投稿的期刊進行選擇,這種選擇是帶有偏好的主觀性選擇,以此構成了學者與論文發(fā)表期刊之間的偏好選擇關系。學者與期刊之間的聯(lián)系是非直接的關聯(lián)關系,在進行合作潛力預測時需要將學者與期刊的這種潛在聯(lián)系考慮在內,以利用學者投稿期刊的潛在偏好特征。此外,期刊與期刊之間雖然也不存在直接聯(lián)系,但它們所屬的研究方向卻構成期刊與期刊的相似關系;學者與所屬機構、機構與機構之間也存在類似的關系。由此可見,挖掘這些實體間的潛在關聯(lián)關系對于合作潛力預測的性能至關重要。為此,本文通過構建實體之間的元路徑建立它們之間的關系;如通過元路徑“作者-論文-期刊”構建作者與期刊之間的關系,并通過RAJ∈R表示該關系。

        2.2 異構信息融合的合作潛力預測模型

        為了通過科研合作異構網(wǎng)絡中的各實體之間豐富聯(lián)系實現(xiàn)合作潛力的準確預測,首先要根據(jù)實體間的關聯(lián)關系提取各類型實體的網(wǎng)絡結構特征,得到融合多重信息的學者特征嵌入向量,然后對合作潛力進行預測。因此,本文構建了一種融合科研合作網(wǎng)絡中多類型實體信息的合作潛力預測(CPP)模型,模型的結構如圖2 所示。CPP 模型主要分為兩個模塊:異構信息融合的學者特征嵌入模塊與預測模塊。異構信息融合模塊以學者為中心,以經(jīng)過數(shù)據(jù)預處理的實體屬性信息構建各實體的特征矩陣并作為輸入(數(shù)據(jù)預處理過程見3.1 節(jié)),基于GNN 分別從學者的投稿偏好、研究興趣、合作關系、隸屬關系角度學習學者與他關聯(lián)的實體之間的隱藏特征,通過自注意力機制學習各特征分量的動態(tài)變化特征,從而得到包含異構網(wǎng)絡結構與多實體關系的時序學者特征向量。預測模塊以待預測的學者特征作為輸入,通過多層感知機(MultiLayer Perceptron,MLP)預測合作成果不同等級的概率以及達成合作的概率。

        圖2 動態(tài)異構信息融合的合作潛力預測模型的結構Fig.2 Structure of cooperation potential prediction model with dynamic heterogeneous information fusion

        2.2.1 異構信息融合的學者特征嵌入模塊

        在合作網(wǎng)絡中,學者之間合作產(chǎn)出(論文)除了與學者本身有關,與期刊的收稿的研究方向、學者之間的合作網(wǎng)絡、所屬機構的研究方向亦密不可分。因此,本文分別融合了學者的研究興趣、合作關系、機構信息、投稿期刊偏好等信息獲得了學者的特征向量。

        1)學者研究興趣特征嵌入層。

        一般學者更傾向于與他具有相似研究方向的學者進行合作,因此在研究合作者推薦以及合作潛力預測時,學者的研究內容是不可或缺的重要特征之一。學者與論文組成撰寫與被撰寫關系的“學者-論文”二分網(wǎng)絡。然而由于不同的論文對同一學者研究方向的貢獻并不相同,因此本文通過自注意力機制[21]對學者所發(fā)表的不同論文賦予不同的權重,從而構建學者研究興趣特征嵌入向量:

        其中:NRPA(a)表示在作者(A)與論文(P)的鏈接關系下,論文a的鄰居,即撰寫論文的作者為a的論文;σa,p為論文p在構建學者a研究興趣特征嵌入向量時的權重。

        然而,由于不同作者對論文的貢獻并不相同,在構建作者與論文的撰寫關系時,為一篇論文所有作者分配相同的貢獻值并不公平[22]。因此,有必要對多作者論文的撰寫關系的權重進行相應調整。常用的分配方法有諧波加權[23]以及Axiomatic Weighting[24]。Hagen[23]的研究結果表明,在自然科學和社會科學領域,諧波加權與學者們對作者信用的主觀評價密切相關。Stallings 等[24]考慮到合作傾向,提出了比諧波加權能更公平評價學者科學影響力的Axiomatic Weighting 方法。此外,按照計算機科學領域署名的慣例,作者是按照論文撰寫的實際貢獻降序排列的,因此,本文在構建作者與論文的撰寫關系時使用Axiomatic Weighting 作為關系的權重。假設一篇論文p有n個署名作者{a1,a2,…,ai,…,an},那么第i位作者ai與論文p的撰寫關系raip的權重為:

        在不同學者對同一篇論文的貢獻不同的前提下,在構建學者研究興趣特征向量時,不同論文對同一學者研究興趣的權重σa,p的計算公式為:

        2)學者合作關系嵌入層。

        學者的合作關系網(wǎng)絡隱含了學者在合作網(wǎng)絡中的社區(qū)屬性、學術地位、合作者偏好等信息,是在對學者的特征進行學習的過程中不可缺失的信息之一。圖卷積網(wǎng)絡(Graph Convolution Network,GCN)可以將合作網(wǎng)絡等非歐氏空間數(shù)據(jù)轉化為歐氏空間,相較于傳統(tǒng)的復雜網(wǎng)絡分析方法更能獲得節(jié)點以及邊的內在規(guī)律和更加深層次的語義特征,對圖結構數(shù)據(jù)擁有強大的非線性擬合能力。因此,本文從學者合作網(wǎng)絡出發(fā),使用GCN 學習學者的合作網(wǎng)絡拓撲結構嵌入:

        3)學者機構信息嵌入層。

        科研單位是學者進行學術研究的載體,研究單位/機構除了本身的地理位置、機構研究層次等特征之外,一般都有特定的研究領域,而研究單位的研究方向是由眾多研究人員的研究方向共同組成。事實上,不同的研究人員對機構的研究方向的影響并不相同,因此在表示研究機構時應該對不同的研究成員的研究特征進行相應調整。本文通過自注意力機制對不同單位的作者特征進行加權求和,以得到科研機構的潛在特征表示:

        其中:NRIA(i)表示在機構(I)與作者(A)的鏈接關系RIA下,機構i的鄰居,即所屬機構為i的作者;表示作者a的特征。δi,a為作者a對機構i的貢獻分數(shù):

        由于科研單位中包含了一定規(guī)模的研究人員,因此本文使用加權算法來獲得學者的機構特征分量:

        其中,θia為對應的機構i對作者a的影響力的權重。

        4)學者投稿期刊信息嵌入層。

        雖然在合作者網(wǎng)絡中學者與期刊并沒有直接的關聯(lián)關系,但是學者在投稿論文過程中會根據(jù)所投論文以及自身的研究興趣等特征選擇相應的期刊進行投稿,因此,作者與期刊之間存在著潛在關聯(lián)。此外,為了對預計合作成果的等級進行預測,需要提取各種期刊的潛在特征以對學者的特征信息進行補充。

        除了期刊本身的收錄論文量、等級等屬性外,期刊的刊載方向是由一篇篇論文構成的。因此本文在利用了期刊自身屬性的基礎上使用發(fā)表在每種刊物上的論文來提取期刊的特征表示:

        其中:NRJP(j)表示論文(P)與期刊(J)的關系下,期刊j的鄰居,即發(fā)表在期刊J上的論文。μp,j是論文p的自注意力分數(shù):

        在得到期刊的特征表示之后,為了獲取學者a投稿論文的期刊偏好,本文使用元路徑“期刊-論文-學者”(J-P-A)構建期刊與學者關系,并以此獲得學者的投稿期刊特征分量:

        其中,φlja為元路徑J-P-A的自注意力分數(shù):

        2.2.2 預測模塊

        在科研合作網(wǎng)絡中,學者的研究興趣、合作關系在不斷變化,為了預測學者未來短期內的研究興趣以及合作關系,本文采用自注意力機制對構成學者特征的不同分量進行預測,令表示學者不同時間段的不同特征分量的特征集合,τ={P,S,I,J},則學者的在t+1 時刻的特征分量為:

        在得到了未來短期學者的興趣特征分量、合作結構特征分量、機構特征分量以及期刊特征分量之后,本文將這些分量進行融合以得到豐富的特征來表示學者:

        其中,AGG 表示聚合函數(shù)(AGGregate),為了簡化模型減少模型參數(shù),本文選用相加進行聚合操作。

        為了預測某個合作關系的合作潛力,將合作關系雙方的蘊含學者不同維度信息的特征向量進行拼接:

        然后使用3 層全連接網(wǎng)絡進行預測,具體的模型為:

        其中,?、f和g為映射函數(shù)。

        經(jīng)過上述模塊,本文實現(xiàn)了對合作關系的隱層特征提取,得到了對應的特征嵌入向量。為了對模型進行優(yōu)化以及測試模型的性能,本文采用均方誤差(Mean-Square Error,MSE)度量模型對合作者合作潛力的預測值與真實值之間差異程度,具體的計算公式如下所示:

        其中:Rl為測試集中的連接關系為預測值;yRl為測試集中的鏈接關系的真實標簽。

        另外,考慮到合作者推薦與合作潛力預測的相關性,本文在對合作潛力進行預測的同時,將合作者推薦建模為鏈路預測問題并對模型進行優(yōu)化,將模型建模為多任務優(yōu)化問題進行協(xié)同優(yōu)化。在進行合作者推薦任務優(yōu)化時,采用交叉熵來度量預測值與真實值之間的差異:

        本文算法在提取學者的研究興趣、機構信息、期刊信息特征分量時,使用與學者關聯(lián)的實體的特征進行學習,假設輸入特征的維度為|F|,輸出的特征的維度為|F′|,學者的數(shù)量為NA,相關的實體的個數(shù)為Nτ,此時的算法復雜度為在提取學者的合作網(wǎng)絡拓撲屬性時,使用GCN 作為特征提取器,此時復雜度為GCN 的復雜度。此外,在優(yōu)化模型過程中,本文采用隨機梯度下降(Stochastic Gradient Descent,SGD)[25]法進行優(yōu)化,具體流程如算法1 所示。

        算法1 異構信息融合的CPP 算法。

        輸入 異構信息網(wǎng)絡G(P,A,I,J,RPJ,RAJ,RAA,RAP),論文的文本特征矩陣FP,機構的屬性矩陣FI,期刊的屬性矩陣FJ,待預測合作關系Rl,最大訓練次數(shù)S;

        輸出 關系Rl合作與否,合作后產(chǎn)生高水平成果的概率。

        3 實驗與結果分析

        3.1 數(shù)據(jù)采集及預處理

        中國計算機學會(CCF)為計算機科學的10 個領域分別制定了學術期刊推薦目錄——《中國計算機學會推薦國際學術會議和期刊目錄》(以下簡稱為CCF 推薦期刊目錄),CCF推薦期刊目錄已經(jīng)成為我國高校和科研單位學術評價的重要參考依據(jù)。

        本文搜集了2019 年之前的發(fā)表在262 種CCF 推薦期刊目錄中的所有546 000 篇論文,這些論文中包含了來自超過150 個國家與地區(qū)的650 995 名作者。數(shù)據(jù)集中包含的實體以及屬性信息如表1 所示。

        CCF 推薦期刊被劃分為A、B、C 三個等級,并采用獨熱編碼進行編碼,如人工智能頂級期刊IEEETransactionson PatternAnalysisandMachineIntelligence被劃分為A 類期刊,則它的期刊等級編碼為(1,0,0)。

        此外,不同作者、機構以及期刊刊登的論文的總數(shù)與引用量之間存在顯著差異,直接使用原始數(shù)據(jù)作為模型的輸入將會增加模型的訓練時間,模型無法在有效時間內收斂。因此,本文對表中的數(shù)值型數(shù)據(jù)進行最小最大歸一化(Min-Max Normalization),將它們的數(shù)值轉化為[0,1]范圍內的數(shù)值型數(shù)據(jù)。由于全球定位系統(tǒng)(Global Positioning System,GPS)經(jīng)緯度的范圍為經(jīng)度[-180,180]、緯度[-90,90],因此,本文使用最大絕對值歸一化(Maximum Absolute Normalization)將經(jīng)緯度的范圍縮小到[-1,1]。經(jīng)過上述預處理過程,異構網(wǎng)絡中的各實體的屬性均已轉換為數(shù)值型數(shù)據(jù),此時將機構與期刊屬性各自整合,構建為屬性矩陣。機構的屬性矩陣中的屬性包括:發(fā)表論文總量、發(fā)表論文總引用量以及歸一化的經(jīng)緯度;期刊的屬性矩陣中的屬性包括:收錄論文總量、收錄論文總引用量以及期刊等級的獨熱編碼。

        每篇論文的題目以及摘要能反映出論文的研究領域等信息,是合作者異構信息網(wǎng)絡中可不或缺的信息。本文采用文檔嵌入模型Doc2Vec 訓練所有論文的題目以及摘要組成的字符串,并輸出128 維的特征向量表示它們的研究內容。

        本文使用Python3.8 環(huán)境下的PyTorch1.10 實現(xiàn),操作環(huán)境為Ubuntu 16.04;CPU 為Intel Xeon CPU E5-265;GPU 為NVIDIA Tesla P100;128 GB 內存;所使用的存儲數(shù)據(jù)庫為Mongodb。模型訓練過程中的學習率為0.001,隱藏層的輸出維度為64。

        3.2 數(shù)據(jù)集劃分與訓練

        自20 世紀80 年代以來,發(fā)表在CCF 推薦期刊上的論文數(shù)暴發(fā)式增長,且近年來論文數(shù)的增長尤為顯著。為了更準確地獲取科研合作演化機制以進行合作者推薦以及合作潛力預測,本文選取了年論文刊載量大于10 000 篇的年份(即1998 年)作為初始年份構建訓練集。

        本文將2016—2018 年的論文發(fā)表數(shù)據(jù)作為測試集;以2005—2015 年的論文數(shù)據(jù)作為測試集構建異構信息網(wǎng)絡的數(shù)據(jù);訓練集構建的時間段則從1998 年開始,前10 年的數(shù)據(jù)作為異構網(wǎng)絡構建數(shù)據(jù),而之后3 年為合作關系提取訓練集中所對應的合作關系。為了獲取學者在科研合作網(wǎng)絡中的動態(tài)演化屬性,本文對構建異構信息網(wǎng)絡的10 年間的數(shù)據(jù)進行切片,每5 年構建一個異構信息網(wǎng)絡,以此得到了科研異構信息網(wǎng)絡時序數(shù)據(jù)集,訓練集的詳細信息如表2 所示。

        在構建合作潛力預測訓練集與測試集時,選取在合作關系選取時段中,合作學者之間發(fā)表超過3 篇論文的合作關系進行預測,并統(tǒng)計了合作者分別發(fā)表A、B、C 類期刊論文的概率作為模型預測的目標值,例如,某個學者發(fā)表A 類期刊的概率為:

        其中,NA表示作者發(fā)表在CCF 推薦期刊中A 類期刊的論文的數(shù)量。此外,在構建合作者推薦訓練集與測試集時,以合作關系選取時段的合作關系為正樣本,而通過隨機負采樣選取與正樣本相同數(shù)量的合作關系作為負樣本。在對模型的結果進行評價時,合作潛力預測采用MSE 損失,合作者推薦采用精度進行評價。

        3.3 實驗分析

        由于本文方法同時應用于合作者推薦和潛力預測,因此對兩個任務的損失進行協(xié)同優(yōu)化以訓練模型。多任務協(xié)同優(yōu)化與單任務優(yōu)化對模型性能的影響如圖3 所示。相較于單獨對不同任務的損失進行優(yōu)化,多任務優(yōu)化的收斂更快。對于不同任務進行單獨優(yōu)化時,另一種任務的精度或損失基本不變。在使用協(xié)同優(yōu)化之后,所得的模型合作潛力預測的誤差較小,且合作者推薦的精度更高。

        圖3 協(xié)同優(yōu)化與單獨優(yōu)化的不同任務的精度變化Fig.3 Accuracy change for different tasks using co-optimization and separate optimization

        為了驗證融合作者的多種維度信息是否對合作潛力預測以及合作者推薦有效,本文分別刪除了學者機構信息特征分量、學者期刊信息分量以及學者合作網(wǎng)絡結構特征分量后對模型進行訓練,訓練過程如圖4 所示。在刪除不同的信息分量后,兩種任務的性能均有所下降,且融合所有信息分量的模型可以取得更好的精度,說明學者的不同的特征分量對模型的訓練十分有效和必要,可以有效提升模型的性能。

        圖4 融合部分特征信息模型精度的變化Fig.4 Accuracy change of models fusing partial feature information

        構建異構網(wǎng)絡時,訓練集的時間段設置為10 年,而搜集到的數(shù)據(jù)為從1998 年開始,所以本文按時間順序構建了6 個動態(tài)異構網(wǎng)絡。為了有效利用這些數(shù)據(jù)以達到最優(yōu)的模型性能,本文分別將單一時段數(shù)據(jù)集作為輸入進行訓練,并與交叉訓練進行了比較,如圖5 所示。交叉訓練是在進行模型訓練時每次迭代中都從這些數(shù)據(jù)中隨機選取某一時段的數(shù)據(jù)進行訓練。對于合作潛力預測來講,訓練數(shù)據(jù)集與測試數(shù)據(jù)集越近模型的測試誤差越小,隨機交叉輸入訓練所得的模型的誤差雖然較單獨輸入2003—2012 年的數(shù)據(jù)的誤差有所增加,但其測試誤差仍然較小,且與單獨輸入2003—2012 年的數(shù)據(jù)所得模型的測試誤差比較相近。在合作者推薦任務中,隨機交叉輸入取得了最好的預測精度,并且隨著迭代次數(shù)的增加依然處于上升趨勢,隨機交叉輸入的訓練方式有利于提升合作者推薦的精度。

        圖5 單一時段數(shù)據(jù)訓練與交叉訓練對模型性能的影響Fig.5 Influence of single period data training and cross-training on model performance

        在構建合作潛力預測任務的訓練集與測試集的過程中,本文選取了在預測時段合作次數(shù)超過一定次數(shù)的合作關系構建訓練集,為了驗證合作次數(shù)對模型的訓練效果是否有影響,本文分別使用不同的合作次數(shù)閾值構建了訓練集與測試集,分別對模型進行了訓練,所得的模型的預測性能如圖6所示。合作次數(shù)閾值越高,模型對于合作潛力預測任務的性能越高,誤差越小。

        圖6 合作次數(shù)對合潛力預測性能的影響Fig.6 Influence of cooperation times on prediction performance of cooperation potential

        為了驗證本文模型隱藏層維度對模型精度的影響,本文對隱藏層的維度d設置為32、64 和128 的模型進行了測試,結果如圖7 所示。在合作潛力預測中,隱藏層的維度為32 時MSE 損失最低。在合作者推薦任務中,隱藏層的維度為32時更加穩(wěn)定,而隱藏層維度為128 時有明顯的波動。因此,本文在模型訓練時選用64 作為隱藏層的維度。

        圖7 不同隱藏層維度的模型性能Fig.7 Performance of models with different hidden layer dimensions

        最后,為了驗證本文模型CPP 的性能,使用GCN[26]、圖注意力網(wǎng)絡(Graph ATTention network,GAT)[27]、多層采樣聚合圖神經(jīng)網(wǎng)絡(Graph Sample and AggreGatE network,GraphSAGE)[28]、異構圖注意力神經(jīng)網(wǎng)絡(Heterogeneous graph Attention neural Network,HAN)[29]以及傳統(tǒng)分類算法決策樹[30]與本文提出的CPP 模型進行了10 次獨立重復實驗,合作者推薦分別使用精確率、召回率、平衡F 分數(shù)(Balanced F Score,F(xiàn)1)3 種指標對算法的性能進行評價,而合作潛力采用MSE 進行評價,具體結果如表3 所示。由表3 可知,圖神經(jīng)網(wǎng)絡的算法比傳統(tǒng)的機器學習算法表現(xiàn)優(yōu)越,說明圖神經(jīng)網(wǎng)絡可以有效學習復雜網(wǎng)絡中的節(jié)點的隱藏屬性,具有優(yōu)異的特征表達能力。相較于次優(yōu)的GraphSAGE 算法,CPP 在合作者推薦任務的分類精確率提高了1.47 個百分點,而且召回率以及F1 均表現(xiàn)良好;合作潛力預測任務中的測試誤差(MSE 損失)降低了1.23%。

        表3 CPP與其他算法的性能對比Tab.3 Performance comparison of CPP and other algorithms

        4 結語

        傳統(tǒng)的合作者推薦中鮮有考慮學者合作的成果產(chǎn)出,而現(xiàn)有的合作潛力預測算法存在信息提取不完全、實驗數(shù)據(jù)不完整等缺點。本文將合作潛力預測與合作者推薦兩種任務進行融合,建模為多任務優(yōu)化問題,設計了一種融合基于動態(tài)異構網(wǎng)絡中實體關系的學者特征嵌入模型,實現(xiàn)了動態(tài)異構網(wǎng)絡中實體的特征提取,可以同時實現(xiàn)合作者推薦以及合作潛力預測,且可以對合作雙方預計發(fā)表不同等級論文的概率進行預測。在保證數(shù)據(jù)完整性與期刊評價的公平性的前提下,本文使用CCF 推薦期刊作為論文分級標準,搜集了發(fā)表在這些期刊中的論文,并按時間段構建了動態(tài)異構網(wǎng)絡數(shù)據(jù)集。在模型訓練過程中,采取不同數(shù)據(jù)集交叉訓練的方式對模型進行訓練,有效提高了模型的穩(wěn)定性以及泛化性能。實驗結果表明,將不同于學者相關聯(lián)的實體的信息與學者自身的屬性進行融合時能有效提高預測的準確性。與相關的算法進行比較時,本文模型對于合作者推薦的預測精確度取得了最優(yōu)結果,而對于合作潛力預測任務測試誤差最小。因此,本文模型可以應用于科研合作者推薦系統(tǒng)中,有助于學者尋找其適合的合作者,促進學者之間合作交流,具有很好的應用前景。

        接下來的工作將繼續(xù)完善科研合作網(wǎng)絡中各種實體的特征信息,構建學者學術畫像,探索優(yōu)秀學者間的科研合作模式。此外,本模型將拓展到其他領域中,以促進不同研究領域之間的學術交叉研究。

        猜你喜歡
        合作者潛力學者
        學者介紹
        管子學刊(2022年2期)2022-05-10 04:13:10
        學者簡介
        學者介紹
        管子學刊(2022年1期)2022-02-17 13:29:10
        有“德”的人
        中外文摘(2021年8期)2021-11-11 16:10:08
        有“德”的人
        怎樣是最好的合作者
        今日文摘(2018年23期)2018-12-17 05:21:20
        怎樣是最好的合作者
        意林(2018年20期)2018-10-31 14:50:42
        潛力榜
        學者介紹
        PPP模式怎樣發(fā)揮最大潛力?
        久久精品国产精品青草色艺| 精品人妻少妇av中文字幕| 亚洲色中文字幕无码av| 中文字幕亚洲乱码熟女在线萌芽| 亚洲日本在线va中文字幕| 国产人妖直男在线视频| 亚洲国产精品无码aaa片| 真实单亲乱l仑对白视频| 国产精品原创av片国产日韩| 亚洲av日韩av天堂久久不卡| 久久久精品国产免大香伊| 免费观看黄网站在线播放| 浪荡少妇一区二区三区| 日本一二三区在线不卡| 永久天堂网av手机版| 欧美巨大性爽| 国产福利小视频91| 日本系列有码字幕中文字幕| 久久综合丝袜日本网| 国产高清视频91| 国产一级r片内射视频播放| 国产精品18久久久白浆| 无码人妻一区二区三区在线视频| 国产精品27页| 亚洲精品国产av成拍| 午夜免费福利小电影| 亚洲国产成人精品女人久久久 | 久久中文字幕av第二页| 日本av一区二区三区在线| 亚洲日本一区二区三区四区| 亚洲国产剧情一区在线观看| 美女性色av一区二区三区| 欧美精品一区二区精品久久| 亚洲精品无码久久久久sm| 欧美国产伦久久久久久久| 日本一区二区三区视频免费在线| 凹凸在线无码免费视频| 日韩欧美在线播放视频| 中文字幕成人精品久久不卡91 | 国产午夜精品电影久久| 亚洲精品女同在线观看|