盛曉光 王 穎 錢 力③ 王 穎
①(中國科學(xué)院大學(xué)人工智能學(xué)院 北京 100049)
②(中國科學(xué)院文獻(xiàn)情報(bào)中心 北京 100190)
③(中國科學(xué)院大學(xué)圖書情報(bào)與檔案管理系 北京 100190)
作者姓名歧義一直是國內(nèi)外出版界和學(xué)術(shù)界的難點(diǎn)問題。近年來科學(xué)論文數(shù)量呈指數(shù)級(jí)增長(zhǎng),重名現(xiàn)象越來越嚴(yán)重,特別是名稱縮寫、拼音一音多字等問題影響著文獻(xiàn)檢索系統(tǒng)以及學(xué)術(shù)評(píng)價(jià)的準(zhǔn)確性。為消除歧義,許多研究機(jī)構(gòu)提出了人名標(biāo)識(shí)系統(tǒng)以期通過唯一標(biāo)識(shí)來區(qū)分作者,如開放研究者與貢獻(xiàn)者身份識(shí)別碼(Open Researcher and Contributor IDentifier, ORCID)[1]、Thomson Reuters的ResearchID[2]等。然而,人名標(biāo)識(shí)系統(tǒng)的應(yīng)用范圍有限,大量科學(xué)出版物中并未明確標(biāo)注作者身份識(shí)別碼。因此,通過自動(dòng)化方法解決論文中作者歧義問題仍然是同名消歧的主要手段,也是國內(nèi)外學(xué)者的研究熱點(diǎn)之一。常用的作者消歧方法往往將問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)的聚類問題或分類問題,如利用SVM[3]、層次聚類[4]、譜聚類[5]等機(jī)器學(xué)習(xí)算法進(jìn)行處理。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來越多研究人員采用網(wǎng)絡(luò)嵌入方法(Network Embedding)進(jìn)行作者同名消歧[6,7],從論文數(shù)據(jù)中抽取特征以便于聚類或分類任務(wù)。此外,具有表征學(xué)習(xí)能力的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)快速發(fā)展,在計(jì)算機(jī)視覺[8,9]、自然語言處理[10]等領(lǐng)域都取得了巨大成功,而圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network, GCN)由于能夠有效處理具有豐富關(guān)系結(jié)構(gòu)的任務(wù),常用于處理圖節(jié)點(diǎn)表示學(xué)習(xí)、圖節(jié)點(diǎn)分類、邊預(yù)測(cè)、圖分類等問題[11-14]。鑒于此,本文提出了一種基于圖卷積半監(jiān)督學(xué)習(xí)的論文作者同名消歧方法,融合作者、機(jī)構(gòu)、題目、關(guān)鍵詞等論文屬性信息,借助BERT語義表示方法和圖卷積神經(jīng)網(wǎng)絡(luò),探索作者消歧方法,以提高作者與成果的匹配效果。
Zhang等人[6]將當(dāng)前同名消歧的研究方法分為兩類:基于特征的消歧方法和基于連接/圖的消歧方法。
基于特征的消歧方法應(yīng)用較早,根據(jù)文檔的特征向量學(xué)習(xí)文檔之間的距離函數(shù),將相近的特征向量歸入相同類別,實(shí)現(xiàn)同名消歧。Huang等人[15]提出了一個(gè)有效的綜合框架來解決名稱消歧問題,分別利用Blocking技術(shù)檢索具有相似名稱作者的候選類,使用在線主動(dòng)選擇支持向量機(jī)算法(LASVM)計(jì)算論文之間的距離度量進(jìn)行DBSCAN聚類。Yoshida等人[16]提出一種基于bootstrapping的兩階段聚類算法來改善低查全率,其中第1階段的聚類結(jié)果用于提取第2階段聚類中使用的特征。Han等人[3]提出了基于SVM和貝葉斯網(wǎng)絡(luò)的有監(jiān)督消歧方法,利用論文合作者、題目出版物名稱等特征對(duì)同名作者進(jìn)行消歧。Zhu等人[17]使用多層聚類的方式進(jìn)行同名消歧,如分別利用Email信息、論文合作者、論文題目等進(jìn)行動(dòng)態(tài)的作者聚類。
基于連接/圖的消歧方法利用圖的拓?fù)浣Y(jié)構(gòu)或者聚合來自鄰居節(jié)點(diǎn)的信息,例如Fan等人[18]提出了一種僅使用合作者關(guān)系的同名消歧框架GHOST,通過合作關(guān)系構(gòu)造圖,根據(jù)圖中待排歧作者間有效路徑的數(shù)目和長(zhǎng)度計(jì)算相似度,再對(duì)相似度矩陣聚類實(shí)現(xiàn)同名消歧。Tang等人[19]利用隱馬爾可夫隨機(jī)域?qū)y(tǒng)一概率框架下的節(jié)點(diǎn)特征和邊特征進(jìn)行建模。Zhang等人[7]提出一種基于網(wǎng)絡(luò)嵌入的解決方案,構(gòu)建作者-作者、作者-論文、論文-論文3個(gè)圖,利用各種匿名網(wǎng)絡(luò)的鏈接結(jié)構(gòu),將每個(gè)文檔表示為低維向量空間,以解決名稱消歧任務(wù)。Hermansson等人[20]提出了一種基于局部鄰域結(jié)構(gòu)的匿名圖實(shí)體消歧方法,基于局部鄰域結(jié)構(gòu)利用Graph Kernels計(jì)算圖中節(jié)點(diǎn)之間的相似度,并用SVM執(zhí)行分類任務(wù)。Zhang等人[6]采用結(jié)合全局監(jiān)督和局部上下文的表示學(xué)習(xí)方法,采用該技術(shù)的名稱消歧模塊應(yīng)用在AMiner系統(tǒng)中能夠高效處理十億級(jí)規(guī)模的消歧問題。
本文結(jié)合兩種消歧方法的優(yōu)勢(shì),一方面利用論文文本屬性信息如題目、關(guān)鍵詞等計(jì)算語義特征向量,再通過合作關(guān)系和同機(jī)構(gòu)關(guān)系構(gòu)建論文網(wǎng)絡(luò),將卷積用于圖結(jié)構(gòu)進(jìn)行半監(jiān)督學(xué)習(xí),達(dá)到作者消歧的目的。
圖卷積神經(jīng)網(wǎng)絡(luò)是一種最為典型的圖神經(jīng)網(wǎng)絡(luò)。圖卷積半監(jiān)督學(xué)習(xí)利用卷積操作將節(jié)點(diǎn)的特征向量和節(jié)點(diǎn)間的圖結(jié)構(gòu)結(jié)合在一起,節(jié)點(diǎn)的特征向量每經(jīng)過1次圖卷積操作,就通過圖結(jié)構(gòu)利用臨近節(jié)點(diǎn)更新自己的特征向量,從而使相似的節(jié)點(diǎn)具有相似的特征向量[21]。此過程適用于作者同名消歧任務(wù),待消歧論文通過相互關(guān)聯(lián)構(gòu)建網(wǎng)絡(luò)并通過圖卷積網(wǎng)絡(luò)不斷更新特征向量實(shí)現(xiàn)論文聚類任務(wù)。
基于這一思路,本文提出一種基于圖卷積半監(jiān)督學(xué)習(xí)的作者同名消歧方法框架如圖1所示。首先,將論文的題目、關(guān)鍵字作為文本輸入預(yù)先訓(xùn)練好的SciBERT模型得到每篇論文的語義表示向量;其次,利用論文的作者和機(jī)構(gòu)信息構(gòu)建論文合作網(wǎng)絡(luò)與機(jī)構(gòu)關(guān)聯(lián)網(wǎng)絡(luò),分別獲得鄰接矩陣;然后,從論文合作網(wǎng)絡(luò)中采集偽標(biāo)簽,獲得正樣本集和負(fù)樣本集;將待消歧論文的BERT語義向量、論文合作網(wǎng)絡(luò)和論文機(jī)構(gòu)關(guān)聯(lián)網(wǎng)絡(luò)以及正、負(fù)樣本集作為輸入,利用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行半監(jiān)督學(xué)習(xí),獲得論文最終節(jié)點(diǎn)向量;最后使用層次凝聚類算法將論文節(jié)點(diǎn)向量聚類劃分,實(shí)現(xiàn)對(duì)論文作者同名消歧。
圖1 研究框架
由于研究人員在一段時(shí)間內(nèi)的研究方向相對(duì)穩(wěn)定,論文的題目、關(guān)鍵詞、摘要、出版物名稱等文本特征也可用于表征作者的研究?jī)?nèi)容并用于區(qū)分從事不同研究的同名作者。目前,廣泛使用的文本向量構(gòu)建方法包括n-gram, NNLM, word2vec等。2018年Google發(fā)布了BERT預(yù)訓(xùn)練語言模型[22],在自然語言處理的11個(gè)任務(wù)上大幅刷新了精度。隨后,Beltagy等人[23]推出了專門為科學(xué)論文訓(xùn)練的SciBERT預(yù)訓(xùn)練語言模型,更適用于科學(xué)論文的自然語言處理任務(wù)。為充分利用論文文本特征,本文將論文的題目、關(guān)鍵詞作為文本輸入,利用SciBERT模型得到每篇論文的語義表示向量。
設(shè)每篇論文的題目和關(guān)鍵詞拼接獲得的句子輸入為d,則B E R T 輸入為[CLS,d,SEP],C L S 和SEP標(biāo)識(shí)符分別作為句子的起始符和分隔符,經(jīng)過分詞獲得句子的token序列{tok1,tok2,...,tokN},依次輸入到BERT模型中。BERT以雙向Transformer的Encoder作為模型的基本組成單元(如圖2中BERT層),能夠聯(lián)合所有層中左右兩個(gè)方向的上下文信息進(jìn)行訓(xùn)練,利用多頭注意力機(jī)制進(jìn)行更多層面的特征提取,最后得到含有豐富語義特征的序列向量,即輸出為該論文的語義表示向量,設(shè)為dS,向量維數(shù)為BERT的默認(rèn)隱含元個(gè)數(shù)768,記為H。則待消歧同名作者論文集合的語義表示向量矩陣XH×K=(dS1,dS2,...,dSK),其中dSi為第i篇論文的語義表示向量,K為論文的數(shù)量。
圖2 基于BERT預(yù)訓(xùn)練模型的論文語義表示
為獲得同名作者論文之間的關(guān)聯(lián)信息,本文分別構(gòu)建論文合作網(wǎng)絡(luò)}ca和論文機(jī)構(gòu)關(guān)聯(lián)網(wǎng)絡(luò)}ci,如圖3所示。
圖3 論文合作網(wǎng)絡(luò)和機(jī)構(gòu)關(guān)聯(lián)網(wǎng)絡(luò)
定義1:論文合作網(wǎng)絡(luò)}ca=
表征論文節(jié)點(diǎn)之間的合作關(guān)系,其中P表示網(wǎng)絡(luò)中節(jié)點(diǎn)集,節(jié)點(diǎn)類型為論文,α表示節(jié)點(diǎn)之間的合作關(guān)系邊集合,如果論文節(jié)點(diǎn)P1和P2之間的待消歧作者的共同合作者數(shù)量大于1,則定義這兩個(gè)論文節(jié)點(diǎn)在論文合作網(wǎng)絡(luò)中存在邊a12。
定義2:論文機(jī)構(gòu)關(guān)聯(lián)網(wǎng)絡(luò)}ci=
表征論文節(jié)點(diǎn)之間的機(jī)構(gòu)關(guān)聯(lián)關(guān)系,其中P表示網(wǎng)絡(luò)中節(jié)點(diǎn)集,節(jié)點(diǎn)類型為論文,i表示節(jié)點(diǎn)之間的機(jī)構(gòu)關(guān)聯(lián)邊集合,如果論文節(jié)點(diǎn)P1和P2的作者存在相同的所屬單位則這兩個(gè)論文節(jié)點(diǎn)在論文機(jī)構(gòu)關(guān)聯(lián)網(wǎng)絡(luò)中存在邊i12。
由此分別構(gòu)建了論文之間的無權(quán)無向圖 gca和gci,用Aca和Aci分別表示論文合作網(wǎng)絡(luò)和論文機(jī)構(gòu)關(guān)聯(lián)網(wǎng)絡(luò)的鄰接矩陣。
為了得到GCN訓(xùn)練的初始標(biāo)簽數(shù)據(jù),本文利用已構(gòu)建的論文網(wǎng)絡(luò)采集偽標(biāo)簽。通過對(duì)比合作關(guān)系和機(jī)構(gòu)關(guān)聯(lián)關(guān)系,可以發(fā)現(xiàn)存在相同合作者的同名作者為同一人的概率相比同機(jī)構(gòu)而言更大,為此從論文合作網(wǎng)絡(luò) gca中采集偽標(biāo)簽。具體做法為定義集合eij ∈ξ+為圖gca存在的邊集合,即邊eij在圖gca的鄰接矩陣中為1。同時(shí)隨機(jī)采樣同等數(shù)量不存在的邊集合eij ∈ξ?,即eij在圖gca的鄰接矩陣中為0。將ξ+作為正樣本集,ξ?作為負(fù)樣本集。
通過上述步驟分別獲取了待消歧論文的BERT語義向量、論文合作網(wǎng)絡(luò)和論文機(jī)構(gòu)關(guān)聯(lián)網(wǎng)絡(luò)以及正、負(fù)樣本集。在此基礎(chǔ)上,使用圖卷積半監(jiān)督方法進(jìn)一步學(xué)習(xí)每一個(gè)論文的節(jié)點(diǎn)表示。設(shè)圖卷積神經(jīng)網(wǎng)絡(luò)的輸入特征為BERT語義表示向量X、論文合作網(wǎng)絡(luò)鄰接矩陣Aca、論文機(jī)構(gòu)關(guān)聯(lián)網(wǎng)絡(luò)鄰接矩陣Aci。
對(duì)于論文合作網(wǎng)絡(luò)gca,記A?ca為正則化的鄰接矩陣,兩層的圖卷積表示為
為了更好地保留論文數(shù)據(jù)語義信息的作用,本文添加了一個(gè)全連接層,對(duì)BERT語義表示向量X進(jìn)行映射,獲取其語義的表示向量
其中,U為全連接層的參數(shù),Zbe為基于BERT語義表示的節(jié)點(diǎn)嵌入表示。
由此獲得了3個(gè)方向節(jié)點(diǎn)嵌入表示Zca,Zci和Zbe,融合這3個(gè)方向的節(jié)點(diǎn)嵌入表示作為最終的論文節(jié)點(diǎn)向量進(jìn)行半監(jiān)督學(xué)習(xí)
其中,β1,β2和β3分別是權(quán)重參數(shù),本文選擇權(quán)重分別為0.001,1,3。
半監(jiān)督學(xué)習(xí)的目標(biāo)是最小化正樣本集中節(jié)點(diǎn)連接的距離,同時(shí)最大化負(fù)樣本集中節(jié)點(diǎn)對(duì)的距離,損失函數(shù)定義為
其中,d(·)為距離函數(shù),采用歐氏距離計(jì)算,lam為調(diào)和參數(shù)。
對(duì)上述獲得整體的節(jié)點(diǎn)嵌入向量Z,使用層次凝聚類算法對(duì)圖中的n個(gè)論文進(jìn)行聚類。層次凝聚類算法是一種凝聚型的聚類方法,相對(duì)于劃分型的聚類方法更側(cè)重于保留節(jié)點(diǎn)間已存在的相似性,而不至于忽略一些不夠顯著的關(guān)聯(lián),適用于本文提出的作者消歧方法。
基于上述研究框架和具體方法,本文設(shè)計(jì)了如表1所示的實(shí)現(xiàn)算法,以同名作者的論文集合為輸入,執(zhí)行算法后輸出這些論文的聚類集合。
表1 基于圖卷積半監(jiān)督學(xué)習(xí)的作者同名消歧算法
由于學(xué)術(shù)論文來源不同,論文元數(shù)據(jù)信息往往存在缺少或不規(guī)范的情況。對(duì)于規(guī)模比較大的高校,不同分支機(jī)構(gòu)甚至同一分支機(jī)構(gòu)往往存在中英文同名學(xué)者。此外,部分學(xué)術(shù)數(shù)據(jù)服務(wù)商還將一些不同分支機(jī)構(gòu)(如A大學(xué)計(jì)算機(jī)學(xué)院、A大學(xué)人工智能學(xué)院等)的數(shù)據(jù)統(tǒng)一處理為“A大學(xué)”,進(jìn)一步加大了同名消歧的難度。為此,本節(jié)以從公開學(xué)術(shù)數(shù)據(jù)庫獲得的某高校論文數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù),對(duì)本節(jié)提出的方法進(jìn)行實(shí)驗(yàn)驗(yàn)證。通過與該高校教育管理數(shù)據(jù)對(duì)比,待消歧的作者姓名數(shù)據(jù)集中,包括856個(gè)校內(nèi)同名導(dǎo)師姓名(實(shí)際對(duì)應(yīng)2285名導(dǎo)師)、52個(gè)同分支機(jī)構(gòu)同名導(dǎo)師姓名(實(shí)際對(duì)應(yīng)108名導(dǎo)師)。從中隨機(jī)選取20個(gè)待消歧作者(實(shí)際對(duì)應(yīng)96名導(dǎo)師)作為測(cè)試集(表2)。
表2 待消歧作者測(cè)試集
20個(gè)待消歧作者的論文量共計(jì)3753篇,包括中文論文2473篇,英文論文1280篇,部分中文論文包含英文元數(shù)據(jù),具有英文題目的論文合計(jì)2921篇。在實(shí)驗(yàn)前,對(duì)待消歧論文進(jìn)行預(yù)處理,將中文姓名統(tǒng)一為英文姓名,利用機(jī)構(gòu)規(guī)范庫將中文機(jī)構(gòu)統(tǒng)一為英文機(jī)構(gòu)名,區(qū)分中英文題目、摘要、關(guān)鍵詞、出版物名稱,使用百度通用翻譯API1)將中文翻譯為英文,并統(tǒng)一處理縮寫、停用詞、特殊字符等。
本文實(shí)驗(yàn)開發(fā)環(huán)境為Python3.6, CUDA 10.01,使用PyTorch 1.1.0, Transformers 2.1.1,Gensim 3.8.1, Numpy 1.18.1等工具。硬件環(huán)境為Intel Xeon十核處理器、64GB內(nèi)存、NVIDIA Geforce RTX 2080Ti顯卡。
4.2.1 與其他方法對(duì)比分析
為綜合評(píng)價(jià)本文方法,分別與匿名圖網(wǎng)絡(luò)嵌入消歧方法[7]、多維網(wǎng)絡(luò)嵌入消歧方法[24]以及基于合作者和共現(xiàn)關(guān)鍵詞等規(guī)則的基礎(chǔ)消歧方法進(jìn)行比較。選用常用的Pairwise Precision, Recall,F1-score作為評(píng)估指標(biāo),實(shí)驗(yàn)結(jié)果如表3所示。
從表3可以看出,本文方法在20個(gè)待消歧作者的11個(gè)子任務(wù)中都取得了最優(yōu)效果,并且在所有子任務(wù)的平均指標(biāo)上也取得了最優(yōu)效果,F(xiàn)1值相比其他3種方法分別提升了3.57, 2.7和32.98。匿名圖網(wǎng)絡(luò)嵌入消歧方法在子任務(wù)(Jia Liu, Jie Liu, Jun Liu, Yunshan Wang, Xu Zhao)中消歧效果更優(yōu)。多維網(wǎng)絡(luò)嵌入消歧方法在子任務(wù)(Wei Li, Bin Wang, Lin Wang, Ming Zhu)中消歧效果更優(yōu)。
表3 對(duì)比實(shí)驗(yàn)結(jié)果(%)
從待消歧論文規(guī)模上比較,本文方法在論文量較大的任務(wù)(如Tao Zhang, Jun Yang, Ming Li)上效果好于其他方法。而在論文量較小的任務(wù) (Wei Li, Jia Liu, Jie Liu, Yunshan Wang, Lin Wang,Xu Zhao, Ming Zhu)上匿名圖網(wǎng)絡(luò)嵌入消歧方法和多維網(wǎng)絡(luò)嵌入消歧方法的效果稍優(yōu),本文方法次之。
從待消歧類別上比較,歧義類別較多的幾組任務(wù)Ming Li, Peng Zhang, Tao Zhang上,本文方法較優(yōu),而匿名圖網(wǎng)絡(luò)嵌入消歧方法在消歧類別較少任務(wù)Jia Liu, Jie Liu, Yunshan Wang上更優(yōu),多維網(wǎng)絡(luò)嵌入消歧方法在消歧類別較少任務(wù)Wei Li, Lin Wang, Ming Zhu上更優(yōu),本文方法在消歧類別較少的Tao Huang子任務(wù)上效果更優(yōu)。
綜合比較論文規(guī)模和消歧類別上各任務(wù)的消歧效果,本文方法的適應(yīng)性更強(qiáng),所以綜合表現(xiàn)最好,表明其具有良好的細(xì)粒度區(qū)分能力和數(shù)據(jù)規(guī)模處理能力。
4.2.2 組件貢獻(xiàn)分析
為評(píng)估本文使用模型各組成部分在聚類中的作用,分別僅利用BERT模型計(jì)算論文節(jié)點(diǎn)的語義表示向量進(jìn)行聚類,設(shè)定語義向量為0并且僅使用圖卷積網(wǎng)絡(luò)計(jì)算合作者和機(jī)構(gòu)關(guān)系進(jìn)行聚類,以及綜合使用兩個(gè)組件,即利用圖卷積網(wǎng)絡(luò)對(duì)節(jié)點(diǎn)向量?jī)?yōu)化后進(jìn)行論文聚類,對(duì)比結(jié)果如表4所示。
表4結(jié)果顯示如果僅用文本語義表示向量表示論文,聚類結(jié)果平均F1值為57.03,而利用圖卷積網(wǎng)絡(luò)利用合作關(guān)系和機(jī)構(gòu)相似關(guān)系進(jìn)行優(yōu)化后,平均F1值提升了24.51。如果僅使用圖卷積網(wǎng)絡(luò)計(jì)算合作者和機(jī)構(gòu)相似網(wǎng)絡(luò)進(jìn)行消歧,平均F1值為75.76,相比僅使用文本語義表示向量表示論文,提升效果顯著,這說明聯(lián)合使用合作關(guān)系和機(jī)構(gòu)關(guān)聯(lián)進(jìn)行圖卷積學(xué)習(xí)對(duì)于作者同名消歧的貢獻(xiàn)度高于論文本身的文本特征。
表4 組件聚類結(jié)果對(duì)比(%)
4.2.3 論文文本語義表示分析
為評(píng)估采用不同語言模型進(jìn)行論文文本語義表示的消歧效果,本文在實(shí)驗(yàn)數(shù)據(jù)集上分別使用Word2Vec模型、Google的BERT-base-uncased基礎(chǔ)預(yù)訓(xùn)練模型和BERT-base-multilangual-uncased多語言預(yù)訓(xùn)練模型、哈工大的中文BERTwwm-Chinese預(yù)訓(xùn)練模型以及科學(xué)論文SciBERT模型開展實(shí)驗(yàn),對(duì)比結(jié)果如表5所示。從Word2Vec,BERT-base-multilangual-uncased, BERT-wwm-Chinese 3個(gè)模型針對(duì)原始中英文論文題目和關(guān)鍵詞進(jìn)行語義表示的實(shí)驗(yàn)可以看出BERT-base-multilangual的執(zhí)行效果較好。而對(duì)比BERT-base-uncased和SciBERT模型針對(duì)論文原有和翻譯后的英文題目、關(guān)鍵詞的實(shí)驗(yàn)顯示SciBERT模型的執(zhí)行效果較好,并且整體性能最優(yōu)。
表5 使用不同文本語義表示模型的消歧結(jié)果對(duì)比(%)
此外,為評(píng)估論文文本屬性對(duì)消歧效果的影響,分別針對(duì)題目、關(guān)鍵詞、摘要、出版物名稱的聯(lián)合使用進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)利用題目和關(guān)鍵詞的消歧效果要高于其他,盡管摘要存在更多的信息,但也同時(shí)帶來了干擾,而題目和關(guān)鍵詞含有的領(lǐng)域主題詞密度更高,因而效果更好。
表6 針對(duì)不同文本內(nèi)容的消歧結(jié)果對(duì)比(%)
4.2.4 特征權(quán)重分析
在圖卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,最終節(jié)點(diǎn)嵌入表示向量融合了合作關(guān)系、機(jī)構(gòu)關(guān)聯(lián)、語義表示3個(gè)方向的節(jié)點(diǎn)嵌入表示,如公式(4)。其中每一個(gè)方向的向量使用權(quán)重參數(shù)β1,β2和β3。通過組合不同的特征權(quán)重進(jìn)行對(duì)比實(shí)驗(yàn),選擇一組最優(yōu)組合,實(shí)驗(yàn)結(jié)果如圖4所示,當(dāng)β1=0.001,β2=1和β3=3時(shí)消歧效果最好。
圖4 權(quán)重組合性能對(duì)比
在調(diào)參過程中可以發(fā)現(xiàn)β1相比其他兩個(gè)權(quán)重對(duì)性能的影響更大。如圖5所示,在Liang Wang,Tao Zhang, Ming Li和Feng Zhao 4個(gè)子任務(wù),β1從1下降到0.01過程中查準(zhǔn)率提升明顯,并且在0.001時(shí)達(dá)到最優(yōu)。β1參數(shù)跨度較大的原因在于同一個(gè)人的合作者較少或存在縮寫名稱相同的合作者,查準(zhǔn)率降低。而式(5)中損失函數(shù)調(diào)和參數(shù)lam的對(duì)比實(shí)驗(yàn)結(jié)果如圖6所示,當(dāng)lam=0.6時(shí)性能最優(yōu)。
圖5 β1權(quán)重調(diào)節(jié)查準(zhǔn)率對(duì)比
圖6 調(diào)和參數(shù)lam對(duì)比實(shí)驗(yàn)結(jié)果
本文提出一種基于圖卷積半監(jiān)督學(xué)習(xí)的論文作者同名消歧方法,利用圖卷積神經(jīng)網(wǎng)絡(luò)在圖半監(jiān)督學(xué)習(xí)方面的優(yōu)勢(shì)解決作者同名消歧問題。該方法一方面利用了論文中表示研究主題的題目和關(guān)鍵字計(jì)算論文語義表示向量,另一方面利用論文的作者和機(jī)構(gòu)信息構(gòu)建論文之間關(guān)系網(wǎng)絡(luò),將論文語義表示向量和網(wǎng)絡(luò)鄰接矩陣作為圖卷積神經(jīng)網(wǎng)絡(luò)的輸入開展半監(jiān)督學(xué)習(xí),通過合作網(wǎng)絡(luò)中采集的偽標(biāo)簽獲得正樣本集和負(fù)樣本集計(jì)算每次訓(xùn)練的損失函數(shù),經(jīng)過深度學(xué)習(xí)獲得論文節(jié)點(diǎn)的嵌入表示向量進(jìn)行聚類。
通過對(duì)比實(shí)驗(yàn)可以發(fā)現(xiàn)本文方法相比其他方法可以取得更好的消歧效果,在不同論文規(guī)模和消歧類別上的適應(yīng)能力和處理能力更強(qiáng)。本文還對(duì)比了文本特征語義向量計(jì)算、論文合作/機(jī)構(gòu)關(guān)系網(wǎng)絡(luò)圖卷積學(xué)習(xí)兩個(gè)組件的貢獻(xiàn),不同語義表示模型、文本元素以及特征權(quán)重對(duì)消歧效果的影響,探究本文方法各個(gè)組成部分的影響,以期為進(jìn)一步研究和改進(jìn)提供參考。
本文研究也存在一些不足:(1)由于本文研究面向科教大數(shù)據(jù)融合的具體應(yīng)用,尚未在常用測(cè)試集如DBLP, Arnetminer, CiteSeerX等上開展實(shí)驗(yàn);(2)本文方法僅從合作網(wǎng)絡(luò)隨機(jī)采集偽標(biāo)簽,偽標(biāo)簽的學(xué)習(xí)以及影響分析有待于進(jìn)一步研究和實(shí)驗(yàn);(3)本文方法的執(zhí)行效率有待進(jìn)一步優(yōu)化,以實(shí)際應(yīng)用于大規(guī)模數(shù)據(jù)融合中。這幾方面也成為接下來研究的重點(diǎn)。