馬瑩瑩,吳幼龍,唐華,2,3
(1 上??萍即髮W信息科學與技術(shù)學院, 上海 201210; 2 中國科學院上海微系統(tǒng)與信息技術(shù)研究所, 上海 200050; 3 中國科學院大學, 北京 100049) (2020年2月17日收稿; 2020年4月3日收修改稿)
近年來,隨著數(shù)據(jù)信息化程度不斷上升,網(wǎng)絡(luò)數(shù)據(jù)庫容量不斷增加,如何在數(shù)據(jù)庫中迅速地搜尋到準確的信息成為亟需解決的問題。由于自然語言具有多義性、復(fù)雜性和模糊性的多重特點,因此需要將文本中提到的實體與其知識庫中的實體連接起來。實體鏈接主要是要解決實體間的歧義問題,在網(wǎng)絡(luò)檢索、信息提取和知識庫填充等問題中有著廣泛的應(yīng)用。實體語義表達的模糊性和數(shù)據(jù)容量的日益增加,給實體歧義辨別帶來很大的挑戰(zhàn)。
實體歧義分為2種:一種是多詞同義,指多個詞語代表同一個意思;另一種是一詞多義,是指一個實體名稱可以指代多個不同的實體。作者姓名消歧是實體消歧中的一個重要應(yīng)用,已知同名作者的所有文章集合,需要通過文章的一些屬性特征對文章進行聚類,使每一個聚類僅包含一個作者的文章。作者姓名消歧任務(wù)在作者文獻檢索、學術(shù)畫像分析中有著重要的價值。例如,在學術(shù)檢索時,研究者需要在文獻數(shù)據(jù)庫中尋找名為“Charles”的學者的文獻,但是由于“Charles”在數(shù)據(jù)庫中對應(yīng)著很多不同的實體,系統(tǒng)返回了所有名為“Charles”的作者撰寫的文獻,這會大大降低文獻檢索結(jié)果的有效性和準確性,從而降低網(wǎng)絡(luò)搜索的性能。如果將搜索結(jié)果分組在一起,則搜索的有效性可以大大提高。另外,當計算學者影響力的時候,需要準確了解每一位學者的文章類型及數(shù)目。因此,作者姓名消歧問題是近年來研究者的研究熱點之一。
目前,已經(jīng)有一些文獻研究作者姓名消歧問題。一些學者將作者姓名消歧視為分類任務(wù),預(yù)測每篇論文的正確標簽或預(yù)測2篇文章是否由同一作者撰寫。分類任務(wù)需要大量標簽,所以這類任務(wù)通常是有監(jiān)督的。
例如,Wang等[1]提出基于增強樹的分類方法,通過文檔的標題、作者、機構(gòu)、摘要等屬性判斷2篇文章是否由同一作者撰寫。深度神經(jīng)網(wǎng)絡(luò)模型[2]也被用于提取文檔屬性特征進行分類。其他一些方法利用了外部數(shù)據(jù)。如Han等[3]提出樸素貝葉斯概率生成模型和支持向量機模型并將這2種方法分別應(yīng)用于從Web收集的數(shù)據(jù)和DBLP數(shù)據(jù)庫。
另外一些工作采用無監(jiān)督的聚類方法。無監(jiān)督的姓名消歧任務(wù)是將文獻分為幾個簇,使得每個簇僅包括由一個作者所撰寫的文獻。
Cen等[4]通過優(yōu)化線性回歸模型對成對文章相似性進行建模,提出一種具有自適應(yīng)停止準則的層次聚類方法?;贒empster-Shafer理論(DST)的分層聚類方法[5]將每個文檔嵌入到低維向量空間中進行聚類,通過定義2個文檔各個特征之間的相似度來計算它們文檔之間的相似度,將相似度大于閾值的文檔劃分到同一個簇中。另外一些學者利用概率模型表示文檔之間的相似性[6-8]。
監(jiān)督方法需要大量的標記數(shù)據(jù),而人工標記需要昂貴的人力和財力。但是對于無監(jiān)督算法,要找到最佳數(shù)目的聚類或者合適的相似性閾值具有一定的挑戰(zhàn)性。因此也有許多學者提出半監(jiān)督算法。
Levin等[9]提出一種結(jié)合分類和聚類方法的2階段算法。在第1階段,他們應(yīng)用基于論文引用及其他的高精度規(guī)則自動生成用于有監(jiān)督訓練的標記數(shù)據(jù)。在第2階段,將正例和負例用作有監(jiān)督的分類器,該分類器用于預(yù)測2篇文章是否由同一作者撰寫,最后將分類器的預(yù)測結(jié)果用作聚類中的相似性度量。Louppe等[10]在此基礎(chǔ)上提出用于預(yù)處理的區(qū)域策略,將很有可能屬于同一作者的文獻放置于同一區(qū)域。
隨著近2年圖網(wǎng)絡(luò)研究的興起,由于作者及其刊物可以自然地構(gòu)建作者-作者網(wǎng)絡(luò)和文檔-文檔網(wǎng)絡(luò),因此一些基于圖的方法也被用于姓名消歧任務(wù)。譜聚類[11]可以將圖劃分為幾個部分從而進行聚類。Zhang等[12]提出結(jié)合全局度量學習和局部鏈接圖模型,通過文檔的屬性特征學習文檔的低維表征。Zhang和Hasan[13]將文章信息預(yù)處理為3個圖網(wǎng)絡(luò):作者-作者圖,文檔-文檔圖和作者-文檔圖,并將文檔數(shù)據(jù)投影到低維空間中。GHOST模型[14]利用作者圖來計算圖節(jié)點對之間的相似度。除此之外,還有基于文章對的圖網(wǎng)絡(luò)(ADANA)[15]和基于標題與共同作者的圖網(wǎng)絡(luò)(GFAD)[16]。
當前研究方法存在一些問題:1)監(jiān)督方法因為使用了標注信息,所以消歧性能一般會好于無監(jiān)督方法。但是由于數(shù)據(jù)集規(guī)模通常較大,人工標注所有的標簽會耗費大量的人力和時間。2)現(xiàn)有的大多數(shù)研究方法通常只基于文獻的屬性特征或者基于文獻關(guān)系、作者關(guān)系的研究。利用文獻屬性特征的方法通常采用大量的屬性特征并制定相應(yīng)的規(guī)則,在數(shù)據(jù)有缺失的時候會導(dǎo)致規(guī)則失效?;陉P(guān)系圖的研究往往忽略文檔的基礎(chǔ)屬性特征,降低了消歧的效果。3)目前作者姓名消歧問題中大多數(shù)研究方法都是應(yīng)用于小規(guī)模數(shù)據(jù)集,通常只包含10~20個作者文獻集,本研究希望將研究方法應(yīng)用于更大規(guī)模的數(shù)據(jù)集。
本文針對更大規(guī)模的數(shù)據(jù)集(100個待消歧作者姓名),提出一種基于文獻屬性特征和關(guān)系圖網(wǎng)絡(luò)的姓名消歧方法(如圖1所示)。該方法同時考慮文檔的屬性特征以及多個關(guān)系網(wǎng)絡(luò)的信息,通過無監(jiān)督學習的方法尋找文檔表征向量,使用簇數(shù)標簽進行層次聚類,取得良好的姓名消歧效果。在作者數(shù)據(jù)集AMiner上的測試結(jié)果表明:該方法優(yōu)于使用大量文檔標簽和簇數(shù)的半監(jiān)督方法[12],也優(yōu)于其他基于圖網(wǎng)絡(luò)的方法[13-14]。另外,本文通過可視化的方式增加了模型的可解釋性。
圖1 基于特征編碼和圖網(wǎng)絡(luò)的姓名消歧方法Fig.1 Name disambiguation on encoding attributes and graph topology
在姓名消歧任務(wù)中,i代表一個作者姓名。消歧任務(wù)就是找到合適的函數(shù)將與這個姓名相關(guān)的文檔劃分到不同的類別中,使得每個類別中僅包含同一作者的文檔。給定一個文檔集合i,任務(wù)是將文檔劃分為K個不相交的簇其中,表示第k個作者。對于不同待消歧的作者姓名,這里K是不同的。用函數(shù)表示為
Φ(i)→i.
(1)
Word2vec模型被廣泛用于單詞表示學習中。本文利用word2vec的模型之一CBOW[17]用于學習文檔的向量表示。
假設(shè)有一系列訓練詞w1,w2,…,wT,CBOW模型通過某單詞周圍其他單詞的出現(xiàn)頻率預(yù)測這個單詞的出現(xiàn)頻率。該模型根據(jù)訓練語料庫中預(yù)定義上下文窗口內(nèi)詞的出現(xiàn)頻率來學習單詞向量。目標是最大化出現(xiàn)在預(yù)定義上下文窗口中的單詞的共現(xiàn)概率,概率函數(shù)表示為
(2)
其中c代表預(yù)定義窗口大小。
(3)
對于每一個待消歧的作者姓名i,表示其對應(yīng)的待消歧的文獻集合。首先構(gòu)建i對應(yīng)的文檔圖網(wǎng)絡(luò)=(,ε),文檔d∈可以表示網(wǎng)絡(luò)節(jié)點,利用2.1節(jié)中的文檔向量表征構(gòu)建,ε用于表示節(jié)點之間是否存在邊,本文用鄰接矩陣A表示。
(4)
其中
圖2 變分圖自動編碼器Fig.2 Variational graph auto-encoder
(5)
μ=[μ1,μ2,…]=GCNμ(X,A)是圖卷積網(wǎng)絡(luò)輸出各個向量的平均值構(gòu)成的矩陣,σ=[logσ1,logσ2,…]=GCNσ(X,A)代表標準差矩陣。2層卷積神經(jīng)網(wǎng)絡(luò)可以表示為
(6)
(7)
其中
(8)
KL[q(Z|X,A)‖p(Z)].
(9)
如果僅利用圖自動編碼器,在引入節(jié)點關(guān)系的時候只考慮到文檔特征之間的相關(guān)性。當出現(xiàn)表1所示情況時,無法判斷文檔1和文檔2是否由同一作者所撰寫。引入文檔3和前2個文檔之間的關(guān)系后,因為2篇文章的所有合作者都是文檔3的作者,所以可以判斷出2篇文章屬于同一作者。
本文研究希望通過利用合作者關(guān)系進一步推斷文檔相似性,并將合作者關(guān)系網(wǎng)絡(luò)信息嵌入文檔表征向量Z中。提取網(wǎng)絡(luò)結(jié)構(gòu)信息的方法有Deepwalk[18]、GCN[19]等。本文通過構(gòu)建作者-作者網(wǎng)絡(luò)、文檔-作者網(wǎng)絡(luò)和文檔-文檔網(wǎng)絡(luò),聚集有關(guān)系的作者和文檔向量。
表1 合作者相關(guān)聯(lián)的文檔Table 1 Related documents refer to one-hop co-author
(10)
p(
(11)
對于文檔-文檔網(wǎng)絡(luò),希望這個概率更大,所以需要最大化這個概率
(12)
類似地,對于作者-作者網(wǎng)絡(luò)和作者-文檔網(wǎng)絡(luò):
(13)
(14)
目標是將3個網(wǎng)絡(luò)的拓撲結(jié)構(gòu)信息嵌入文檔表征向量中,優(yōu)化函數(shù)為
(15)
其中:A為合作者構(gòu)成的矩陣,Z代表微調(diào)后的待消歧文檔矩陣。通過訓練圖嵌入模型,文檔表征向量中包含了文獻屬性特征及3個圖網(wǎng)絡(luò)的拓撲信息。
對圖網(wǎng)絡(luò)嵌入模型訓練后的文檔表征向量應(yīng)用層次聚類算法[20]。該算法將訓練樣本中的每一個數(shù)據(jù)點都當作一個簇,然后計算每2個樣本點之間的距離并合并距離最近的簇,直到滿足終止條件。本文將終止條件設(shè)置為簇個數(shù)等于真實聚類個數(shù)。
本文使用在線學術(shù)搜索和數(shù)據(jù)挖掘系統(tǒng)AMiner[21]上采樣的100個作者姓名數(shù)據(jù)集,每個姓名都對應(yīng)著與這個姓名相關(guān)聯(lián)的文檔,采樣數(shù)據(jù)集共包含27 128篇文獻和1 066個真實作者。
超參數(shù)設(shè)置上,CBOW模型中,文檔表征向量維度設(shè)置為100,預(yù)定義上下文窗口為5。變分圖自編碼器中,逆文檔頻率的閾值為25,第1層圖卷積網(wǎng)絡(luò)輸出維數(shù)為200,第2層圖卷積網(wǎng)絡(luò)輸出維度設(shè)置為100,學習率為0.01,迭代200次。圖網(wǎng)絡(luò)嵌入模型中,學習率為0.05,正則化參數(shù)為0.01。
在仿真實驗中,對比本文方法與其他幾個基于圖網(wǎng)絡(luò)的姓名消歧方法。Zhang等[12]提出一種合并全局表示學習和局部嵌入學習的方法(Aminer)。在全局表示學習中,需要引入標簽信息構(gòu)建正負樣本。在局部嵌入學習方法中使用圖自動編碼器。Zhang和Hasan[13]將作者-作者、作者-文檔、文檔-文檔網(wǎng)絡(luò)信息壓縮至低維空間。GHOST模型[14]只考慮作者合著關(guān)系,在每個合作者間建立網(wǎng)絡(luò),通過選擇有效路徑計算作者節(jié)點之間的相關(guān)性劃分作者聚類。并查集方法通過合作者和隸屬機構(gòu)的嚴格匹配在文檔間建立圖連接,將所有有連接關(guān)系的文檔節(jié)點構(gòu)成一個集群。
本文使用pairwise Precision、Recall和F1值[22]對模型進行性能比較。對100個消歧作者數(shù)據(jù)集計算每個指標的平均值。表2顯示不同的消歧方法在AMiner數(shù)據(jù)集上的仿真結(jié)果??梢钥吹?,本文提出的方法在表中15個姓名中有11個都表現(xiàn)最佳,平均F1值比Aminer 算法[12]提高3.87%,比Zhang和Hasan[13]的算法高25%,比GHOST模型[14]高33.85%。
圖3是一個待消歧文檔數(shù)據(jù)集通過本文方法與Aminer學習后的文檔表征向量的2維空間可視化,圖3(a)、3(b)中不同的顏色表示不同的真實集群。圖3(c)、3(d)為預(yù)測集群分布。在此數(shù)據(jù)集上,本文提出的方法的F1值為0.633 8,Aminer方法僅為0.538 2。從圖3(d) 虛線內(nèi)的樣本可以看出,Aminer方法學習后的文檔表征向量在向量空間中距離較遠,樣本并沒有被正確歸類。而本文提出的方法通過將相似的表征向量聚集在一起,如圖3(a)的橙色散點表示,輸出的文檔表征向量更加接近,圖3(c)中并沒有將這些散點劃分錯誤,從而實現(xiàn)了更好的聚類效果。
表2 幾種基于圖網(wǎng)絡(luò)的姓名消歧方法的聚類結(jié)果Table 2 Clustering results of different graph-based name disambiguation methods
圖3 不同姓名消歧方法聚類結(jié)果的可視化Fig.3 Visualization of clustering results of different name disambiguation methods
從表2中可以看到對于其中的4個姓名Aminer方法更好,為進一步分析其中的原因,本文選取作者姓名為“Rong Yu”的文檔集合并對本文方法與Aminer模型的聚類結(jié)果進行比較。
圖4為在這個文檔數(shù)據(jù)集上2種方法聚類結(jié)果的可視化對比。從圖4(b)中的藍色散點可以看出,通過Aminer方法學習文檔向量表征后,屬于這個作者的文檔向量主要集中在2個區(qū)域,而本文的方法將更多的點集中到左側(cè)橢圓虛線框內(nèi),如圖4(a)所示,這意味著本文方法將更多的文檔劃分到了正確的類中。但是因為本文方法將很多文檔向量從右側(cè)虛線框內(nèi)移出,導(dǎo)致其余的文檔向量在向量空間中太過分散,從圖4(c)中可以看出,這些文檔向量被劃分為3個不同的類。在圖4(d)中,這些文檔向量雖然也被劃分到另一個類別中,但是根據(jù)聚類方法中pairwiseF1值的計算方法可知,這些文檔向量組成的兩兩文檔對在預(yù)測集和真實集中仍然都屬于同一個類別,仍算作True-Positive文檔對。因此在作者姓名為“Rong Yu”的文檔數(shù)據(jù)集上,Aminer的F1值高于本文提出的方法。
圖5為使用word2vec構(gòu)建文檔向量表征后直接對該文檔集合中的文檔向量進行聚類的結(jié)果可視化。從藍色散點可以看出,進行文檔向量表征后屬于同一作者的文檔向量就被劃分到了向量空間中不相連的2個區(qū)域中,從文檔屬性特征分析,代表這個作者的文章有2個強屬性特征,他的大部分文章都與其中一個屬性相關(guān),例如他可能有2個不同的研究方向,這2部分文章的特征詞并不相關(guān),所以在特征編碼后與他相關(guān)的文檔向量分布在2個區(qū)域。而本文方法在引入關(guān)系信息后使得模型能夠區(qū)分出其中一部分文檔。但是由于并不能覆蓋到所有的文檔,在屬性特征關(guān)系弱的數(shù)據(jù)集中,文檔向量分布較為分散,本文的方法會導(dǎo)致一部分文章被劃分到多個不同的類別中,而Aminer方法雖然也沒有將這些文檔劃分到正確的類別中,但是保留了它們彼此之間的聯(lián)系,使得這些文檔被劃分為同一個類別,所以本文方法的聚類結(jié)果的F1值相對較低。
圖4 Rong Yu文檔集合上的聚類結(jié)果對比Fig.4 Comparison of clustering results on the document set of Rong Yu
圖5 文檔向量表征后的聚類結(jié)果Fig.5 Clustering results after document representation
為了展示本文方法中文檔向量表征、變分圖自編碼器、圖嵌入模型各自的作用與聚類效果,本節(jié)將每個組件分開評估。圖自動編碼器和圖網(wǎng)絡(luò)嵌入模型建立于構(gòu)建了文檔向量表征之后。如表3所示,圖自編碼器和圖網(wǎng)絡(luò)嵌入分別將模型的F1值提高了0.064 1和0.048 3。而本文提出的綜合方法取得了最高的準確率和召回率。圖6為每個子模型訓練后學習的文檔向量的低維可視化,這里使用真實標簽在文檔表征空間的分布,不同顏色代表不同作者所撰寫的文檔向量。由圖6可以看出,圖自編碼器將綠色點和藍色點聚集在了一起,而圖網(wǎng)絡(luò)嵌入使這些點更加接近使得模型可以更準確地聚類。同時,圖網(wǎng)絡(luò)嵌入模型將離群的黃色點移動到了正確的區(qū)域,所以本文的模型對異常值有一定效果。
表3 組件性能分析Table 3 Clustering results of each component
圖6 各組件聚類結(jié)果可視化Fig.6 Visualization of clustering results of each component
本文基于圖網(wǎng)絡(luò)提出一種新的作者姓名消歧方法,該方法通過文檔表征、圖自動編碼器和圖嵌入模型來編碼所有論文的屬性特征和作者及論文的關(guān)系圖拓撲結(jié)構(gòu)。采樣于數(shù)據(jù)挖掘系統(tǒng)AMiner的數(shù)據(jù)集被用于驗證本文提出的圖網(wǎng)絡(luò)姓名消歧方法,仿真結(jié)果證明本文提出的模型優(yōu)于目前其他幾種基于圖網(wǎng)絡(luò)的姓名消歧方法。