跨數(shù)據(jù)源論文集成

2018-10-19 03:13:54張帆進(jìn)顧曉韜姚沛然

中文信息學(xué)報(bào) 2018年9期

關(guān)鍵詞：單詞方法

張帆進(jìn)，顧曉韜，姚沛然，唐杰

(清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系，北京 100084)

0 引言

在大數(shù)據(jù)時(shí)代，有很多實(shí)體分布在不同的數(shù)據(jù)源中。比如,很多學(xué)者分布在不同的研究者社交網(wǎng)絡(luò)中，如 Google Scholar、MAG 等；同一論文可能分布在不同的數(shù)據(jù)源中，如DBLP、arXiv等。由此，一個(gè)自然的問題是：如何把不同數(shù)據(jù)源中的數(shù)據(jù)集成起來？

具體地，本文研究異構(gòu)數(shù)據(jù)源的論文集成問題，旨在利用論文的不同屬性，將不同數(shù)據(jù)源中的同一實(shí)體匹配起來。集成不同數(shù)據(jù)源的數(shù)據(jù)有很大的應(yīng)用價(jià)值，如可以擴(kuò)充數(shù)據(jù)庫(kù)或者進(jìn)一步地將數(shù)據(jù)集成的結(jié)果應(yīng)用于問答系統(tǒng)或信息檢索等應(yīng)用中。

然而，該研究面臨著以下幾方面挑戰(zhàn)：

?數(shù)據(jù)異構(gòu)[1]。由于論文數(shù)據(jù)分布在不同數(shù)據(jù)源，可能面臨數(shù)據(jù)異構(gòu)的問題。比如論文作者可能存在不同的格式，如Quoc Le和Le，Quoc。

?同名消歧問題[2-4]。同一名字可以表示多個(gè)實(shí)體，這也給數(shù)據(jù)集成帶來了很大困難。不同論文可能有相同的題目，如Data、data everywhere可對(duì)應(yīng)多篇文章。

?數(shù)據(jù)規(guī)模大。由于數(shù)據(jù)爆炸式增長(zhǎng)，也要求數(shù)據(jù)集成能夠有比較快的速度。以學(xué)術(shù)出版物為例，著名的出版集團(tuán)Elsevier在過去的150年出版了大量學(xué)術(shù)刊物。據(jù)他們?cè)跀?shù)據(jù)庫(kù)Scopus上的統(tǒng)計(jì)，從1996年至2014年，學(xué)術(shù)出版物的數(shù)量實(shí)現(xiàn)了翻倍，由此可見數(shù)據(jù)的快速增長(zhǎng)。在大規(guī)模數(shù)據(jù)集成任務(wù)中，從外來數(shù)據(jù)源輸入一個(gè)實(shí)體，要求能夠在線匹配到可能的結(jié)果，同時(shí)還要保持較高的匹配準(zhǔn)確率。

盡管現(xiàn)在已經(jīng)有很多關(guān)于數(shù)據(jù)集成的工作，但是由于數(shù)據(jù)集成面臨各種挑戰(zhàn)，集成的準(zhǔn)確率和速度仍然有很大的提升的空間。本文中我們對(duì)論文集成問題設(shè)計(jì)了針對(duì)性的算法來達(dá)到較高的準(zhǔn)確率或速度。此外，我們?cè)O(shè)計(jì)了一個(gè)用于大規(guī)模論文匹配的原型系統(tǒng)。本文的貢獻(xiàn)總結(jié)如下：

(1) 提出了兩個(gè)論文匹配算法MHash和MCNN。MHash利用哈希算法將論文映射到低維的漢明空間，能夠快速實(shí)現(xiàn)論文匹配。在結(jié)合論文的各種屬性后，MHash能夠達(dá)到較高的匹配準(zhǔn)確率(93%+)。而MCNN把論文匹配問題看成計(jì)算兩個(gè)文本相似度的問題，首先構(gòu)造了基于詞語相似度的相似矩陣，然后利用卷積神經(jīng)網(wǎng)絡(luò)來計(jì)算精細(xì)的匹配模式，最終得到相似度。MCNN可以達(dá)到非常高的匹配準(zhǔn)確率(98%+)。

(2) 探討了大規(guī)模論文匹配的問題。我們?cè)O(shè)計(jì)了一個(gè)基于論文題目的異步搜索框架。實(shí)驗(yàn)結(jié)果表示：該框架可以在15天內(nèi)完成64 639 608篇論文的匹配。

本文的剩余部分組織如下，第一節(jié)調(diào)研數(shù)據(jù)集成的相關(guān)工作。第二節(jié)提出論文集成的問題定義。第三節(jié)和第四節(jié)介紹兩個(gè)論文匹配算法。第五節(jié)展示上述論文匹配算法的方法評(píng)測(cè)和實(shí)驗(yàn)結(jié)果。接著，第六節(jié)介紹論文數(shù)據(jù)集成的實(shí)際應(yīng)用，包括我們?cè)O(shè)計(jì)的適用于大規(guī)模論文匹配的原型系統(tǒng)和公開數(shù)據(jù)集介紹。最后，第七節(jié)總結(jié)全文。

1 相關(guān)工作

本節(jié)介紹數(shù)據(jù)集成方面的相關(guān)工作。數(shù)據(jù)集成是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)經(jīng)典問題，它與實(shí)體匹配、數(shù)據(jù)庫(kù)去重、同名消歧等問題密切相關(guān)。數(shù)據(jù)集成從根本上來講是實(shí)體匹配問題，是要判斷不同數(shù)據(jù)源中兩個(gè)實(shí)體是否本質(zhì)上是同一個(gè)實(shí)體。關(guān)于數(shù)據(jù)集成的綜述可以參見文獻(xiàn)[5-6]。下面，我們分類介紹數(shù)據(jù)集成方法。

1.1 基于規(guī)則的方法

基于規(guī)則的匹配方法是指：根據(jù)人類專家設(shè)計(jì)或訓(xùn)練數(shù)據(jù)生成的多條匹配規(guī)則，對(duì)其進(jìn)行組合(如邏輯操作、優(yōu)先級(jí)設(shè)定等)，來構(gòu)造復(fù)雜的匹配條件，根據(jù)匹配條件得到最終的結(jié)果。

舉一個(gè)簡(jiǎn)單的例子，下面的偽代碼展示了根據(jù)姓名(name)和機(jī)構(gòu)(aff)兩種規(guī)則匹配專家的方法。

FORALL(e1,e2)in EXPERTS IF e1.name=e2. name AND e1.aff is similar to e2. aff THEN r1 matches r2 ELSE r1 doesnt match r2

Li等人[7]用基于規(guī)則的方法來解決實(shí)體識(shí)別的問題。他們認(rèn)為，用基于相似度的方法來判別兩個(gè)實(shí)體是否為同一個(gè)實(shí)體在實(shí)際應(yīng)用中不一定奏效，由于數(shù)據(jù)異構(gòu)等問題，實(shí)際上為同一個(gè)實(shí)體的兩個(gè)實(shí)體不一定能計(jì)算出比較高的相似度。因此，他們采用基于規(guī)則的方法并且提出了一個(gè)高效的規(guī)則發(fā)現(xiàn)算法。

人工參與規(guī)則設(shè)計(jì)和規(guī)則組合需要較高的人力成本，因此，更加實(shí)用且可擴(kuò)展性強(qiáng)的方式是采用由數(shù)據(jù)生成的匹配規(guī)則，然后自動(dòng)調(diào)整為合適的規(guī)則組合方式。

1.2 監(jiān)督/半監(jiān)督學(xué)習(xí)方法

監(jiān)督學(xué)習(xí)方法要求訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)為有標(biāo)注數(shù)據(jù)，即已知哪些實(shí)體是匹配的，哪些實(shí)體是不匹配的，如Tang等人[8]將實(shí)體匹配問題轉(zhuǎn)化為最小化貝葉斯決策風(fēng)險(xiǎn)的問題，能夠得到一對(duì)一或者一對(duì)多的匹配結(jié)果。

然而，實(shí)際應(yīng)用中難以找到大量的標(biāo)注數(shù)據(jù)，因此，有些方法同時(shí)利用了訓(xùn)練數(shù)據(jù)集中的標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)，采用半監(jiān)督學(xué)習(xí)方法來學(xué)習(xí)匹配模型。如，Rong等人[9]把實(shí)體匹配問題轉(zhuǎn)化為實(shí)體對(duì)的二分類問題。他們還利用了遷移學(xué)習(xí)的方法，充分利用已有的匹配好的實(shí)體對(duì)，來減少需要標(biāo)注的數(shù)據(jù)。具體方法如下： ①預(yù)匹配：采用關(guān)鍵詞過濾一些不可能匹配的實(shí)體對(duì)，得到待匹配的實(shí)體對(duì)。②計(jì)算相似度向量：計(jì)算實(shí)體對(duì)各屬性之間的相似度，相似度向量中包含了不直接對(duì)應(yīng)的屬性之間的相似度，捕捉了它們語義上可能的相似性。③訓(xùn)練分類器：利用遷移學(xué)習(xí)的方法，對(duì)相似度向量訓(xùn)練分類器進(jìn)行預(yù)測(cè)。

1.3 無監(jiān)督學(xué)習(xí)方法

無監(jiān)督學(xué)習(xí)方法不需要對(duì)數(shù)據(jù)集中實(shí)體是否匹配進(jìn)行標(biāo)注，往往可以適應(yīng)更多的數(shù)據(jù)集成場(chǎng)景。如Liu等人[10]巧妙地利用人名的唯一性度量函數(shù)作為弱監(jiān)督信息，將用戶屬性、用戶生成的文檔，以及用戶在不同網(wǎng)絡(luò)中的活動(dòng)集成到一個(gè)學(xué)習(xí)框架中，提出了一個(gè)跨網(wǎng)絡(luò)實(shí)體匹配的無監(jiān)督算法。

1.4 利用神經(jīng)網(wǎng)絡(luò)的方法

近來，有一些實(shí)體匹配的工作利用了神經(jīng)網(wǎng)絡(luò)來提升匹配效果[11-12]。Sun等人[13]利用神經(jīng)網(wǎng)絡(luò)來研究實(shí)體消歧問題，他們將描述實(shí)體的變長(zhǎng)字符串編碼在一個(gè)連續(xù)的向量空間中。Hu等人[14]研究?jī)蓚€(gè)句子語義上的匹配問題。他們利用了卷積神經(jīng)網(wǎng)絡(luò)來建模兩個(gè)句子的相似性。該模型可以表示出句子的語法結(jié)構(gòu)，以及盡可能捕捉到句子間豐富的匹配模式。

2 問題定義

令G1={V1,R1}，G2={V2,R2}表示兩個(gè)不同數(shù)據(jù)源的論文網(wǎng)絡(luò)(比如DBLP和ACM Digital Library)其中，V1={v1,v2,…,vN1}和V2={u1,u2,…,uN2} 代表論文集合。R1和R2代表論文的屬性矩陣，包括論文題目、作者列表等屬性。

論文匹配算法有兩個(gè)設(shè)計(jì)目標(biāo)：快速而準(zhǔn)確。在下面兩節(jié)中，我們提出了兩個(gè)論文匹配算法，第一個(gè)算法MHash利用哈希算法來加速匹配過程，該算法可以適應(yīng)大規(guī)模論文匹配場(chǎng)景；第二個(gè)算法MCNN利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來提高匹配準(zhǔn)確率，它可以克服不同數(shù)據(jù)源數(shù)據(jù)異構(gòu)的問題。

3 基于哈希學(xué)習(xí)的論文匹配算法(MHash)

本節(jié)介紹一個(gè)快速的論文匹配算法(MHash)，它可以用于在線匹配論文。該算法是一個(gè)無監(jiān)督算法，它包括兩個(gè)步驟：特征構(gòu)造和哈希算法。算法流程如圖1所示。

3.1 特征構(gòu)造

特征構(gòu)造的目標(biāo)是把輸入的文本數(shù)值化，具體地，我們的目標(biāo)是將長(zhǎng)度變化的文本轉(zhuǎn)化為固定長(zhǎng)度的特征向量。同時(shí)，這些特征向量要能捕捉到文本的結(jié)構(gòu)和語義信息。為方便起見，在下文中，我們將該步驟構(gòu)造的特征稱之為中間特征。在匹配過程中，我們用到的論文屬性有：論文題目、作者列表、發(fā)表會(huì)議(或期刊)、發(fā)表年份。下面，我們將各屬性簡(jiǎn)稱為：題目、作者列表、會(huì)議、年份。表1總結(jié)了不同屬性的特征構(gòu)造方法，下面我們依次詳細(xì)地介紹各屬性的特征構(gòu)造方法。

圖1 基于哈希學(xué)習(xí)的論文匹配算法流程圖

表1 中間特征構(gòu)造

題目是最富有變化的論文屬性，因?yàn)樗拈L(zhǎng)度和內(nèi)容都可以有較大的變化。題目特征的構(gòu)造采用了Doc2Vec[15]。它可以把變化長(zhǎng)度的文本轉(zhuǎn)化為固定長(zhǎng)度的向量表示。Doc2Vec是由Word2Vec衍生而來。Word2Vec是一個(gè)兩層(淺層)的神經(jīng)網(wǎng)絡(luò)模型，它利用單詞的上下文關(guān)系來學(xué)習(xí)單詞的向量表示。因此，語義上相近的兩個(gè)單詞，若它們的上下文通常是相同的單詞，則它們的向量表示會(huì)很相近。比如，“via”的向量表示可能和“by”相近。在Doc2Vec模型中，每個(gè)文檔(doc)會(huì)額外引入一個(gè)“文檔向量”。它可以被看作是文檔中潛在的一個(gè)具有代表性的單詞，或者說是文檔的主題?！拔臋n向量”和文檔中的單詞向量被一起輸入神經(jīng)網(wǎng)絡(luò)。Doc2Vec適合于構(gòu)造論文題目特征，因?yàn)樵诓煌瑪?shù)據(jù)源中同一篇論文的題目經(jīng)常有絕大部分單詞是相同的，而Doc2Vec可以捕捉題目中單詞的語義信息。在該步驟后，我們用T=[τ1,τ2,…,τN]T∈RN×d1來表示論文題目的中間特征。

對(duì)于論文的其他特征，輸出的中間特征是二值編碼。在表1的第2～3行，二值編碼的每一位映射到字母“a”到“z”，若該字母出現(xiàn)過，則對(duì)應(yīng)位置為1，否則為0。在最后一行，所得的差代表二值編碼中從右往左連續(xù)出現(xiàn)的“1”的個(gè)數(shù)，二值編碼最右端均為1，最左端均為0。這些二值特征忽略了原始文本中單詞的順序，因?yàn)槲谋局袉卧~的順序是可以改變的。例如，作者姓名有多種不同的表示方式。Tomas Mikolov和Mikolov，T這兩種表示即改變了單詞順序。同時(shí)，這種提取特征的方法捕捉了屬性中最重要的信息，比如，對(duì)于會(huì)議來說，提取大寫字母解決了會(huì)議名稱縮寫帶來的數(shù)據(jù)異構(gòu)問題。我們用A∈{-1,+1}N×b2，V∈{-1,+1}N×b3y∈{-1,+1}N×b4，來表示作者列表,會(huì)議，年份的間特征。

3.2 哈希算法

題目的中間特征是高維的實(shí)值向量。實(shí)值向量的缺點(diǎn)有：計(jì)算復(fù)雜度高和存儲(chǔ)開銷大。因此，我們利用哈希算法來把實(shí)值向量轉(zhuǎn)化為二值編碼，以此來減少計(jì)算開銷和存儲(chǔ)開銷。

哈希算法分為兩類：數(shù)據(jù)獨(dú)立方法和數(shù)據(jù)依賴方法(即哈希學(xué)習(xí)方法)[16]。它們都是把數(shù)據(jù)從原始的高維空間通過哈希函數(shù)映射到低維的漢明空間。對(duì)于數(shù)據(jù)獨(dú)立方法，哈希函數(shù)是隨機(jī)產(chǎn)生或者手工構(gòu)造的，所以說哈希函數(shù)和數(shù)據(jù)是獨(dú)立的。對(duì)于數(shù)據(jù)依賴方法，哈希函數(shù)是根據(jù)原始數(shù)據(jù)學(xué)習(xí)得到的，不同的原始數(shù)據(jù)可能學(xué)習(xí)出不同的哈希函數(shù)。

局部敏感哈希(LSH)[17]是一種數(shù)據(jù)獨(dú)立方法。它已經(jīng)廣泛應(yīng)用于高效的近似最近鄰搜索問題(ANN)中。它所采用的哈希函數(shù)是隨機(jī)產(chǎn)生的，能夠保證：如果兩個(gè)向量在原始空間是相近的，那么它們有很大概率被映射到同一個(gè)二值編碼。

LSH可以保持?jǐn)?shù)據(jù)在原空間的相似度，我們首先定義度量原空間相似度的方法為余弦相似度(cosine similarity),如式(1)所示。

(1)

研究表明隨機(jī)投影能夠保持向量的余弦相似度[18]。在實(shí)驗(yàn)部分5.2節(jié)中也會(huì)展示這一點(diǎn)：題目中間特征的相似度可以被LSH保持。我們將哈希函數(shù)定義如式(2)所示。

h(τ)=sign(τ·W)

(2)

在這里，W∈Rd1×b1是投影矩陣，矩陣中的每個(gè)元素獨(dú)立從高斯分布中采樣得到。經(jīng)過哈希之后，矩陣T被轉(zhuǎn)換為C=[h(τ1)，h(τ2)，…，h(τN)]∈{-1,+1}N×b1。此外，我們還可以使用不同的哈希算法，比如數(shù)據(jù)依賴方法。哈希算法的目標(biāo)是將中間的實(shí)值向量轉(zhuǎn)化為二值編碼，并盡可能保持實(shí)值向量的相似性，數(shù)據(jù)獨(dú)立方法和數(shù)據(jù)依賴方法都可以達(dá)到這個(gè)目標(biāo)。除LSH外，我們還嘗試了無監(jiān)督的數(shù)據(jù)依賴方法SGH[19]。

下面我們考慮如何結(jié)合論文的各個(gè)屬性。由于我們獲得了論文各屬性的二值編碼，一個(gè)直觀的辦法是將它們拼接起來，作為論文的二值編碼。實(shí)驗(yàn)證明結(jié)合后的論文編碼匹配效果優(yōu)于只使用單個(gè)屬性的效果。于是，我們得到了基于哈希算法的無監(jiān)督論文匹配算法。

4 基于卷積神經(jīng)網(wǎng)絡(luò)的論文匹配算法(MCNN)

本節(jié)介紹基于卷積神經(jīng)網(wǎng)絡(luò)的論文匹配算法，設(shè)計(jì)該算法的目的在于希望獲得較高的匹配準(zhǔn)確率。該算法的思想是：將論文匹配問題看成是計(jì)算成對(duì)論文的相似度的問題。因此，可以將論文匹配分為兩個(gè)步驟： ①預(yù)匹配：過濾得到可能匹配的論文對(duì)。②計(jì)算論文對(duì)之間的相似度，進(jìn)而得到匹配結(jié)果。

該算法需要進(jìn)行預(yù)匹配的原因是：為了獲得較高的匹配準(zhǔn)確率，需要更為精細(xì)地計(jì)算論文相似度。因此，計(jì)算每對(duì)論文的時(shí)間開銷較大。如果逐一計(jì)算兩個(gè)數(shù)據(jù)源中每對(duì)論文的相似度，對(duì)于平方級(jí)別O(|V1||V2|)的復(fù)雜度，總計(jì)算開銷會(huì)特別大。因此我們先進(jìn)行預(yù)匹配，過濾掉大量匹配可能性很低的論文對(duì)。

對(duì)于相似度計(jì)算，受文獻(xiàn)[12]啟發(fā)，我們將兩篇論文u，v看成兩串文本text1，text2，不是直接計(jì)算出一個(gè)相似度得分，而是先根據(jù)兩個(gè)文本中單詞的相似度構(gòu)造出一個(gè)相似度矩陣M，然后利用CNN捕捉文本間相似度的模式，最后輸出一個(gè)相似度得分。具體地，相似度計(jì)算可以分為以下三步。

4.1 構(gòu)造相似度矩陣

首先，我們需要選擇構(gòu)造相似度矩陣的文本。對(duì)于論文來說，可以選擇論文題目。同時(shí)，為了結(jié)合論文的各個(gè)屬性，可以添加作者列表、會(huì)議等屬性。在實(shí)驗(yàn)部分5.2節(jié)可以看到，該算法可以比較容易結(jié)合各種屬性，利用論文的更多信息來計(jì)算出更準(zhǔn)確的相似度得分。在本節(jié)中，我們以論文題目舉例。

我們截取論文題目的前l(fā)個(gè)單詞，設(shè)text1={α1，α2,…，αl}，text2={β1，β2,…，βl}。定義兩個(gè)單詞之間的相似度如式(3)所示。

sij=αi?βj

(3)

圖2 兩個(gè)文本的相似度矩陣M，網(wǎng)格中的顏色越接近白色，表示相似度值越大

4.2 CNN模型

卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像識(shí)別領(lǐng)域已經(jīng)取得了巨大成功。和圖像類似，相似度矩陣也是一個(gè)二維矩陣。因此，我們將相似度矩陣M作為CNN模型的輸入z0=M。網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)如下：第一層對(duì)輸入矩陣進(jìn)行卷積操作。第一層的第n個(gè)神經(jīng)元計(jì)算過濾器(filter)ω(1,k)和矩陣中各個(gè)小區(qū)域的卷積。然后將每個(gè)卷積得到的值用一個(gè)激活函數(shù)δ對(duì)特征進(jìn)行非線性映射，如式(4)所示。

(4)

式(4)中，rn表示第n個(gè)過濾器的大小，θ(1,n)表示第n個(gè)過濾器的偏置項(xiàng)。在該層中，我們使用多個(gè)過濾器來捕捉不同模式的相似度。比如，在圖3中，過濾器A可以捕捉兩個(gè)文本中單詞順序的相似度，如“(cat likes dog)-(cat enjoys dog)”，然而過濾器B可以捕捉兩個(gè)文本中單詞亂序的相似度，如“(cat and log)-(dog and cat)”。

第二層對(duì)第一層的輸出z(1,n)進(jìn)行池化(pool-ing)操作，用來減少特征表示的大小和參數(shù)的數(shù)量。池化操作對(duì)第一層每個(gè)神經(jīng)元的輸出獨(dú)立進(jìn)行操作，這里采用的池化操作是最大化操作。形式上，第二層網(wǎng)絡(luò)的輸出z(2,n)可以表示為式(5)。

(5)

式(5)中，rn表示第n個(gè)池化過濾器的大小。在經(jīng)過前兩層處理后，我們繼續(xù)進(jìn)行多層卷積和池化操作，來捕捉更高階的特征。

圖3 示例

在卷積層利用不同的過濾器(filter)，可以捕捉不同模式的相似度。左邊的相似矩陣M和圖2中的矩陣相同。

(6)

(7)

在式(6)中，ck代表第k層過濾器的個(gè)數(shù)。

我們使用多層感知機(jī)(MLP)來輸出最終的相似度得分。具體地，我們使用了兩個(gè)全連接層來得到相似度向量，如式(8)所示。

(s0,s1)T=W2δ(W1·z+θ1)+θ2

(8)

在這里s0表示不相似度，s1表示相似度。Wi和θi是第i個(gè)全連接層的過濾器和偏置項(xiàng)，δ表示激活函數(shù)。在實(shí)驗(yàn)中，我們采用ReLU[21]作為所有卷積層和全連接層的激活函數(shù)。ReLU比sigmoid，tanh等激活函數(shù)能產(chǎn)生更準(zhǔn)確的結(jié)果，而且收斂更快。整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)可參見圖4。

4.3 訓(xùn)練方法

我們用softmax來表示屬于每一類(匹配或不匹配)的概率，以及用交叉熵作為優(yōu)化的目標(biāo)函數(shù)。因此，優(yōu)化目標(biāo)可以寫成式(9)。

(9)

式(9)中，y(i)表示第i對(duì)訓(xùn)練樣本的標(biāo)簽。

我們用反向傳播算法(back-propagation)來求解神經(jīng)網(wǎng)絡(luò)的參數(shù)。訓(xùn)練方法采用了隨機(jī)梯度下降的變體Adagrad[22]和mini-batch策略。在網(wǎng)絡(luò)的倒數(shù)第二層，我們采用了dropout來避免隱層神經(jīng)元的互相適應(yīng)。

圖4 CNN模型網(wǎng)絡(luò)結(jié)構(gòu)圖

5 方法評(píng)測(cè)和實(shí)驗(yàn)結(jié)果

5.1 實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集：在現(xiàn)實(shí)應(yīng)用中，很難在不同數(shù)據(jù)源找到大量匹配的(有標(biāo)記的)論文對(duì)。此外，在真實(shí)匹配的例子中，大部分論文各屬性都比較相似。因此，為了更好地評(píng)估我們的方法，我們?nèi)斯?gòu)造了兩個(gè)數(shù)據(jù)集，原始論文集和噪聲論文集。原始數(shù)據(jù)集大小為5萬篇，從AMiner論文庫(kù)中收集得到，每篇論文保留了四個(gè)屬性：題目、作者列表、會(huì)議和年份。噪聲數(shù)據(jù)集是對(duì)原始數(shù)據(jù)集中的每篇論文加噪聲生成的。從而，加噪聲前后的論文自然形成了一對(duì)匹配的論文，避免了人工標(biāo)注。我們首先統(tǒng)計(jì)了已知匹配論文的匹配難點(diǎn)，加噪聲的方法是根據(jù)統(tǒng)計(jì)結(jié)果設(shè)計(jì)的。匹配難點(diǎn)有：論文題目中的多個(gè)單詞被錯(cuò)誤結(jié)合成一個(gè)單詞，作者姓名的格式有全名和縮寫姓名等。

對(duì)比方法

?Keywords(KeyII)。該方法基于題目的關(guān)鍵詞和作者列表相似度找匹配的論文。實(shí)現(xiàn)時(shí)取論文題目的前w個(gè)單詞構(gòu)建倒排索引。根據(jù)論文題目索引到關(guān)鍵詞相同的論文列表后，將論文列表按照作者的相似度排序。計(jì)算作者相似度時(shí)，先將作者列表author_list連接為一個(gè)字符串str(author_list)，然后根據(jù)兩個(gè)字符串中共同出現(xiàn)的字母數(shù)量來計(jì)算，如式(10)所示。

(10)

?Doc2Vec。該方法我們?cè)?.1小節(jié)介紹過。使用Doc2Vec時(shí)，我們采用Gensim[23]中的doc2vec模型訓(xùn)練大量的論文語料[注]數(shù)據(jù)集可訪問https://aminer.org/citation.。在該方法中，我們使用了“論文題目”一個(gè)屬性。論文的相似度通過余弦相似度度量。

?MLSH。該方法先用Doc2Vec得到題目中間特征，然后用LSH將中間特征映射為二值編碼。論文的相似度通過漢明距離度量。

?MLSH++。該方法在MLSH的基礎(chǔ)上，結(jié)合了“題目”之外的其他屬性。

?MSGH。該方法先用Doc2Vec得到題目中間特征，然后用SGH將中間特征映射為二值編碼。

?MSGH++。該方法在MSGH的基礎(chǔ)上，結(jié)合了“題目”之外的其他屬性。

?MCNN。該方法的訓(xùn)練語料和Doc2Vec相同，用Word2Vec模型訓(xùn)練得到單詞的向量表示。訓(xùn)練的正例為加噪聲前后的論文對(duì)，訓(xùn)練的負(fù)例從不匹配的論文對(duì)中采樣生成。采樣方法是：根據(jù)各屬性(題目、作者等)，找到和論文u的某一屬性最相似且不匹配的論文u′。在CNN模型中，只利用了論文題目這個(gè)屬性，取題目的前7個(gè)單詞(l=7)構(gòu)造相似度矩陣。

?MCNN++。該方法在MCNN的基礎(chǔ)上，增加了“作者列表”屬性。取一篇論文的前兩個(gè)作者，在他們的姓名中取姓和名的首字母作為特征。即構(gòu)造大小為11×11的相似度矩陣(l=11)。

(11)

在式(11)中，‖表示指示函數(shù)。

5.2 評(píng)估結(jié)果

表2比較了各個(gè)論文匹配算法的準(zhǔn)確率@topK?？梢钥闯?，相比于基于題目關(guān)鍵詞的方法KeyII，Doc2Vec能更好地、完整地保持題目的語義信息，從而匹配得到更好的結(jié)果?；诠５钠ヅ渌惴∕LSH，MSGH會(huì)損失一些匹配精度，但是可以提高匹配速度。在結(jié)合作者列表、會(huì)議等屬性后，MLSH++,MSGH++能夠有比較大的準(zhǔn)確率提升。同時(shí)，可以發(fā)現(xiàn)，MLSH++，MSGH++的準(zhǔn)確率非常接近，說明此時(shí)題目的重要性已經(jīng)被弱化，作者列表、會(huì)議和年份等屬性對(duì)匹配起了非常重要的作用。對(duì)于Doc2Vec，MLSH，MSGH這幾個(gè)方法，題目完全相同的論文會(huì)被映射成為完全相同的特征，這也是它們比KeyII表現(xiàn)更好的原因之一。

對(duì)于基于CNN的匹配算法MCNN和MCNN++，他們的準(zhǔn)確率比其他所有方法都高?？梢?，基于相似矩陣，這兩個(gè)算法利用CNN捕捉了論文之間更為精細(xì)的匹配模式，尤其是結(jié)合作者列表后，MCNN++可以得到非常高的準(zhǔn)確率。但是基于CNN的方法由于需要構(gòu)造相似矩陣，經(jīng)過多層神經(jīng)網(wǎng)絡(luò)的計(jì)算，計(jì)算開銷也是所有方法中最大的。

表2 論文匹配的準(zhǔn)確率 @topK/%

6 原型系統(tǒng)與公開數(shù)據(jù)集

本節(jié)試圖把論文匹配的問題擴(kuò)展到大規(guī)模場(chǎng) 景，在真實(shí)場(chǎng)景下匹配兩個(gè)大規(guī)模論文庫(kù)。

6.1 論文匹配框架

為了較快地獲得大量論文的匹配結(jié)果，結(jié)合實(shí)際情況下目前我們對(duì)兩個(gè)論文庫(kù)所擁有的權(quán)限：G1中的論文可以通過API訪問，G2中的全部論文可以通過數(shù)據(jù)庫(kù)訪問，因此，我們?cè)O(shè)計(jì)了一個(gè)針對(duì)大規(guī)模論文匹配的異步搜索框架。下面我們分模塊對(duì)該框架進(jìn)行介紹。

?數(shù)據(jù)庫(kù)讀?。?由于論文總數(shù)達(dá)到上億級(jí)別，我們成塊(batch)從G2中讀取論文進(jìn)行處理，在實(shí)驗(yàn)中，每塊的數(shù)量batch_size=100 000。

?單篇論文搜索：對(duì)于G2中的每篇論文u，我們根據(jù)它的題目titleu在G1中用API進(jìn)行搜索。我們發(fā)現(xiàn)G1中搜索論文題目的API有兩個(gè)，一個(gè)專門給用戶提供的API服務(wù)(稱為API-A)，另一個(gè)用于線上搜索(稱為API-B)。他們的性質(zhì)如下：

使用這兩個(gè)API 時(shí)，我們先去除題目中的特殊字符，根據(jù)題目搜索到可能匹配的論文，返回每篇論文的題目、作者列表、會(huì)議、年份。由于這兩個(gè)API各有優(yōu)劣，在G1中搜索G2的一篇論文時(shí)，我們先用API-A進(jìn)行搜索，它能較快返回匹配結(jié)果；在API-A搜不到相應(yīng)結(jié)果時(shí)，再用API-B搜索，API-B可以返回比較全的匹配結(jié)果。

?多篇論文搜索：我們對(duì)成塊讀取的論文批量進(jìn)行搜索。由于對(duì)API的請(qǐng)求次數(shù)頻繁，我們?cè)O(shè)計(jì)了一個(gè)代理池，每篇論文用不同的代理進(jìn)行請(qǐng)求，代理選擇方法是隨機(jī)從代理池中選擇。當(dāng)一個(gè)代理失效時(shí)，它會(huì)從代理池中去除。當(dāng)代理池中的代理數(shù)量小于初始數(shù)量的1/10時(shí)，更新代理池中代理的數(shù)量為初始數(shù)量。我們對(duì)不同的論文異步進(jìn)行搜索，這樣可以使不同論文的匹配并行進(jìn)行。

?匹配策略：該匹配策略非常嚴(yán)格，目的是產(chǎn)生一批高度匹配的論文對(duì)。具體地，我們將請(qǐng)求返回結(jié)果中各論文的題目、作者列表、年份和被搜索論文進(jìn)行比較。當(dāng)兩篇待匹配的論文有非常相似的題目、相同數(shù)量的作者、相似的作者名字及相同的發(fā)表年份時(shí)，認(rèn)為兩者匹配。上述匹配條件中，模糊匹配通過編輯距離[注]https: //en.wikipedia.org/wiki/Levenshtein_distance.來實(shí)現(xiàn)。

6.2 方法評(píng)測(cè)和實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置：G2的論文庫(kù)來自AMiner經(jīng)過論文去重后的數(shù)據(jù)庫(kù)，在經(jīng)過簡(jiǎn)單的預(yù)處理后(去除論文庫(kù)中的噪聲)，G2中待匹配的論文總數(shù)為： 154 771 162篇。G1的論文來自MAG。所有實(shí)驗(yàn)用Python實(shí)現(xiàn)，實(shí)驗(yàn)平臺(tái)為Intel(R) Xeon(R) CPU E5-4650 0@ 2.70GHz 32 cores and 500GB RAM Linux Server。

實(shí)驗(yàn)結(jié)果：實(shí)驗(yàn)使用了兩個(gè)版本的論文匹配框架同時(shí)進(jìn)行匹配，在15天內(nèi)遍歷了G2中論文數(shù)據(jù)庫(kù)一趟。得到64 639 608對(duì)論文匹配結(jié)果。我們隨機(jī)抽取了100 000對(duì)匹配結(jié)果進(jìn)行人工標(biāo)注，得到匹配正確的論文對(duì)有99 699對(duì)，匹配準(zhǔn)確率為99.70%。同時(shí)，我們存儲(chǔ)了所有的論文查詢結(jié)果：共113 487 083條。實(shí)驗(yàn)結(jié)果說明：有57.00%的論文可以通過嚴(yán)格的匹配策略匹配成功。此外，我們還記錄了請(qǐng)求有返回結(jié)果但是匹配失敗的論文：共38 651 737篇，這些論文的匹配存在三種情況： ①確實(shí)在G1中找不到匹配結(jié)果； ②請(qǐng)求API時(shí)出現(xiàn)異常，返回為空，實(shí)際可能存在匹配結(jié)果； ③查詢結(jié)果不為空，但是用當(dāng)前的策略匹配不到結(jié)果，但實(shí)際上有匹配的論文。論文匹配結(jié)果已作為公開數(shù)據(jù)集發(fā)布。

6.3 公開數(shù)據(jù)集

該公開數(shù)據(jù)集[注]https://www.openacademic.ai/oag(https://aminer.org/open-academic-graph)包括來自AMiner和MAG的64 639 608對(duì)論文的匹配結(jié)果，以及AMiner和MAG的全部論文數(shù)據(jù)，共約300 000 000篇論文。具體包括154 771 162篇來自AMiner的論文和166 192 182篇來自MAG的論文。匹配數(shù)據(jù)給出了AMiner和MAG匹配論文ID的對(duì)應(yīng)關(guān)系。論文數(shù)據(jù)涵蓋了全面的論文屬性，如論文題目、作者列表、摘要、引用關(guān)系等。該數(shù)據(jù)集可用于研究引用關(guān)系網(wǎng)絡(luò)、論文內(nèi)容挖掘、大規(guī)模學(xué)術(shù)圖譜集成等。

7 結(jié)論和展望

本文研究異構(gòu)數(shù)據(jù)源的論文集成問題。我們提出兩個(gè)論文匹配算法：第一個(gè)算法MHash利用哈希算法來加速論文匹配，第二個(gè)算法利用卷積神經(jīng)網(wǎng)絡(luò)來提高匹配準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明：結(jié)合論文的各種屬性，MHash能夠同時(shí)得到較快的匹配速度和較高的匹配準(zhǔn)確率(93%+)，而MCNN能夠得到非常高的匹配準(zhǔn)確率(98%+)。同時(shí)，我們?cè)O(shè)計(jì)了一個(gè)大規(guī)模論文匹配原型系統(tǒng)：對(duì)于論文匹配，該系統(tǒng)在15天內(nèi)得到了64 639 608對(duì)AMiner和MAG論文的匹配結(jié)果。匹配結(jié)果和AMiner、MAG的全部論文數(shù)據(jù)已作為公開數(shù)據(jù)集發(fā)布。

致謝本課題承蒙微軟亞洲研究院資助。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放