亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        跨數(shù)據(jù)源論文集成

        2018-10-19 03:13:54張帆進(jìn)顧曉韜姚沛然
        中文信息學(xué)報(bào) 2018年9期
        關(guān)鍵詞:單詞方法

        張帆進(jìn),顧曉韜,姚沛然,唐 杰

        (清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084)

        0 引言

        在大數(shù)據(jù)時(shí)代,有很多實(shí)體分布在不同的數(shù)據(jù)源中。比如,很多學(xué)者分布在不同的研究者社交網(wǎng)絡(luò)中,如 Google Scholar、MAG 等;同一論文可能分布在不同的數(shù)據(jù)源中,如DBLP、arXiv等。由此,一個(gè)自然的問題是: 如何把不同數(shù)據(jù)源中的數(shù)據(jù)集成起來?

        具體地,本文研究異構(gòu)數(shù)據(jù)源的論文集成問題,旨在利用論文的不同屬性,將不同數(shù)據(jù)源中的同一實(shí)體匹配起來。集成不同數(shù)據(jù)源的數(shù)據(jù)有很大的應(yīng)用價(jià)值,如可以擴(kuò)充數(shù)據(jù)庫(kù)或者進(jìn)一步地將數(shù)據(jù)集成的結(jié)果應(yīng)用于問答系統(tǒng)或信息檢索等應(yīng)用中。

        然而,該研究面臨著以下幾方面挑戰(zhàn):

        ?數(shù)據(jù)異構(gòu)[1]。由于論文數(shù)據(jù)分布在不同數(shù)據(jù)源,可能面臨數(shù)據(jù)異構(gòu)的問題。比如論文作者可能存在不同的格式,如Quoc Le和Le,Quoc。

        ?同名消歧問題[2-4]。同一名字可以表示多個(gè)實(shí)體,這也給數(shù)據(jù)集成帶來了很大困難。不同論文可能有相同的題目,如Data、data everywhere可對(duì)應(yīng)多篇文章。

        ?數(shù)據(jù)規(guī)模大。由于數(shù)據(jù)爆炸式增長(zhǎng),也要求數(shù)據(jù)集成能夠有比較快的速度。以學(xué)術(shù)出版物為例,著名的出版集團(tuán)Elsevier在過去的150年出版了大量學(xué)術(shù)刊物。據(jù)他們?cè)跀?shù)據(jù)庫(kù)Scopus上的統(tǒng)計(jì),從1996年至2014年,學(xué)術(shù)出版物的數(shù)量實(shí)現(xiàn)了翻倍,由此可見數(shù)據(jù)的快速增長(zhǎng)。在大規(guī)模數(shù)據(jù)集成任務(wù)中,從外來數(shù)據(jù)源輸入一個(gè)實(shí)體,要求能夠在線匹配到可能的結(jié)果,同時(shí)還要保持較高的匹配準(zhǔn)確率。

        盡管現(xiàn)在已經(jīng)有很多關(guān)于數(shù)據(jù)集成的工作,但是由于數(shù)據(jù)集成面臨各種挑戰(zhàn),集成的準(zhǔn)確率和速度仍然有很大的提升的空間。本文中我們對(duì)論文集成問題設(shè)計(jì)了針對(duì)性的算法來達(dá)到較高的準(zhǔn)確率或速度。此外,我們?cè)O(shè)計(jì)了一個(gè)用于大規(guī)模論文匹配的原型系統(tǒng)。本文的貢獻(xiàn)總結(jié)如下:

        (1) 提出了兩個(gè)論文匹配算法MHash和MCNN。MHash利用哈希算法將論文映射到低維的漢明空間,能夠快速實(shí)現(xiàn)論文匹配。在結(jié)合論文的各種屬性后,MHash能夠達(dá)到較高的匹配準(zhǔn)確率(93%+)。而MCNN把論文匹配問題看成計(jì)算兩個(gè)文本相似度的問題,首先構(gòu)造了基于詞語相似度的相似矩陣,然后利用卷積神經(jīng)網(wǎng)絡(luò)來計(jì)算精細(xì)的匹配模式,最終得到相似度。MCNN可以達(dá)到非常高的匹配準(zhǔn)確率(98%+)。

        (2) 探討了大規(guī)模論文匹配的問題。我們?cè)O(shè)計(jì)了一個(gè)基于論文題目的異步搜索框架。實(shí)驗(yàn)結(jié)果表示: 該框架可以在15天內(nèi)完成64 639 608篇論文的匹配。

        本文的剩余部分組織如下,第一節(jié)調(diào)研數(shù)據(jù)集成的相關(guān)工作。第二節(jié)提出論文集成的問題定義。第三節(jié)和第四節(jié)介紹兩個(gè)論文匹配算法。第五節(jié)展示上述論文匹配算法的方法評(píng)測(cè)和實(shí)驗(yàn)結(jié)果。接著,第六節(jié)介紹論文數(shù)據(jù)集成的實(shí)際應(yīng)用,包括我們?cè)O(shè)計(jì)的適用于大規(guī)模論文匹配的原型系統(tǒng)和公開數(shù)據(jù)集介紹。最后,第七節(jié)總結(jié)全文。

        1 相關(guān)工作

        本節(jié)介紹數(shù)據(jù)集成方面的相關(guān)工作。數(shù)據(jù)集成是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)經(jīng)典問題,它與實(shí)體匹配、數(shù)據(jù)庫(kù)去重、同名消歧等問題密切相關(guān)。數(shù)據(jù)集成從根本上來講是實(shí)體匹配問題,是要判斷不同數(shù)據(jù)源中兩個(gè)實(shí)體是否本質(zhì)上是同一個(gè)實(shí)體。關(guān)于數(shù)據(jù)集成的綜述可以參見文獻(xiàn)[5-6]。下面,我們分類介紹數(shù)據(jù)集成方法。

        1.1 基于規(guī)則的方法

        基于規(guī)則的匹配方法是指: 根據(jù)人類專家設(shè)計(jì)或訓(xùn)練數(shù)據(jù)生成的多條匹配規(guī)則,對(duì)其進(jìn)行組合(如邏輯操作、優(yōu)先級(jí)設(shè)定等),來構(gòu)造復(fù)雜的匹配條件,根據(jù)匹配條件得到最終的結(jié)果。

        舉一個(gè)簡(jiǎn)單的例子,下面的偽代碼展示了根據(jù)姓名(name)和機(jī)構(gòu)(aff)兩種規(guī)則匹配專家的方法。

        FORALL(e1,e2)in EXPERTS IF e1.name=e2. name AND e1.aff is similar to e2. aff THEN r1 matches r2 ELSE r1 doesnt match r2

        Li等人[7]用基于規(guī)則的方法來解決實(shí)體識(shí)別的問題。他們認(rèn)為,用基于相似度的方法來判別兩個(gè)實(shí)體是否為同一個(gè)實(shí)體在實(shí)際應(yīng)用中不一定奏效,由于數(shù)據(jù)異構(gòu)等問題,實(shí)際上為同一個(gè)實(shí)體的兩個(gè)實(shí)體不一定能計(jì)算出比較高的相似度。因此,他們采用基于規(guī)則的方法并且提出了一個(gè)高效的規(guī)則發(fā)現(xiàn)算法。

        人工參與規(guī)則設(shè)計(jì)和規(guī)則組合需要較高的人力成本,因此,更加實(shí)用且可擴(kuò)展性強(qiáng)的方式是采用由數(shù)據(jù)生成的匹配規(guī)則,然后自動(dòng)調(diào)整為合適的規(guī)則組合方式。

        1.2 監(jiān)督/半監(jiān)督學(xué)習(xí)方法

        監(jiān)督學(xué)習(xí)方法要求訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)為有標(biāo)注數(shù)據(jù),即已知哪些實(shí)體是匹配的,哪些實(shí)體是不匹配的,如Tang等人[8]將實(shí)體匹配問題轉(zhuǎn)化為最小化貝葉斯決策風(fēng)險(xiǎn)的問題,能夠得到一對(duì)一或者一對(duì)多的匹配結(jié)果。

        然而,實(shí)際應(yīng)用中難以找到大量的標(biāo)注數(shù)據(jù),因此,有些方法同時(shí)利用了訓(xùn)練數(shù)據(jù)集中的標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù),采用半監(jiān)督學(xué)習(xí)方法來學(xué)習(xí)匹配模型。如,Rong等人[9]把實(shí)體匹配問題轉(zhuǎn)化為實(shí)體對(duì)的二分類問題。他們還利用了遷移學(xué)習(xí)的方法,充分利用已有的匹配好的實(shí)體對(duì),來減少需要標(biāo)注的數(shù)據(jù)。具體方法如下: ①預(yù)匹配: 采用關(guān)鍵詞過濾一些不可能匹配的實(shí)體對(duì),得到待匹配的實(shí)體對(duì)。②計(jì)算相似度向量: 計(jì)算實(shí)體對(duì)各屬性之間的相似度,相似度向量中包含了不直接對(duì)應(yīng)的屬性之間的相似度,捕捉了它們語義上可能的相似性。③訓(xùn)練分類器:利用遷移學(xué)習(xí)的方法,對(duì)相似度向量訓(xùn)練分類器進(jìn)行預(yù)測(cè)。

        1.3 無監(jiān)督學(xué)習(xí)方法

        無監(jiān)督學(xué)習(xí)方法不需要對(duì)數(shù)據(jù)集中實(shí)體是否匹配進(jìn)行標(biāo)注,往往可以適應(yīng)更多的數(shù)據(jù)集成場(chǎng)景。如Liu等人[10]巧妙地利用人名的唯一性度量函數(shù)作為弱監(jiān)督信息,將用戶屬性、用戶生成的文檔,以及用戶在不同網(wǎng)絡(luò)中的活動(dòng)集成到一個(gè)學(xué)習(xí)框架中,提出了一個(gè)跨網(wǎng)絡(luò)實(shí)體匹配的無監(jiān)督算法。

        1.4 利用神經(jīng)網(wǎng)絡(luò)的方法

        近來,有一些實(shí)體匹配的工作利用了神經(jīng)網(wǎng)絡(luò)來提升匹配效果[11-12]。Sun等人[13]利用神經(jīng)網(wǎng)絡(luò)來研究實(shí)體消歧問題,他們將描述實(shí)體的變長(zhǎng)字符串編碼在一個(gè)連續(xù)的向量空間中。Hu等人[14]研究?jī)蓚€(gè)句子語義上的匹配問題。他們利用了卷積神經(jīng)網(wǎng)絡(luò)來建模兩個(gè)句子的相似性。該模型可以表示出句子的語法結(jié)構(gòu),以及盡可能捕捉到句子間豐富的匹配模式。

        2 問題定義

        令G1={V1,R1},G2={V2,R2}表示兩個(gè)不同數(shù)據(jù)源的論文網(wǎng)絡(luò)(比如DBLP和ACM Digital Library)其中,V1={v1,v2,…,vN1}和V2={u1,u2,…,uN2} 代表論文集合。R1和R2代表論文的屬性矩陣,包括論文題目、作者列表等屬性。

        論文匹配算法有兩個(gè)設(shè)計(jì)目標(biāo): 快速而準(zhǔn)確。 在下面兩節(jié)中,我們提出了兩個(gè)論文匹配算法,第一個(gè)算法MHash利用哈希算法來加速匹配過程,該算法可以適應(yīng)大規(guī)模論文匹配場(chǎng)景;第二個(gè)算法MCNN利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來提高匹配準(zhǔn)確率,它可以克服不同數(shù)據(jù)源數(shù)據(jù)異構(gòu)的問題。

        3 基于哈希學(xué)習(xí)的論文匹配算法(MHash)

        本節(jié)介紹一個(gè)快速的論文匹配算法(MHash),它可以用于在線匹配論文。該算法是一個(gè)無監(jiān)督算法,它包括兩個(gè)步驟: 特征構(gòu)造和哈希算法。算法流程如圖1所示。

        3.1 特征構(gòu)造

        特征構(gòu)造的目標(biāo)是把輸入的文本數(shù)值化,具體地,我們的目標(biāo)是將長(zhǎng)度變化的文本轉(zhuǎn)化為固定長(zhǎng)度的特征向量。同時(shí),這些特征向量要能捕捉到文本的結(jié)構(gòu)和語義信息。為方便起見,在下文中,我們將該步驟構(gòu)造的特征稱之為中間特征。在匹配過程中,我們用到的論文屬性有: 論文題目、作者列表、發(fā)表會(huì)議(或期刊)、發(fā)表年份。下面,我們將各屬性簡(jiǎn)稱為: 題目、作者列表、會(huì)議、年份。表1總結(jié)了不同屬性的特征構(gòu)造方法,下面我們依次詳細(xì)地介紹各屬性的特征構(gòu)造方法。

        圖1 基于哈希學(xué)習(xí)的論文匹配算法流程圖

        表1 中間特征構(gòu)造

        題目是最富有變化的論文屬性,因?yàn)樗拈L(zhǎng)度和內(nèi)容都可以有較大的變化。題目特征的構(gòu)造采用了Doc2Vec[15]。它可以把變化長(zhǎng)度的文本轉(zhuǎn)化為固定長(zhǎng)度的向量表示。Doc2Vec是由Word2Vec衍生而來。Word2Vec是一個(gè)兩層(淺層)的神經(jīng)網(wǎng)絡(luò)模型,它利用單詞的上下文關(guān)系來學(xué)習(xí)單詞的向量表示。因此,語義上相近的兩個(gè)單詞,若它們的上下文通常是相同的單詞,則它們的向量表示會(huì)很相近。比如,“via”的向量表示可能和“by”相近。在Doc2Vec模型中,每個(gè)文檔(doc)會(huì)額外引入一個(gè)“文檔向量”。它可以被看作是文檔中潛在的一個(gè)具有代表性的單詞,或者說是文檔的主題?!拔臋n向量”和文檔中的單詞向量被一起輸入神經(jīng)網(wǎng)絡(luò)。Doc2Vec適合于構(gòu)造論文題目特征,因?yàn)樵诓煌瑪?shù)據(jù)源中同一篇論文的題目經(jīng)常有絕大部分單詞是相同的,而Doc2Vec可以捕捉題目中單詞的語義信息。在該步驟后,我們用T=[τ1,τ2,…,τN]T∈RN×d1來表示論文題目的中間特征。

        對(duì)于論文的其他特征,輸出的中間特征是二值編碼。在表1的第2~3行,二值編碼的每一位映射到字母“a”到“z”,若該字母出現(xiàn)過,則對(duì)應(yīng)位置為1,否則為0。在最后一行,所得的差代表二值編碼中從右往左連續(xù)出現(xiàn)的“1”的個(gè)數(shù),二值編碼最右端均為1,最左端均為0。這些二值特征忽略了原始文本中單詞的順序,因?yàn)槲谋局袉卧~的順序是可以改變的。例如,作者姓名有多種不同的表示方式。Tomas Mikolov和Mikolov,T這兩種表示即改變了單詞順序。同時(shí),這種提取特征的方法捕捉了屬性中最重要的信息,比如,對(duì)于會(huì)議來說,提取大寫字母解決了會(huì)議名稱縮寫帶來的數(shù)據(jù)異構(gòu)問題。我們用A∈{-1,+1}N×b2,V∈{-1,+1}N×b3y∈{-1,+1}N×b4,來表示作者列表,會(huì)議,年份的間特征。

        3.2 哈希算法

        題目的中間特征是高維的實(shí)值向量。實(shí)值向量的缺點(diǎn)有: 計(jì)算復(fù)雜度高和存儲(chǔ)開銷大。因此,我們利用哈希算法來把實(shí)值向量轉(zhuǎn)化為二值編碼,以此來減少計(jì)算開銷和存儲(chǔ)開銷。

        哈希算法分為兩類: 數(shù)據(jù)獨(dú)立方法和數(shù)據(jù)依賴方法(即哈希學(xué)習(xí)方法)[16]。它們都是把數(shù)據(jù)從原始的高維空間通過哈希函數(shù)映射到低維的漢明空間。對(duì)于數(shù)據(jù)獨(dú)立方法,哈希函數(shù)是隨機(jī)產(chǎn)生或者手工構(gòu)造的,所以說哈希函數(shù)和數(shù)據(jù)是獨(dú)立的。對(duì)于數(shù)據(jù)依賴方法,哈希函數(shù)是根據(jù)原始數(shù)據(jù)學(xué)習(xí)得到的,不同的原始數(shù)據(jù)可能學(xué)習(xí)出不同的哈希函數(shù)。

        局部敏感哈希(LSH)[17]是一種數(shù)據(jù)獨(dú)立方法。它已經(jīng)廣泛應(yīng)用于高效的近似最近鄰搜索問題(ANN)中。它所采用的哈希函數(shù)是隨機(jī)產(chǎn)生的,能夠保證: 如果兩個(gè)向量在原始空間是相近的,那么它們有很大概率被映射到同一個(gè)二值編碼。

        LSH可以保持?jǐn)?shù)據(jù)在原空間的相似度,我們首先定義度量原空間相似度的方法為余弦相似度(cosine similarity),如式(1)所示。

        (1)

        研究表明隨機(jī)投影能夠保持向量的余弦相似度[18]。在實(shí)驗(yàn)部分5.2節(jié)中也會(huì)展示這一點(diǎn): 題目中間特征的相似度可以被LSH保持。我們將哈希函數(shù)定義如式(2)所示。

        h(τ)=sign(τ·W)

        (2)

        在這里,W∈Rd1×b1是投影矩陣,矩陣中的每個(gè)元素獨(dú)立從高斯分布中采樣得到。經(jīng)過哈希之后,矩陣T被轉(zhuǎn)換為C=[h(τ1),h(τ2),…,h(τN)]∈{-1,+1}N×b1。此外,我們還可以使用不同的哈希算法,比如數(shù)據(jù)依賴方法。哈希算法的目標(biāo)是將中間的實(shí)值向量轉(zhuǎn)化為二值編碼,并盡可能保持實(shí)值向量的相似性,數(shù)據(jù)獨(dú)立方法和數(shù)據(jù)依賴方法都可以達(dá)到這個(gè)目標(biāo)。除LSH外,我們還嘗試了無監(jiān)督的數(shù)據(jù)依賴方法SGH[19]。

        下面我們考慮如何結(jié)合論文的各個(gè)屬性。由于我們獲得了論文各屬性的二值編碼,一個(gè)直觀的辦法是將它們拼接起來,作為論文的二值編碼。實(shí)驗(yàn)證明結(jié)合后的論文編碼匹配效果優(yōu)于只使用單個(gè)屬性的效果。于是,我們得到了基于哈希算法的無監(jiān)督論文匹配算法。

        4 基于卷積神經(jīng)網(wǎng)絡(luò)的論文匹配算法(MCNN)

        本節(jié)介紹基于卷積神經(jīng)網(wǎng)絡(luò)的論文匹配算法,設(shè)計(jì)該算法的目的在于希望獲得較高的匹配準(zhǔn)確率。該算法的思想是:將論文匹配問題看成是計(jì)算成對(duì)論文的相似度的問題。因此,可以將論文匹配分為兩個(gè)步驟: ①預(yù)匹配: 過濾得到可能匹配的論文對(duì)。②計(jì)算論文對(duì)之間的相似度,進(jìn)而得到匹配結(jié)果。

        該算法需要進(jìn)行預(yù)匹配的原因是: 為了獲得較高的匹配準(zhǔn)確率,需要更為精細(xì)地計(jì)算論文相似度。因此,計(jì)算每對(duì)論文的時(shí)間開銷較大。如果逐一計(jì)算兩個(gè)數(shù)據(jù)源中每對(duì)論文的相似度,對(duì)于平方級(jí)別O(|V1||V2|)的復(fù)雜度,總計(jì)算開銷會(huì)特別大。因此我們先進(jìn)行預(yù)匹配,過濾掉大量匹配可能性很低的論文對(duì)。

        對(duì)于相似度計(jì)算,受文獻(xiàn)[12]啟發(fā),我們將兩篇論文u,v看成兩串文本text1,text2,不是直接計(jì)算出一個(gè)相似度得分,而是先根據(jù)兩個(gè)文本中單詞的相似度構(gòu)造出一個(gè)相似度矩陣M,然后利用CNN捕捉文本間相似度的模式,最后輸出一個(gè)相似度得分。具體地,相似度計(jì)算可以分為以下三步。

        4.1 構(gòu)造相似度矩陣

        首先,我們需要選擇構(gòu)造相似度矩陣的文本。對(duì)于論文來說,可以選擇論文題目。同時(shí),為了結(jié)合論文的各個(gè)屬性,可以添加作者列表、會(huì)議等屬性。在實(shí)驗(yàn)部分5.2節(jié)可以看到,該算法可以比較容易結(jié)合各種屬性,利用論文的更多信息來計(jì)算出更準(zhǔn)確的相似度得分。在本節(jié)中,我們以論文題目舉例。

        我們截取論文題目的前l(fā)個(gè)單詞,設(shè)text1={α1,α2,…,αl},text2={β1,β2,…,βl}。定義兩個(gè)單詞之間的相似度如式(3)所示。

        sij=αi?βj

        (3)

        圖2 兩個(gè)文本的相似度矩陣M,網(wǎng)格中的顏色越接近白色,表示相似度值越大

        4.2 CNN模型

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像識(shí)別領(lǐng)域已經(jīng)取得了巨大成功。和圖像類似,相似度矩陣也是一個(gè)二維矩陣。因此,我們將相似度矩陣M作為CNN模型的輸入z0=M。網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)如下: 第一層對(duì)輸入矩陣進(jìn)行卷積操作。第一層的第n個(gè)神經(jīng)元計(jì)算過濾器(filter)ω(1,k)和矩陣中各個(gè)小區(qū)域的卷積。然后將每個(gè)卷積得到的值用一個(gè)激活函數(shù)δ對(duì)特征進(jìn)行非線性映射,如式(4)所示。

        (4)

        式(4)中,rn表示第n個(gè)過濾器的大小,θ(1,n)表示第n個(gè)過濾器的偏置項(xiàng)。在該層中,我們使用多個(gè)過濾器來捕捉不同模式的相似度。比如,在圖3中,過濾器A可以捕捉兩個(gè)文本中單詞順序的相似度,如“(cat likes dog)-(cat enjoys dog)”,然而過濾器B可以捕捉兩個(gè)文本中單詞亂序的相似度,如“(cat and log)-(dog and cat)”。

        第二層對(duì)第一層的輸出z(1,n)進(jìn)行池化(pool-ing)操作,用來減少特征表示的大小和參數(shù)的數(shù)量。池化操作對(duì)第一層每個(gè)神經(jīng)元的輸出獨(dú)立進(jìn)行操作,這里采用的池化操作是最大化操作。形式上,第二層網(wǎng)絡(luò)的輸出z(2,n)可以表示為式(5)。

        (5)

        式(5)中,rn表示第n個(gè)池化過濾器的大小。在經(jīng)過前兩層處理后,我們繼續(xù)進(jìn)行多層卷積和池化操作,來捕捉更高階的特征。

        圖3 示例

        在卷積層利用不同的過濾器(filter),可以捕捉不同模式的相似度。左邊的相似矩陣M和圖2中的矩陣相同。

        (6)

        (7)

        在式(6)中,ck代表第k層過濾器的個(gè)數(shù)。

        我們使用多層感知機(jī)(MLP)來輸出最終的相似度得分。具體地,我們使用了兩個(gè)全連接層來得到相似度向量,如式(8)所示。

        (s0,s1)T=W2δ(W1·z+θ1)+θ2

        (8)

        在這里s0表示不相似度,s1表示相似度。Wi和θi是第i個(gè)全連接層的過濾器和偏置項(xiàng),δ表示激活函數(shù)。在實(shí)驗(yàn)中,我們采用ReLU[21]作為所有卷積層和全連接層的激活函數(shù)。ReLU比sigmoid,tanh等激活函數(shù)能產(chǎn)生更準(zhǔn)確的結(jié)果,而且收斂更快。整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)可參見圖4。

        4.3 訓(xùn)練方法

        我們用softmax來表示屬于每一類(匹配或不匹配)的概率,以及用交叉熵作為優(yōu)化的目標(biāo)函數(shù)。因此,優(yōu)化目標(biāo)可以寫成式(9)。

        (9)

        式(9)中,y(i)表示第i對(duì)訓(xùn)練樣本的標(biāo)簽。

        我們用反向傳播算法(back-propagation)來求解神經(jīng)網(wǎng)絡(luò)的參數(shù)。訓(xùn)練方法采用了隨機(jī)梯度下降的變體Adagrad[22]和mini-batch策略。在網(wǎng)絡(luò)的倒數(shù)第二層,我們采用了dropout來避免隱層神經(jīng)元的互相適應(yīng)。

        圖4 CNN模型網(wǎng)絡(luò)結(jié)構(gòu)圖

        5 方法評(píng)測(cè)和實(shí)驗(yàn)結(jié)果

        5.1 實(shí)驗(yàn)設(shè)置

        數(shù)據(jù)集: 在現(xiàn)實(shí)應(yīng)用中,很難在不同數(shù)據(jù)源找到大量匹配的(有標(biāo)記的)論文對(duì)。此外,在真實(shí)匹配的例子中,大部分論文各屬性都比較相似。因此,為了更好地評(píng)估我們的方法,我們?nèi)斯?gòu)造了兩個(gè)數(shù)據(jù)集,原始論文集和噪聲論文集。原始數(shù)據(jù)集大小為5萬篇,從AMiner論文庫(kù)中收集得到,每篇論文保留了四個(gè)屬性: 題目、作者列表、會(huì)議和年份。噪聲數(shù)據(jù)集是對(duì)原始數(shù)據(jù)集中的每篇論文加噪聲生成的。從而,加噪聲前后的論文自然形成了一對(duì)匹配的論文,避免了人工標(biāo)注。我們首先統(tǒng)計(jì)了已知匹配論文的匹配難點(diǎn),加噪聲的方法是根據(jù)統(tǒng)計(jì)結(jié)果設(shè)計(jì)的。匹配難點(diǎn)有:論文題目中的多個(gè)單詞被錯(cuò)誤結(jié)合成一個(gè)單詞,作者姓名的格式有全名和縮寫姓名等。

        對(duì)比方法

        ?Keywords(KeyII)。該方法基于題目的關(guān)鍵詞和作者列表相似度找匹配的論文。實(shí)現(xiàn)時(shí)取論文題目的前w個(gè)單詞構(gòu)建倒排索引。根據(jù)論文題目索引到關(guān)鍵詞相同的論文列表后,將論文列表按照作者的相似度排序。計(jì)算作者相似度時(shí),先將作者列表author_list連接為一個(gè)字符串str(author_list),然后根據(jù)兩個(gè)字符串中共同出現(xiàn)的字母數(shù)量來計(jì)算,如式(10)所示。

        (10)

        ?Doc2Vec。該方法我們?cè)?.1小節(jié)介紹過。使用Doc2Vec時(shí),我們采用Gensim[23]中的doc2vec模型訓(xùn)練大量的論文語料[注]數(shù)據(jù)集可訪問https://aminer.org/citation.。在該方法中,我們使用了“論文題目”一個(gè)屬性。論文的相似度通過余弦相似度度量。

        ?MLSH。該方法先用Doc2Vec得到題目中間特征,然后用LSH將中間特征映射為二值編碼。論文的相似度通過漢明距離度量。

        ?MLSH++。該方法在MLSH的基礎(chǔ)上,結(jié)合了“題目”之外的其他屬性。

        ?MSGH。該方法先用Doc2Vec得到題目中間特征,然后用SGH將中間特征映射為二值編碼。

        ?MSGH++。該方法在MSGH的基礎(chǔ)上,結(jié)合了“題目”之外的其他屬性。

        ?MCNN。該方法的訓(xùn)練語料和Doc2Vec相同,用Word2Vec模型訓(xùn)練得到單詞的向量表示。訓(xùn)練的正例為加噪聲前后的論文對(duì),訓(xùn)練的負(fù)例從不匹配的論文對(duì)中采樣生成。采樣方法是: 根據(jù)各屬性(題目、作者等),找到和論文u的某一屬性最相似且不匹配的論文u′。在CNN模型中,只利用了論文題目這個(gè)屬性,取題目的前7個(gè)單詞(l=7)構(gòu)造相似度矩陣。

        ?MCNN++。該方法在MCNN的基礎(chǔ)上,增加了“作者列表”屬性。取一篇論文的前兩個(gè)作者,在他們的姓名中取姓和名的首字母作為特征。即構(gòu)造大小為11×11的相似度矩陣(l=11)。

        (11)

        在式(11)中,‖表示指示函數(shù)。

        5.2 評(píng)估結(jié)果

        表2比較了各個(gè)論文匹配算法的準(zhǔn)確率@topK??梢钥闯?,相比于基于題目關(guān)鍵詞的方法KeyII,Doc2Vec能更好地、完整地保持題目的語義信息,從而匹配得到更好的結(jié)果?;诠5钠ヅ渌惴∕LSH,MSGH會(huì)損失一些匹配精度,但是可以提高匹配速度。在結(jié)合作者列表、會(huì)議等屬性后,MLSH++,MSGH++能夠有比較大的準(zhǔn)確率提升。同時(shí),可以發(fā)現(xiàn),MLSH++,MSGH++的準(zhǔn)確率非常接近,說明此時(shí)題目的重要性已經(jīng)被弱化,作者列表、會(huì)議和年份等屬性對(duì)匹配起了非常重要的作用。對(duì)于Doc2Vec,MLSH,MSGH這幾個(gè)方法,題目完全相同的論文會(huì)被映射成為完全相同的特征,這也是它們比KeyII表現(xiàn)更好的原因之一。

        對(duì)于基于CNN的匹配算法MCNN和MCNN++,他們的準(zhǔn)確率比其他所有方法都高??梢?,基于相似矩陣,這兩個(gè)算法利用CNN捕捉了論文之間更為精細(xì)的匹配模式,尤其是結(jié)合作者列表后,MCNN++可以得到非常高的準(zhǔn)確率。但是基于CNN的方法由于需要構(gòu)造相似矩陣,經(jīng)過多層神經(jīng)網(wǎng)絡(luò)的計(jì)算,計(jì)算開銷也是所有方法中最大的。

        表2 論文匹配的準(zhǔn)確率 @topK/%

        6 原型系統(tǒng)與公開數(shù)據(jù)集

        本節(jié)試圖把論文匹配的問題擴(kuò)展到大規(guī)模場(chǎng) 景,在真實(shí)場(chǎng)景下匹配兩個(gè)大規(guī)模論文庫(kù)。

        6.1 論文匹配框架

        為了較快地獲得大量論文的匹配結(jié)果,結(jié)合實(shí)際情況下目前我們對(duì)兩個(gè)論文庫(kù)所擁有的權(quán)限:G1中的論文可以通過API訪問,G2中的全部論文可以通過數(shù)據(jù)庫(kù)訪問,因此,我們?cè)O(shè)計(jì)了一個(gè)針對(duì)大規(guī)模論文匹配的異步搜索框架。下面我們分模塊對(duì)該框架進(jìn)行介紹。

        ?數(shù)據(jù)庫(kù)讀?。?由于論文總數(shù)達(dá)到上億級(jí)別,我們成塊(batch)從G2中讀取論文進(jìn)行處理,在實(shí)驗(yàn)中,每塊的數(shù)量batch_size=100 000。

        ?單篇論文搜索: 對(duì)于G2中的每篇論文u,我們根據(jù)它的題目titleu在G1中用API進(jìn)行搜索。我們發(fā)現(xiàn)G1中搜索論文題目的API有兩個(gè),一個(gè)專門給用戶提供的API服務(wù)(稱為API-A),另一個(gè)用于線上搜索(稱為API-B)。他們的性質(zhì)如下:

        使用這兩個(gè)API 時(shí),我們先去除題目中的特殊字符,根據(jù)題目搜索到可能匹配的論文,返回每篇論文的題目、作者列表、會(huì)議、年份。由于這兩個(gè)API各有優(yōu)劣,在G1中搜索G2的一篇論文時(shí),我們先用API-A進(jìn)行搜索,它能較快返回匹配結(jié)果;在API-A搜不到相應(yīng)結(jié)果時(shí),再用API-B搜索,API-B可以返回比較全的匹配結(jié)果。

        ?多篇論文搜索: 我們對(duì)成塊讀取的論文批量進(jìn)行搜索。由于對(duì)API的請(qǐng)求次數(shù)頻繁,我們?cè)O(shè)計(jì)了一個(gè)代理池,每篇論文用不同的代理進(jìn)行請(qǐng)求,代理選擇方法是隨機(jī)從代理池中選擇。當(dāng)一個(gè)代理失效時(shí),它會(huì)從代理池中去除。當(dāng)代理池中的代理數(shù)量小于初始數(shù)量的1/10時(shí),更新代理池中代理的數(shù)量為初始數(shù)量。我們對(duì)不同的論文異步進(jìn)行搜索,這樣可以使不同論文的匹配并行進(jìn)行。

        ?匹配策略: 該匹配策略非常嚴(yán)格,目的是產(chǎn)生一批高度匹配的論文對(duì)。具體地,我們將請(qǐng)求返回結(jié)果中各論文的題目、作者列表、年份和被搜索論文進(jìn)行比較。當(dāng)兩篇待匹配的論文有非常相似的題目、相同數(shù)量的作者、相似的作者名字及相同的發(fā)表年份時(shí),認(rèn)為兩者匹配。上述匹配條件中,模糊匹配通過編輯距離[注]https: //en.wikipedia.org/wiki/Levenshtein_distance.來實(shí)現(xiàn)。

        6.2 方法評(píng)測(cè)和實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)設(shè)置:G2的論文庫(kù)來自AMiner經(jīng)過論文去重后的數(shù)據(jù)庫(kù),在經(jīng)過簡(jiǎn)單的預(yù)處理后(去除論文庫(kù)中的噪聲),G2中待匹配的論文總數(shù)為: 154 771 162篇。G1的論文來自MAG。所有實(shí)驗(yàn)用Python實(shí)現(xiàn),實(shí)驗(yàn)平臺(tái)為Intel(R) Xeon(R) CPU E5-4650 0@ 2.70GHz 32 cores and 500GB RAM Linux Server。

        實(shí)驗(yàn)結(jié)果: 實(shí)驗(yàn)使用了兩個(gè)版本的論文匹配框架同時(shí)進(jìn)行匹配,在15天內(nèi)遍歷了G2中論文數(shù)據(jù)庫(kù)一趟。得到64 639 608對(duì)論文匹配結(jié)果。我們隨機(jī)抽取了100 000對(duì)匹配結(jié)果進(jìn)行人工標(biāo)注,得到匹配正確的論文對(duì)有99 699對(duì),匹配準(zhǔn)確率為99.70%。同時(shí),我們存儲(chǔ)了所有的論文查詢結(jié)果: 共113 487 083條。實(shí)驗(yàn)結(jié)果說明: 有57.00%的論文可以通過嚴(yán)格的匹配策略匹配成功。此外,我們還記錄了請(qǐng)求有返回結(jié)果但是匹配失敗的論文: 共38 651 737篇,這些論文的匹配存在三種情況: ①確實(shí)在G1中找不到匹配結(jié)果; ②請(qǐng)求API時(shí)出現(xiàn)異常,返回為空,實(shí)際可能存在匹配結(jié)果; ③查詢結(jié)果不為空,但是用當(dāng)前的策略匹配不到結(jié)果,但實(shí)際上有匹配的論文。論文匹配結(jié)果已作為公開數(shù)據(jù)集發(fā)布。

        6.3 公開數(shù)據(jù)集

        該公開數(shù)據(jù)集[注]https://www.openacademic.ai/oag(https://aminer.org/open-academic-graph)包括來自AMiner和MAG的64 639 608對(duì)論文的匹配結(jié)果,以及AMiner和MAG的全部論文數(shù)據(jù),共約300 000 000篇論文。具體包括154 771 162篇來自AMiner的論文和166 192 182篇來自MAG的論文。匹配數(shù)據(jù)給出了AMiner和MAG匹配論文ID的對(duì)應(yīng)關(guān)系。論文數(shù)據(jù)涵蓋了全面的論文屬性,如論文題目、作者列表、摘要、引用關(guān)系等。該數(shù)據(jù)集可用于研究引用關(guān)系網(wǎng)絡(luò)、論文內(nèi)容挖掘、大規(guī)模學(xué)術(shù)圖譜集成等。

        7 結(jié)論和展望

        本文研究異構(gòu)數(shù)據(jù)源的論文集成問題。我們提出兩個(gè)論文匹配算法:第一個(gè)算法MHash利用哈希算法來加速論文匹配,第二個(gè)算法利用卷積神經(jīng)網(wǎng)絡(luò)來提高匹配準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明:結(jié)合論文的各種屬性,MHash能夠同時(shí)得到較快的匹配速度和較高的匹配準(zhǔn)確率(93%+),而MCNN能夠得到非常高的匹配準(zhǔn)確率(98%+)。同時(shí),我們?cè)O(shè)計(jì)了一個(gè)大規(guī)模論文匹配原型系統(tǒng):對(duì)于論文匹配,該系統(tǒng)在15天內(nèi)得到了64 639 608對(duì)AMiner和MAG論文的匹配結(jié)果。匹配結(jié)果和AMiner、MAG的全部論文數(shù)據(jù)已作為公開數(shù)據(jù)集發(fā)布。

        致謝本課題承蒙微軟亞洲研究院資助。

        猜你喜歡
        單詞方法
        What’s This?
        Exercise 1
        單詞連一連
        學(xué)習(xí)方法
        看圖填單詞
        看完這些單詞的翻譯,整個(gè)人都不好了
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        亚洲精品久久久久成人2007| 精品视频一区二区在线观看| 亚州av高清不卡一区二区| 成人丝袜激情一区二区| 少妇放荡的呻吟干柴烈火动漫| 国产爆乳乱码女大生Av| 亚洲视频一区二区蜜桃| 成人国产激情自拍视频| 男ji大巴进入女人的视频小说| 中国一级毛片在线观看| 亚洲愉拍自拍视频一区| 久久精品国产av麻豆五月丁| 国自产精品手机在线观看视频 | 日韩精品一级在线视频| 日本在线一区二区三区不卡| 特级无码毛片免费视频尤物| 亚洲AV无码成人品爱| 一区二区三区夜夜久久| 成人午夜高潮a∨猛片| 日本阿v网站在线观看中文| 免费一级欧美大片久久网| 国产精品久久婷婷六月丁香| 欧美综合天天夜夜久久| 亚洲国产精品久久久久久久| 日韩精品免费在线视频| 国产日产在线视频一区| 桃花影院理论片在线| 亚洲国产精品自产拍久久蜜AV| 亚洲二区精品婷婷久久精品| 免费不卡无码av在线观看| 国产色综合天天综合网| 亚洲成a人片在线观看中| 丰满人妻中文字幕一区三区| 久久精品国产网红主播| 国产美女一级做a爱视频| 亚洲成在人线天堂网站| 久久久久无码国产精品一区| 中国精品久久精品三级| 国产精品国产三级在线专区| 亚洲国产精品一区二区成人片国内| 日日躁夜夜躁狠狠久久av|