亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT和GCN的引文推薦模型

        2021-01-15 08:31:30查云杰
        計算機應用與軟件 2021年1期
        關(guān)鍵詞:編碼器長度論文

        查云杰 汪 洋

        1(南京烽火天地通信科技有限公司 江蘇 南京 210000) 2(武漢郵電科學研究院 湖北 武漢 430074) 3(南京烽火星空通信發(fā)展有限公司 江蘇 南京 210000)

        0 引 言

        隨著科學論文發(fā)表數(shù)量的巨大增長,在撰寫科學論文的同時尋找參考文獻并標注是一個繁瑣的過程,研究根據(jù)上下文在句中適當位置添加引用的技術(shù)是很有實用價值的。上下文感知引文推薦的研究已有近20年,許多研究者利用圍繞引文標簽的文本數(shù)據(jù),即上下文句子,以及目標論文的元數(shù)據(jù)來尋找合適的被引文獻。然而,由于缺乏良好的基準數(shù)據(jù)集和高性能的模型,使得該技術(shù)的研究進展緩慢。

        He等[2]在第19屆萬維網(wǎng)國際會議上提出一種解決方案,通過占位符自動找到被引用的信息,即引文周圍的文本可以用作占位符,稱為“上下文感知的引用推薦”,占位符兩邊的句子稱為“上下文”。上下文感知的引文推薦任務(wù)是一種監(jiān)督分類,可根據(jù)內(nèi)容選擇合適的論文作為占位符。除了上下文,它還考慮了科學文獻的特征,使用了作者、標題、引文和期刊(或會議名稱)等,這些都是科學論文的元數(shù)據(jù)或文獻計量學[2-6]。近年來,使用深度神經(jīng)網(wǎng)絡(luò)來解決此類問題的嘗試越來越多[7-9]。

        解決該問題最棘手的一個方面是沒有可以用來衡量適當性能的基準數(shù)據(jù)集。通常,該任務(wù)需要使用元數(shù)據(jù)以及圍繞所引用論文的上下文。在常用數(shù)據(jù)中,ACL Anthology Network(AAN)數(shù)據(jù)集不提供預處理后的論文句子和元數(shù)據(jù),DBLP數(shù)據(jù)集只提供書目信息。在文獻[7]中,CiteseerX數(shù)據(jù)集只提供上下文和引文信息,沒有同時提供元信息。因此,相關(guān)研究未能使用相同的基準數(shù)據(jù)集。

        本文研究目的是提供一種適合上下文感知的論文推薦任務(wù)研究的數(shù)據(jù)集和現(xiàn)狀模型,進而為研究者提供一個改進的論文寫作環(huán)境。主要工作如下:首先,為該任務(wù)構(gòu)建可重復的基準數(shù)據(jù)集,并對現(xiàn)有的AAN數(shù)據(jù)集進行預處理[10-11],為了適應這一任務(wù),修改PeerRead[12]構(gòu)建新的數(shù)據(jù)集PeerReadPlus。其次,使用BERT[1]和圖卷積網(wǎng)絡(luò)(Graph Convolution Networks,GCN)[13]構(gòu)建任務(wù)模型。由于科學論文包含文本內(nèi)容數(shù)據(jù)和可以表示為圖形的元數(shù)據(jù),因此使用BERT進行自然語言處理。最后,通過實驗分析了影響任務(wù)效率的各種因素。

        1 建立數(shù)據(jù)集

        1.1 數(shù)據(jù)集概述

        本文通過修改現(xiàn)有數(shù)據(jù)集為上下文感知的引文推薦任務(wù)構(gòu)造了新的數(shù)據(jù)集AAN[10]和PeerReadPlus,這是PeerRead數(shù)據(jù)集[12]的擴展。AAN和PeerRead數(shù)據(jù)集具有組織良好的書目計量信息,PeerRead數(shù)據(jù)集主要提供頂級會議論文的同行評審,以及文獻計量信息。由于這兩個數(shù)據(jù)集都缺少引用上下文中的信息,所以這里的重點是使用元數(shù)據(jù)收集上下文信息,因此,需要重新處理AAN和PeerRead數(shù)據(jù)集來創(chuàng)建數(shù)據(jù)集。

        1.2 數(shù)據(jù)采集

        本文使用arXiv Vanity創(chuàng)建新的數(shù)據(jù)集。arXiv Vanity是一個可將基于LaTeX的PDF文件轉(zhuǎn)換為HTML文檔的站點。我們的目標是提取引文符號兩側(cè)的上下文信息,以及參考文獻信息。為此,通過arXiv Vanity將LaTeX解析為HTML,并使用正則表達式來匹配識別文檔中的引用符號,然后將引文符號兩側(cè)的句子存儲在一個包含參考文獻信息的數(shù)據(jù)庫中,把收集到的信息與現(xiàn)有元數(shù)據(jù)一起存儲,并將其構(gòu)建到新的數(shù)據(jù)庫中。

        由于LaTeX文檔的格式不一致,實際收集的數(shù)據(jù)是有噪聲的。在自動收集了必要的數(shù)據(jù)后,手動刪除噪聲數(shù)據(jù)。例如CiteSeerX庫中的文獻,與占位符對應的引用符號將留在上下文中,同時提供數(shù)據(jù)。占位符文本本身用于過度擬合學習,因此可以用來告訴正確的答案,即占位符可以作為預測的重要因素。

        1.3 靜態(tài)數(shù)據(jù)集

        構(gòu)建的數(shù)據(jù)集的靜態(tài)數(shù)據(jù)如表1所示。所提取的數(shù)據(jù)集比原始的AAN或PeerRead數(shù)據(jù)集的數(shù)量要少,因為需要去除不使用LaTeX或使用arXiv Vanity處理時噪聲很大的.pdf文件。表1中,總論文指的是不包括重復論文在內(nèi)的基礎(chǔ)論文和被引論文的總數(shù),基礎(chǔ)論文是引用了其他研究的論文,論文的元數(shù)據(jù)信息作為分類任務(wù)的輸入。另外,提取了引文符號兩側(cè)的段落單位,引用上下文是指提取的段落中句子數(shù)量的總和。

        表1 數(shù)據(jù)集內(nèi)容

        2 BERT-GCN模型

        2.1 模型概述

        這里使用BERT[1]和GCN[14]構(gòu)建上下文感知的引文推薦模型。BERT是NLP學習表示中性能最好的預訓練模型之一,本文通過預先訓練的BERT 來實現(xiàn)上下文句子的學習呈現(xiàn)。除了文本數(shù)據(jù)之外,論文還包含各種元數(shù)據(jù)。本文使用GCN模型來表示論文之間的引用關(guān)系,并提取論文的學習表示。

        如圖1所示,本文構(gòu)造了一個上下文編碼器來提取文本嵌入,使用BERT以及一個引文編碼器來從GCN提取圖形嵌入。利用上下文數(shù)據(jù)對每個編碼器進行預訓練,并從文中提取引文圖數(shù)據(jù)。然后將數(shù)據(jù)插入預訓練的模型中,并由每個編碼器計算連接的嵌入。最后,將連接后的向量傳遞給前饋神經(jīng)網(wǎng)絡(luò)(簡稱FFNN),生成Softmax輸出層,并采用交叉熵作為損失函數(shù)進行訓練。

        圖1 BERT+GCN模型架構(gòu)

        該模型的結(jié)構(gòu)與基準CACR[9]相關(guān)。CACR同時具有論文編碼器和引文上下文編碼器,使用AAN數(shù)據(jù)集和LSTM模型演示了SOTA作為最新的上下文感知引文推薦模型的性能,它通過作者、地點和論文的抽象信息構(gòu)造了一個論文文本編碼器,本文模型僅利用引文信息構(gòu)建了基于GCN的引文編碼器。

        2.2 引文編碼器

        引文編碼器對引文進行無監(jiān)督學習,將預測與基于GCN的變分圖自動編碼器(VGAE)模型[13]相連接,利用論文之間的引文關(guān)系作為輸入值。當將論文信息作為預處理的GCN的輸入時,該模型將關(guān)系學習表示作為嵌入向量返回。VGAE可以捕獲圖形數(shù)據(jù)的潛在學習表示。

        在現(xiàn)有的研究中,如何表達一篇論文的引文關(guān)系一直是個難題,因為Doc2Vec[15]在嵌入了對單個元信息的學習之后,被用來對論文信息進行編碼和總結(jié)。本文的引文編碼器通過使用引文鏈接預測信息作為引文預測功能來解決這個問題。

        2.3 圖卷積網(wǎng)絡(luò)層

        本模型中,GCN層的作用是通過卷積網(wǎng)絡(luò)抽象引文網(wǎng)絡(luò)圖信息。將GCN層作為VGAE的推理模型。VGAE的GCN層計算式為:

        (1)

        該模型由兩個GCN層組成。GCN層使用兩個矩陣作為輸入:單位矩陣X和鄰接矩陣A,矩陣大小為N×N,N是輸入論文的數(shù)量。通過第一個GCN層的學習,使用層參數(shù)W0作為第二層的權(quán)值矩陣,每一層都分層傳播擴展。

        (2)

        2.4 變分圖自編碼器

        如圖2所示,VGAE是將變分自編碼器[16]的無監(jiān)督學習方法應用于圖卷積神經(jīng)網(wǎng)絡(luò)模型。它通過最小化推理模型和生成模型之間的成本來學習潛在表示。損失函數(shù)L包括生成圖和原始圖之間的距離度量,以及節(jié)點表示向量分布和正態(tài)分布的KL散度兩部分,其計算式為:

        L=E|q(Z|X,A)[ logp(A|Z)]-KL[q(Z|X,A)‖p(Z)]

        (3)

        式中:E|q(Z|X,A)表示交叉熵函數(shù)。

        圖2 變分圖自編碼器的結(jié)構(gòu)

        VGAE推理層通過減少來自GCN層結(jié)果的正態(tài)分布與高斯正態(tài)分布之間的KL-散度損失來對表示矩陣Z進行學習,計算式為:

        (4)

        式中:μ=GCNμ(X,A)是特征向量的均值;logσ=GCNσ(X,A)是節(jié)點向量的方差。

        然后,生成層根據(jù)干涉層的表示矩陣Z學習鄰接矩陣。潛在變量zi和zj為i與j的內(nèi)積值,通過論文向量之間的內(nèi)積,根據(jù)潛在變量生成鄰接矩陣,如式(5)所示。生成模型通過減小其鄰接矩陣A與實際鄰接矩陣之間的差來定義表示矩陣Z。

        (5)

        3 實 驗

        3.1 實驗概述

        本文將提出的模型與現(xiàn)有SOTA模型之一的CACR[9]進行比較,重點放在性能上。實驗中使用了AAN和PeerReadPlus(PRP)數(shù)據(jù)集,并使用平均精度均值、倒數(shù)排序法(MRR)和Recall@K作為評估指標。實驗目的是考察模型的總體性能以及以下方面:

        (1) 將提出的模型與現(xiàn)有的SOTA(CACR模型)進行性能比較,以衡量BERT和GCN的性能優(yōu)于傳統(tǒng)模型。

        (2) 研究使用BERT和GCN模型之間的性能差異,用BERT表示文本數(shù)據(jù),用GCN表示圖形數(shù)據(jù),并分析每個模型對總體性能的影響。

        (3) 根據(jù)文本數(shù)據(jù)的長度來檢查模型的性能。當使用BERT時,檢查那些離引文符號較遠的句子是噪音還是有用的信息。

        (4) 根據(jù)聚合數(shù)據(jù)集中的論文出現(xiàn)量來度量性能的好壞。當特定論文很少被引用時,去觀察這個模型是怎樣執(zhí)行的。

        3.2 實驗設(shè)置

        (1) 實驗數(shù)據(jù)集。在實驗中,AAN數(shù)據(jù)集使用了2014年之前發(fā)布的數(shù)據(jù),而新建的PeerReadPlus數(shù)據(jù)集包含了2018年之前發(fā)布的論文數(shù)據(jù)。數(shù)據(jù)集分為兩部分:AAN數(shù)據(jù)集使用5 806篇2013年以前的論文作為訓練集,973篇2013年以前的論文作為測試集。PeerReadPlus數(shù)據(jù)集使用3 411篇2017年以前的論文作為訓練集,2 559篇2017年以后的論文作為測試集。然后,為了測試各種情況下的模型性能,進行了不同頻率、不同上下文長度的對比實驗。

        (2) 評價指標。對于實驗評估,本文使用MAP、MRR和Recall Top@K指標,這些是用于信息檢索的常用度量標準。MAP測量反映檢索列表的排名位置的平均精度,這個指標是基于K推薦列表對應的標簽值的位置,這里測量K=30的指標。MRR指示器的定義是識別推薦列表中實際標簽第一次出現(xiàn)的位置。最后,將Recall Top@K定義為Top@K推薦列表中實際標簽命中率的指示器。實驗通過K=5,10,30,50,80,100來評估召回率。

        (3) 參數(shù)設(shè)置。在獨立的學習過程中,從BERT層和GCN層中提取了嵌入的上下文向量和文檔向量。在BERT,多頭注意數(shù)為12,編碼器棧數(shù)為12,學習的epoch(訓練模型的迭代次數(shù))總數(shù)為30,批量大小為16,使用Adam優(yōu)化器。學習率為2e- 5,epsilon為1e- 6,beta1為0.9,beta2為0.999,權(quán)值衰減率為0.01。實驗將序列長度的最大值設(shè)置為128,如果長度小于128,則填充0,并且隱藏的大小為768。

        對于GCN,epoch的數(shù)量為200,第一個隱藏維度與文檔大小相同,第二個隱藏維度為768,批大小與總文檔大小相同(全批梯度下降),優(yōu)化器為Adam優(yōu)化器[17],學習率為0.01。

        3.3 實驗結(jié)果

        (1) 基準比較。如表2所示,與現(xiàn)有CACR相比,本文模型提供了顯著的性能改進。與SOTA模型相比,本文模型在MAP、MRR和Recall@K索引方面的性能大約提高了3倍。特別是Recall@5,即只有5篇檢索引文時,有顯著的改進。

        表2 上下文長度為50引文頻率大于5的性能測試結(jié)果

        實驗中,本文模型和CACR都只用于被引次數(shù)最少為5次的論文,學習方法是在引文符號兩邊同時考慮50個單詞。

        通過獨立地復制CACR論文中與Python相關(guān)的代碼來比較性能。在實際的論文中沒有詳細的實驗信息,如頻率等。由于沒有提到頻率,這里假設(shè)CACR論文中描述的性能是基于頻率為1得到的,將本文模型性能與CACR論文中所描述的性能進行比較,如表3所示。對于MAP、MRR和Recal@10,本文模型表現(xiàn)更好,但是當分類標簽值隨被引論文頻率變高時表現(xiàn)出在Recall@10之后性能不如CACR模型。

        表3 頻率為1時與CACR性能的比較

        (2) BERT和GNC的影響。當添加GCN后,模型的性能得到了提高,如圖3所示,實驗所使用數(shù)據(jù)集為ANN,文本長度100,頻率為5。

        圖3 BERT和GCN的效果

        (3) 上下文序列長度的影響。頻率為1時,各模型性能隨句子上下文長度的變化情況如圖4所示。當上下文長度達到或超過100時,上下文長度對模型性能的影響較小,說明性能與上下文句子的長度是相關(guān)的,但是超過一定的長度后,上下文長度對性能的影響就減小了。

        圖4 頻率為1時,性能隨句子上下文長度的變化

        (4) 論文被引頻次的影響。如表4所示引文頻率1、頻率3和頻率5的實驗結(jié)果表明,引文頻率越高,性能越好。一般而言,未被引用的論文不用于訓練,即使在測試時也可以作為稀疏數(shù)據(jù)處理。因此訓練數(shù)據(jù)應根據(jù)引文頻率進行細化,即用均勻包含不同頻率的數(shù)據(jù)對模型進行訓練,以獲得更優(yōu)性能。

        表4 基于引用論文頻率的性能變化比較

        4 結(jié) 語

        對于上下文感知的引文推薦研究,現(xiàn)有的數(shù)據(jù)集都不是最新的,也沒有明確的上下文檢測。為了解決這個問題,本文采用了PeerReadPlus數(shù)據(jù)集。該數(shù)據(jù)集包含了2017年以前的最新論文,提供了一種方便、準確的提取上下文元數(shù)據(jù)的方法,并且具有良好的組織視角。

        本文提出的上下文感知引文推薦任務(wù)模型在MAP、MRR和Recall@K方面相比現(xiàn)有模型有顯著改進。性能改進的基礎(chǔ)是采用了BERT模型,它在最近的NLP任務(wù)中各方面表現(xiàn)良好,適用于本文的上下文感知框架。通過BERT實現(xiàn)上下文編碼,改進了上下文側(cè)的表示學習。此外,本文還采用了VGAE,根據(jù)圖數(shù)據(jù)包含一個GCN層,以減輕BERT單獨應用時對本地上下文的過度擬合。它應用于框架引文編碼器,將論文的引文網(wǎng)絡(luò)圖數(shù)據(jù)處理成論文的潛在表示形式。編碼后的論文網(wǎng)絡(luò)和上下文的組合是正則化的,從而在基于BERT的模型上提高了性能。

        猜你喜歡
        編碼器長度論文
        1米的長度
        基于FPGA的同步機軸角編碼器
        愛的長度
        怎樣比較簡單的長度
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        不同長度
        讀寫算(上)(2015年6期)2015-11-07 07:17:55
        下期論文摘要預登
        下期論文摘要預登
        下期論文摘要預登
        免费观看的a级毛片的网站| 亚洲国产精品激情综合色婷婷| 日本精品视频免费观看| 国产精品自在拍在线拍| 香蕉视频在线观看国产| 免费国产在线精品三区| 久久国产精品婷婷激情| 青青草视频在线观看精品在线| 99久久精品免费看国产一区二区三区 | 欧美午夜刺激影院| 在线观看中文字幕一区二区三区| 青青草成人免费在线观看视频| 和黑人邻居中文字幕在线| 国产jizzjizz视频免费看| 西西少妇一区二区三区精品| 日本av一区二区三区在线| 少妇性饥渴bbbbb搡bbbb| 亚洲黄色尤物视频| 午夜视频一区二区在线观看| 日本五十路人妻在线一区二区| 欧美真人性野外做爰| 欧美与黑人午夜性猛交久久久| 色综合色综合久久综合频道| 国产夫妻自偷自拍第一页| 国产精品扒开腿做爽爽爽视频| 精品一区二区三区在线观看视频 | 日韩av高清在线观看| 亚洲丁香五月激情综合| 国产精品久久久久…| 青青草在线公开免费视频| 中文乱码字幕精品高清国产 | av网站在线观看大全| 少妇饥渴偷公乱a级无码| 任你躁欧美一级在线精品免费 | 日本高清一级二级三级| 熟妇人妻无乱码中文字幕| 亚洲男人天堂av在线| 蜜桃网站免费在线观看视频| 亚洲中文字幕无码一久久区| 好爽受不了了要高潮了av | 免费人成再在线观看视频|