亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多視圖融合TextRCNN的論文自動推薦算法

        2023-01-29 13:15:42楊秀璋項(xiàng)美玉周既松趙小明
        關(guān)鍵詞:視圖語義卷積

        楊秀璋,武 帥,楊 琪,項(xiàng)美玉,李 娜,周既松,趙小明

        1.貴州財(cái)經(jīng)大學(xué) 信息學(xué)院,貴陽550025

        2.滎經(jīng)縣政務(wù)服務(wù)和大數(shù)據(jù)中心,四川 雅安625200

        3.貴州財(cái)經(jīng)大學(xué) 大數(shù)據(jù)應(yīng)用與經(jīng)濟(jì)學(xué)院(貴陽大數(shù)據(jù)金融學(xué)院),貴陽550025

        4.中國船舶工業(yè)系統(tǒng)工程研究院,北京100094

        隨著科學(xué)技術(shù)的不斷發(fā)展,科技論文數(shù)量呈爆炸式增長,科研工作者如何快速精準(zhǔn)地定位需要的科技論文,智能化實(shí)現(xiàn)論文方向和主題的推薦,已成為重要的研究問題,因此面向?qū)W者的論文自動推薦算法變得尤為重要[1]。推薦系統(tǒng)(recommender system)作為電子商務(wù)和數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn)和難點(diǎn),提供個(gè)性化推薦服務(wù)具有重要的意義,論文個(gè)性化推薦也引起學(xué)術(shù)界的廣泛關(guān)注。然而,由于科研論文數(shù)量增長速度過快,學(xué)術(shù)種類繁多,新興學(xué)科方向?qū)映霾桓F,交叉學(xué)科發(fā)展尤為突出,學(xué)者面對海量科研成果的檢索會變得更為困難,在科學(xué)研究過程中查詢和引用準(zhǔn)確的文獻(xiàn)難度加大,短時(shí)間內(nèi)無法精準(zhǔn)獲取有價(jià)值的論文[2]。為提高科研工作者的檢索效率和準(zhǔn)確率,推薦符合其研究需求的學(xué)術(shù)論文,本文將深入分析論文自動推薦算法,提出一種基于多視圖融合TextRCNN的模型,有效實(shí)現(xiàn)論文學(xué)科方向的自動分類,為學(xué)者提供更精確的個(gè)性化檢索和推薦服務(wù)。

        面對數(shù)字圖書館中大規(guī)模的論文語料,傳統(tǒng)人工分類和規(guī)則匹配方法存在工作效率低,人為主觀意向明顯,缺乏對論文自身價(jià)值的挖掘,在交叉學(xué)科迅速發(fā)展的情景下,論文推薦準(zhǔn)確率和效率較低。同時(shí),隨著人工智能興起,以機(jī)器學(xué)習(xí)和深度學(xué)習(xí)為代表的論文推薦算法越來越多,但這些方法僅從單視圖角度實(shí)現(xiàn)分類,缺乏特征融合多視圖語義知識,缺乏利用上下文語義知識和長距離依賴構(gòu)建模型,這難以避免會引入干擾信息,較難挖掘到深層次的文本特征,從而限制學(xué)術(shù)論文分類的精準(zhǔn)度[3]。針對上述問題,本文提出一種基于多視圖融合TextRCNN的論文推薦模型,結(jié)合論文標(biāo)題、關(guān)鍵詞和摘要三個(gè)視圖的互補(bǔ)性,利用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制構(gòu)建模型,實(shí)現(xiàn)對不同學(xué)科方向的論文自動分類和推薦,從而有效地利用多視圖知識和上下文語義信息,提高論文推薦的準(zhǔn)確率,進(jìn)而節(jié)約科研工作者檢索所需論文的時(shí)間和精力,進(jìn)一步提高科研人員的研究效率。

        1 相關(guān)工作

        隨著文本挖掘技術(shù)的不斷發(fā)展,利用計(jì)算機(jī)實(shí)現(xiàn)自動化和個(gè)性化推薦服務(wù)變得越來越重要。本文旨在利用分類算法對論文學(xué)科類別和方向進(jìn)行推薦,從而為科研工作者推送其感興趣的學(xué)術(shù)論文。相關(guān)工作主要從傳統(tǒng)的論文推薦系統(tǒng)(基于內(nèi)容過濾的推薦方法和基于協(xié)同過濾的推薦方法)、基于機(jī)器學(xué)習(xí)的推薦方法和基于深度學(xué)習(xí)的推薦方法三個(gè)方面開展介紹。

        1.1 傳統(tǒng)論文推薦系統(tǒng)

        目前,傳統(tǒng)學(xué)術(shù)論文推薦方法主要分為基于內(nèi)容過濾(content filtering)的推薦方法和基于協(xié)同過濾(collaborative filtering)的推薦方法。

        內(nèi)容過濾是根據(jù)學(xué)者的歷史信息(包括發(fā)表論文、瀏覽記錄、下載信息、學(xué)科方向、研究主題)來計(jì)算學(xué)者感興趣論文內(nèi)容的相似性,并選擇高相似性的論文推薦給學(xué)者。Ohta等[4]提出一種深度提取論文專業(yè)術(shù)語的方法,并構(gòu)建專業(yè)術(shù)語與論文內(nèi)容的二部圖,再利用HITS算法對相關(guān)論文進(jìn)行排序,最終向用戶推薦排名靠前的論文。劉君良等[5]詳細(xì)總結(jié)了個(gè)性化推薦系統(tǒng)技術(shù),其內(nèi)容過濾推薦算法的相似度計(jì)算方法包括余弦相似度、相關(guān)性系數(shù)、KL距離等,以及TF-IDF和n-gram的特征描述。Manjula等[6]通過計(jì)算論文內(nèi)容的相似度實(shí)現(xiàn)期刊推薦,主要涵蓋社會學(xué)科和醫(yī)學(xué)兩類期刊文章,實(shí)驗(yàn)的相似性度量方法包括BM25、余弦相似性和一元語言模型。Sun等[7]提出了一種基于內(nèi)容的個(gè)性化知識服務(wù)推薦算法CROA,通過建立用戶的動態(tài)向量模型實(shí)現(xiàn)用戶偏好推薦。協(xié)同過濾旨在從數(shù)據(jù)中發(fā)現(xiàn)隱含的模式,并建立用戶和項(xiàng)目(user-item)評價(jià)矩陣實(shí)現(xiàn)相似計(jì)算及論文推薦。David等[8]首次提出基于用戶的協(xié)同過濾算法并應(yīng)用于垃圾郵件過濾。Berkani等[9]通過協(xié)同濾波算法實(shí)現(xiàn)科技論文的推薦,并融合了基于內(nèi)容過濾和協(xié)同過濾的算法,在CiteULike數(shù)據(jù)集上驗(yàn)證了基于用戶的協(xié)同過濾算法優(yōu)于基于項(xiàng)目的協(xié)同過濾算法。

        然而,傳統(tǒng)基于內(nèi)容過濾和基于協(xié)同過濾的推薦方法在大規(guī)模論文語料中的推薦效率較低,缺乏有效利用論文摘要、標(biāo)題的語義知識,僅使用相對獨(dú)立的表層特征詞進(jìn)行計(jì)算,存在數(shù)據(jù)稀疏、推薦精度不高等問題。此外,由于漢語具有豐富的語義知識和前后依賴關(guān)系,傳統(tǒng)論文推薦算法無法挖掘出深層次的語義關(guān)聯(lián),需要通過大量調(diào)試過程才能使推薦模型平衡,耗費(fèi)大量的人力和時(shí)間,這些缺點(diǎn)均導(dǎo)致論文推薦和方向分類的效果不理想。

        1.2 基于機(jī)器學(xué)習(xí)的論文推薦

        近年來,隨著機(jī)器學(xué)習(xí)的興起,基于機(jī)器學(xué)習(xí)的論文推薦和分類方法越來越多,常用方法包括SVM、決策樹、樸素貝葉斯、隨機(jī)森林、K-Means、層次聚類等。林栢全等[10]提出基于矩陣分解和隨機(jī)森林的多準(zhǔn)則推薦算法,通過矩陣解析提取用戶在各準(zhǔn)則上的評分特征,再進(jìn)行評分推薦。滕傳志等[11]為解決用戶冷啟動問題,結(jié)合隨機(jī)森林和馬爾科夫鏈構(gòu)建推薦系統(tǒng),并在MovieLens數(shù)據(jù)集上驗(yàn)證了該模型的有效性。楊秀璋等[12]運(yùn)用隨機(jī)森林和LDA主題挖掘算法對中國知網(wǎng)九大主題的1 710篇論文進(jìn)行自動分類和方向推薦,在一定程度提高了準(zhǔn)確率。張宇等[13]針對傳統(tǒng)方法未充分利用用戶負(fù)反饋信息的問題,提出一種基于正負(fù)反饋的SVM協(xié)同過濾Top-N推薦算法,并取得了良好的推薦速度和精度。王永貴等[14]提出一種融合KNN-GBDT的協(xié)同過濾推薦算法,利用K最近鄰過濾目標(biāo)用戶的候選集,并采用多分類器實(shí)現(xiàn)結(jié)果集成來提升推薦精確率。通過貝葉斯概率語言生成模型的協(xié)同過濾能將潛在Dirichlet分布和PMF算法結(jié)果[15],Chen等[16]就此設(shè)計(jì)了TRCF模型以解決推薦評分的數(shù)據(jù)稀疏問題。

        上述方法雖然在一定程度上提升了推薦算法的效率和精度,但機(jī)器學(xué)習(xí)只能學(xué)習(xí)淺層的文本知識,缺乏考慮長距離依賴關(guān)系,忽略了語義知識對推薦分類結(jié)果的影響,最終導(dǎo)致算法準(zhǔn)確率不高。同時(shí),基于機(jī)器學(xué)習(xí)的推薦算法在特征表示過程中主要使用詞頻、TF-IDF、信息熵等技術(shù),這些方法忽略了詞向量的優(yōu)勢,并且對海量論文推薦效果不佳,學(xué)習(xí)過程也會損失信息,存在冷啟動問題。因此需要進(jìn)一步優(yōu)化,利用深度學(xué)習(xí)來實(shí)現(xiàn)一種高精度、高效率,且普適性和魯棒性更好的算法。

        1.3 基于深度學(xué)習(xí)的論文推薦

        隨著深度學(xué)習(xí)的興起,以神經(jīng)網(wǎng)絡(luò)為代表的模型早已應(yīng)用于各行各業(yè),推薦系統(tǒng)也是其中之一。其主要模型包括基于卷積神經(jīng)網(wǎng)絡(luò)的論文推薦和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的論文推薦。

        卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)主要由卷積層和池化層組成,在論文推薦系統(tǒng)中可以提取文本的潛在特征。2017年,Zheng等[17]利用深度合作神經(jīng)網(wǎng)絡(luò)DeepCoNN從評論文本中學(xué)習(xí)用戶行為和項(xiàng)目屬性,從而實(shí)現(xiàn)推薦。李孟浩等[18]詳細(xì)總結(jié)現(xiàn)階段基于神經(jīng)網(wǎng)絡(luò)的推薦算法進(jìn)展,并對比了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的推薦算法。Li等[19]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的電影推薦算法,并應(yīng)用于IMDB數(shù)據(jù)集上進(jìn)行電影推薦。相較于機(jī)器學(xué)習(xí)推薦算法,CNN模型能夠?qū)崿F(xiàn)更細(xì)粒度的特征識別。此外,由于循環(huán)神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)能聯(lián)系上下文突出文本序列,它也被應(yīng)用于推薦系統(tǒng)領(lǐng)域。為進(jìn)一步解決RNN模型的梯度爆炸和梯度消失問題,門控遞歸單元網(wǎng)絡(luò)(GRU)和長短時(shí)記憶網(wǎng)絡(luò)(LSTM)被提出。賀姣姣[20]利用Bi-GRU模型進(jìn)行教育科學(xué)類學(xué)術(shù)論文文本自動分類。武興等[21]通過RNN的時(shí)間感知推薦算法,利用矩陣分類提取用戶偏好和服務(wù)功能,再通過LSTM實(shí)現(xiàn)時(shí)間感知服務(wù)推薦。許侃等[22]針對異質(zhì)信息網(wǎng)絡(luò),提出一種基于異質(zhì)網(wǎng)絡(luò)嵌入的學(xué)術(shù)論文推薦方法,設(shè)計(jì)不同的融合函數(shù)將節(jié)點(diǎn)在多個(gè)不同元路徑的低維表示融合,并引入注意力機(jī)制構(gòu)建推薦系統(tǒng)。隨后又出現(xiàn)了基于生成式對抗網(wǎng)絡(luò)的推薦算法和基于圖神經(jīng)網(wǎng)絡(luò)的推薦算法。

        綜上所述,在論文推薦和學(xué)科方向分類預(yù)測中,傳統(tǒng)基于內(nèi)容過濾及協(xié)同過濾、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法均取得一定的研究成果。但這些方法往往僅從單視圖角度實(shí)現(xiàn)分類,缺乏特征融合及多視圖語義知識,缺乏利用上下文語義知識和長距離依賴構(gòu)建模型,這難以避免會引入干擾信息,較難挖掘到深層次的文本特征,從而限制學(xué)術(shù)論文分類的精準(zhǔn)度。針對這些問題,本文提出一種基于多視圖融合TextRCNN的論文推薦模型,結(jié)合論文標(biāo)題、關(guān)鍵詞和摘要三個(gè)視圖的互補(bǔ)性,利用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制構(gòu)建模型,實(shí)現(xiàn)對不同學(xué)科方向的論文自動分類和推薦,從而有效地利用多視圖知識和上下文語義信息,提高論文推薦的準(zhǔn)確率,進(jìn)一步提高科研人員科研效率。

        2 多視圖融合TextRCNN模型

        針對傳統(tǒng)論文推薦模型僅從單視圖角度實(shí)現(xiàn)分類,缺乏特征融合及多視圖語義知識,準(zhǔn)確率和時(shí)間效率較低等問題,本文提出一種基于多視圖融合TextRCNN的論文推薦模型,結(jié)合論文標(biāo)題、關(guān)鍵詞和摘要三個(gè)視圖的互補(bǔ)性和協(xié)調(diào)性,實(shí)現(xiàn)對不同論文方向的自動分類和推薦。

        2.1 算法總體框架

        該模型框架如圖1所示,主要包括數(shù)據(jù)采集及預(yù)處理、改進(jìn)的論文推薦方法和實(shí)驗(yàn)評估三個(gè)部分,具體實(shí)現(xiàn)步驟如下。

        圖1 多視圖融合TextRCNN的論文推薦模型框架Fig.1 Paper recommendation model framework based on multi-modal fusion TextRCNN

        (1)通過Python和Selenium自定義爬蟲抓取中國知網(wǎng)不同學(xué)科方向的論文信息,主要包括標(biāo)題、關(guān)鍵詞、摘要、作者、發(fā)表時(shí)間、期刊來源等。接著利用Jieba工具實(shí)現(xiàn)中文分詞和停用詞過濾操作,并實(shí)現(xiàn)多視圖特征融合。

        (2)構(gòu)建多視圖融合的TextRCNN模型,該模型融合了標(biāo)題視圖、關(guān)鍵詞視圖和摘要視圖,對各個(gè)視圖下的特征進(jìn)行融合,并通過TextRCNN的卷積神經(jīng)網(wǎng)絡(luò)和雙向長短時(shí)記憶網(wǎng)絡(luò)捕獲局部特征及上下文語義關(guān)系,再利用Attention機(jī)制提取關(guān)鍵特征,并賦予相應(yīng)的權(quán)重,最終實(shí)現(xiàn)論文分類推薦任務(wù)。具體的模型結(jié)構(gòu)將在2.3節(jié)詳細(xì)介紹。

        (3)實(shí)驗(yàn)評估主要是將論文數(shù)據(jù)集劃分為訓(xùn)練集、測試集和驗(yàn)證集,然后通過精確率、召回率、F1值和準(zhǔn)確率對不同學(xué)科類別的論文進(jìn)行分類,并進(jìn)行詳細(xì)的對比實(shí)驗(yàn)。

        2.2 多視圖融合

        深度學(xué)習(xí)中的多視圖融合(multi-view fusion)旨在對多源信息進(jìn)行融合,考慮各個(gè)視圖之間互補(bǔ)性和協(xié)調(diào)性,實(shí)現(xiàn)信息的補(bǔ)充[23],完成在分析和預(yù)測任務(wù)時(shí)處理不同形式或從不同視圖學(xué)習(xí)數(shù)據(jù)特征的過程,從而提升任務(wù)的準(zhǔn)確率。其目的是建立能夠處理和關(guān)聯(lián)視圖信息的模型,是一種典型的多學(xué)科、多視圖交叉領(lǐng)域的技術(shù),并已經(jīng)逐步成為研究熱點(diǎn)。而單視圖僅從某個(gè)視圖角度進(jìn)行分類研究,在論文推薦中僅考慮論文的標(biāo)題、關(guān)鍵詞或摘要,具有一定的局限性。

        假設(shè)論文經(jīng)過數(shù)據(jù)預(yù)處理和特征提取后,形成如公式(1)所示的特征向量:

        其中,文檔d分別包含n個(gè)特征詞和權(quán)重,ti表示第i個(gè)特征詞,wi(d)表示特征詞ti在文檔中的權(quán)重。

        由于本文是對論文的學(xué)科方向進(jìn)行推薦,因此對標(biāo)題、關(guān)鍵詞和摘要三個(gè)核心視圖進(jìn)行融合,其多視圖融合的過程如圖2所示。

        圖2 多視圖融合過程Fig.2 Process of multi-modal fusion

        由圖可知,論文推薦的多視圖融合過程包括關(guān)鍵詞視圖(F1)、標(biāo)題視圖(F2)和摘要視圖(F3),多視圖融合將三個(gè)視圖有效關(guān)聯(lián)成7塊區(qū)域,分別是U1、U2、U3、U4、U5、U6和U7。其劃分過程如公式(2)所示[24]:

        在本文研究的多視圖融合中,每塊區(qū)域?qū)?yīng)特征包含不同的權(quán)重,從而實(shí)現(xiàn)對關(guān)鍵特征的權(quán)重加成,其權(quán)重加成計(jì)算公式如公式(3)所示:

        其中,S表示多視圖特征融合后的特征向量,Vi對應(yīng)圖2中不同區(qū)域的特征詞向量,wi是該區(qū)域特征融合的權(quán)重,整個(gè)區(qū)域劃分為獨(dú)有視圖、兩兩交叉視圖和三個(gè)區(qū)域交叉視圖,通過該方式實(shí)現(xiàn)論文標(biāo)題、關(guān)鍵詞和摘要視圖的最終多視圖融合。

        2.3 改進(jìn)TextRCNN模型

        TextCNN[25]旨在將復(fù)雜問題簡單化,通過降低神經(jīng)網(wǎng)絡(luò)的模型參數(shù),實(shí)現(xiàn)局部特征捕獲,其卷積核大小包括2、3、4三種,常用于文本分類任務(wù),但存在全局池化層丟失結(jié)構(gòu)信息,無法發(fā)現(xiàn)文本長距離、轉(zhuǎn)折語義關(guān)系和強(qiáng)度分布的問題。TextRNN[26]旨在利用循環(huán)神經(jīng)網(wǎng)絡(luò)解決文本分類問題,其能夠有效表達(dá)上下文語義信息,捕獲長序列依賴關(guān)系,但由于模型參數(shù)較多導(dǎo)致運(yùn)行效率較低,且并行化效果不理想。因此,為了彌補(bǔ)TextCNN和TextRNN的 局 限 性,TextRCNN模 型 被 提出,它使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)上下文語義特征,并利用最大池化層進(jìn)行特征選擇,最終完成本分類任務(wù),該模型結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和時(shí)間序列神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)。

        本文進(jìn)一步改進(jìn)TextRCNN模型,構(gòu)建如圖3所示的結(jié)構(gòu)。首先,利用多視圖融合算法構(gòu)建論文標(biāo)題、關(guān)鍵詞和摘要的特征結(jié)合,并提取融合特征;其次,構(gòu)建TextCNN模型并通過三類卷積核和池化層提取長文本的局部特征;再次,結(jié)合BiLSTM網(wǎng)絡(luò)從兩個(gè)方向捕獲長距離依賴關(guān)系和上下文語義知識,進(jìn)一步加成局部特征的關(guān)聯(lián)信息;最后,結(jié)合注意力(attention)機(jī)制聚焦對論文推薦分類任務(wù)貢獻(xiàn)大的特征詞,降低無意義或常見特征詞的負(fù)面影響,再利用全連接層和Softmax函數(shù)實(shí)現(xiàn)論文學(xué)科方向的推薦預(yù)測。下面對改進(jìn)的模型進(jìn)行詳細(xì)敘述。

        圖3 改進(jìn)TextRCNN模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Improved neural network structure of TextRCNN model

        本文模型增加了卷積層,利用卷積核滑動來提取文本特征。假設(shè)xi∈Rk是文本中第i個(gè)特征詞對應(yīng)的k維詞向量,則一個(gè)n維長度的論文文本可以表示如下:

        其中,⊕表示向量拼接,通過卷積核對多視圖融合的n×k特征矩陣進(jìn)行掃描,其計(jì)算如公式(5)所示:

        式中,f表示激活函數(shù);wi(a,b)表示特征矩陣中第i個(gè)節(jié)點(diǎn)對應(yīng)輸入(a,b)的權(quán)重;x(a,b)表示過濾器中節(jié)點(diǎn)(a,b)的值;bi表示第i個(gè)節(jié)點(diǎn)對應(yīng)的偏置項(xiàng)。通過設(shè)置三個(gè)卷積核為2、3、4的過濾器來實(shí)現(xiàn)局部特征提取,最終得到新特征hi。

        接著利用池化層進(jìn)行數(shù)據(jù)降維,縮減特征向量和網(wǎng)絡(luò)參數(shù)的大小,其計(jì)算公式如公式(6)所示:

        通過卷積神經(jīng)網(wǎng)絡(luò)提取局部特征后,本文利用雙向長短時(shí)記憶網(wǎng)絡(luò)模型(BiLSTM)從正反兩個(gè)方向?qū)μ卣飨蛄窟M(jìn)行編碼,進(jìn)一步挖掘長距離依賴關(guān)系和上下文語義知識。其計(jì)算公式如下所示:

        式中,hr表示第i個(gè)詞向右的LSTM層語義向量,hl表示第i個(gè)詞向左的LSTM層語義向量,對應(yīng)于文本的上下文特征信息;e(xi)表示第i個(gè)詞的詞向量;wr、wl、wsr和wsl表示對應(yīng)的權(quán)重參數(shù);ti是雙向LSTM層的最終輸出。

        本文通過改進(jìn)TextRCNN模型來實(shí)現(xiàn)論文學(xué)科方向的分類預(yù)測與推薦。該模型一方面通過多視圖特征值融合來學(xué)習(xí)論文標(biāo)題、關(guān)鍵詞和摘要的特征信息,另一方面通過TextRCNN模型結(jié)合上下文語義知識來提取文本的局部特征,同時(shí)解決局部特征丟失問題,有效關(guān)聯(lián)長距離依賴和上下文語義特征,利用注意力機(jī)制挖掘關(guān)鍵特征,從而為后續(xù)的論文學(xué)科方向分類和推薦提供支持。

        2.4 注意力機(jī)制

        隨著注意力機(jī)制(attention)在神經(jīng)網(wǎng)絡(luò)模型中的應(yīng)用越來越頻繁,論文推薦和文本分類領(lǐng)域也引入了注意力機(jī)制。注意力機(jī)制能夠有效增強(qiáng)神經(jīng)網(wǎng)絡(luò)模型對局部特征的關(guān)注,對不同位置的文本賦予不同的權(quán)重,從而提升關(guān)鍵特征的貢獻(xiàn)程度。

        在本文的論文推薦分類任務(wù)中,如果某個(gè)詞語對應(yīng)的特征向量對句子類別的貢獻(xiàn)較大,則賦予更高的權(quán)重,反之賦予更低的權(quán)重,通過這種方式能有效避免某些無意義詞語所造成的影響,而專注于分類任務(wù)高度相關(guān)的信息,提高分類結(jié)果。注意力機(jī)制的處理過程如公式(10)~(12)所示:

        其中,公式(10)是通過tanh激活函數(shù)對ti進(jìn)行非線性變換,得到表示向量ui。ti表示BiLSTM結(jié)構(gòu)輸出的向量,w表示訓(xùn)練的參數(shù)向量,b表示對應(yīng)的偏置;公式(11)采用softmax函數(shù)計(jì)算各個(gè)分量ui的權(quán)重,得到的αt表示權(quán)重重要性;公式(12)表示對ti重要性加權(quán)和的句子向量,用v表示。

        最后,經(jīng)過注意力機(jī)制得到向量表示s,將其輸入到全連接層的softmax分類器中得到最終分類結(jié)果,從而實(shí)現(xiàn)論文學(xué)科方向的分類與推薦。

        3 實(shí)證分析

        本文采用Keras深度學(xué)習(xí)框架設(shè)計(jì)相關(guān)模型,并詳細(xì)對比多視圖融合TextRCNN和其他經(jīng)典模型的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)環(huán)境為Windows10(64位)操作系統(tǒng),GPU為GTX 1080Ti,處理器為Inter?Core i7-8700K,編程語言為Python3.6。

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)采用國內(nèi)著名的學(xué)術(shù)論文信息平臺“中國知網(wǎng)”作為數(shù)據(jù)來源,通過Python編寫網(wǎng)絡(luò)爬蟲采集近十年11個(gè)學(xué)科方向(醫(yī)學(xué)、哲學(xué)、圖書情報(bào)、工商管理、數(shù)理統(tǒng)計(jì)、民族學(xué)、漢語言文學(xué)、法學(xué)、經(jīng)濟(jì)學(xué)、計(jì)算機(jī)科學(xué)與技術(shù)和金融學(xué))的論文信息,其核心字段包括標(biāo)題、關(guān)鍵詞、摘要、作者、期刊來源、發(fā)表時(shí)間等。接著,經(jīng)過數(shù)據(jù)清洗及預(yù)處理后共獲取25 414篇論文,并按照一定比例隨機(jī)劃分訓(xùn)練集、驗(yàn)證集和測試集,具體數(shù)據(jù)分布情況如表1所示。

        表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental dataset

        在數(shù)據(jù)預(yù)處理方面,本文通過Python編寫自定義腳本實(shí)現(xiàn)數(shù)據(jù)清洗。首先,利用Jieba工具實(shí)現(xiàn)中文分詞,并結(jié)合詞典進(jìn)行停用詞過濾;其次,采用Word2vec算法實(shí)現(xiàn)詞向量計(jì)算;最后,通過設(shè)計(jì)的多視圖融合深度學(xué)習(xí)模型進(jìn)行論文推薦實(shí)驗(yàn)。

        3.2 評估指標(biāo)

        本文論文推薦分類實(shí)驗(yàn)采用4個(gè)指標(biāo)進(jìn)行評估,分別是精確率(Precision)、召回率(Recall)、F1值(F1-score)和準(zhǔn)確率(Accuracy)。其計(jì)算公式如下:

        其中,Accuracy為預(yù)測正確的樣本數(shù)量占總樣本數(shù)量的比值,可以直觀反映論文類別正確預(yù)測的效果。TP表示預(yù)測正確的正樣本數(shù),F(xiàn)P表示預(yù)測錯(cuò)誤的正樣本數(shù),F(xiàn)N表示預(yù)測錯(cuò)誤的負(fù)樣本數(shù),其TP與TP加FP的比值為精確率,TP與TP加FN的比值為召回率,F(xiàn)1值則為二者的綜合狀態(tài),當(dāng)F1值越接近于1時(shí),整個(gè)模型對論文類別的推薦效果越好,反之效果越差。

        3.3 結(jié)果分析

        本文對實(shí)驗(yàn)結(jié)果進(jìn)行多次交叉驗(yàn)證,最終實(shí)驗(yàn)評估結(jié)果為10次論文分類結(jié)果的平均值。在模型參數(shù)設(shè)置方面,其文本序列最大長度設(shè)置為600,最大特征數(shù)設(shè)置為5 000,卷積層和BiLSTM的神經(jīng)元數(shù)量均設(shè)置為256,訓(xùn)練epoch設(shè)置為20,學(xué)習(xí)率設(shè)置為0.001,優(yōu)化器選擇Adam,并增加Dropout防止過擬合,整個(gè)模型結(jié)構(gòu)及形狀如表2所示,最終對論文11種類別進(jìn)行預(yù)測。

        表2 模型結(jié)構(gòu)及形狀Table 2 Structure and shape of model

        首先,本文統(tǒng)計(jì)了多視圖融合且數(shù)據(jù)預(yù)處理后的文本長度,統(tǒng)計(jì)結(jié)果如圖4所示。大部分類別的詞組數(shù)量集中于150到350范圍內(nèi),而醫(yī)學(xué)方向的詞組數(shù)量主要分布在550以上,計(jì)算機(jī)科學(xué)與技術(shù)論文的句子長度較為平均。由于論文標(biāo)題、關(guān)鍵詞和摘要的詞組之間有較強(qiáng)的語義關(guān)系,并且從多個(gè)視圖能有效刻畫論文的所屬學(xué)科方向。因此,本文采用多視圖融合的TextRCNN方法進(jìn)行論文推薦,并與典型的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法進(jìn)行對比實(shí)驗(yàn),得出如表3所示的結(jié)果。

        圖4 論文文本長度的分布情況Fig.4 Distribution of text length of paper

        由表3可知,本文提出多視圖融合TextRCNN的論文自動推薦算法的精確率、召回率和F1值都有一定程度的提升,其精確率為0.940 5,召回率為0.940 9,F(xiàn)1值為0.940 7,均優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)算法和典型的深度學(xué)習(xí)算法,并且高于單一視圖(標(biāo)題視圖、關(guān)鍵詞視圖、摘要視圖)的實(shí)驗(yàn)結(jié)果。

        表3 多視圖融合的論文自動分類算法實(shí)驗(yàn)結(jié)果對比Table 3 Comparison of experimental results of automatic paper classification algorithms based on multi-model fusion

        在傳統(tǒng)機(jī)器學(xué)習(xí)算法中,邏輯回歸的效果相對更好,其多視圖融合邏輯回歸的精確率、召回率和F1值分別為0.906 5、0.905 2和0.905 8,相較于本文方法,分別降低0.034 0、0.035 7和0.034 9。在典型深度學(xué)習(xí)算法中,TextCNN算法的效果相對更好,其多視圖融合模型的精確率、召回率和F1值分別為0.932 7、0.930 6、0.931 6,比本文方法分別降低0.007 8、0.010 3、0.009 1。

        由于F1值綜合了精確率和召回率的優(yōu)點(diǎn),本文使用該指標(biāo)對多視圖融合算法與單一視圖算法的效果進(jìn)行詳細(xì)對比。其中,多視圖融合TextRCNN的F1值比標(biāo)題視圖高8.91%,比關(guān)鍵詞視圖高18.49%,比摘要視圖高3.03%。此外,本文進(jìn)一步計(jì)算4種傳統(tǒng)機(jī)器學(xué)習(xí)算法(決策樹、SVM、樸素貝葉斯、邏輯回歸)各視圖下的平均F1值,其標(biāo)題視圖為0.776 2,關(guān)鍵詞視圖為0.604 5,摘要視圖為0.848 7,多視圖融合為0.880 5,而本文算法的F1值分別提高16.45%、33.62%、9.20%和6.02%。同樣,計(jì)算4種典型深度學(xué)習(xí)算法(GRU、LSTM、BiLSTM、TextCNN)各視圖下的平均F1值,其標(biāo)題視圖為0.829 3,關(guān)鍵詞視圖為0.743 7,摘要視圖為0.883 6,多視圖融合為0.905 9,而本文算法的F值分別提高11.14%、19.70%、5.71%和3.48%??傮w而言,通過進(jìn)一步分析實(shí)驗(yàn)結(jié)果樣本,能有效發(fā)現(xiàn)多視圖融合對權(quán)重的加成,其中卷積神經(jīng)網(wǎng)絡(luò)能提取關(guān)鍵特征,BiLSTM網(wǎng)絡(luò)能挖掘長距離依賴和上下文語義特征,注意力機(jī)制進(jìn)一步加成了關(guān)鍵特征的權(quán)重,最終本文改進(jìn)的TextRCNN模型能有效學(xué)習(xí)標(biāo)題視圖、關(guān)鍵詞視圖和摘要視圖的特點(diǎn),進(jìn)一步提升算法效果,并且優(yōu)于各種視圖和模型,能較好地實(shí)現(xiàn)論文自動分類和類別推薦。

        為進(jìn)一步驗(yàn)證所提出多視圖融合TextRCNN模型的有效性,本文詳細(xì)對比了各模型的準(zhǔn)確率(Accuracy),得出如圖5所示的實(shí)驗(yàn)結(jié)果。由圖可知,本文方法在標(biāo)題視圖、關(guān)鍵詞視圖、摘要視圖和多視圖融合四種場景中的準(zhǔn)確率均最高,分別為0.851 9、0.745 4、0.910 2和0.940 9,該結(jié)果有效證明多視圖融合TextRCNN算法能通過卷積神經(jīng)網(wǎng)絡(luò)捕獲局部特征,BiLSTM網(wǎng)絡(luò)能提取上下文語義關(guān)系,并從三個(gè)視圖來實(shí)現(xiàn)論文推薦,從而獲得最優(yōu)的分類結(jié)果,這也是多視圖加成特征權(quán)重所帶來的優(yōu)勢。關(guān)鍵詞視圖由于特征較少且缺乏語義,所以各模型的準(zhǔn)確率均較低,但能促進(jìn)多視圖的特征學(xué)習(xí)。

        圖5 各模型準(zhǔn)確率的實(shí)驗(yàn)結(jié)果對比Fig.5 Comparison of experimental results of accuracy of each model

        此外,本文詳細(xì)對比了醫(yī)學(xué)、哲學(xué)、圖書情報(bào)、工商管理、數(shù)理統(tǒng)計(jì)、民族學(xué)、漢語言文學(xué)、法學(xué)、經(jīng)濟(jì)學(xué)、計(jì)算機(jī)科學(xué)與技術(shù)和金融學(xué)11種學(xué)科方向的論文推薦結(jié)果,得出如表4所示的結(jié)果。其中,論文推薦效果最佳的學(xué)科是醫(yī)學(xué),其精確率、召回率和F1值分別為0.979 8、0.992 8和0.986 3,這可能與圖4所示的醫(yī)學(xué)特征詞數(shù)最多呈正比關(guān)系;接著,論文推薦效果較好的學(xué)科方向是漢語言文學(xué)、數(shù)理統(tǒng)計(jì)和圖書情報(bào),其F1值分別為0.982 4、0.973 9和0.972 9。通過該實(shí)驗(yàn)?zāi)苡行ёC明本文提出的方法能對不同學(xué)科方向的論文進(jìn)行預(yù)測和推薦,多視圖融合TextRCNN算法具有一定的魯棒性。

        表4 不同學(xué)科方向論文的推薦算法性能評估Table 4 Performance evaluation of recommendation algorithms for papers in different subjects

        同時(shí),本文方法根據(jù)各學(xué)科方向的分類結(jié)果繪制如圖6所示的混淆矩陣圖,其橫軸為真實(shí)的論文類別,縱軸為預(yù)測的論文類別。其中,預(yù)測正確數(shù)量最多的是數(shù)理統(tǒng)計(jì),共正確1 101篇論文;其次是醫(yī)學(xué),共正確969篇論文;再次是金融學(xué),共正確878篇論文。預(yù)測錯(cuò)誤數(shù)量最少的是醫(yī)學(xué),共錯(cuò)誤7篇論文;其次是漢語言文學(xué),共錯(cuò)誤8篇論文。預(yù)測錯(cuò)誤數(shù)量最多的是經(jīng)濟(jì)學(xué)和哲學(xué),分別錯(cuò)誤預(yù)測167篇和135篇。

        圖6 各學(xué)科方向混淆矩陣對比圖Fig.6 Confusion matrix comparison chart for various disciplines

        為更形象地挖掘多視圖融合TextRCNN模型的良好性能,本文通過驗(yàn)證集探究其學(xué)習(xí)過程,得出如圖7所示誤差(Loss)隨訓(xùn)練批次(Epoch)降低的變化曲線。由圖可知,與其他深度學(xué)習(xí)模型相比,多視圖融合TextRCNN模型的訓(xùn)練過程更穩(wěn)定,其訓(xùn)練周期收斂速度更快,并且迅速下降至0.049 2的位置,并最終穩(wěn)定在0.025 0區(qū)域,其誤差下降速率和大小均優(yōu)于GRU、LSTM、BiLSTM和TextCNN模型,進(jìn)一步突出本文模型具有較好的性能。

        圖7 各模型實(shí)驗(yàn)誤差的變化曲線Fig.7 Variation curve of experimental loss of each model

        本文為進(jìn)一步驗(yàn)證多視圖融合方法的有效性,對英文WOS數(shù)據(jù)庫的論文也進(jìn)行了實(shí)驗(yàn),分別采集數(shù)學(xué)、計(jì)算機(jī)科學(xué)與技術(shù)、物理學(xué)、醫(yī)學(xué)和化學(xué)五個(gè)學(xué)科方向的3 000篇論文信息,并進(jìn)行詳細(xì)的對比實(shí)驗(yàn),得出如表5所示的F1值對比結(jié)果。實(shí)驗(yàn)結(jié)果表明,多視圖融合方法在英文論文推薦領(lǐng)域均優(yōu)于各單視圖方法,其最終F1值為0.952 3,進(jìn)一步體現(xiàn)本文模型的有效性。

        表5 英文WOS數(shù)據(jù)庫論文推薦實(shí)驗(yàn)對比F1值Table 5 English WOS database papers recommended experimental comparison F1-score

        綜上,本實(shí)驗(yàn)結(jié)果充分證明了多視圖融合改進(jìn)TextRCNN方法在論文分類推薦中的有效性,體現(xiàn)了各視圖融合對特征權(quán)重加成及卷積神經(jīng)網(wǎng)絡(luò)和BiLSTM網(wǎng)絡(luò)所帶來的優(yōu)勢。

        4 結(jié)束語

        論文自動化推薦系統(tǒng)已成為科研工作者重要的研究問題,能有效提供個(gè)性化推薦服務(wù),為科研工作者推薦符合其研究需求的學(xué)術(shù)論文和學(xué)科方向。本文針對傳統(tǒng)論文自動推薦算法僅從單視圖角度實(shí)現(xiàn)分類,缺乏特征融合及多視圖語義知識,上下文信息和長距離依賴?yán)貌幻黠@,較難挖掘到深層次文本特征,學(xué)術(shù)論文推薦精確度不高的問題,提出一種基于多視圖融合TextRCNN的論文自動推薦模型。該模型融合論文標(biāo)題、關(guān)鍵詞和摘要三個(gè)視圖特征,利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、雙向長短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)和注意力機(jī)制構(gòu)建模型,實(shí)現(xiàn)對不同學(xué)科方向論文的自動分類及推薦,有效解決由于科研論文數(shù)量增長速度過快,學(xué)術(shù)種類繁多,新興學(xué)科方向和交叉學(xué)科層出不窮,學(xué)者面對海量科研成果檢索的難題。

        為驗(yàn)證模型性能,本文設(shè)計(jì)了詳細(xì)的對比實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)為中國知網(wǎng)近十年11個(gè)學(xué)科方向(醫(yī)學(xué)、哲學(xué)、圖書情報(bào)、工商管理、數(shù)理統(tǒng)計(jì)、民族學(xué)、漢語言文學(xué)、法學(xué)、經(jīng)濟(jì)學(xué)、計(jì)算機(jī)科學(xué)與技術(shù)和金融學(xué))的論文信息,分別對多視圖融合、傳統(tǒng)機(jī)器學(xué)習(xí)推薦算法、已有經(jīng)典深度學(xué)習(xí)算法和本文提出多視圖融合TextRCNN論文推薦算法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的論文推薦模型在精確率、召回率和F1值上均有所提升,比機(jī)器學(xué)習(xí)方法平均提高3.40%、3.57%和3.49%,也優(yōu)于單視圖和已有經(jīng)典的深度學(xué)習(xí)方法。多視圖融合TextRCNN的F1值比標(biāo)題視圖高8.91%,比關(guān)鍵詞視圖高18.49%,比摘要視圖高3.03%。此外,本文進(jìn)一步計(jì)算4種傳統(tǒng)機(jī)器學(xué)習(xí)算法(決策樹、SVM、樸素貝葉斯、邏輯回歸)各視圖下的平均F1值,其標(biāo)題視圖為0.776 2,關(guān)鍵詞視圖為0.604 5,摘要視圖為0.848 7,多視圖融合為0.880 5,而本文算法的F1值分別提高16.45%、33.62%、9.20%和6.02%。同樣,計(jì)算4種典型深度學(xué)習(xí)算法(GRU、LSTM、BiLSTM、TextCNN)各視圖下的平均F1值,其標(biāo)題視圖為0.829 3,關(guān)鍵詞視圖為0.743 7,摘要視圖為0.883 6,多視圖融合為0.905 9,而本文算法的F1值分別提高11.14%、19.70%、5.71%和3.48%。同時(shí),本文在英文WOS數(shù)據(jù)庫數(shù)學(xué)、計(jì)算機(jī)科學(xué)與技術(shù)、物理學(xué)、醫(yī)學(xué)和化學(xué)五個(gè)學(xué)科方向的論文推薦中也進(jìn)一步驗(yàn)證模型的有效性。

        總體而言,通過多視圖融合權(quán)重加成,本文改進(jìn)的TextRCNN模型能有效學(xué)習(xí)標(biāo)題視圖、關(guān)鍵詞視圖和摘要視圖的特點(diǎn),進(jìn)一步提升算法效果,并且優(yōu)于各種視圖和模型,能較好地實(shí)現(xiàn)論文自動分類和類別推薦。本文模型通過學(xué)習(xí)多視圖知識和上下文語義信息,提高論文推薦的準(zhǔn)確率,進(jìn)而節(jié)約科研工作者檢索所需論文所花費(fèi)時(shí)間和精力,進(jìn)一步提高科研人員科研效率。未來,本文一方面將進(jìn)一步擴(kuò)大實(shí)驗(yàn)數(shù)據(jù)集,研究該算法的普適性;另一方面將結(jié)合圖神經(jīng)網(wǎng)絡(luò),進(jìn)一步提升模型對論文推薦性能的影響。

        猜你喜歡
        視圖語義卷積
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        語言與語義
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        5.3 視圖與投影
        視圖
        Y—20重型運(yùn)輸機(jī)多視圖
        SA2型76毫米車載高炮多視圖
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        国内揄拍国内精品少妇国语| 成人性生交大片免费5| 一个人看的视频在线观看| 少妇人妻大乳在线视频不卡| 亚洲最新偷拍网站| 狠狠色噜噜狠狠狠狠97俺也去| 日本免费精品免费视频| 久久久久久av无码免费网站下载| 久久国产精品-国产精品| 久久精品国产亚洲AⅤ无码| 熟女丝袜美腿亚洲一区二区三区 | 美女很黄很色国产av| 久久久久无码精品国产app| 人妻无码一区二区| 久久国产劲爆内射日本| 91超精品碰国产在线观看| 丰满人妻熟妇乱又伦精品软件 | 香港日本三级亚洲三级| 国产精品青草久久久久婷婷| 日韩性感av一区二区三区| 四虎精品成人免费观看| 久久爱91精品国产一区| 亚洲成人福利在线视频| 国产一区二区女内射| 婷婷九月丁香| 国产一区二区三区精品成人爱| 天天做天天爱夜夜爽毛片毛片| 久久精品人人爽人人爽| 精品无码成人片一区二区| 国产一区二区三区男人吃奶| 国产放荡对白视频在线观看| 富婆如狼似虎找黑人老外| 亚洲视频在线播放免费视频 | 手机看黄av免费网址| 免费国精产品自偷自偷免费看| 2020最新国产激情| 91三级在线观看免费| 精品久久久久久无码人妻热| 伊人精品无码AV一区二区三区| 国产成人美涵人妖视频在线观看| 久久午夜福利无码1000合集|