亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        標(biāo)題與正文語義融合的新聞向量表示方法

        2023-02-28 09:19:28連曉穎薛源海沈華偉
        計算機工程與應(yīng)用 2023年4期
        關(guān)鍵詞:語義文本區(qū)域

        連曉穎,薛源海,劉 悅,沈華偉

        1.中國科學(xué)院 計算技術(shù)研究所 數(shù)據(jù)智能系統(tǒng)研究中心,北京 100190

        2.中國科學(xué)院大學(xué),北京 101408

        隨著信息過載問題的日益加劇[1],Google News、MSN News、Yahoo!、今日頭條等在線新聞資訊平臺均通過推薦系統(tǒng)挖掘用戶興趣、擴大新聞媒體的影響力并為企業(yè)帶來盈利。為應(yīng)對海量數(shù)據(jù)和實時性的挑戰(zhàn),新聞推薦系統(tǒng)采用向量召回的方式快速篩選出新聞候選集,使得如何構(gòu)建高質(zhì)量的新聞、用戶向量表示成為推薦系統(tǒng)的核心問題[2]。

        新聞的標(biāo)題和正文里都蘊含著豐富的文本語義信息,這也是新聞推薦系統(tǒng)有別于其他音樂、時裝等推薦系統(tǒng)的主要特征。新聞標(biāo)題往往簡明扼要,而新聞?wù)膭t蘊含著更為豐富的語義信息,能夠進一步補充標(biāo)題的上下文語境。由于新聞?wù)脑谠~數(shù)上遠遠大于標(biāo)題,擁有文本長度長和語義信息復(fù)雜的特點,直接對正文全篇編碼將耗時耗力。事實上,用戶總是先根據(jù)新聞標(biāo)題判斷是否瀏覽正文,在看正文時也會希望看到和標(biāo)題相關(guān)的補充信息。

        本文將以新聞標(biāo)題為查詢,從新聞?wù)牡念^、尾、中間等各個部分獲取新聞標(biāo)題的補充信息,致力于在僅使用部分正文編碼的情況下,生成語義信息更豐富、質(zhì)量更優(yōu)的新聞向量表示。

        1 相關(guān)工作

        傳統(tǒng)的新聞推薦方法采用協(xié)同過濾和內(nèi)容過濾的方式來生成新聞和用戶的表示[3]。協(xié)同過濾方法以評分矩陣作為新聞和用戶的特征,是一種基于ID 特征的表示方法,存在著嚴(yán)重的冷啟動問題[4]。內(nèi)容過濾方法則依賴于傳統(tǒng)自然語言處理模型,如詞頻統(tǒng)計模型[2]、貝葉斯模型[5]、主題模型[6]等,容易忽視詞序和上下文語義,對新聞文本語義的理解不夠充分。

        隨著深度學(xué)習(xí)技術(shù)的發(fā)展,生成高質(zhì)量的新聞、用戶向量表示逐漸成為新聞推薦系統(tǒng)的熱點研究方向。深度特征融合模型方法將人工構(gòu)造的各類特征同時輸入到模型中,采用淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)混合的方式提取出這些特征的向量表示,主要代表模型有DFM(deep fusion model)[7]、Wide&Deep[8]、DeepFM[9]。由于依賴手工構(gòu)造的特征,這類方法在應(yīng)用時不僅需要大量的領(lǐng)域知識,還忽視了新聞的文本語義信息。

        因為新聞的標(biāo)題和正文里都蘊含著豐富的文本語義信息,所以充分理解這些文本語義變得格外重要。雙塔模型方法向新聞塔中輸入新聞標(biāo)題得到新聞的向量表示,向用戶塔中輸入用戶歷史瀏覽的新聞標(biāo)題得到用戶的向量表示,最后把兩者向量做內(nèi)積計算出用戶對新聞的評分。Yahoo! Japan[2]率先將雙塔模型應(yīng)用在了新聞推薦領(lǐng)域,而后Wu 等人提出的NRMS(neural news recommendation with multi-head self-attention)模型[1]用多頭注意力機制[10]改進了新聞編碼器,使得雙塔模型結(jié)構(gòu)逐漸成為新聞推薦領(lǐng)域的主流框架。后續(xù)的個性化注意力模型如DAN(deep attention neural network)[11]、NPA(neural news recommendation with personalized attention)[12]等也是在這一主流框架的基礎(chǔ)上增添了交叉特征,加強雙塔間的依賴性,但這些模型都僅注重挖掘新聞標(biāo)題中蘊含的語義信息。同樣是在雙塔模型框架的基礎(chǔ)上,NAML模型[13]采用截取正文開頭的方式編碼新聞?wù)?,生成了更高質(zhì)量的新聞向量表示,驗證了新聞?wù)恼Z義信息的重要性。但這類方法的主要不足在于忽視了正文的后文語義,容易對前文過擬合,未能充分利用新聞?wù)闹刑N含的語義信息。

        針對新聞?wù)恼Z義利用不充分的問題,本文以新聞標(biāo)題為查詢,從新聞?wù)牡亩鄠€區(qū)域中聚合標(biāo)題的補充信息,生成語義信息更豐富的新聞向量表示。

        2 標(biāo)題與正文語義融合的新聞向量表示方法

        本文提出了標(biāo)題與正文語義融合的新聞向量表示方法(news recommendation with title attention,NRTA),先將新聞?wù)姆衷~后,劃分為P個互不重疊、長度為L個詞的區(qū)域,然后計算新聞?wù)母鲄^(qū)域與新聞標(biāo)題的相關(guān)性,以此加權(quán)聚合新聞?wù)母鲄^(qū)域的語義,使新聞?wù)牡念^、尾、中間等各個部分均有機會成為新聞標(biāo)題的補充信息。

        本文接下來將分別從NRTA 模型結(jié)構(gòu)、新聞編碼器、用戶編碼器以及模型訓(xùn)練方法四方面進行詳細(xì)闡述。

        2.1 NRTA模型結(jié)構(gòu)

        NRTA 的模型結(jié)構(gòu)如圖1 所示,沿用了NAML 模型的雙塔結(jié)構(gòu),由新聞塔和用戶塔組成,主要改動在于新聞塔的正文編碼器和文本編碼器。

        圖1 NRTA模型結(jié)構(gòu)示意圖Fig.1 Structure of NRTA model

        正文編碼器以新聞標(biāo)題為查詢,計算正文各區(qū)域應(yīng)分配的注意力權(quán)重,加權(quán)聚合正文各區(qū)域的向量表示從而獲得新聞?wù)牡南蛄勘硎尽N谋揪幋a器則是正文編碼器的基礎(chǔ)模塊,不僅用于新聞標(biāo)題編碼,還用于新聞?wù)母鲄^(qū)域的編碼。本文為建模跨區(qū)域的詞相關(guān)性,在Transformer文本編碼器的基礎(chǔ)上設(shè)計了記憶單元,以更加準(zhǔn)確地理解正文各區(qū)域的語義信息。

        用注意力池化層加權(quán)聚合新聞標(biāo)題和正文的向量表示,即可得到候選新聞的最終向量表示rc;通過歷史瀏覽新聞的向量表示獲得目標(biāo)用戶的向量表示ru;在NRTA 模型的輸出端依舊是將目標(biāo)用戶的向量表示ru和候選新聞的向量表示rc做內(nèi)積,得到目標(biāo)用戶對候選新聞的評分,如式(1)所示。

        2.2 新聞編碼器

        2.2.1 正文編碼器

        本文采用基于標(biāo)題的注意力池化層聚合出新聞?wù)牡南蛄勘硎緍b,在進行正文編碼前,需要先用文本編碼器獲取新聞標(biāo)題的向量表示rt。在聚合每個區(qū)域的向量表示時,各區(qū)域的注意力權(quán)重依賴于該區(qū)域向量表示與新聞標(biāo)題向量表示的相關(guān)性。正文編碼器的模型結(jié)構(gòu)如圖2所示。

        圖2 NRTA模型正文編碼器結(jié)構(gòu)示意圖Fig.2 Structure of body encoder in NRTA model

        2.2.2 文本編碼器

        文本編碼器不僅參與了新聞標(biāo)題的編碼過程,還參與了新聞?wù)拿恳粋€區(qū)域文本的編碼過程,是整個NRTA 模型的基礎(chǔ)模塊。為了探究不同神經(jīng)網(wǎng)絡(luò)層對NRTA模型表現(xiàn)的影響,本文分別采用Transformer多頭注意力機制[10]和CNN卷積層[14]設(shè)計了兩種文本編碼器,模型結(jié)構(gòu)如圖3所示。

        圖3 文本編碼器Fig.3 Structure of text encoder

        圖3中,左側(cè)是采用了Transformer多頭注意力機制的文本編碼器,簡稱為Transformer文本編碼器;右側(cè)是采用了CNN卷積層的文本編碼器,簡稱為CNN文本編碼器。這兩種文本編碼器的編碼過程完全一致,首先輸入文本詞序列[w1,w2,…,wL];通過詞嵌入層獲得詞向量序列;再由Transformer 的多頭注意力機制或者CNN卷積層將詞向量重新映射成隱層表示序列;最后用注意力池化層加權(quán)求和每個詞的隱層向量表示,獲得文本最終的向量表示rT。注意力池化層的公式如式(3)所示。

        (1)Transformer文本編碼器

        為了能更充分地理解新聞?wù)睦锩恳粋€區(qū)域蘊含的語義信息,在Transformer文本編碼器的設(shè)計上,本文參考TransformerXL 模型[15]的思想,設(shè)計了擁有記憶單元的文本編碼器建??鐓^(qū)域的詞相關(guān)性,使得文本編碼器不僅適用于新聞標(biāo)題編碼,還能適用于新聞?wù)母鲄^(qū)域編碼。與原先NRMS模型中使用的Transformer多頭注意力機制相比,主要區(qū)別如圖4所示。

        圖4 Transformer文本編碼器跨區(qū)域詞相關(guān)性示意圖Fig.4 Diagram of cross-region word correlation of Transformer text encoder

        圖4(a)展示的是原先的Transformer模型在多區(qū)域文本編碼時的詞注意力分布情況。圖中共有兩個待編碼的文本區(qū)域,在對這兩個區(qū)域編碼時,多頭注意力機制僅專注于建模各區(qū)域內(nèi)部的詞相關(guān)性,沒有考慮到跨區(qū)域的詞相關(guān)性。事實上,在對正文多區(qū)域編碼的情況下,每段文本區(qū)域的語義與其前文關(guān)系密不可分,若能考慮到區(qū)域間的詞相關(guān)性則能更全面地理解該區(qū)域文本蘊含的語義信息。

        圖4(b)展示的是擁有記憶單元的Transformer模型在多區(qū)域文本編碼時的詞注意力分布情況。在對區(qū)域內(nèi)的文本編碼時,會將上一個區(qū)域的詞向量序列同時輸入到Transformer多頭注意力機制中,從而使得區(qū)域不僅能關(guān)注到區(qū)域內(nèi)的詞相關(guān)性,還能建模與上一區(qū)域內(nèi)的詞的相關(guān)性,具體計算公式如式(4)所示。

        上述是根據(jù)圖中描繪的情況介紹的擁有一個記憶單元的Transformer 模型,因為只輸入了待編碼區(qū)域的前一個區(qū)域的詞向量序列??梢院苋菀椎匕焉鲜龇椒ㄍ茝V到擁有C個記憶單元的Transformer 模型的情況,只需要把前C個區(qū)域的詞向量序列和待編碼區(qū)域詞向量序列在序列長度的維度上拼接起來,作為Transformer多頭注意力機制的Key和Value即可。這樣就能在內(nèi)存允許的條件下,盡可能多地建模當(dāng)前區(qū)域內(nèi)的詞與前文區(qū)域內(nèi)的詞的相關(guān)性,以此增強模型對當(dāng)前區(qū)域文本的理解能力,生成語義信息更為準(zhǔn)確的文本向量表示。

        Transformer 文本編碼器在編碼新聞標(biāo)題時可以看作記憶單元C=0 的情況;編碼新聞?wù)牡拿總€區(qū)域時則依據(jù)參數(shù)C和前文區(qū)域數(shù)量自適應(yīng)調(diào)整。

        (2)CNN文本編碼器

        CNN文本編碼器和NAML模型的標(biāo)題編碼器結(jié)構(gòu)相同,CNN卷積層的計算公式如式(5)所示。其中Fw和bw是CNN 卷積層的參數(shù),則是由位置i-O到i+O的詞向量序列拼接而成,O是CNN 卷積核的大小。CNN卷積層采用Same-Padding的方式保證輸入序列長度和輸出序列長度一致。

        2.2.3 注意力池化層

        由文本編碼器和正文編碼器得到新聞標(biāo)題的向量表示rt以及新聞?wù)牡南蛄勘硎緍b后,通過新聞編碼器的最后一層注意力池化層加權(quán)聚合標(biāo)題和正文的向量表示,得到新聞的最終向量表示rc,具體計算公式如式(6)所示。

        2.3 用戶編碼器

        用戶編碼器和NRMS模型保持一致。首先,輸入目標(biāo)用戶的歷史瀏覽新聞序列[n1,n2,…,nD],通過新聞編碼器獲得每條歷史瀏覽新聞的向量表示序列,由多頭注意力機制層將歷史瀏覽新聞的隱層表示重新映射為序列,計算公式如式(7)所示。最后由注意力池化層加權(quán)求和歷史瀏覽新聞的向量表示,獲得最終的用戶向量表示ru,計算公式如式(8)所示。

        2.4 模型訓(xùn)練

        NRTA模型在訓(xùn)練時會同時輸入一個目標(biāo)用戶、一條該用戶點擊過的新聞y+以及一條該用戶未點擊過的新聞y-。在輸出時將用戶向量表示和兩條候選新聞向量表示做內(nèi)積,得到用戶對每條候選新聞的評分pi。最后采用softmax函數(shù)歸一化用戶對兩條候選新聞的評分,計算公式如式(9)所示。

        通過上述轉(zhuǎn)換,用戶點擊率預(yù)測問題轉(zhuǎn)變成了二分類問題,因此NRTA模型在訓(xùn)練時可以采用分類問題中常用的負(fù)對數(shù)似然損失函數(shù),具體計算公式如式(10)所示。

        3 實驗結(jié)果與分析

        3.1 數(shù)據(jù)集

        本文在MIND-Small[16]和Adressa-10 weeks[17]兩個來源于線上應(yīng)用的開源新聞推薦數(shù)據(jù)集上進行實驗。其中MIND-Small是2020年微軟發(fā)布的新聞數(shù)據(jù)集,數(shù)據(jù)主要來源于MSN News,提供了劃分好的訓(xùn)練集和測試集,NRMS、NAML 等論文均基于MSN News 數(shù)據(jù)集開展實驗。Adressa-10 weeks是挪威科技大學(xué)(NTNU)和Adressavisen 合作發(fā)布的新聞推薦數(shù)據(jù)集,包含三個月的日志數(shù)據(jù),需要自行構(gòu)建訓(xùn)練集和測試集。兩數(shù)據(jù)集的統(tǒng)計信息見表1。

        表1 MIND和Adressa數(shù)據(jù)集統(tǒng)計信息Table 1 Statistics of MIND and Adressa datasets

        本文根據(jù)Adressa-10 weeks 數(shù)據(jù)集里的用戶日志構(gòu)建了訓(xùn)練集、驗證集和測試集。首先將Adressa-10 weeks 數(shù)據(jù)集里的event 按session 起止標(biāo)記串聯(lián)起來獲得session,取前50 天的點擊日志作為訓(xùn)練集用戶的瀏覽歷史;前60 天的點擊日志作為驗證集和測試集用戶的瀏覽歷史;50~60天的點擊日志作為訓(xùn)練集;60~70天的點擊日志按照2∶8 的比例隨機劃分為驗證集和測試集。由于Adressa-10 week數(shù)據(jù)集提供的是用戶點擊日志,只有正樣本,本文從每個用戶用不到的那部分瀏覽歷史中采樣了等量的負(fù)樣本。

        3.2 評價指標(biāo)

        本文采用了搜索推薦場景下常用的排序、分類評價指標(biāo),分別是AUC、MRR、nDCG和F1[2]。在MIND數(shù)據(jù)集上采用AUC、MRR、nDCG@5、nDCG@10 四項指標(biāo);在Adressa數(shù)據(jù)集上采用AUC、F1兩項指標(biāo)。

        3.3 基線方法

        本文采用基于標(biāo)題語義信息的NRMS 模型和基于正文語義信息的NAML模型兩種方法作為基準(zhǔn)。

        NRMS[1]采用多頭注意力機制生成新聞和用戶的向量表示,注重于挖掘新聞中詞與詞之間的相關(guān)性以及用戶歷史瀏覽新聞間的相關(guān)性。僅使用新聞標(biāo)題信息,是新聞推薦領(lǐng)域的重要基線模型。

        NAML[3]基于CNN 生成新聞標(biāo)題和新聞?wù)牡南蛄勘硎?,在NRMS 模型的基礎(chǔ)上加入新聞?wù)男畔?,采用注意力機制聚合新聞標(biāo)題和新聞?wù)牡南蛄勘硎?。在對新聞?wù)木幋a時僅截取正文的開頭一段,也是新聞推薦領(lǐng)域中重要的基線模型。

        3.4 實驗設(shè)置

        本文基于Pytorch 實現(xiàn)上述所有模型,在Tesla k80 GPU(顯存11 GB)上進行模型的訓(xùn)練和測試。為保證實驗環(huán)境的一致性,表2給出了在MIND和Adressa數(shù)據(jù)集上各模型實驗時的通用參數(shù)設(shè)置。

        表2 通用參數(shù)設(shè)置Table 2 General parameter settings

        3.5 實驗結(jié)果與分析

        3.5.1 基線對比實驗

        本文分別在MIND 和Adressa 兩個數(shù)據(jù)集上,進行了NRMS、NAML、NRTA 三個模型的多組實驗。由于NAML 原文用CNN 作為文本編碼器,而NRMS 原文用Transformer 作為文本編碼器,因此本文分別采用Transformer 和CNN 兩種文本編碼器對比NRTA 模型以及基線方法NAML 模型,選出各模型在不同指標(biāo)下的幾組最優(yōu)結(jié)果進行對比。設(shè)NAML模型正文開頭截取長度為W個詞,NRTA 模型選取區(qū)域個數(shù)為P=η+μ+τ,每個區(qū)域長度為L個詞,其中從正文開頭連續(xù)選取η個區(qū)域,從正文中部連續(xù)選取μ個區(qū)域,從正文末尾連續(xù)選取τ個區(qū)域,記憶單元的數(shù)量為C。表中各模型在各指標(biāo)上的最高分已用粗體標(biāo)出,具體結(jié)果如表3和表4所示。

        表3 MIND數(shù)據(jù)集上與基線模型對比的實驗結(jié)果Table 3 Experimental results compared with baseline model on MIND dataset

        表4 Adressa數(shù)據(jù)集上與基線模型對比的實驗結(jié)果Table 4 Experimental results compared with baseline model on Adressa dataset

        在MIND數(shù)據(jù)集上,與用Transformer文本編碼器的NAML模型各項指標(biāo)的最優(yōu)值相比,NRTA模型的AUC指標(biāo)高出0.86%,MRR 指標(biāo)高出0.87%,nDCG@5 指標(biāo)高出1.11%,nDCG@10 指標(biāo)高出0.89%。若與用CNN文本編碼器的NAML 模型相比,NRTA 模型的AUC 指標(biāo)高出1.65%,MRR 指標(biāo)高出2.82%,nDCG@5 指標(biāo)高出3.20%,nDCG@10 指標(biāo)高出2.25%。NRTA 模型與NAML 模型在MIND 數(shù)據(jù)集上的各指標(biāo)最優(yōu)值對比如圖5所示。

        圖5 NRTA與NAML在MIND數(shù)據(jù)集上的各指標(biāo)最優(yōu)值對比Fig.5 Comparison of optimal values of various indicators between NRTA and NAML on MIND dataset

        在Adressa 數(shù)據(jù)集上,與用Transformer 文本編碼器的NAML 模型各項指標(biāo)的最優(yōu)值對比,NRTA 模型的AUC指標(biāo)高出3.95%,F(xiàn)1指標(biāo)高出3.75%。若與用CNN文本編碼器的NAML模型相比,NRTA模型的AUC指標(biāo)高出2.18%,F(xiàn)1指標(biāo)高出2.12%。NRTA模型與NAML模型在Adressa數(shù)據(jù)集上的各指標(biāo)最優(yōu)值對比如圖6所示。

        從圖5 和圖6 可以看出,本文提出的NRTA 模型在MIND和Adressa兩個數(shù)據(jù)集的各個指標(biāo)上都取得了最優(yōu)效果。無論NRTA 模型采用CNN 文本編碼器還是Transformer 文本編碼器,其中總有一個能達到最優(yōu)效果,而另一個文本編碼器在表現(xiàn)上則與NAML 模型的最優(yōu)效果近似持平甚至略高于NAML模型的最優(yōu)效果。

        圖6 NRTA與NAML在Adressa數(shù)據(jù)集上的各指標(biāo)最優(yōu)值對比Fig.6 Comparison of optimal values of various indicators between NRTA and NAML on Adressa dataset

        3.5.2 區(qū)域數(shù)量選取實驗

        為了探究NRTA 模型在正文區(qū)域選取上的相關(guān)問題,本文做了區(qū)域數(shù)量選取的相關(guān)實驗。在做實驗時采用的是各數(shù)據(jù)集上NRTA模型最優(yōu)表現(xiàn)的參數(shù)配置,固定區(qū)域長度L=50。

        圖7 和圖8 分別展示了MIND 數(shù)據(jù)集和Adressa 數(shù)據(jù)集上NRTA 模型各指標(biāo)隨著區(qū)域數(shù)量變化的情況。圖中橫軸是不同的區(qū)域數(shù)量,縱軸是各指標(biāo)上模型得分。紅色虛線標(biāo)出的是用CNN文本編碼器的NAML模型最優(yōu)值,綠色虛線標(biāo)出的是用Transformer 文本編碼器的NAML模型最優(yōu)值。橙色折線NRTA-H代表P個區(qū)域全部從正文開頭連續(xù)選取,即η=P,μ=0,τ=0 時NRTA 模型的表現(xiàn);藍色折線NRTA-HT 代表從正文開頭選取η個區(qū)域,余下P-η個區(qū)域全部從正文末尾選取時NRTA 模型的表現(xiàn);紫色折線NRTA-HM 代表從正文開頭選取η個區(qū)域,余下P-η個區(qū)域全部從正文中部選取時NRTA模型的表現(xiàn)。其中,從正文開頭選取的區(qū)域數(shù)量0<η≤2 約有50到100個詞,這是參照NAML模型最佳表現(xiàn)時開頭選取詞數(shù)設(shè)定的,在此基礎(chǔ)上將余下的P-η個區(qū)域從正文的中部或結(jié)尾選取,更能體現(xiàn)正文后文語義的價值。

        圖7 MIND數(shù)據(jù)集上NRTA各指標(biāo)隨區(qū)域數(shù)量變化的情況Fig.7 Change of various indicators of NRTA with different numbers of regions on MIND dataset

        圖8 Adressa數(shù)據(jù)集上NRTA各指標(biāo)隨區(qū)域數(shù)量變化的情況Fig.8 Change of various indicators of NRTA with different numbers of regions on Adressa dataset

        從折線圖可以看出,在MIND 數(shù)據(jù)集上,NRTA-HT總能在各項指標(biāo)上取得最優(yōu)效果;NRTA-H和NRTA-HM的效果則有明顯下降。在Adressa 數(shù)據(jù)集上,NRTA-H和NRTA-HM 總能在各項指標(biāo)上取得最優(yōu)效果,NRTAHT也能明顯優(yōu)于基線方法。

        本文對上述現(xiàn)象分析如下:首先,在兩個數(shù)據(jù)集上,從正文的開頭和結(jié)尾部分選取區(qū)域都能優(yōu)于基線模型方法,這進一步印證了后文語義信息的重要性。其次,在MIND 數(shù)據(jù)集上選取正文的開頭和結(jié)尾要優(yōu)于選取正文的中間部分,而在Adressa 數(shù)據(jù)集上選取正文的開頭和中間要優(yōu)于選取正文的結(jié)尾部分,這一現(xiàn)象很可能是由數(shù)據(jù)集本身造成的。其中,MIND數(shù)據(jù)集里的正負(fù)樣本來源于真實的會話場景,正負(fù)樣本新聞的相似度較高,需要更具總結(jié)性的語義特征才能增強正負(fù)樣本的區(qū)分性。直觀上理解,一篇新聞?wù)牡拈_頭和結(jié)尾多是對新聞內(nèi)容進行概括總結(jié)的表述,而正文的中間部分則多是敘述事情的經(jīng)過,因此在MIND數(shù)據(jù)集上選取更具總結(jié)性的正文開頭和結(jié)尾部分效果要更好。相比之下,Adressa 數(shù)據(jù)集里的負(fù)樣本來源于隨機采樣,正負(fù)樣本新聞的相似度較低,從而連貫的語義表述也能具有很強的區(qū)分性,因此在Adressa 數(shù)據(jù)集上選取正文的開頭和中間部分效果也很好。最后,隨著正文區(qū)域數(shù)量變化,在兩個數(shù)據(jù)集的各指標(biāo)上NRTA 模型總能取得最優(yōu)效果,說明NRTA 模型對區(qū)域數(shù)量這一超參的變化足夠穩(wěn)定。

        總體來說,選取新聞?wù)牡拈_頭和結(jié)尾部分在兩個數(shù)據(jù)集上都能使NRTA 模型取得不錯的效果,且MIND數(shù)據(jù)集里的正負(fù)樣本也要更加貼近真實的新聞推薦場景,因此在應(yīng)用NRTA模型時推薦選取區(qū)域覆蓋在正文開頭的前50~100詞,以及正文結(jié)尾的100~200詞。

        3.5.3 區(qū)域長度實驗

        在確定了如何選取區(qū)域數(shù)量與區(qū)域位置之后,區(qū)域長度又會對NRTA 模型的表現(xiàn)帶來怎樣的影響呢?對此,本文對比了不同區(qū)域長度下NRTA 模型的表現(xiàn),在對比時依舊采用NRTA 模型的最優(yōu)參數(shù)配置和最優(yōu)區(qū)域選取方法。

        圖9和圖10分別展示了MIND數(shù)據(jù)集和Adressa數(shù)據(jù)集上NRTA 模型各指標(biāo)隨著區(qū)域長度變化的情況。圖中橫軸是不同的區(qū)域長度,縱軸是各指標(biāo)上模型得分。紅色虛線標(biāo)出的是用CNN文本編碼器的NAML模型最優(yōu)值,綠色虛線標(biāo)出的是用Transformer 文本編碼器的NAML模型最優(yōu)值。

        圖9 MIND數(shù)據(jù)集上NRTA各指標(biāo)隨區(qū)域長度變化的情況Fig.9 Change of various indicators of NRTA with different region sizes on MIND dataset

        圖10 Adressa數(shù)據(jù)集上NRTA各指標(biāo)隨區(qū)域長度變化的情況Fig.10 Change of various indicators of NRTA with different region sizes on Adressa dataset

        從柱狀圖可以看出,當(dāng)NRTA模型采用最優(yōu)的區(qū)域選取方法時,在兩個數(shù)據(jù)集的各個指標(biāo)上區(qū)域長度無論是20 詞、50 詞還是100 詞均能明顯優(yōu)于基線方法。其中,區(qū)域長度為50 詞時在兩個數(shù)據(jù)集上的效果都是最優(yōu)的,因此在應(yīng)用NRTA模型時推薦正文區(qū)域長度在50詞左右。

        4 總結(jié)與展望

        本文針對新聞?wù)奈谋鹃L度大、語義信息復(fù)雜的問題提出了NRTA模型,從新聞?wù)牡亩鄠€區(qū)域里挖掘新聞標(biāo)題的補充信息,關(guān)注正文前文語義的同時也關(guān)注后文語義,進一步豐富了新聞向量表示。在MIND和Adressa兩個新聞推薦領(lǐng)域的開源數(shù)據(jù)集上開展實驗,通過基線對比實驗驗證了本文方法的有效性;通過區(qū)域數(shù)量選取實驗和區(qū)域長度實驗給出了NRTA模型的應(yīng)用建議,充分檢驗了本文方法的實用性。

        隨著研究工作的深入,仍有一些問題有待解決。新聞?wù)牡亩鄠€區(qū)域之間在語義上是互相關(guān)聯(lián)的,要充分理解一個區(qū)域的語義信息只看前文是遠遠不夠的,如何更好地建模正文多區(qū)域之間的相關(guān)性,更準(zhǔn)確地理解每個區(qū)域的語義信息,對充分理解新聞?wù)Z義非常重要,將針對這一問題做進一步研究。

        猜你喜歡
        語義文本區(qū)域
        語言與語義
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        關(guān)于四色猜想
        分區(qū)域
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        基于嚴(yán)重區(qū)域的多PCC點暫降頻次估計
        電測與儀表(2015年5期)2015-04-09 11:30:52
        認(rèn)知范疇模糊與語義模糊
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        亚洲日本国产精品久久| 久久久久亚洲av无码专区首jn| 内射欧美老妇wbb| 国产一区二区在线视频| 国模无码人体一区二区| 国产精品高潮av有码久久| 国产粉嫩美女一区二区三| 毛片在线播放亚洲免费中文网| 亚洲va欧美va日韩va成人网| 蜜臀aⅴ国产精品久久久国产老师 国产精品久久婷婷六月丁香 | 波多野结衣一区二区三区高清| 青青青伊人色综合久久亚洲综合 | 手机在线看片国产人妻| 久久婷婷五月综合色高清| 日本老熟妇毛茸茸| 麻豆AⅤ精品无码一区二区| 国产视频免费一区二区| 老熟女老女人国产老太| 国产在热线精品视频| 中文日韩亚洲欧美制服| 亚洲av无码乱码国产麻豆穿越| 一本大道久久东京热无码av| 国产网友自拍视频在线观看| 99re6在线视频精品免费| 亚洲欧美日韩中文在线制服| 国产91福利在线精品剧情尤物| 国产一级av理论手机在线| 亚洲激情综合中文字幕| 亚欧色一区w666天堂| 国产亚洲欧美在线观看的| 国产熟女自拍视频网站| 亚洲国产av一区二区三区| 中文亚洲av片在线观看| 日本不卡视频网站| 91人妻人人做人人爽九色| 内射夜晚在线观看| 国产激情精品一区二区三区| 日本少妇被爽到高潮的免费| 国产精品亚洲综合久久| 亚洲精品无码永久在线观看你懂的 | 精品视频在线观看日韩|