亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征檢索的中文短評(píng)生成

        2020-04-24 08:56:20袁江林郭志剛唐永旺
        關(guān)鍵詞:檢索向量特征

        袁江林,陳 剛,郭志剛,唐永旺

        (戰(zhàn)略支援部隊(duì)信息工程大學(xué) 信息系統(tǒng)工程學(xué)院,河南 鄭州 450000)

        0 引 言

        在大數(shù)據(jù)背景下,從海量文本數(shù)據(jù)中挖掘出需要的文本數(shù)據(jù)是一個(gè)研究的內(nèi)容。針對(duì)新聞數(shù)據(jù),從海量評(píng)論數(shù)據(jù)庫(kù)中檢索出與新聞相關(guān)且含有情感傾向性的評(píng)論成為了一個(gè)研究的問(wèn)題。該問(wèn)題可分為主題特征檢索問(wèn)題和情感特征檢索問(wèn)題。

        近年來(lái)有許多文本的主題相似性算法研究。文獻(xiàn)[1]主要研究TF-IDF算法計(jì)算文本相似度,通過(guò)統(tǒng)計(jì)的方法在長(zhǎng)文本上得到較好的結(jié)果。對(duì)于較長(zhǎng)文本,文獻(xiàn)[2]研究了關(guān)鍵詞抽取算法抽取關(guān)鍵詞,較長(zhǎng)文本可通過(guò)抽取部分關(guān)鍵詞,利用關(guān)鍵詞計(jì)算主題相似性。哈希算法可加快文本相似性的計(jì)算,對(duì)大數(shù)據(jù)背景下的檢索速度提升有研究意義。深度學(xué)習(xí)技術(shù)出現(xiàn)之后,在短文本上取得了較好的效果。文獻(xiàn)[3,4]分別研究了采用詞向量建立主題模型和實(shí)現(xiàn)相似度計(jì)算。隨著網(wǎng)絡(luò)結(jié)構(gòu)越來(lái)越多,應(yīng)用在自然語(yǔ)言處理領(lǐng)域的模型結(jié)構(gòu)增多。長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory, LSTM)[5]和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[6]是用在自然語(yǔ)言處理中較為常用的結(jié)構(gòu)。文獻(xiàn)[7]采用了卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)句子特征的表示和注意力機(jī)制的表達(dá)。文獻(xiàn)[8]研究采用了深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)文本相似性的計(jì)算,提升了語(yǔ)義相似性計(jì)算的精度。上述文獻(xiàn)證明,采用深度學(xué)習(xí)技術(shù)可以實(shí)現(xiàn)文本相似性的計(jì)算。

        情感特征檢索主要通過(guò)情感按照不同分類粒度分類實(shí)現(xiàn)。早期主要通過(guò)情感詞典與規(guī)則相結(jié)合的方法實(shí)現(xiàn)情感分類,文獻(xiàn)[9,10]通過(guò)利用情感詞典和規(guī)則對(duì)中文語(yǔ)句、新聞文本、中文微博等類型的文本做情感傾向性分析。但是情感詞典標(biāo)注工作復(fù)雜,對(duì)較長(zhǎng)的文本做情感傾向性判斷有一定的困難?;跈C(jī)器學(xué)習(xí)的情感分析算法是在基于詞典和規(guī)則之后研究較多的算法,文獻(xiàn)[11]通過(guò)樸素貝葉斯分類算法等機(jī)器學(xué)習(xí)分類算法實(shí)現(xiàn)了情感的分類,取得了較好的效果?;谏疃葘W(xué)習(xí)的情感分類算法是當(dāng)前情感分析研究的熱點(diǎn)。文獻(xiàn)[12]結(jié)合詞向量對(duì)中文評(píng)論實(shí)現(xiàn)情感分類,文獻(xiàn)[13]將詞序和CNN_LSTM網(wǎng)絡(luò)結(jié)合實(shí)現(xiàn)了情感的分類。采用深度學(xué)習(xí)算法較機(jī)器學(xué)習(xí)算法,分類精度有提升。目前情感分類較為依賴于語(yǔ)料的標(biāo)注,但分類精度較早期已經(jīng)有了很大的提升。

        目前基于檢索的方法實(shí)現(xiàn)評(píng)論的生成對(duì)主題和情感結(jié)合研究的較少,文獻(xiàn)[14]研究了采用TF-IDF結(jié)合深度學(xué)習(xí)的方法實(shí)現(xiàn)評(píng)論的生成,但僅限于主題特征。為了對(duì)新聞文本檢索出帶有一定情感傾向性的評(píng)論,本文采用主題特征檢索和情感特征檢索結(jié)合的方法實(shí)現(xiàn)中文評(píng)論的生成。

        1 算 法

        基于檢索的中文評(píng)論生成研究立足于新聞及評(píng)論語(yǔ)料庫(kù),對(duì)新聞按照新聞內(nèi)容、新聞標(biāo)題、新聞關(guān)鍵詞等3個(gè)不同的粒度提取特征,新聞的評(píng)論內(nèi)容屬于短評(píng),因此可以直接做特征提取。具體實(shí)現(xiàn)流程如圖1所示。如圖1所示,基于檢索的中文評(píng)論生成首先需輸入新聞及評(píng)論語(yǔ)料庫(kù),提取主題特征并計(jì)算主題相似度實(shí)現(xiàn)一次檢索。在一次檢索結(jié)果基礎(chǔ)上提取情感特征,實(shí)現(xiàn)情感分類,檢索出含有情感傾向性的相關(guān)評(píng)論。基于主題特征融合檢索和基于情感特征融合的檢索是本文研究的重點(diǎn)內(nèi)容。

        圖1 基于檢索的中文評(píng)論生成流程

        其中新聞關(guān)鍵詞的提取按照采用Text-Rank的方法計(jì)算。文獻(xiàn)[15]研究利用Text-Rank方法實(shí)現(xiàn)關(guān)鍵詞抽取。關(guān)鍵詞抽取的Text-Rank權(quán)重迭代公式如式(1)所示

        (1)

        其中,V表示詞匯集合,WS表示關(guān)鍵詞之間的權(quán)重,d為調(diào)節(jié)系數(shù),In(Vi) 表示指向詞Vi的詞匯集合,outVj表示詞匯Vj指向所有詞匯的集合,wji表示詞Vj到詞Vi的邊的權(quán)重集合。

        1.1 基于主題特征的一次檢索

        基于主題特征的一次檢索通過(guò)計(jì)算新聞主題特征和評(píng)論主題特征之間的相似度,按照相似度檢索出相關(guān)的評(píng)論。本文研究主題特征提取方法為詞向量、CNN、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional long short term memory,BiLSTM)、基于主題特征融合的檢索算法。

        1.1.1 基于詞向量的主題特征檢索

        不妨設(shè)原始文本信息為w=(w1,…,wN), 其中N表示文本的長(zhǎng)度,w表示中文文本分詞后的詞匯集合;通過(guò)詞向量轉(zhuǎn)化后的結(jié)果為v=(v1,…,vN), 詞向量的計(jì)算公式如式(2)所示

        v=word2vec(w)

        (2)

        由于word2vec表示的詞向量具有一定的語(yǔ)義相關(guān)性,因此,將新聞及評(píng)論文本向量化后,利用向量和表示新聞的主題特征,具有一定的語(yǔ)義特征。新聞主題特征和評(píng)論主題特征計(jì)算公式分別如式(3)、式(4)所示

        (3)

        (4)

        其中,Lk表示新聞文本k分詞后的詞匯長(zhǎng)度,Mj表示評(píng)論文本j分詞后的詞匯長(zhǎng)度。主題相似度的計(jì)算公式如式(5)所示

        (5)

        將評(píng)論語(yǔ)料庫(kù)中所有評(píng)論向量化表示,計(jì)算新聞與評(píng)論語(yǔ)料庫(kù)之間的主題相似度。按照評(píng)論相似性排序,檢索出主題相似性較高的評(píng)論。

        1.1.2 基于CNN的主題特征檢索

        基于CNN的主題特征檢索的實(shí)現(xiàn)過(guò)程圖如圖2所示。先通過(guò)式(2)將文本轉(zhuǎn)換為詞向量,轉(zhuǎn)換后的詞向量用不同尺寸的多個(gè)濾波器分別濾波,即卷積過(guò)程,卷積后的結(jié)果用maxpooling提取最大的特征值組合成為文本主題特征,計(jì)算公式如式(6)、式(7)、式(8)所示

        fi,n=convi(v1,v2,v3,…,vN)

        (6)

        fi=coni(mpli(fi,1),…,mpli(fi,p))

        (7)

        Tk=con(f1,…,fq)

        (8)

        其中, convi(·) 表示第i個(gè)尺寸的濾波器卷積,fi,n表示第i個(gè)尺寸的第n個(gè)濾波器。mpli(·) 表示第i個(gè)尺寸的濾波器池化運(yùn)算;fi表示第i個(gè)尺寸的濾波器卷積池化后的向量拼接得到的新特征向量; con(·) 表示向量拼接過(guò)程,Tk表示主題特征向量。i∈[0,p],n∈[0,q] 分別表示濾波器的數(shù)量為q個(gè),濾波器尺寸種類為p個(gè)。同理,可計(jì)算得到評(píng)論j的主題特征向量Rj。

        圖2 基于CNN的主題特征檢索

        最后計(jì)算新聞主題特征向量和評(píng)論主題特征向量相似度,按照相似度高的評(píng)論檢索出對(duì)應(yīng)的評(píng)論文本。

        1.1.3 基于BiLSTM的主題特征檢索

        BiLSTM較LSTM網(wǎng)絡(luò)結(jié)構(gòu)能更好利用歷史和未來(lái)信息,本文利用BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算主題特征。BiLSTM提取主題特征的結(jié)構(gòu)如圖3所示。

        圖3 基于BiLSTM的主題特征檢索

        如圖3所示,新聞和評(píng)論信息通過(guò)詞向量編碼后輸入到BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)中,得到結(jié)果為h=(h1,h2,…,hLk)。 其計(jì)算公式如式(9)所示

        (h1,h2,h3,…,hLk)=BiLSTM(v1,v2,v3,…,vLk)

        (9)

        其中,Lk表示輸入的文本的長(zhǎng)度,取最后時(shí)刻輸出向量為主題特征向量。按照此方法得到的新聞和評(píng)論的主題特征向量分別為Rj和Tk, 其中k,j分別表示第k個(gè)新聞和第j個(gè)評(píng)論。按照式(5)計(jì)算得到主題相似度,并按照主題相似度高的評(píng)論檢索出對(duì)應(yīng)的評(píng)論。

        1.1.4 基于主題特征融合的檢索

        基于主題特征融合的檢索立足于上述3種基本算法,將上述3種算法提取的新聞主題特征與評(píng)論主題特征分別計(jì)算相似度后取均值,提升主題特征檢索的準(zhǔn)確性,實(shí)現(xiàn)流程如圖4所示。

        圖4 基于主題特征融合的檢索算法流程

        如圖4所示,將3種主題特征檢索算法并行化處理,分別計(jì)算相似度,最終評(píng)論和新聞的主題相似度的計(jì)算公式如式(10)所示

        (10)

        根據(jù)式(10)計(jì)算的主題相似度排序,檢索出主題相似度高的評(píng)論。

        1.2 基于情感特征融合的二次檢索

        基于情感特征融合的二次檢索立足于基于主題特征的一次檢索的評(píng)論文本,通過(guò)對(duì)情感特征分類實(shí)現(xiàn)情感特征的二次檢索。主要采用多個(gè)算法融合對(duì)情感文本進(jìn)行分類。具體的實(shí)現(xiàn)流程如圖5所示。

        圖5 基于情感特征融合的檢索流程

        如圖5所示,與基于主題特征融合的檢索流程相似,輸入新聞和一次檢索的評(píng)論后,將其分別轉(zhuǎn)換成為詞向量。然后按照基于詞向量的情感分類算法、基于BiLSTM的情感分類算法、基于CNN的情感分類算法分別計(jì)算情感類別,對(duì)情感類別結(jié)果求和,按照情感類別分別檢索出對(duì)應(yīng)的評(píng)論。其模型如圖6所示。

        圖6 基于情感特征融合檢索的模型

        如圖6所示,基于情感特征融合檢索的子算法均可利用基于主題特征提取的特征向量,利用該向量通過(guò)全連接層網(wǎng)絡(luò),再通過(guò)softmax層轉(zhuǎn)化為子算法分類結(jié)果;將3個(gè)子算法分類結(jié)果求和取最大值位置對(duì)應(yīng)類別即為情感類別。其計(jì)算公式如下式(11)-式(14)所示

        (11)

        (12)

        (13)

        (14)

        2 實(shí) 驗(yàn)

        2.1 實(shí)驗(yàn)數(shù)據(jù)

        本文采集部分體育新聞及其評(píng)論數(shù)據(jù),并引用文獻(xiàn)[16]中的文本及評(píng)論數(shù)據(jù)作為訓(xùn)練的訓(xùn)練集和測(cè)試集。訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的大小見(jiàn)表1。

        表1 新聞數(shù)據(jù)集

        通過(guò)對(duì)新聞及其評(píng)論數(shù)據(jù)清理,評(píng)論詞匯的平均數(shù)量為25詞,每條新聞對(duì)應(yīng)的評(píng)論數(shù)量超過(guò)20條。由于本文研究基于檢索的中文評(píng)論生成涉及到中文情感分類,因此從互聯(lián)網(wǎng)上采集NLPCC2014基于深度學(xué)習(xí)技術(shù)的情感分析(NPCC-SCDL)評(píng)測(cè)任務(wù)數(shù)據(jù)集,并添加新標(biāo)注2000條評(píng)論語(yǔ)料用于訓(xùn)練,標(biāo)注2000條評(píng)論語(yǔ)料用于測(cè)試,語(yǔ)料集具體見(jiàn)表2。

        表2 中文情感語(yǔ)料集

        2.2 實(shí)驗(yàn)設(shè)置

        本文利用中文評(píng)論語(yǔ)料數(shù)據(jù)集研究,需要對(duì)新聞及評(píng)論語(yǔ)料分詞,由于分詞的準(zhǔn)確性會(huì)影響模型和算法的訓(xùn)練,本文從互聯(lián)網(wǎng)上采集常用輸入法中的詞庫(kù)并導(dǎo)入到j(luò)ieba分詞詞庫(kù)中用于訓(xùn)練。采用pytorch編程實(shí)現(xiàn)。并對(duì)新聞內(nèi)容、新聞關(guān)鍵詞、新聞標(biāo)題3種不同粒度的主題特征分別處理,用于基于主題特征的一次檢索的研究對(duì)比。

        詞向量的訓(xùn)練采用gensim模型訓(xùn)練,維度設(shè)置為300維。CNN模型的濾波器尺寸設(shè)置為3、4、5。CNN中每種濾波器的數(shù)量設(shè)置為100,通過(guò)池化后的模型維度設(shè)置為300。BiLSTM網(wǎng)絡(luò)模型的隱藏層的維度設(shè)置為300,輸出層設(shè)置為600。網(wǎng)絡(luò)的層數(shù)設(shè)置為6層。CNN與BiLSTM的損失函數(shù)用交叉熵?fù)p失函數(shù),誤差傳遞函數(shù)用AdaDelta。在基于情感特征融合的二次檢索中,詞向量、CNN、BiLSTM的全連接層均設(shè)置為2。

        3 結(jié)果與分析

        實(shí)驗(yàn)通過(guò)輸入新聞,按照新聞內(nèi)容、新聞內(nèi)容提取的關(guān)鍵詞、新聞標(biāo)題3種不同粒度分別與評(píng)論語(yǔ)料進(jìn)行主題相似度計(jì)算。

        3.1 測(cè)評(píng)指標(biāo)

        基于主題特征的一次檢索主要檢索出評(píng)論與新聞相關(guān)性,主要評(píng)價(jià)已有的新聞對(duì)應(yīng)的評(píng)論與檢索出來(lái)的新聞評(píng)論之間的重合性?;谇楦刑卣魅诤系亩螜z索主要評(píng)測(cè)情感分類的準(zhǔn)確性。其中選取準(zhǔn)確率(Accuarcy)和F-score作為評(píng)測(cè)指標(biāo)。

        表3和表4為性能評(píng)估矩陣,用于評(píng)測(cè)準(zhǔn)確率和F-score。具體的計(jì)算公式如式(15)-式(18)所示

        (15)

        (16)

        (17)

        (18)

        表4 基于情感特征融合的二次檢索性能評(píng)估矩陣

        其中Precision、Recall、F-score分別表示精確率、召回值和F值。

        3.2 實(shí)驗(yàn)結(jié)果分析

        基于主題特征的一次檢索,按照新聞內(nèi)容、新聞內(nèi)容提取的關(guān)鍵詞、新聞標(biāo)題3種不同主題粒度檢索評(píng)論,計(jì)算的F值和準(zhǔn)確率其結(jié)果見(jiàn)表5。

        表5 基于主題特征的一次檢索的準(zhǔn)確性和F-score

        從表5中的數(shù)據(jù)可以看出,采用不同主題粒度得到的檢索準(zhǔn)確率不同。由于對(duì)新聞概括最全,新聞標(biāo)題主題粒度下的準(zhǔn)確率最高;新聞內(nèi)容由于提取到較多無(wú)用信息,對(duì)評(píng)論主題相似性計(jì)算產(chǎn)生干擾,因此準(zhǔn)確率較低;新聞關(guān)鍵詞是在新聞內(nèi)容中抽取出的關(guān)鍵信息,但由于信息不完整,且與關(guān)鍵詞抽取算法有關(guān)聯(lián),因此準(zhǔn)確率最低。基于主題特征融合的檢索算法在檢索評(píng)論準(zhǔn)確性上要優(yōu)于其余3種算法,由于基于主題特征融合的檢索采用的3種算法求相似度取平均值,在總體上提升了判斷主題相似度的準(zhǔn)確性。

        在一次檢索的結(jié)果基礎(chǔ)上,利用情感特征融合的二次檢索,其計(jì)算準(zhǔn)確率和F-score結(jié)果見(jiàn)表6。

        表6 基于情感特征融合的二次檢索準(zhǔn)確性和F-score

        依據(jù)表6結(jié)果分析,利用基于主題特征融合的檢索算法對(duì)一次檢索的評(píng)論進(jìn)行情感分類,其分類結(jié)果的準(zhǔn)確性要高于其余3種算法。由于采用多種算法融合判定,避免了單一算法對(duì)類別判定失誤,提升了分類的準(zhǔn)確性。

        實(shí)驗(yàn)在新聞標(biāo)題粒度下分別與評(píng)論語(yǔ)料進(jìn)行主題相似度計(jì)算。其結(jié)果見(jiàn)表7,經(jīng)過(guò)基于情感融合特征的二次檢索,檢索結(jié)果見(jiàn)表8。

        表7 基于主題特征的一次檢索結(jié)果

        表8 基于情感特征融合的二次檢索結(jié)果

        從表7與表8分析可得,采用基于主題特征的一次檢索和基于情感特征融合的二次檢索可以從新聞?wù)Z料庫(kù)中檢索出帶有情感傾向性的相關(guān)評(píng)論。

        4 結(jié)束語(yǔ)

        本文研究了在不同新聞主題粒度下,用基于主題特征融合的檢索算法和情感特征融合的檢索算法從評(píng)論語(yǔ)料庫(kù)檢索出與新聞相關(guān)的情感傾向性的評(píng)論。實(shí)驗(yàn)結(jié)果表明,在新聞標(biāo)題粒度下,檢索出的評(píng)論準(zhǔn)確率最高,采用基于主題特征融合和情感特征融合的結(jié)果準(zhǔn)確性較高,但是需要付出一定的計(jì)算代價(jià)。如何高效并準(zhǔn)確檢索出含有一定主題相關(guān)性和情感傾向性的評(píng)論是研究的一個(gè)方向,若檢索不出有關(guān)內(nèi)容,自動(dòng)生成有關(guān)評(píng)論將是研究熱點(diǎn)。

        猜你喜歡
        檢索向量特征
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        如何表達(dá)“特征”
        2019年第4-6期便捷檢索目錄
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        專利檢索中“語(yǔ)義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        给我看免费播放的视频在线观看| 亚洲人成网站在线观看播放| 亚洲偷自拍另类图片二区| 久久99久久99精品免视看国产成人| 成人一区二区三区蜜桃| 亚洲成人精品在线一区二区 | 久久99精品这里精品动漫6| 一本色道久久88综合| 亚洲精品98中文字幕| 亚洲国产精品久久久av| 美女被强吻并脱下胸罩内裤视频| 亚洲中文av中文字幕艳妇| 国产精品毛片va一区二区三区 | 日本熟妇色xxxxx欧美老妇| 亚洲日本va中文字幕久久| 韩国三级大全久久网站| 美女被强吻并脱下胸罩内裤视频 | 久草国产手机视频在线观看| 青青久在线视频免费视频| 欧美伦费免费全部午夜最新| 国产亚洲精品bt天堂精选| 欧美久久久久中文字幕| 国产精品三级自产拍av| 精品国产一区二区三区av免费 | 正在播放国产对白孕妇作爱| 国产毛片A啊久久久久| 日本免费播放一区二区| 少妇无码av无码专线区大牛影院| 亚洲欧洲精品无码av| 野花社区视频www官网| 国产乱子伦精品免费女| 人妻av不卡一区二区三区| 开心久久综合婷婷九月| 亚洲人成无码区在线观看| 台湾佬综合网| 成激情人妻视频| 国产色视频在线观看了| 亚洲av男人的天堂一区| 午夜免费啪视频| 国产精品国产三级国av| 国产精品亚洲婷婷99久久精品|