亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于L-STM模型的中文情感分類

        2018-11-17 01:26:10王景中龐丹丹
        關(guān)鍵詞:分類文本情感

        王景中,龐丹丹

        (北方工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,北京 100144)

        0 引 言

        情感分類是情感分析的具體任務(wù),通過(guò)分析統(tǒng)計(jì)帶主觀傾向性文本,明晰發(fā)表者關(guān)于某事物態(tài)度,同時(shí)把文本區(qū)別成正、負(fù)情感極性。在電子商務(wù)蓬勃發(fā)展的網(wǎng)絡(luò)環(huán)境下,產(chǎn)品的評(píng)論數(shù)據(jù)已經(jīng)成為商家提高產(chǎn)品及服務(wù)質(zhì)量的重要數(shù)據(jù)來(lái)源。這些評(píng)論中包含用戶對(duì)產(chǎn)品各方面的情感傾向,對(duì)其進(jìn)行情感分類不僅可以幫助生產(chǎn)廠商和銷售商通過(guò)反饋信息來(lái)提高產(chǎn)品質(zhì)量、改善服務(wù)、提高競(jìng)爭(zhēng)力,還可為潛在消費(fèi)者提供網(wǎng)購(gòu)指導(dǎo)。文本情感分類能夠根據(jù)給定的文本數(shù)據(jù)自動(dòng)的判別出用戶觀點(diǎn)的情感極性[1],具有非常重要的學(xué)術(shù)研究及實(shí)際應(yīng)用價(jià)值,也受到廣大學(xué)術(shù)研究者及商家、企業(yè)的關(guān)注。結(jié)合現(xiàn)狀來(lái)看,主要包含基于規(guī)則的、基于機(jī)器學(xué)習(xí)的、基于深度學(xué)習(xí)的3類情感分類研究。

        上述分類方法主要通過(guò)向量空間模型完成特征表示,也就是把文本結(jié)構(gòu)化轉(zhuǎn)變成向量形式來(lái)計(jì)算,而把詞當(dāng)作文本特征后,會(huì)造成特征高維情況,一旦訓(xùn)練次數(shù)有所失誤,高維數(shù)據(jù)更可能引起過(guò)擬合問(wèn)題,文本分類器泛化能力隨之下降。本文基于張量空間模型,將文本數(shù)據(jù)映射到空間內(nèi),同時(shí)完成相關(guān)計(jì)算,面對(duì)以上情況時(shí),有助于降低過(guò)擬合可能性。除此之外,利用支持張量機(jī)(STM)、LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)造出L-STM算法模型,科學(xué)設(shè)置超平面參數(shù),由此減少計(jì)算期間迭代次數(shù),加快文本訓(xùn)練速度。實(shí)驗(yàn)結(jié)果表明,L-STM模型較傳統(tǒng)文本分類模型具有更高的分類準(zhǔn)確率。本文創(chuàng)新點(diǎn)與意義如下:利用張量空間模型使文本數(shù)據(jù)張量化,有助于規(guī)避高維數(shù)據(jù)過(guò)擬合現(xiàn)象;基于STM算法提出L-STM算法模型,有效減少了求解最優(yōu)解的迭代次數(shù),進(jìn)而縮短了文本的訓(xùn)練時(shí)間;3組實(shí)驗(yàn)結(jié)果表明本文方法的有效性、可行性。

        1 相關(guān)技術(shù)

        1.1 Word2Vec

        引入詞向量的目的是將語(yǔ)言中的詞進(jìn)行數(shù)學(xué)化,即將詞轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的形式,從而可通過(guò)各種算法完成自然語(yǔ)言處理任務(wù)。文獻(xiàn)[2]介紹了一種經(jīng)典的詞向量表示方法One-hot repre-sentation,但其缺點(diǎn)是維度過(guò)高且不能很好的表達(dá)詞與詞之間的語(yǔ)義關(guān)系。

        Word2Vec[3]作為Google于2013年開源的工具包,重點(diǎn)在于獲得word vector,它高效、容易使用,只需進(jìn)行相應(yīng)訓(xùn)練,便能將文本數(shù)據(jù)轉(zhuǎn)變成K維向量數(shù)據(jù)。這種算法不僅能獲取語(yǔ)境信息、壓縮信息規(guī)模,還提供CBOW (continuous bag of words model)和Skip-gram(continuous skip-gram model)語(yǔ)言模型,且CBOW、Skip-gram全部擁有輸入/輸出層與映射層,兩者訓(xùn)練過(guò)程大體相似。

        word embedding訓(xùn)練階段,由于Skip-gram模型具備高效、準(zhǔn)確等優(yōu)點(diǎn),故而得到普遍利用。詳細(xì)結(jié)構(gòu)如圖1所示。

        圖1 Skip-gram模型

        若給定一個(gè)需要訓(xùn)練的詞序列W1、W2、…、Wn,那么Skip-gram模型的目標(biāo)就是最大化概率取log的平均值即使式(1)最大

        (1)

        式中:c值的大小與模型的訓(xùn)練效果成正比,即c值越大,效果更理想,然而訓(xùn)練時(shí)間也會(huì)相應(yīng)延長(zhǎng)[4];對(duì)于文本分類而言,僅用保證訓(xùn)練語(yǔ)料庫(kù)與窗口大小C符合要求,便能快速獲得更理想詞向量。

        現(xiàn)階段,word embedding常用于POS、Tagging[5]、中文分詞、情感分類等方面,實(shí)用效果非常顯著。

        1.2 張量理論

        定義1 高維空間中向量自身拓展即為張量,N階張量是指A∈RI1×I2×…×IN,A中的元素用ai1,i2,…,iN表示,其中1≤in≤IN,1≤n≤N。

        定義2n模式積:張量和矩陣的n模式積是指S∈RI1×I2×…IK與矩陣E∈RIN×J的n模式積表示為S?E,可得新張量Β∈RI1×I2×…In-1×In×…×Ik,B∈S?E值即為一N-1階張量。

        定義3 秩一分解:如果一K階張量可表示成K個(gè)向量外積,那么此向量又叫做秩一分解。也就是

        S=∏(1)*∏(2)*…*∏(K)
        si1,i2,…ik=πi1πi2…πik

        (2)

        1.3 支持張量機(jī)問(wèn)題描述

        (3)

        借鑒SVM最大化分類間隔的思想,引入松弛變量c和懲罰因子ξi(1≤i≤M),得到等價(jià)的優(yōu)化問(wèn)題如下

        (4)

        為了求解上式的最優(yōu)化問(wèn)題,引入拉格朗日乘子αi≥0,ki≥0(1≤i≤N)。則其拉格朗日函數(shù)數(shù)為

        (5)

        (6)

        (7)

        (8)

        (9)

        1.4 LSTM神經(jīng)網(wǎng)絡(luò)

        LSTM[8]是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),不僅能夠解決RNN的梯度消失問(wèn)題[9],還能學(xué)習(xí)長(zhǎng)期的依賴關(guān)系。LSTM模型用存儲(chǔ)單元替代常規(guī)的神經(jīng)元,而每個(gè)存儲(chǔ)單元是與一個(gè)輸入門、一個(gè)輸出門和一個(gè)跨越時(shí)間步驟無(wú)干擾送入自身的內(nèi)部狀態(tài)(Cell)相關(guān)聯(lián)的,如圖2所示。

        圖2 LSTM模型

        Cell狀態(tài)是LSTM神經(jīng)網(wǎng)絡(luò)的關(guān)鍵,它類似一個(gè)傳送帶可以直接在整個(gè)鏈上運(yùn)行,只有一些少量的線性交互且信息在上面流傳不易改變。

        2 基于L-STM模型的情感分類系統(tǒng)

        2.1 整體架構(gòu)

        結(jié)合實(shí)際情況考慮,本次選擇半監(jiān)督學(xué)習(xí)方式,首先需要完成相關(guān)數(shù)據(jù)集(帶標(biāo)簽)預(yù)處理,并利用Skip-gram模型直接訓(xùn)練word embedding;其次,把數(shù)據(jù)由向量變換為張量形式,同時(shí)當(dāng)作L-STM模型輸入,經(jīng)計(jì)算分析獲取最優(yōu)解;最后利用決策函數(shù)明確文本分類情況,簡(jiǎn)單來(lái)看,決策函數(shù)值大于或小于零時(shí),文本級(jí)別分別是正和負(fù)?;炯軜?gòu)如圖3所示。

        圖3 情感分類流程

        2.2 數(shù)據(jù)轉(zhuǎn)換模塊

        此次模型輸入選擇張量數(shù)據(jù),有助于降低數(shù)據(jù)高維與過(guò)擬合可能性。以下是向量數(shù)據(jù)張量化步驟:

        (1)預(yù)處理完成時(shí)需進(jìn)行有效整理,借此得到文本向量數(shù)目是n,并以TF-IDF對(duì)這些向量進(jìn)行加權(quán)表示。

        (3)數(shù)據(jù)轉(zhuǎn)化。結(jié)合當(dāng)前映射方式來(lái)看,基本包含如下兩步:第一,遵照相應(yīng)規(guī)則進(jìn)行特征排序;第二,遵照相應(yīng)規(guī)律將所有特征向量填充至矩陣。本文按照特征詞相關(guān)文檔頻率來(lái)排序,然后按給定順序?yàn)閺埩扛魈卣魈畛湎鄳?yīng)內(nèi)容,而末尾不足位可補(bǔ)0。轉(zhuǎn)換情況參如圖4所示。

        圖4 數(shù)據(jù)轉(zhuǎn)化

        2.3 L-STM模型算法描述

        L-STM模型算法流程如圖5所示。

        圖5 L-STM模型算法流程

        算法描述:

        (10)

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)平臺(tái)選擇Intel Corei7 8 GB內(nèi)存PC機(jī),基于Ubuntu/Linux系統(tǒng)環(huán)境通過(guò)Matlab工具編寫全部代碼,張量計(jì)算方面需要使用Matlab Tensor Toolbox,SVM借助LIBSVMS來(lái)實(shí)現(xiàn)。

        3.2 實(shí)驗(yàn)數(shù)據(jù)

        為檢驗(yàn)該方法對(duì)于中文情感分類有無(wú)實(shí)用性,這里將專家已標(biāo)注文本集作為測(cè)試數(shù)據(jù),完成測(cè)試分析。根據(jù)中文情感文本語(yǔ)料庫(kù)現(xiàn)狀可知,我國(guó)常用數(shù)據(jù)來(lái)自于兩方面:其一,COAE內(nèi)部40 000份文本;其二,中科院譚松波博士團(tuán)隊(duì)綜合匯總所得語(yǔ)料。本次數(shù)據(jù)集采用該團(tuán)隊(duì)有關(guān)酒店評(píng)論[10]情感語(yǔ)料開展實(shí)驗(yàn),由4000份已標(biāo)注評(píng)論文本集取得1800個(gè)文本,褒義、貶義分別有900個(gè),在此基礎(chǔ)之上,隨機(jī)選取3次構(gòu)造3組實(shí)驗(yàn)數(shù)據(jù)集,具體情況參見表1。

        表1 3組實(shí)驗(yàn)數(shù)據(jù)集

        3.3 情感分類評(píng)價(jià)指標(biāo)

        針對(duì)文本分類質(zhì)量,本次通過(guò)查準(zhǔn)率、查全率、F值進(jìn)行評(píng)價(jià),關(guān)于查準(zhǔn)率、查全率,分別表示準(zhǔn)確判定成某類的文本數(shù)和判定成該類的文本總數(shù)、實(shí)際為該類的文本總數(shù)之比,關(guān)于F值,可全面反映總體指標(biāo)

        3.4 Word2vec參數(shù)調(diào)整

        參數(shù)設(shè)置與模型訓(xùn)練關(guān)系密切,由于各項(xiàng)參數(shù)調(diào)整會(huì)給訓(xùn)練速度與詞向量質(zhì)量帶來(lái)各種影響。前面1.1節(jié)指出,當(dāng)訓(xùn)練語(yǔ)料庫(kù)非常大時(shí),通過(guò)有效調(diào)整窗口大小C便能得到更高質(zhì)word embedding??紤]到這一點(diǎn),這里選擇ARR(adjusted ratio of ratios)算法[11]設(shè)置word2vec模型窗口,由此討論C與訓(xùn)練用時(shí)、文本情感分類準(zhǔn)確率間對(duì)應(yīng)關(guān)系。從式(11)來(lái)看,SR代表模型分類準(zhǔn)確率,T代表訓(xùn)練用時(shí)。對(duì)于分類準(zhǔn)確率與訓(xùn)練時(shí)間重要性評(píng)價(jià),必須利用AccD這項(xiàng)參數(shù)完成,為確保二者獲得同樣重視,這里把AccD值設(shè)定成1%

        (11)

        由word2vec調(diào)參實(shí)驗(yàn)來(lái)看,為進(jìn)一步保證分類準(zhǔn)確率,采用15種評(píng)論數(shù)據(jù)分類分析,具體情況參見表2。

        表2 15種評(píng)論數(shù)據(jù)集

        圖6主要利用word2vec模型完成評(píng)論數(shù)據(jù)分類工作,結(jié)合圖例不難發(fā)現(xiàn),各種窗口大小下分類準(zhǔn)確率有所區(qū)別,如果將word2vec模型窗口大小設(shè)定成20,那么能實(shí)現(xiàn)最高準(zhǔn)確率,無(wú)論窗口過(guò)大還是過(guò)小,分類準(zhǔn)確率必定受到影響,故而需要結(jié)合實(shí)際情況來(lái)處理,促使結(jié)果更加理想。

        圖6 窗口大小-準(zhǔn)確率

        圖7主要按照式(11)求解所得各種窗口大小對(duì)應(yīng)ARR值,結(jié)合圖例不難發(fā)現(xiàn),如果ARR值最大,窗口大小是20。換言之,將窗口設(shè)定成20后,可快速獲取更高質(zhì)word embedding。

        圖7 窗口大小-ARR值

        3.5 實(shí)驗(yàn)結(jié)果與分析

        針對(duì)基于張量空間的L-STM模型,本次通過(guò)3組實(shí)驗(yàn)判斷其實(shí)用價(jià)值,第一組主要測(cè)試同一分類模型SVM內(nèi)文本數(shù)據(jù)向量化、張量化對(duì)應(yīng)分類性能,然后以macroF1、microF1進(jìn)行分類準(zhǔn)確率評(píng)價(jià),為提高本次實(shí)驗(yàn)合理性,促使結(jié)果更加準(zhǔn)確,各組數(shù)據(jù)都進(jìn)行50次實(shí)驗(yàn),再求出每組數(shù)據(jù)平均值,具體情況參見表3。

        表3 文本表示形式對(duì)分類結(jié)果的影響

        根據(jù)表3進(jìn)行說(shuō)明,通過(guò)表中結(jié)果不難發(fā)現(xiàn),同一測(cè)試數(shù)據(jù)、分類模型下,對(duì)比文本數(shù)據(jù)張量化、向量化不難發(fā)現(xiàn),前者分類能力更加強(qiáng)大。

        第二組主要測(cè)試L-STM、STM模型最大迭代次數(shù)和測(cè)試精度間關(guān)系,詳情參如圖8所示。

        圖8 迭代次數(shù)與測(cè)試精度關(guān)系

        結(jié)合圖8進(jìn)行說(shuō)明,通過(guò)圖例分析不難發(fā)現(xiàn),隨著迭代次數(shù)持續(xù)增加,STM和L-STM測(cè)試精度不斷提高。在同一迭代次數(shù)條件下,L-STM、STM測(cè)試精度及其升高幅度相比,前者更高,由此驗(yàn)證在模型參數(shù)滿足收斂條件前提下,前者用時(shí)較短,訓(xùn)練較快。

        第三組主要測(cè)試不同向量描述形式以不同分類模型處理所得分類結(jié)果,若文本描述成向量形式,采用典型SVM分類模型,若描述成張量形式,依次通過(guò)STM與L-STM模型開展實(shí)驗(yàn)分析工作,結(jié)果見表4。

        根據(jù)表4進(jìn)行說(shuō)明,通過(guò)各評(píng)價(jià)指標(biāo)不難發(fā)現(xiàn),L-STM與SVM、STM模型相比,分類性能更加出色,由此能夠證明,本次實(shí)現(xiàn)的基于張量空間的L-STM模型各方面比較優(yōu)異,無(wú)論從分類準(zhǔn)確率亦或訓(xùn)練時(shí)間來(lái)看,均好于其它模型。

        表4 分類結(jié)果情況

        4 結(jié)束語(yǔ)

        本文基于STL框架把支持張量機(jī)應(yīng)用于情感分類領(lǐng)域,然后將文本數(shù)據(jù)張量化作為L(zhǎng)-STM模型輸入,通過(guò)連續(xù)優(yōu)化與迭代,可得參數(shù)最優(yōu)解,再以決策函數(shù)為前提明確文本情感極性。這種方法優(yōu)勢(shì)明顯,一方面可維護(hù)文本數(shù)據(jù)結(jié)構(gòu)信息,另一方面可預(yù)防傳統(tǒng)向量模型學(xué)習(xí)期間過(guò)擬合問(wèn)題,不僅如此,L-STM模型在STM模型基礎(chǔ)上融入LSTM神經(jīng)網(wǎng)絡(luò),可以讓STM模型所得向量序列完成更高等級(jí)優(yōu)化,由此降低參數(shù)最優(yōu)解計(jì)算期間迭代次數(shù),節(jié)省文本訓(xùn)練時(shí)間,最后采用3組實(shí)驗(yàn)進(jìn)行分析,表明情感分類方面L-STM模型更合理、更準(zhǔn)確、更強(qiáng)大。

        猜你喜歡
        分類文本情感
        分類算一算
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        亚洲av伊人久久综合密臀性色| 亚洲av男人的天堂一区| 摸丰满大乳奶水www免费| 曰批免费视频播放免费直播| 欧洲亚洲视频免费| 国产av一区二区三区香蕉| 久久精品国产亚洲av蜜点| 一本本月无码-| 亚洲专区欧美| 国产目拍亚洲精品二区| 一道本久久综合久久鬼色| 国产人妻久久精品二区三区老狼 | 欧美老妇与禽交| 日韩精品精品一区二区三区| 日本一级二级三级不卡| 欧美成人aaa片一区国产精品| 真人男女做爰无遮挡免费视频| 国产高清黄色在线观看91| 亚洲天堂一区二区偷拍| 男女高潮免费观看无遮挡| 99re这里只有热视频| 日韩精品久久不卡中文字幕| 中文字幕一区二区三区久久网| 天天色影网| 午夜精品一区二区三区无码不卡| 亚洲精品中文字幕乱码3| 一本久久综合亚洲鲁鲁五月天 | 久久精品国产免费观看三人同眠| 无码人妻av一区二区三区蜜臀 | 久久夜色精品国产噜噜亚洲av| 久久久久国产亚洲AV麻豆| 日本女同视频一区二区三区| 国产精品毛片无遮挡| 亚洲av无码成人yellow| 久久这里只有精品黄色| 偷拍综合在线视频二区| 欧产日产国产精品精品| 美女熟妇67194免费入口| 一区二区三区午夜视频在线| 在线看片免费人成视频久网下载| 97中文字幕在线观看|