亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融入情感信息詞向量的評(píng)論文本情感分析方法

        2021-09-09 22:29:15呂妹園張永健張永強(qiáng)孫勝娟
        關(guān)鍵詞:詞典副詞準(zhǔn)確率

        呂妹園 張永健 張永強(qiáng) 孫勝娟

        摘 要:為了解決分布式詞表示方法因忽略詞語情感信息導(dǎo)致情感分類準(zhǔn)確率較低的問題,提出了一種融入情感信息加權(quán)詞向量的情感分析改進(jìn)方法。依據(jù)專屬領(lǐng)域情感詞典構(gòu)建方法,結(jié)合詞典和語義規(guī)則,將情感信息融入到TF-IDF算法中,利用Word2vec模型得到加權(quán)詞向量表示方法,并運(yùn)用此方法對(duì)采集到的河北省旅游景點(diǎn)的評(píng)論文本與對(duì)照組進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果表明,與基于分布式詞向量表示的情感分析方法相比,采用融入情感信息加權(quán)詞向量的改進(jìn)方法進(jìn)行情感分析,積極文本的準(zhǔn)確率提高了6.1%,召回率提高了6.6%,F(xiàn)值達(dá)到了90.3%;消極評(píng)論文本的準(zhǔn)確率提高了6.0%,召回率提高了7.2%,F(xiàn)值達(dá)到了89.6%。因此,融入情感信息加權(quán)詞向量的情感分析改進(jìn)方法可以有效提高評(píng)論文本情感分析的準(zhǔn)確率,為用戶獲得更為準(zhǔn)確的評(píng)論觀點(diǎn)提供參考。

        關(guān)鍵詞:自然語言處理;語義規(guī)則;情感信息;TF-IDF;Word2vec;加權(quán)詞向量;情感分析

        中圖分類號(hào):TP391.1?? 文獻(xiàn)標(biāo)識(shí)碼:A

        doi:10.7535/hbkd.2021yx04008

        收稿日期:2021-03-25;修回日期:2021-06-11;責(zé)任編輯:王淑霞

        基金項(xiàng)目:河北省創(chuàng)新能力提升計(jì)劃項(xiàng)目(19456003D)

        第一作者簡介:呂妹園(1996—),女,山東濟(jì)南人,碩士研究生,主要從事自然語言處理方面的研究。

        通訊作者:張永強(qiáng)教授。E-mail:120030009@qq.com

        呂妹園,張永健,張永強(qiáng),等.融入情感信息詞向量的評(píng)論文本情感分析方法[J].河北科技大學(xué)學(xué)報(bào),2021,42(4):380-388.LYU Meiyuan,ZHANG Yongjian,ZHANG Yongqiang, et al.Sentiment analysis method of comment text based on word vector with sentiment information[J].Journal of Hebei University of Science and Technology,2021,42(4):380-388.

        Sentiment analysis method of comment text based on word vector with sentiment information

        LYU Meiyuan,ZHANG Yongjian,ZHANG Yongqiang,SUN Shengjuan

        (School of Information and Electrical Engineering,Hebei University of Engineering,Handan,Hebei 056107,China)

        Abstract:In order to solve the problem of low accuracy of sentiment classification caused by neglecting the sentiment information of words in distributed word representation method,an improved sentiment analysis method incorporating weighted word vectors of sentiment information was proposed.According to the exclusive domain sentiment dictionary,combined with the dictionary and semantic rules,the sentiment information is integrated into the TF-IDF algorithm,and the weighted word vector representation method is obtained by using word2vec model.The method is used to compare the collected comments of tourist attractions in Hebei Province with the control group.The results show that compared with the sentiment analysis method based on distributed word vector representation,the accuracy and recall rate of positive text are increased by 6.1% and 6.6%,and the Fvalue reached 90.3%,the accuracy and recall rate of negative text are increased by 6.0% and 7.2%,and the Fvalue reached 89.6% by using the improved method of sentiment analysis integrated with sentiment information weighted word vector.Therefore,the improved method of sentiment analysis integrated with sentiment information weighted word vector can effectively improve the accuracy of sentiment analysis of comment text,and provide valuable reference for users to obtain more accurate comments.

        Keywords:

        natural language processing;semantic rules;sentiment information;TF-IDF;Word2vec;weighted word vector;sentiment analysis

        隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的互聯(lián)網(wǎng)用戶開始在線上發(fā)表自己的觀點(diǎn),如淘寶、攜程網(wǎng)等平臺(tái)上用戶對(duì)商品和景點(diǎn)的評(píng)論,情感分析技術(shù)可以讓用戶更便捷地獲取評(píng)論的情感傾向。情感分析的主要任務(wù)是對(duì)評(píng)論語料的情感傾向性進(jìn)行分析,本質(zhì)上是一種文本分類[1],即對(duì)用戶的評(píng)論文本進(jìn)行積極、消極的情感傾向的分類。

        最早應(yīng)用于情感分析的方法是基于情感詞典[2-3]的方法。該方法的核心是利用情感詞典遍歷匹配旅客評(píng)論文本中的情感詞,并根據(jù)語義規(guī)則計(jì)算評(píng)論文本的情感傾向。文獻(xiàn)[4]—文獻(xiàn)[5]介紹了基于情感詞典的代表研究?;谇楦性~典的旅游文本情感分析不需要提前對(duì)文本進(jìn)行標(biāo)注,操作簡單易于實(shí)現(xiàn),但其太過于依賴情感詞典且目前大多數(shù)情感詞典不是專屬領(lǐng)域情感詞典,導(dǎo)致情感分類的準(zhǔn)確率較低?;跈C(jī)器學(xué)習(xí)情感分析方法[6-9]最早是由PANG等[10]提出,使用最大熵算法和SVM算法進(jìn)行電影評(píng)論的情感分析。CHEN等[11]針對(duì)在線旅游情感分類準(zhǔn)確率低的問題,把情感分類任務(wù)轉(zhuǎn)變成機(jī)器學(xué)習(xí)中的多分類問題,設(shè)計(jì)了基于知識(shí)圖譜的關(guān)鍵詞擴(kuò)展方法,增加了短文本的特征數(shù)量,利用機(jī)器學(xué)習(xí)構(gòu)建情感分類模型進(jìn)行情感分析。VALDIVIA等[12]發(fā)現(xiàn)TripAdvisor中許多用戶的星級(jí)打分和評(píng)論文本的情感極性是不同的,研究了用戶情緒與自動(dòng)情緒檢測算法之間的匹配,利用機(jī)器學(xué)習(xí)模型識(shí)別負(fù)面意見并發(fā)現(xiàn)了負(fù)面評(píng)價(jià)背后的原因。YU等[13]為了對(duì)日本旅游網(wǎng)站4Traval景點(diǎn)的評(píng)論進(jìn)行情感分析,提出了3組基于統(tǒng)計(jì)的特征選擇函數(shù)和傳統(tǒng)的TF-IDF方法且制定了7組基于規(guī)則的方法。結(jié)果證明,特征選擇函數(shù)與權(quán)重結(jié)合能夠較好地提高算法的整體性能。YANG等[14]提出了以情感詞典為基礎(chǔ),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和基于注意力的雙向門控回歸單元(BiGRU)模型(SICABG),SICABG模型結(jié)合了情感詞典和深度學(xué)習(xí)技術(shù)的優(yōu)點(diǎn),克服了現(xiàn)有產(chǎn)品評(píng)論情感分析模型的不足。

        在基于機(jī)器學(xué)習(xí)的情感分析研究中,一般采用分布式詞向量表示方式,分布式的表示方式只考慮詞語的語義信息,忽視了詞語的情感信息,而在情感分析研究中,一個(gè)詞語所包含的情感傾向性信息非常重要。本文結(jié)合語義規(guī)則,利用情感詞典將情感信息融入到TF-IDF算法進(jìn)行加權(quán)詞向量計(jì)算,然后利用SVM算法進(jìn)行情感分析。由于同一個(gè)情感詞在不同領(lǐng)域文本中的情感傾向是不同的,因此研究建立一種情感種子詞的篩選標(biāo)準(zhǔn),并利用SO-PMI算法構(gòu)建專屬領(lǐng)域情感詞典,避免發(fā)生不包含情感信息的特征詞影響情感分析的準(zhǔn)確率等問題。

        1 融入情感信息的加權(quán)詞向量表示

        1.1 Word2vec詞向量表示

        在情感分析任務(wù)中,將詞語表示成低維、非稀疏的向量是關(guān)鍵。目前,詞向量表示方法主要有one-hot方法和分布式詞向量表示方法。one-hot方法中詞向量的維數(shù)是由詞典中詞語的個(gè)數(shù)決定的。該方法的缺點(diǎn)是如果詞典的詞語數(shù)目過多會(huì)導(dǎo)致詞向量的維數(shù)過大并且向量稀疏,另外該方法還忽視了詞語之間的語義關(guān)聯(lián)性。分布式詞向量表示方法可以把詞語表示成低維向量,將所有的詞向量構(gòu)成一個(gè)詞向量空間,并通過計(jì)算詞向量的距離來判斷詞語的語義相似度。

        研究采用分布式方法中的Word2vec算法訓(xùn)練詞向量,Word2vec算法中包括2種詞向量訓(xùn)練模型:CBOW模型和Skip-Gram模型[15],Skip-Gram模型的訓(xùn)練準(zhǔn)確度更好,模型如圖1所示。

        由圖1可知,在Skip-Gram模型中輸入中心詞語W(t)的one-hot編碼來預(yù)測中心詞的上下文詞語W(t-k),…,W(t-1),W(t+1),…,W(t+k)的概率模型。其中W(t)表示當(dāng)前句子中位置為t的詞語,k表示與W(t)相鄰的上下文的窗口。

        1.2 傳統(tǒng)TF-IDF特征權(quán)重算法

        TF-IDF算法是文本分類中常用的特征權(quán)重的計(jì)算方法,該方法考慮了詞語在文檔中的分布情況,可以衡量詞語對(duì)文本分類的重要度。

        傳統(tǒng)的TF-IDF公式如式(1)所示:

        Wij=tfij×logNMj。(1)

        式中:Wij表示評(píng)論文本Ti中詞語hij的權(quán)重值;tfij表示詞語hij在評(píng)論文本中的詞頻;N表示評(píng)論文本數(shù)量;Mj表示所有評(píng)論文本中出現(xiàn)詞語hij的評(píng)論文本的數(shù)量。將式(1)歸一化得到式(2):

        Wij=tfij×logNMj∑hij∈Titfij×logNMj2。(2)

        式中:hij表示評(píng)論文本Ti中的第i個(gè)特征詞。

        1.3 融入情感信息的加權(quán)詞向量

        通過將評(píng)論文本與情感詞典、程度副詞詞典相匹配,并結(jié)合語義規(guī)則將情感信息融入到特征權(quán)重的計(jì)算過程中。

        情感詞在不同的修飾詞修飾下對(duì)文本情感傾向的貢獻(xiàn)是不同的,情感詞的修飾規(guī)則如下。規(guī)則1:由程度副詞修飾情感詞時(shí),句中存在關(guān)系(adv,STW),則Si=Di+m×Si。規(guī)則2:否定詞修飾情感詞時(shí),句中存在關(guān)系(negative,STW),如“不高興”,情感詞“高興”被否定詞“不”修飾后由積極情感傾向變成了消極情感傾向,因此Si=-1×Si。規(guī)則3:情感詞由否定詞和程度副詞共同修飾,句中存在2種關(guān)系:一種為(negative,adv,STW),如“不太滿意”,此時(shí)情感詞的情感傾向不改變,但情感詞對(duì)文本的情感傾向貢獻(xiàn)會(huì)被減弱,并參考文獻(xiàn)[3]得到Si=0.5×Di+m×Si;一種為(adv,negative,STW),如“太不滿意”,此時(shí)情感詞的情感傾向被改變,但情感詞“滿意”對(duì)文本的消極情感傾向的貢獻(xiàn)程度由程度詞決定,因此,Si=-1×Di+m×Si。式中:Si為情感詞的情感極性值;Di+m為程度副詞的程度極值;STW表示情感詞;negative表示否定詞;adv表示程度副詞,因此,融入情感信息的詞語權(quán)重計(jì)算分4種情況。

        第1種 詞語hij為非情感詞

        此種情況下,詞語hij的權(quán)重計(jì)算公式如式(3)所示:

        Wij=tfij×logNMj∑hij∈Titfij×logNMj2。(3)

        第2種 詞語hij為情感詞且無修飾詞修飾

        此種情況下,詞語hij的權(quán)重計(jì)算公式如式(4)所示:

        Wij=tfij×logNMj×Sj∑hij∈Titfij×logNMj×Sj2。(4)

        式中:Sj為情感詞hij的情感極性值。

        第3種 詞語hij為情感詞且滿足修飾規(guī)則(adv,STW),(negative,STW),(adv,negative,STW)

        對(duì)于此種情況,藺璜等[16]提出程度副詞的粘著性與定位性強(qiáng),做狀語時(shí)不僅不可前移也不能后置,只能緊靠在謂語周圍,程度副詞與情感詞的距離不超過3個(gè)詞。因此,當(dāng)單詞hij是情感詞且情感詞周圍有程度副詞和否定詞修飾時(shí),則判斷詞語hij前后距離為3的6個(gè)詞語是否為程度副詞,并將非程度副詞的程度值設(shè)為1。因此,詞語hij的權(quán)重計(jì)算如式(5)所示:

        Wij=tfij×logNMj×Sj×∏-3≤m≤3Dj+m∑hij∈Titfij×logNMj×Sj×∏-3≤m≤3Dj+m2。(5)

        式中:m表示與詞語hij的間隔距離,范圍在[-3,3]之間;Dj+m表示距離單詞hij為m的詞語的程度值。

        第4種 詞語hij為情感詞且滿足修飾規(guī)則(negative,adv,STW)

        此種情況下,詞語hij的權(quán)重計(jì)算如式(6)所示:

        Wij=tfij×logNMj×Sj×0.5×∏-3≤m≤3Dj+m∑hij∈Titfij×logNMj×Sj×0.5×∏-3≤m≤3Dj+m2。(6)

        設(shè)hij為使用Word2vec訓(xùn)練得詞語hij的詞向量,則融入情感信息詞語的加權(quán)詞向量aij表示如式(7)所示。

        aij=hij·Wij。(7)

        設(shè)語料中第i條評(píng)論文本為Ti=hi1,…,hij,…,hik,則文本Ti的向量表示如式(8)所示:

        ti=∑kj=1hij·Wij。(8)

        將向量ti作為特征輸入到SVM(支持向量機(jī))中,訓(xùn)練可得到情感分析的分類模型。

        2 專屬領(lǐng)域情感詞典的構(gòu)建及特征提取改進(jìn)方法

        2.1 情感詞典的構(gòu)建

        在計(jì)算詞語權(quán)重時(shí)需要使用情感詞典,中文文本語義博大精深,同一個(gè)情感詞在不同領(lǐng)域文本中出現(xiàn)時(shí),對(duì)文本的情感傾向貢獻(xiàn)是不同的,如,“股票跌了”和“票價(jià)跌了”,前一個(gè)句子中“跌”的情感傾向是消極的,后一個(gè)句子中“跌”的情感傾向是積極的,因此構(gòu)建專屬領(lǐng)域情感詞典是必須性的[17]。因此在進(jìn)行情感分析之前依據(jù)詞向量構(gòu)建了一個(gè)專屬領(lǐng)域情感詞典[18-19]。

        2.1.1 情感種子詞典的構(gòu)建

        從攜程網(wǎng)站上爬取到的15 000條河北省旅游景點(diǎn)的評(píng)論文本,使用jieba工具分詞后得到的評(píng)論文本詞集(TSet),與知網(wǎng)情感詞典(HowNet[20])取交集,得到一個(gè)情感詞集(TSSet={sij},sij指情感傾向?yàn)閕的j個(gè)情感詞語),利用Word2vec模型將情感詞集的詞變換為詞向量(ski),為了使情感種子詞有較好的聚類效果,構(gòu)建了一個(gè)基于余弦相似度的種子詞集篩選標(biāo)準(zhǔn),如式(9)和式(10)所示。

        ADIS(ski)=1n∑ij=1Dis(ski,skj)=1n∑ij=1ski·skj‖ski‖×‖skj‖。(9)

        式中:ski和skj表示情感傾向?yàn)閗的2個(gè)不同的詞語的詞向量;ADIS(ski)表示情感傾向?yàn)閗的第i個(gè)情感詞的平均距離。

        SThresholdk=1n∑ni=1ADIS(ski),(10)

        式中:SThresholdk表示情感傾向?yàn)閗的情感詞的距離閾值。

        當(dāng)ADIS(ski)>SThresholdk時(shí),將詞語ski存入種子情感詞典(SSDic)中,并標(biāo)注其情感傾向?yàn)閗。

        2.1.2 專屬領(lǐng)域情感詞典的構(gòu)建

        判斷詞語情感傾向的方法有SO-PMI算法(點(diǎn)互信息算法)和語義相似度算法。本文使用文獻(xiàn)[21]改進(jìn)后的SO-PMI算法計(jì)算詞集(TSet)的詞語與種子情感詞典(SSDic)中詞的SO-PMI值,以得到詞集(TSet)中詞語的情感傾向和情感極值。將SO-PMI值大于零的詞語及該詞語的SO-PMI值作為情感詞的情感極值存入積極情感詞典中,將SO-PMI值小于零的詞語及該詞語的SO-PMI值作為情感詞的情感極值存入消極情感詞典中,得到專屬領(lǐng)域情感詞典。

        2.2 改進(jìn)的特征提取方法

        2.2.1 語義規(guī)則分析

        句子可以分為單句和復(fù)雜句。單句指直觀地表達(dá)對(duì)景點(diǎn)情感的句子,如“景點(diǎn)很美還會(huì)來!”,而復(fù)雜句是由多個(gè)單句以一定的邏輯結(jié)構(gòu)結(jié)合在一起,如“城墻不錯(cuò)其他就一般了,古城內(nèi)環(huán)境不好,衛(wèi)生狀況差,為什么不能搞得好一點(diǎn)呢?”,句中積極和消極的評(píng)論交織在一起,面臨這種情況,需要從句子本身出發(fā),弄清其邏輯結(jié)構(gòu),分析句子中對(duì)情感傾向有較大貢獻(xiàn)的部分以及貢獻(xiàn)較小或沒有貢獻(xiàn)的部分。將復(fù)雜句(C)表示為單句的集合,即C=c1,c2,…,ci,…,cn。將sci設(shè)置為單句ci對(duì)旅游評(píng)論文本的情感傾向貢獻(xiàn)值,若sci為零時(shí),單句ci對(duì)文本的情感傾向無貢獻(xiàn),因此在進(jìn)行文本情感分析時(shí)應(yīng)忽略單句ci。

        1)總結(jié)詞情感規(guī)則

        若評(píng)論文本這樣描述“一個(gè)四面環(huán)水的小村落,感覺還是不錯(cuò)的,但畢竟是有人居住的地方,所以不要四處亂轉(zhuǎn)??偨Y(jié)一下:家距離景點(diǎn)近的人可以去玩,里面挺好的?!边@條評(píng)論文本的最后一句含有總結(jié)詞“總結(jié)一下”,這表明該句為總結(jié)句,總之、總而言之、總結(jié)一下、反正、整體來說、綜上所述、簡而言之在一段文本中總結(jié)句起到點(diǎn)明中心的作用,則該評(píng)論文本的情感重心落在總結(jié)句上。因此,若復(fù)雜句C包含的單句ci中出現(xiàn)總結(jié)詞,則sck,sck+1,…,sci-1=0;sci,sci+1,…,scn=1?;诖耍瑯?gòu)建了總結(jié)詞詞典,其部分內(nèi)容如表1所示。

        2)轉(zhuǎn)折詞情感規(guī)則

        除了總結(jié)詞之外,轉(zhuǎn)折詞也會(huì)改變文本的情感重心,若復(fù)雜句C中的單句ci包含“雖然”“盡管”則單句ci對(duì)復(fù)雜句C的情感傾向無貢獻(xiàn),即sck,sck+1,…,sci-1=1;sci,sci+1,…,scj=0,因此該類轉(zhuǎn)折詞其標(biāo)注為一類轉(zhuǎn)折詞。若復(fù)雜句C中的單句ci包含“然而”等轉(zhuǎn)折詞,復(fù)雜句C的情感重心落在單句ci之后,因此將該類轉(zhuǎn)折詞標(biāo)注為二類轉(zhuǎn)折詞,則sck,sck+1,…,sci-1=0;sci,sci+1,…,scj=1?;诖?,構(gòu)建了轉(zhuǎn)折詞詞典,部分內(nèi)容如表2所示。

        2.2.2 改進(jìn)特征提取

        對(duì)于情感分類的研究,若忽略文本中一些詞對(duì)情感極性大小的貢獻(xiàn)進(jìn)行無差別特征提取[22],勢必影響情感分類的準(zhǔn)確性,增加實(shí)驗(yàn)工作量。本文針對(duì)復(fù)雜句式,通過對(duì)語義規(guī)則進(jìn)行分析,改進(jìn)了特征提取。判斷評(píng)論文本中是否存在總結(jié)詞。若存在,則直接提取包含總結(jié)詞句子的特征詞;若不存在,則判斷句子中是否存在轉(zhuǎn)折詞。若存在轉(zhuǎn)折詞,則繼續(xù)判斷此轉(zhuǎn)折詞是一類詞還是二類詞:若是一類詞,則忽略該句;若是二類詞則提取句子中的特征詞。若評(píng)論文本中不存在總結(jié)詞和轉(zhuǎn)折詞,則直接提取全句的特征詞。提取流程如圖2所示。

        3 實(shí)驗(yàn)驗(yàn)證

        實(shí)驗(yàn)硬件環(huán)境是ThinkPadE445,CPU主頻2.5 GHz,內(nèi)存16 GB;軟件環(huán)境是Windows 10操作系統(tǒng),開發(fā)工具是PyCharm 2018.2.2,開發(fā)語言是Python,分詞工具是jieba,分類算法使用SVM(支持向量機(jī))算法。

        3.1 程度副詞與停用詞詞典的處理

        1)程度副詞預(yù)處理。使用的程度副詞來自HowNet詞典。依據(jù)陳羽等[23]對(duì)程度副詞的研究,“透頂”等詞語是形容詞,因此本文參考此標(biāo)準(zhǔn)刪除程度詞典中的此類詞。

        2)程度量化值的設(shè)定。根據(jù)張宗潔[24]對(duì)程度副詞的研究,將程度副詞按照修飾情感詞的強(qiáng)度分為極高、高、中、低4類。文獻(xiàn)[25]利用MMTD算法和真值程度函數(shù)計(jì)算出了程度副詞的真值程度,本文參考文獻(xiàn)[25]計(jì)算程度值的方法以及文獻(xiàn)[26]—文獻(xiàn)[29]為程度副詞設(shè)置了程度量化值(表中用D表示):1.9,1.5,1.1,0.7。另外,否定詞能顛覆評(píng)論文本的情感傾向類[21],將否定詞也存入到程度詞詞典中,量化值設(shè)為-1。程度詞詞典部分內(nèi)容如表3所示。

        3)停用詞詞典處理。停用詞在文本中不會(huì)傳遞任何信息。去除停用詞詞典中所含有的轉(zhuǎn)折詞詞典和總結(jié)詞詞典中的詞,構(gòu)建適用于評(píng)論文本情感分析的停用詞詞典。

        3.2 數(shù)據(jù)獲取與數(shù)據(jù)預(yù)處理

        本文以旅游網(wǎng)站的游客評(píng)論文本作為情感分析數(shù)據(jù),對(duì)提出的改進(jìn)方法進(jìn)行實(shí)驗(yàn),驗(yàn)證方法的有效性。

        1)數(shù)據(jù)獲取 從攜程網(wǎng)上爬取趙州橋、廣府古城、承德避暑山莊等河北省30個(gè)景點(diǎn)的游客評(píng)論文本數(shù)據(jù)。

        2)數(shù)據(jù)清洗 分析后發(fā)現(xiàn),獲取到的游客評(píng)論文本中有一些是無用評(píng)論,評(píng)論文本不包含任何信息,還有一些評(píng)論文本是游客對(duì)網(wǎng)站服務(wù)質(zhì)量的評(píng)論,以及一些重復(fù)的文本,這些數(shù)據(jù)會(huì)影響最終情感分析結(jié)果的準(zhǔn)確性,因此手動(dòng)刪除此類數(shù)據(jù)。最終獲取得到了15 000條數(shù)據(jù)。

        3)數(shù)據(jù)標(biāo)注 對(duì)上述經(jīng)數(shù)據(jù)清洗后的攜程網(wǎng)用戶的評(píng)論數(shù)據(jù)進(jìn)行人工情感傾向標(biāo)注,為了標(biāo)注的準(zhǔn)確性,參考游客對(duì)景點(diǎn)的星級(jí)評(píng)價(jià),將星級(jí)評(píng)價(jià)為4星、5星并且評(píng)論文本明顯具有積極傾向的文本標(biāo)注為積極評(píng)論文本,將星級(jí)評(píng)價(jià)為0星和1星且評(píng)論文本具有明顯消極傾向的文本標(biāo)注為消極評(píng)論文本,最終獲取得到了10 000條數(shù)據(jù)標(biāo)注過的游客評(píng)論文本。

        4)文本分詞 本文使用的分詞工具是jieba,在分詞前為了使分詞結(jié)果更適用于本文的游客評(píng)論情感分析研究,將情感詞典、程度副詞詞典以及轉(zhuǎn)折詞詞典導(dǎo)入jieba詞庫中。

        3.3 旅游專屬領(lǐng)域詞典的構(gòu)建

        將分詞后的攜程網(wǎng)上的游客評(píng)論文本按照語義規(guī)則分析進(jìn)行種子情感詞的構(gòu)建,最終得到89個(gè)積極傾向的種子情感詞和82個(gè)消極性傾向種子情感詞,然后將種子情感詞存入種子情感詞典(SSDic)。

        利用詞典SSDic和專屬領(lǐng)域情感詞典方法構(gòu)建旅游專屬領(lǐng)域的情感詞典(STW)。STW詞典的部分內(nèi)容如表4所示。

        3.4 實(shí)驗(yàn)評(píng)估指標(biāo)

        以準(zhǔn)確率、召回率、F值作為評(píng)價(jià)指標(biāo),評(píng)價(jià)實(shí)驗(yàn)方法的有效性。

        準(zhǔn)確率是指被正確分類的評(píng)論文本數(shù)量占總評(píng)論文本數(shù)量的比值,如式(11)所示:

        P=QirightQiright+Qiwrong,(11)

        式中:P為準(zhǔn)確率;Qiright是屬于情感傾向類別Ci被正確分類的文本數(shù)量;Qiwrong是屬于情感傾向類別Ci被錯(cuò)誤分類的文本數(shù)量。

        召回率是指屬于某情感傾向的文本Ci被正確分類的文本數(shù)量與評(píng)論文本中真正屬于情感傾向Ci評(píng)論文本數(shù)量的比值,如式(12)所示:

        R=QirightQiall。(12)

        式中:R表示召回率;Qiall表示實(shí)際評(píng)論文本中屬于情感傾向類別Ci的文本數(shù)量。

        F值是準(zhǔn)確率和召回率的調(diào)和平均值,計(jì)算公式如式(13)所示:

        F=2×P×RP+R。(13)

        3.5 結(jié)果與分析

        將旅客評(píng)論文本的加權(quán)詞向量作為特征向量,并使用SVM算法對(duì)本文采集到的數(shù)據(jù)進(jìn)行情感分析,為了測試本文所提方法的有效性,設(shè)置了4組對(duì)照實(shí)驗(yàn):第1組 基于情感詞典方法,利用HowNet詞典和語義規(guī)則計(jì)算游客評(píng)論文本的情感傾向;第2組 利用Word2vec詞向量表示方法和機(jī)器學(xué)習(xí)中SVM算法進(jìn)行游客評(píng)論文本的情感分類;第3組 利用HowNet詞典和文本提出的融入情感信息的加權(quán)詞向量表示方法和機(jī)器學(xué)習(xí)中SVM算法進(jìn)行游客評(píng)論文本的情感分類;第4組 使用本文提出的構(gòu)建專屬領(lǐng)域情感詞典方法,構(gòu)建旅游專屬領(lǐng)域情感詞典(STW),結(jié)合文本提出的融入情感信息的加權(quán)詞向量表示方法以及機(jī)器學(xué)習(xí)中SVM算法進(jìn)行游客評(píng)論文本的情感分類,實(shí)驗(yàn)結(jié)果如表5所示。

        由表5及實(shí)驗(yàn)分析可知:

        1)第4組實(shí)驗(yàn)比第1組實(shí)驗(yàn)的準(zhǔn)確率要高,其中積極評(píng)論文本的準(zhǔn)確率提高了17.2%,召回率提高了18%,F(xiàn)值提高了17.7%;消極評(píng)論文本的準(zhǔn)確率提高了17.4%,召回率提高了19.4%,F(xiàn)值提高了18.5%,因此,與基于情感詞典的方法相比,使用本文提出的方法進(jìn)行情感分析準(zhǔn)確率更高,克服了過于依賴情感詞典的缺點(diǎn)。

        2) 第4組比第2組實(shí)驗(yàn)的準(zhǔn)確率要高,其中積極評(píng)論文本的準(zhǔn)確率提高了6.1%,召回率提高了6.6%,F(xiàn)值提高了6.4%;消極評(píng)論文本的準(zhǔn)確率提高了6.0%,召回率提高了7.2%,F(xiàn)值提高了6.6%。提出的方法在進(jìn)行詞向量表示時(shí)考慮了詞語的情感信息,提高了情感分析的準(zhǔn)確率。

        3) 第4組比第3組實(shí)驗(yàn)的準(zhǔn)確率要高,其中積極評(píng)論文本的準(zhǔn)確率提高了1.3%,召回率提高了1.3%,F(xiàn)值提高了1.3%;消極評(píng)論文本的準(zhǔn)確率提高了1.5%,召回率提高了2.4%,F(xiàn)值提高了2.0%。實(shí)驗(yàn)表明,利用建立的專屬領(lǐng)域情感詞典方法結(jié)合本文提出的融入情感信息詞向量情感分析方法比利用公開的情感詞典HowNet結(jié)合本文提出的融入情感信息詞向量情感分析方法更有效,可以提高積極和消極文本的準(zhǔn)確率、召回率和F值,因此本文建立的專屬領(lǐng)域情感詞典是有必要的。

        4 結(jié) 語

        本文提出了一種融入情感信息加權(quán)詞向量的情感分析方法,用以評(píng)論文本的情感傾向。對(duì)爬取的河北省游客的評(píng)論文本進(jìn)行情感分析實(shí)驗(yàn)。結(jié)果顯示,與傳統(tǒng)的分布式詞向量表示的情感分析方法相比,使用提出的改進(jìn)方法進(jìn)行情感分析,積極文本的準(zhǔn)確率提高了6.1%,召回率提高了6.6%,F(xiàn)值提高了6.4%;消極評(píng)論文本的準(zhǔn)確率提高了6.0%,召回率提高了7.2%,F(xiàn)值提高了6.6%。這表明使用提出的融入情感信息加權(quán)詞向量的情感分析方法可以有效提高情感分析的準(zhǔn)確度。

        但是,本研究尚存在一些不足,所提方法無法對(duì)未登錄詞進(jìn)行識(shí)別,在進(jìn)行詞向量表示時(shí)沒有考慮到未登錄詞對(duì)文本情感傾向的貢獻(xiàn)。未來將就未登錄詞的識(shí)別算法進(jìn)行研究,利用專屬領(lǐng)域情感詞典構(gòu)建方法,將包含情感信息的未登錄詞加入到情感詞典中,以此獲得未登錄詞融入情感信息的詞向量表示,進(jìn)而提升文本庫情感分析的準(zhǔn)確性。

        參考文獻(xiàn)/References:

        [1] KHAN F H,BASHIR S,QAMAR U.TOM:Twitter opinion mining framework using hybrid classification scheme[J].Decision Support Systems,2014,57:245-257.

        [2] 吳杰勝,陸奎.基于多部情感詞典和規(guī)則集的中文微博情感分析研究[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(9):93-99.

        WU Jiesheng,LU Kui.Chinese weibo sentiment analysis based on multiple sentiment lexicons and rule sets[J].Computer Applications and Software,2019,36(9):93-99.

        [3] 萬巖,杜振中.融合情感詞典和語義規(guī)則的微博評(píng)論細(xì)粒度情感分析[J].情報(bào)探索,2020(11):34-41.

        WAN Yan,DU Zhenzhong.Fine-grained sentiment analysis of microblog comments based on fusion of sentiment lexicon and semantic rules[J].Information Research,2020(11):34-41.

        [4] 涂海麗,唐曉波.基于在線評(píng)論的游客情感分析模型構(gòu)建[J].現(xiàn)代情報(bào),2016,36(4):70-77.

        TU Haili,TANG Xiaobo.Tourist sentiment analysis model building based on online reviews[J].Modern Information,2016,36(4):70-77.

        [5] ZHANG S X,WEI Z L,WANG Y,et al.Sentiment analysis of Chinese micro-blog text based on extended sentiment dictionary[J].Future Generation Computer Systems,2018,81:395-403.

        [6] 胡夢雅,樊重俊,朱玥.基于機(jī)器學(xué)習(xí)的微博評(píng)論情感分析[J].信息與電腦(理論版),2020,32(12):71-73.

        HU Mengya,F(xiàn)AN Chongjun,ZHU Yue.Emotional analysis of Weibo comments based on machine learning[J].China Computer & Communication,2020,32(12):71-73.

        [7] KUMAR S,GAHALAWAT M,ROY P P,et al.Exploring impact of age and gender on sentiment analysis using machine learning[J].Electronics,2020,9(2):374.

        [8] ALOQAILY A,ALHASSAN M,SALAH K,et al.Sentiment analysis for Arabic tweets datasets:Lexicon-based and machine learning approaches[J].Journal of Theoretical and Applied Information Technology,2014.doi:10.1504/IJSNM.2015.072280.

        [9] YASIN S,ULLAH K,NAWAZ S,et al.Dual language sentiment analysis model for YouTube videos ranking based on machine learning techniques[J].Pakistan Journal of Engineering and Technology,2020,3(2):213-218.

        [10]PANG B,LEE L,VAITHYANATHAN S.Thumbs up?sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10.USA:Association for Computational Linguistics,2020:79-86.

        [11]CHEN W,XU Z Y,ZHENG X Y,et al.Research on sentiment classification of online travel review text[J].Applied Sciences,2020.doi:10.3390/app10155275.

        [12]VALDVIA A,VICTORIA LUZON M,HERRERA F.Sentiment analysis in tripadvisor[J].IEEE Intelligent Systems,2017,32(4):72-77.

        [13]YU C M,ZHU X Y,F(xiàn)ENG B L,et al.Sentiment analysis of Japanese tourism online reviews[J].Journal of Data and Information Science,2019,4(1):89-113.

        [14]YANG L,LI Y,WANG J,et al.Sentiment analysis for E-Commerce product reviews in Chinese based on sentiment lexicon and deep learning[J].IEEE Access,2020,8:23522-23530.

        [15]MILOLOV T,SUTSKEVER I,CHENK,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems-Volume 2.Red Hook,NY,USA:Curran Associates Inc.2013:3000-3009.

        [16]藺璜,郭姝慧.程度副詞的特點(diǎn)范圍與分類[J].山西大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2003,26(2):71-74.

        LIN Huang,GUO Shuhui.On the characteristics,range and classification of adverbs of degree[J].Journal of Shanxi University(Philosophy & SociaL Science),2003,26(2):71-74.

        [17]嚴(yán)仲培,陸文星,束柬,等.面向旅游在線評(píng)論情感詞典構(gòu)建方法[J].計(jì)算機(jī)應(yīng)用研究,2019,36(6):1660-1664.

        YAN Zhongpei,LU Wenxing,SHU Jian,et al.Construction method of sentiment lexicon for online travel reviews[J].Application Research of Computers,2019,36(6):1660-1664.

        [18],et al.Knu korean sentiment lexicon:Bi-LSTM-based method for building a korean sentiment lexicon[J].Journal of Intelligence and Information Systems,2018,24(4):219-240.

        [19]趙天銳,劉晨陽.基于深度學(xué)習(xí)的韓國語影評(píng)情感詞典構(gòu)建[J].信息技術(shù)與信息化,2021(1):250-253.

        ZHAO Tianrui,LIU Chenyang.A deep learning approach to the sentiment dictionary of korean film critics[J].Information Technology & Informatization,2021(1):250-253.

        [20]韋婷婷,陳偉生,胡勇軍,等.基于句法規(guī)則和HowNet的商品評(píng)論細(xì)粒度觀點(diǎn)分析[J].中文信息學(xué)報(bào),2020,34(3):88-98.

        WEI Tingting,CHEN Weisheng,HU Yongjun,et al.Fine-grained opinion analysis of product reviews based on syntactic rules and HowNet[J].Journal of Chinese Information Processing,2020,34(3):88-98.

        [21]李凱.基于詞典與改進(jìn)信息增益的微博情感分析[D].淮南:安徽理工大學(xué),2019.

        LI Kai.Weibo Sentiment Analysis Based on Dictionary and Improved Information Gain[D].Huainan:Anhui University of Science and Technology,2019.

        [22]XU G X,MENG Y T,QIU X Y,et al.Sentiment analysis of comment texts based on BiLSTM[J].IEEE Access,2019,7:51522-51532.

        [23]陳羽,徐素萍.論程度副詞在書面語和口語內(nèi)部的層級(jí)差異[J].文化創(chuàng)新比較研究,2019,3(22):92-96.

        CHEN Yu,XU Suping.On the hierarchy difference between written and spoken adverbs of degree[J].Comparative Study of Cultural Innovation,2019,3(22):92-96.

        [24]張宗潔.中英文程度副詞的等級(jí)數(shù)量含意對(duì)比[J].黃山學(xué)院學(xué)報(bào),2018,20(2):52-56.

        ZHANG Zongjie.A comparative study of scalar of Chinese and English degree adverbs[J].Journal of Huangshan University,2018,20(2):52-56.

        [25]何霞,杜國平,宗慧.基于中介真值程度度量的模糊語義翻譯研究[J].南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,40(6):71-77.

        HE Xia,DU Guoping,ZONG Hui.Research on fuzzy semantic translation based on intermediate truth degree measurement[J].Journal of Nanjing University of Posts and Telecommunications(Natural Science),2020,40(6):71-77.

        [26]敦欣卉.張?jiān)魄铮瑮铈z西.基于微博的細(xì)粒度情感分析[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(7):61-72.

        GUO Xinhui,ZHANG Yunqiu,YANG Kaixi.Fine-grained sentiment analysis based on weibo[J].Data Analysis and Knowledge Discovery,2017(7):61-72.

        [27]李勇泉,李蕊,阮文奇.大型節(jié)慶活動(dòng)微博用戶情感態(tài)勢的時(shí)空規(guī)律——以故宮上元燈會(huì)為例[J].華僑大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2019(6):27-38.

        LI Yongquan,LI Rui,RUAN Wenqi.Temporal and spatial law of microblog user's emotional state in large-scale festival activities:Taking the Lantern Festival in the Forbidden City as an example[J].Journal of Huaqiao University (Philosophy & Social Sciences),2019(6):27-38.

        [28]樊振,過弋,張振豪,等.基于詞典和弱標(biāo)注信息的電影評(píng)論情感分析[J].計(jì)算機(jī)應(yīng)用,2018,38(11):3084-3088.

        FAN Zhen,GUO Yi,ZHANG Zhenhao,et al.Sentiment analysis of movie reviews based on dictionary and weak tagging information[J].Journal of Computer Applications,2018,38(11):3084-3088.

        [29]張青,韓立新,勾智楠.基于詞向量和變分自動(dòng)編碼器的短文本主題模型[J].河北工業(yè)科技,2018,35(6):441-447.

        ZHANG Qing,HAN Lixin,GOU Zhinan.Short text topic model based on word vector and variational autoencoder[J].Hebei Journal of Industrial Science and Technology,2018,35(6):441-447.

        猜你喜歡
        詞典副詞準(zhǔn)確率
        The Wheels on the Bus
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        副詞“好容易”及其詞匯化成因
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        評(píng)《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        副詞和副詞詞組
        青青青国产精品一区二区| 华人免费网站在线观看| 无码一区二区三区免费视频| 最新国产av无码专区亚洲| 国产成人精品麻豆| 亚洲不卡高清av在线| 蜜桃视频一区二区在线观看| 人人狠狠综合久久亚洲| 亚洲V无码一区二区三区四区观看 久久精品国产亚洲综合色 | 人妻中文字幕在线中文字幕| 天天做天天爱天天综合网2021| 国产高清无码在线| 人妻色中文字幕免费视频| 中文字幕女优av在线| 最近中文字幕完整版免费 | 亚洲综合久久中文字幕专区一区| 免费观看成人欧美www色| 最新国产乱人伦偷精品免费网站| 亚洲中文字幕av天堂| 国产福利不卡视频在线| 男女做爰高清免费视频网站| 一本一本久久a久久精品综合| 国产一级做a爱视频在线| 亚洲精选自偷拍一区二| 久久国产精品久久久久久| 免费看国产成年无码av| 男女视频在线观看一区二区| 亚洲一区二区女搞男| 双乳被一左一右吃着动态图| 亚州五十路伊人网| 好看的日韩精品视频在线| 国产成人无码av一区二区| 中文字幕国产91| 日本av第一区第二区| 人人妻人人做人人爽| 久久夜色撩人精品国产小说| 亚洲av午夜福利精品一区二区| 草逼动态图视频免费观看网站| 亚洲а∨天堂久久精品2021| 国产精品亚洲国产| 日本亚洲系列中文字幕|