亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的CBOW情感信息獲取研究

        2020-05-15 08:11:40曹軍博許飛翔尹列東
        計算機工程與應用 2020年9期
        關鍵詞:權重聚類向量

        曹軍博,葉 霞,許飛翔,尹列東

        火箭軍工程大學 作戰(zhàn)保障學院,西安710025

        1 引言

        隨著4G 時代的到來,人們逐漸習慣于使用移動網絡在互聯(lián)網上購物,這有力促進了淘寶、京東、大眾點評等電子商務網站的發(fā)展。這些網站特別關注用戶的購物傾向,為獲取不同用戶的需求,他們開發(fā)了對商品需求的網絡評價系統(tǒng),并且提供全面的在線評論功能。商家可以從這些評論信息中獲取傳統(tǒng)交易中不易獲取的消費者對于所購商品的反饋信息,根據(jù)消費者的需求改進商品,以提高市場占有率;同時后續(xù)消費者也可以根據(jù)這些評論信息,做出購買決策。因此,如何從海量數(shù)據(jù)中自動獲取用戶情感傾向的情感分析技術成為當下研究的熱點問題。

        情感分析屬于自然語言處理領域的一個重要分支。采用情感分析技術,在商品評論應用中,可以識別用戶對商品評論文本的情感信息,幫助商家精準了解市場需求,幫助消費者快速做出購買決策;在輿情監(jiān)控中,政府可以及時了解民眾對突發(fā)事件、社會現(xiàn)象的態(tài)度,為引導輿論提供決策支持;在問答系統(tǒng)(QA)[1]中,用戶在回答中表達自己對問題的看法見解時,可使答案與問題更相關,回答更容易被采納;在自動翻譯系統(tǒng)中[2],對輸入文本進行情感傾向判斷,有助于提高對帶有正面或負面同義詞的翻譯準確率。因此,情感分析研究吸引著越來越多的科研工作者投身于該領域。

        2 相關研究

        Pang 和Turney 等[3-4]對電影評論進行情感傾向性研究,取得了較好的分類效果,由此引起大家對評論文本情感傾向分析的關注。Pang 等[5]根據(jù)傳統(tǒng)自然語言處理中的文本分類技術,使用樸素貝葉斯、支持向量機(SVM)和最大熵等模型進行情感傾向性研究,其中,SVM 模型在電影評論中研究效果明顯。羅毅等[6]構建兩級情感詞典,對情感詞進行情感增強,并且采用N-Gram 方法,獲取微博文本的情感信息,實驗結果與傳統(tǒng)方法相比,準確率和召回率都有一定的提高。百度深度學習研究院的徐偉[7]提出用神經網絡構建二元語言模型,可以從上下文中提取更多的詞語來獲取文本的信息,實驗結果表明,利用神經網絡學習的語言模型,比傳統(tǒng)的統(tǒng)計方法性能更好,這為后續(xù)語言模型的發(fā)展提供了不錯的思路。之后,Bengio 等[8]提出一個三層神經網絡來構建語言模型,將詞向量映射到固定維數(shù)的空間,通過計算詞與詞之間的距離或余弦值來度量其相似性,實驗表明能夠有效改進N-gram 模型,且在獲取較長的上下文語義中也有一定的優(yōu)勢。Mnih 等[9]提出層析Log-Bilinear 模型,使用一種快速的分層語言模型和一種簡單的基于特征的算法,從數(shù)據(jù)中自動構造單詞樹,此模型在實驗中比非層次神經網絡模型效果較好。Mikolov等[10]借鑒Log-Bilinear模型的思想,提出word2vec模型,并實現(xiàn)了CBOW(Continuous Bag-of-Word model)和Skip-gram(Continuous Skip-gram model)兩種框架,由此詞向量被廣泛應用到自然語言處理等多個領域。梁軍等[11]運用深度學習思想,采用無監(jiān)督方法,根據(jù)句子中詞語前后的關聯(lián)性引入情感極性轉移模型,可達到與傳統(tǒng)有監(jiān)督方法同樣的效果,并且能夠節(jié)省大量人工標注的時間。張巍[12]采用基于CBOW 半監(jiān)督方法將情感信息語義與情感信息融合,在新的評論數(shù)據(jù)集上進行驗證實驗,取得了良好的效果,能夠精確地對情感信息進行分類。Huang 等[13]認為只利用一個詞的上下幾個詞生成詞向量并不能很好挖掘語義,因此在全局模型中,使用詞的逆文檔頻率(Inverse Document Frequen‐cy,IDF)值加權詞向量,將文章中所有詞的詞向量求加權平均,作為文章的語義,局部采用C&W[14]給固定窗口打分的模型,利用全局信息來輔助局部詞向量的生成方法,在一個新的數(shù)據(jù)集上對該模型進行評估,結果表明該模型要優(yōu)于其他神經網絡語言模型。黃發(fā)良等[15]提出一種基于多特征融合的微博主題情感挖掘模型TSSMMF(Topic Sentiment Model based on Multi-fea‐ture Fusion),能夠同步推導微博主題和情感信息。何炎祥等[16]將基于表情符號的情感空間映射與深度學習模型MCNN(Multi-channel Convolution Neural Network)結合,使MCNN 捕捉情感語義的能力有效增強。Qian等[17]提出了一個簡單的句子級的標注訓練模型,通過模型化語言資源的正則化因子來使語言連貫表示,實驗結果表明,該模型能夠有效地捕捉情感信息,同時能夠保證模型的簡單性。Vo 等[18]將CNN(Convolution Neural Network)和LSTM(Long Short-Term Memory)模型的優(yōu)點結合,提出一種有效的算法,對越南語商業(yè)網絡評論進行評估,實驗結果良好,性能優(yōu)于SVM、LSTM 和CNN。AI-Smadi 等[19]使用基于字符級雙向LSTM 和基于方面的LSTM,實現(xiàn)對阿拉伯酒店評論的基于方面級的情感分析,在參考數(shù)據(jù)集上進行實驗驗證,結果表明,該模型情感分類效果優(yōu)于單個LSTM。

        3 模型與方法

        3.1 基礎理論

        3.1.1 TF-IDF模型

        TF-IDF(Term Frequency-Inverse Document Fre‐quency)的主要思想是[20],如果某個詞或短語在一篇文章中出現(xiàn)的頻率較高,而在其他文章中很少出現(xiàn),則認為該詞或者短語具有很好的類別區(qū)分能力,適合用來分類。本文利用TF-IDF 模型建立一個情感詞匯表,通過該模型減弱語義信息而增強具有較強分類效果的情感信息。實際上,TF-IDF 是TF×IDF,TF 詞頻(Term Fre‐quency)表示該詞在文檔D 中出現(xiàn)的頻率,如公式(1)所示:

        IDF 逆文檔頻率表示該詞出現(xiàn)在其他文檔中的概率,如公式(2)所示:

        詞匯ti的TF-IDF權重值如公式(3)所示:

        3.1.2 CBOW模型

        Google 的word2vec 是性能優(yōu)良的開源詞向量工具,由Mikolov 等[10]提出,它有兩個重要的模型分別是CBOW 模型和Skip-gram 模型[21],前者使用詞的上下文生成當前詞,后者使用當前詞生成它的上下文,極大化語言生成概率得到詞的向量表示,如圖1所示。

        圖1 CBOW神經網絡模型

        已知語料C 中一段文本,樣本(context(w),w)是指context(w)由w前后各c個詞構成,如圖1所示。

        輸出層,對應一棵二叉樹,它是以語料中出現(xiàn)過的詞當葉子節(jié)點,各詞在語料中出現(xiàn)的頻率做權重值構造的Huffman 樹,通過不斷在樹上進行二分類得到對應的詞向量。

        3.2 改進情感詞向量獲取方法

        3.2.1 TF-IDF適應性改進

        TF-IDF 模型對每一句話都會生成對應權重值矩陣,即詞w 出現(xiàn)在文檔i 中,就會在文檔i 中生成該句的TF-IDF 權重值。如果一個詞對應多個權重值,則不能適應后期構建Huffman 樹與聚類分析。本文對TF-IDF模型進行適應性改進,采用取均值的方式得到唯一的TF-IDF權重值,即計算wtf_idf的權重值為公式(4):

        其中,{ j:w ∈dj} 表示包含詞w 的文檔數(shù),ti表示詞在文檔i中的TF-IDF權重值。

        3.2.2 改進的CBOW情感詞向量提取

        利用改進的TF-IDF 模型得到詞的權重值wtf_idf,構建Huffman 樹,并將每個詞的權重值保存在對應的節(jié)點內,然后將該樹嵌入到CBOW 模型中,加入情感詞詞典進行詞向量的迭代,生成情感詞向量??傮w過程如圖2所示。

        圖2 改進的CBOW算法

        采用層級分類(Hierarchical Softmax)[22],任意詞w對應一個詞向量θw,路徑上每一個節(jié)點保存一個向量來輔助計算θs,每個詞對應一個情感標簽pt。本文引入預測函數(shù)來預測情感標簽pt。

        預測函數(shù)用來判斷詞語情感極性,屬于二分類的問題。令pt=1表示積極,pt=0表示消極,可以選擇合適的函數(shù)將w(t)映射到{0,1}。本文采用邏輯回歸分類器,獲得詞語情感信息,如公式(5)所示:

        其中,σ 是sigmoid 函數(shù),α是邏輯回歸權重向量,W 是詞向量矩陣,w(t)是詞語wt的向量表示,bl是偏置分量。邏輯回歸會在詞向量空間中形成一個超平面,詞語的極性取決于與超平面的相對位置。

        給定一個情感詞典D,lt是詞語wt的情感標簽,假定詞與詞之間是獨立分布,通過最大化函數(shù)可得最大化詞語情感標簽概率,如公式(6)所示:

        通過學習標簽,使情感相似的詞有更近的距離。

        為使CBOW 中的詞向量具有情感信息,情感相似的詞向量具有相近的距離,結合監(jiān)督學習的方法,利用上述情感標簽信息,得到目標函數(shù),如公式(7)所示:

        采用隨機梯度上升法對目標函數(shù)f 求偏導,如公式(8)所示:

        η表示學習率,一般取0.5,表示對每個詞加入對應上下文中的權重值。

        研究表明[5,15],SVM 在情感分類的性能上表現(xiàn)良好。本文實驗選用SVM 作為分類工具,分類時采用默認參數(shù)。

        為了保證數(shù)據(jù)的原始性,在數(shù)據(jù)預處理階段,本文去除的停用詞主要包括英文字符、數(shù)字、數(shù)學符號、表情、標點符號以及使用次數(shù)小于5 的單詞。較高頻率的單詞,TF-IDF 模型會給出一個相當?shù)偷臋嘀刂担虼藳]有設置上限來去除。

        4 實驗過程

        4.1 評價標準

        本文情感分析的評價指標采用精確度(Precision)、召回率(Recall)、F1-score。表1 所示為二分類分類器的混淆矩陣(Confusion Matrix),其中,TP(True Positive)表示實際為正類、預測也為正類的文本數(shù)量;FN(True Negative)表示實際為正類、預測為反類的文本數(shù)量;FP(False Positive)表示實際為反類、預測為正類的文本數(shù)量;TN(True Negative)表示實際為反類、預測也為反類的文本數(shù)量。

        表1 混淆矩陣

        精確率定義為:

        召回率定義為:

        在實際應用中,通常使用兩者的調和平均數(shù)作為一個綜合的評價指標,即F1-score值,如公式(13)所示:

        4.2 情感分析實驗

        4.2.1 數(shù)據(jù)預處理

        實驗使用的訓練數(shù)據(jù)與測試數(shù)據(jù)是SemEval-2016 Task5中的中文評論數(shù)據(jù)。具體數(shù)據(jù)見表2所示。

        情感詞典由臺灣大學情感詞典和知網情感詞典兩者取并集組成,其中,積極詞匯3 987個,消極詞匯3 772個。

        表2 實驗數(shù)據(jù)構成

        利用Python中jieba工具對語料庫分詞后,去除里面的符號。然后,將分詞結果與情感詞典和停用詞典取交集,得到情感詞匯表sm共420個,停用詞匯表sp共655個。

        4.2.2 運用TF-IDF模型計算權重值

        運用TF-IDF 模型對處理后的訓練數(shù)據(jù)進行訓練,計算每個詞的TF 值與IDF 值,得到每一個詞的權重值并取均值。利用K-means 聚類,依據(jù)實驗的情感詞匯表sm 和停用詞表sp,統(tǒng)計每個類別中的個數(shù),并用公式(14)計算聚類后類別的權重值。

        圖3 采用TF分類實驗結果

        從實驗數(shù)據(jù)可以得出,在聚類數(shù)小于7 時,類別中詞的數(shù)量很大,情感詞和停用詞的數(shù)量差距也很大。在聚類數(shù)為7 至11 的實驗結果中,前段分類均衡,中段起伏較大,尾部趨于收斂;聚類數(shù)為12 之后,尾部收斂值趨于一致。

        引入IDF 值來觀察小部分數(shù)據(jù)的變化,采用公式(15)計算權重值。結果如圖4所示。

        圖4 采用IDF分類實驗結果

        圖4 中,從不同聚類數(shù)的實驗結果中均可看出中間部分的差值被放大。聚類中心在0.3 附近時,所有分類的權重值都比較大,說明這個中心情感信息的含量超過停用詞的含量,具有很強的情感判別能力。

        圖5 聚類數(shù)12的實驗結果

        以聚類數(shù)12為例,如圖5所示。

        停用詞和情感詞都采用除以該類別的總詞數(shù)進行歸一化。通過圖5 得出,聚類中心小于0.1 時,聚類數(shù)為5之前的類別中,詞數(shù)共占總詞數(shù)的86%,且停用詞和情感詞的數(shù)量總體呈下降趨勢,其中停用詞在聚類中心0.3左右減少到0,情感詞在聚類中心0.4左右減少到0。

        同時,通過多組實驗研究了不同聚類數(shù)下停用詞和情感詞的占比趨勢。實驗結果顯示,隨著聚類數(shù)的增多,停用詞在聚類中心0.24 以后就不再出現(xiàn),情感詞在聚類中心0.36以后不再出現(xiàn)。觀察語料庫發(fā)現(xiàn),該類別語料是一些手機型號的評論語句,如G21、p1000、p6200、黑莓等。通過程序自動刪除該類別之后的詞語,可以達到代替停用詞表的效果。在聚類數(shù)過高時,類別中詞數(shù)將會很少,同時,刪除部分情感詞,可以在適當降低精度的情況下?lián)Q來更高的運算速度。因此,本文選取聚類中心閾值為0.16,聚類成14類。實驗中一共刪除詞230個,通過檢查發(fā)現(xiàn)情感詞共10個。

        4.2.3 情感詞向量處理

        本文實驗選取了CBOW 模型中兩組詞:{贊揚,批評}、{提高,降低}所對應的詞在向量空間內最相近的前6個詞,如表3所示。

        表3 情感詞調整表

        從表3 可以看出,在詞類“降低”的基礎詞向量中,出現(xiàn)了情感極性相反的詞語,如“超低”、“過高”均為描述某物體性能的情感詞。因為CBOW 的無監(jiān)督特性以及兩個詞語的語義距離十分接近,可以相互替換,所以情感極性也會隨之替換。

        實驗對CBOW 選取的兩對共24個情感詞進行了手動調整,在詞類相同的情況下,保留相同極性的詞,去掉相反極性的詞。用調整后的情感詞表來計算詞向量,避免了極性相反的情感詞對詞向量的影響,因此用來判斷語料庫中詞語的情感傾向是合理的。

        4.2.4 確定詞向量維度

        詞向量的維度反映的是獲取的特征量的大小,維度越小獲取的特征量就少,對應的訓練時間也會減少。但是,特征量太少,就不能完整反映該單詞的含義;特征量過多,訓練時間會越長,實用性不高。因此,通過實驗找到最為合適的詞向量維數(shù)。實驗結果如圖6所示。

        圖6 不同維度下的準確率

        實驗結果表明,當維度較小時,提升維度可以大幅提升準確率,但是一定維度之后,如本實驗的150維,準確率將趨于平穩(wěn)。因此,本實驗選擇150維作為詞向量的維度。

        4.2.5 實驗結果

        將訓練得到的詞向量作為特征向量,采用SVM 情感分類預測,對已標注的情感數(shù)據(jù)進行情感分類,并與基于原生的IF-IDF模型和word2vec的CBOW 模型方法分類進行結果對比,如表4所示。

        表4 實驗結果

        從實驗結果可以看出,本文提出的方法取得了較好的分類效果。TF-IDF 模型只考慮了詞匯的重要程度,CBOW 模型的分布式詞向量能夠克服評論文本的特征稀疏問題,但是無法得到每個單詞對情感分類的貢獻程度。同時可以得出,在一定程度上得到詞匯重要程度比語義信息來表達情感能力較弱,但也能篩選出一定的信息。本文結合兩種模型得到更好的分類效果,在精確率、召回率、F1值和整體的正確率上都有所提高。

        同時,根據(jù)4.2.3 小節(jié)情感詞向量處理,使用多種詞向量方法在單詞級別上進行情感分類實驗,實驗結果如表5所示。

        表5 單詞級別實驗結果%

        實驗結果表明,本文方法在分類結果中取得了良好的效果,明顯高于傳統(tǒng)的詞向量方法。相比沒有融合情感信息的CBOW模型,分類效果得到了5%左右的提升,同時也證明了該模型確實將情感信息融入到了詞向量中。

        5 結束語

        本文首先改進TF-IDF 模型構建一個替代性的停用詞表,并且利用結果生成Huffman樹作為改進的CBOW模型的輸入,同時在單詞級別上進行了情感分類實驗。實驗結果表明,本文方法有效提升了分類效果,在各個指標上都優(yōu)于傳統(tǒng)模型,詞向量中也確實融入了情感信息。本文方法雖然減少了部分特征工程量,但是仍然有依賴于情感的特征工程,情感標簽訓練的結果直接影響著情感的表達。同時,網絡用語的隨意性,使利用詞典得到所有情感詞比較困難,下一步考慮利用神經網絡來同步進行訓練與擴充詞典,增強情感詞對詞向量的影響。

        猜你喜歡
        權重聚類向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        權重常思“浮名輕”
        當代陜西(2020年17期)2020-10-28 08:18:18
        為黨督政勤履職 代民行權重擔當
        人大建設(2018年5期)2018-08-16 07:09:00
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于公約式權重的截短線性分組碼盲識別方法
        電信科學(2017年6期)2017-07-01 15:44:57
        向量垂直在解析幾何中的應用
        基于改進的遺傳算法的模糊聚類算法
        向量五種“變身” 玩轉圓錐曲線
        一種層次初始的聚類個數(shù)自適應的聚類方法研究
        变态 另类 欧美 大码 日韩| 国产人妖伦理视频在线观看| 美女很黄很色国产av| 亚洲一区二区三区av无码| 久久人妻公开中文字幕| 精品人妻av区乱码| 日本女优中文字幕在线播放| 精品国产免费一区二区三区香蕉| 黑人玩弄人妻中文在线| 日韩中文字幕精品免费一区| 亚洲长腿丝袜中文字幕| 人妻激情偷乱视频一区二区三区| 中文字幕一区二区三区精彩视频| 亚洲精品亚洲人成在线播放| 成人影院视频在线播放| 亚洲日韩中文字幕在线播放| 无码精品黑人一区二区三区| 超碰观看| 日韩av一区二区不卡| 欧美人与动人物牲交免费观看久久| 国产精品无需播放器| 国产女人高潮的av毛片| 娇小女人被黑人插免费视频| 精品国产一区二区三区av片| 国产精品无码专区综合网| 蜜桃视频成年人在线观看| av无码国产精品色午夜| 18禁无遮挡无码网站免费| 91极品尤物国产在线播放| 按摩师玩弄少妇到高潮av| 97无码免费人妻超级碰碰夜夜| 91香蕉视频网| 我也色自拍俺也色自拍| 成年免费a级毛片免费看无码| 大学生被内谢粉嫩无套| 亚洲人成网站在线播放小说| 不卡一本av天堂专区| 东京热人妻一区二区三区| 福利视频一二区| 免费看av网站在线亚洲| 帮老师解开蕾丝奶罩吸乳网站|