亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVM的用戶評論情感分析方法研究

        2019-03-12 06:59:10常丹王玉珍1
        棗莊學院學報 2019年2期
        關(guān)鍵詞:分類文本情感

        常丹,王玉珍1,

        (1、蘭州財經(jīng)大學絲綢之路經(jīng)濟研究院,甘肅蘭州 730020;2、蘭州財經(jīng)大學信息工程學院,甘肅蘭州 730020)

        0 引言

        近年來,隨著自然語言處理和數(shù)據(jù)挖掘技術(shù)的成熟,情感分析成了文本分析領(lǐng)域研究的熱點,目前的主要研究成果概括如下:支淑婷[1]等人認為不同類型的注意力機制和神經(jīng)網(wǎng)絡(luò)獨立編碼的屬性上下語義信息,能夠有效識別情感極性,并在SemEval2014 Task4和Twitter數(shù)據(jù)集上進行實驗,結(jié)果表明,這種融合多注意力和屬性上下文的長短時記憶神經(jīng)網(wǎng)絡(luò)模型能夠改善傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型存在的問題,從而提高情感分析的準確率;曾子明[2]等人基于LDA主體識別模型和Ada Boost集成分類方法,在微博文本的主題特征中融入情感特征,提高了微博文本的情感分類準確性,從而有效地區(qū)分用戶的情感傾向;吳鵬[3]等人針對現(xiàn)有方法難以自動識別網(wǎng)絡(luò)輿情中的負面情感問題,提出網(wǎng)民負面情感識別模型,這種模型在判斷情感極性的基礎(chǔ)上能夠識別網(wǎng)民的不同負面情感;胡榮磊[4]等人在文本情感分析過程中,將長短期記憶網(wǎng)絡(luò)和前饋注意力模型進行結(jié)合,結(jié)果表明,這種文本情感分析方法比傳統(tǒng)的情感分析方法更具優(yōu)勢;趙冬梅[5]等人認為用戶本身和評價對象的屬性對情感分析至關(guān)重要,他通過計算用戶興趣分布矩陣,融合SVD分解和LSTM模型,實現(xiàn)情感分類,實驗表明,LSTM-CFA方法能夠有效提取用戶個性和產(chǎn)品屬性信息;劉續(xù)樂[6]等人以微博文本為研究對象,結(jié)合知網(wǎng)相似度,選擇情感基準詞,構(gòu)建情感詞典,運用到SVM模型中,并通過條件隨機場模型對文本進行分類,結(jié)果表明,這種分類效果更好;陳珂[7]等人針對文本分類存在的耗時長和一致性差等問題,提出基于多分類器集成的self-training的情感分類方法,實驗表明,這種方法能夠提高情感分類的效率和準確性;Makoto Nakayama[8]等人通過研究日本與西方國家針對用餐體驗的評論,認為民族文化會影響用戶評論的內(nèi)容,彌補了社會商業(yè)中文化影響的研究空白,等等.

        可見,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,情感分析掀起了國內(nèi)外研究的熱潮.然而由于數(shù)據(jù)收集的難度較大,目前的情感分析方法大都基于英文文本數(shù)據(jù),而中英文思維方式和審美情趣的不同, 導致中英文在用詞、句式、修辭等方面都各有特點[9],因此,對于中文文本來說,英文文本的情感分析方法并不完全適用.目前面向中文文本的情感分析方法還較少,一方面由于中文文本數(shù)據(jù)收集起來較為困難,另一方面,相對來說中文存在很多意譯,研究起來較為復雜.因此,本文將基于用戶的中文評論文本,運用支持向量機模型對其進行情感分析,從而為商家優(yōu)化決策提供一定的參考.

        1 基于SVM的情感分析方法建立

        自然語言處理領(lǐng)域的文本一般分為三個級別的粒度:詞語級、語句級和篇章級.情感分析的觀念在于分析文本,理解其所要表達的觀點和情緒,即研究語句級文本,包括語句情感屬性的識別、客觀性文本提取和分析以及情感極性分析等.英語注重“形合”,而漢語注重“意合”[10],本文所研究的情感分析方法主要是基于中文的用戶評論信息的情感極性研究,即通過構(gòu)建SVM分類模型,融合word2vec詞向量技術(shù),研究文本情感極性的分類方法.

        1.1 支持向量機

        支持向量機SVM(Support Vector Machine)是一種常見的判別方法,主要用于分類、回歸、異常值或離群點的檢測,主要思想是輸入一組數(shù)據(jù)映射到較高維上,為高維特征空間建立一個超平面,使得這個超平面和與超平面距離最近的樣本數(shù)據(jù)點之間的距離最大化.在支持向量機數(shù)據(jù)挖掘算法中,其核心是支持向量和最優(yōu)分割超平面,而SVM的主要工作就是要找到這樣一個超平面,從而使模型達到最優(yōu)的分類效果.

        圖1 SVM最優(yōu)分割超平面圖

        目前來說,基于監(jiān)督學習的情感分析方法仍是研究的熱點,支持向量機針對其他傳統(tǒng)的機器學習方法來說,由于它構(gòu)建出了最優(yōu)超平面,分類效果更好,因此本文通過支持向量機訓練情感分析模型,并使用準確率(Accuracy)來判定模型的預測性能,計算公式如下:

        (1)

        其中,TP表示正確判斷的所有屬于積極傾向的數(shù)據(jù)集合,TN表示正確判斷的所有屬于消極傾向的數(shù)據(jù)集合,P+N表示總的文本數(shù)據(jù)集.

        1.2 word2vec

        word2vec詞向量技術(shù)是Google開源推出的一個工具包,是在Distributed representation詞向量的基礎(chǔ)上產(chǎn)生的,包含CBOW和skip-gram兩個模型,主要思想是在較大的語料集上進行高效訓練,得到訓練結(jié)果詞向量,再通過詞向量模型,將文本數(shù)據(jù)轉(zhuǎn)化成對應的詞向量從而進行計算.詞向量技術(shù)可以用來做聚類、詞性分析和其他自然語言處理的相關(guān)工作.在情感分析方面, word2vec算法能夠利用文本中心詞進行特征詞向量的訓練,訓練結(jié)果具有良好的語義特征,因此word2vec訓練的特征詞向量被用作情感分析模型的輸入.

        1.3 方法建立

        基于SVM情感分析方法的建立主要包括兩個方面,一是構(gòu)建詞向量,由于模型的輸入必須是數(shù)值型數(shù)據(jù),為了得到模型中輸入文本對應的數(shù)據(jù),文章通過訓練詞向量模型,將評論文本轉(zhuǎn)換成詞向量作為模型的輸入;二是分類器的訓練,即訓練分類器對文本數(shù)據(jù)進行積極和消極的分類.具體方法如下:

        步驟一:數(shù)據(jù)收集,下載維基百科中文語料集,并將其轉(zhuǎn)換成計算機可讀取的文本格式;

        步驟二:數(shù)據(jù)預處理,維基百科中文語料集包含繁體中文,對詞向量訓練以及文本轉(zhuǎn)換有一定影響,因此用簡體中文替換語料集中的繁體中文;

        步驟三:分詞,使用結(jié)巴分詞系統(tǒng)對語料集進行分詞處理;

        步驟四:模型訓練,將分詞后的文本導入Python中,使用gensim word2vec訓練腳本獲得詞向量;

        步驟五:模型測試,輸入文本,并獲取相應的詞向量;

        步驟六:數(shù)據(jù)集劃分,將原始數(shù)據(jù)按比例劃分成訓練集和測試集;

        步驟七:數(shù)據(jù)集預處理,對訓練集數(shù)據(jù)進行結(jié)巴分詞和停用詞處理;

        步驟八:獲取特征詞向量,從詞向量模型中獲取能夠描述文本的特征詞向量;

        圖2 PCA維度結(jié)果圖

        步驟九:降維,利用主成分分析法減少特征詞向量的維數(shù)(如圖2所示);

        步驟十:模型訓練,通過python導入Scikit-Learn庫,訓練SVM分類器.

        2 基于SVM的情感分析方法驗證

        本文的實驗環(huán)境為windows7操作系統(tǒng),應用python3.6作為編程語言,來驗證基于SVM的情感分析方法的有效性.

        2.1 數(shù)據(jù)來源

        為挖掘中文評論文本的情感傾向,本文選用了中科院譚松波博士收集整理的酒店評論語料集進行實驗.該語料集規(guī)模為10000篇,共分為四個子集,經(jīng)整理匯總有積極語料7000篇左右,消極語料3000篇左右,部分數(shù)據(jù)如圖3所示.文章將根據(jù)7:3的比例構(gòu)建訓練集與測試集,即隨機抽取7000條數(shù)據(jù)(包含積極語料和消極語料)作為訓練集訓練模型, 3000數(shù)據(jù)作為測試集,測試模型的有效性.

        圖3 部分原始數(shù)據(jù)

        2.2 數(shù)據(jù)預處理及分析

        在進行方法驗證之前,首先要對文本數(shù)據(jù)進行預處理,即對收集到的語料集進行分詞和去除停用詞處理.文中采用結(jié)巴分詞系統(tǒng)對文本進行分詞處理,這種分詞系統(tǒng)可以通過python命令直接調(diào)用結(jié)巴包,不僅方便,而且分詞速度較快.在分詞完成后,使用停用詞表去除文本停用詞.

        經(jīng)過預處理的數(shù)據(jù)采用本文所建立的方法進行分析,由于訓練詞向量時設(shè)定的維度是300維,而通過主成分分析得到前50維度的數(shù)據(jù)能夠很好的反應原始數(shù)據(jù)的情感內(nèi)容,因此對模型進行降維處理,選擇前50維作為特征向量輸入模型,從而訓練分類模型,通過參數(shù)調(diào)整,最終確定當支持向量機的懲罰參數(shù)設(shè)為2時分類效果最好,最后將測試集文本輸入模型測試這種方法的有效性.

        2.3 驗證結(jié)果

        本文通過測試集文本情感極性分類的準確率來驗證模型的有效性,并通過ROC曲線來反應模型的準確性.測試結(jié)果表明,融合了word2vec的SVM情感分析方法準確率達到87%,ROC曲線如圖4所示.

        圖4 ROC曲線圖

        ROC曲線即在一系列不同閾值下計算其對應的FPR和TPR值.圖4中,橫軸表示用戶評論信息樣本中本屬于消極情感傾向的評論文本被判別為積極傾向的概率,即分類錯誤的文本,縱軸表示用戶評論信息樣本中本屬于積極情感傾向的評論文本被模型識別為積極傾向的概率,即分類正確的文本.AUC值是ROC曲線所覆蓋的區(qū)域,即ROC曲線下的面積.當ROC曲線越接近左上角時,AUC值就越大,表示情感分類的準確度越高.在圖4中,AUC值為0.92,表明情感分類的準確性較高,即用戶評論信息的情感分析非常準確,能很好地反映用戶的情感傾向.因此該方法可以被用來做用戶評論信息的情感分析.

        3 結(jié)論

        情感分析是自然語言處理的重要領(lǐng)域,通過挖掘不同行業(yè)商品評論的情感傾向,能夠指導商家改善運營方式,提高服務質(zhì)量.文章通過word2vec詞向量技術(shù)量化評論文本,并通過SVM模型分析文本的情感傾向,結(jié)果表明,融入word2vec的支持向量機模型對于情感傾向的分類有更加顯著的效果,這種方法不僅能夠更加準確的對用戶情感進行分類,而且與傳統(tǒng)的支持向量機方法相比,縮短了模型的訓練時間,從而提高了文本情感分類的準確率和效率,進而使得商家能夠根據(jù)用戶的反饋及時采取相應的解決措施,并且在改進商品、提供更高質(zhì)量的服務方面有更多的決策支持.

        猜你喜歡
        分類文本情感
        分類算一算
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        亚洲国产成人久久综合碰碰| 无码专区无码专区视频网址| 丰满人妻一区二区三区免费 | 国内精品亚洲成av人片| 尤物在线精品视频| 三年片在线观看免费大全电影| 99精品国产第一福利网站| 在线观看亚洲视频一区二区| 久久精品国产免费观看三人同眠| 无码国产精品一区二区高潮| 少妇无码av无码去区钱| 四虎在线中文字幕一区| 久久无码潮喷a片无码高潮| 欧美日韩不卡合集视频| 久久精品国产免费观看99| 日本一区不卡在线观看| 久久久精品国产免大香伊| 中文字幕无码不卡一区二区三区 | 爆操丝袜美女在线观看| 性色av无码中文av有码vr| 91精品国产91久久久无码95| 91桃色在线播放国产| 狠狠色狠狠色综合网| 久久人妻少妇嫩草av蜜桃| 91精品欧美综合在线观看| 亚洲无毛成人在线视频| 国产av无码专区亚洲avjulia| 国产精品亚洲日韩欧美色窝窝色欲 | 日本xxxx色视频在线播放| 久久尤物av天堂日日综合| 男女啪啪啪的高清视频| 东京热久久综合久久88| 亚洲中文字幕无码中字| 熟女少妇丰满一区二区| 久久熟妇少妇亚洲精品| 亚洲精品无播放器在线播放| 色综合久久精品中文字幕| 亚洲乱码av一区二区蜜桃av| 少女韩国电视剧在线观看完整 | 亚洲人成影院在线高清| 精品一区二区三区人妻久久福利|