亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA—加權Word2Vec組合的機器學習情感分類模型研究

        2022-12-08 07:23:02陳登建杜飛霞吳瑞雪楊秀璋
        現代計算機 2022年18期
        關鍵詞:文檔向量分類

        陳登建,杜飛霞,吳瑞雪,楊秀璋,夏 換

        (1.貴州財經大學信息學院,貴陽 550025;2.貴州財經大學貴州省經濟系統(tǒng)仿真重點實驗室,貴陽 550025)

        0 引言

        互聯網技術的蓬勃發(fā)展,為用戶在各大社交平臺上發(fā)表自己的觀點提供了便利,因此使得各平臺出現大量用戶主觀評論文本。其中評論文本包含用戶自身建議和情感,蘊含潛在的商業(yè)價值。通過分析用戶生成數據,一方面可以幫助小企業(yè)快速了解用戶偏好,獲取用戶意見,以提高服務質量[1];另一方面這類信息通常也包含市場需求,對于大型企業(yè)來說,通過分析這類信息,挖掘藍海市場,剖析市場競爭態(tài)勢,分析用戶對企業(yè)的關注焦點,以此作為參考意見,輔助企業(yè)制定合理的市場競爭策略,提升企業(yè)形象[2]。

        現今用戶評論文本情感研究具有重要的學術意義與現實價值,越來越多的學者對其進行研究。文本的情感研究可以分為情感分類與情感分析兩類,情感分析是對某個主題下用戶態(tài)度的分析,情感分類則是對用戶不同情感傾向的判斷,分辨用戶情緒是積極還是消極[3]。用戶評論文本的情感分類,是用挖掘技術對蘊含用戶個人主觀意見的文本進行分類[4]。識別文本的情感極性,對不同極性的文本進行區(qū)分[5]。情感分類并不同于以往的文本分類模型,情感分類模型更加關注文本中用戶所表達的觀點、態(tài)度、偏好等相關信息[6]。

        但是在線評論文本是用戶生成數據,存在規(guī)范性不足的問題。以往的學者對短文本的情感分類進行探究,提出多種特征表示方法,擴充短文本的特征,而長評論文本的研究卻相對較少。當用戶發(fā)布的評論文本長度過長時,就會包含較多的噪音字符,涉及多個主題,導致傳統(tǒng)的算法對這類文本的情感分類的準確率降低[7]。近年來,學者們大多都借助深度學習的方法提高長文本的分類效率。張宇昂等[8]借助CNN-BiLSTM的神經網絡模型,融合文本的上下文特征和局部特征,提高分類準確率。王浩鑌等[9]借助Seq2Seq,提取文本的詞語與語義特征,將多級特征與Seq2Seq結合,提高分類效率。盧玲等[10]借助Attention模型提取句子的詞語貢獻度,對文本進行過濾,然后構建CNN神經網絡,實現對長文本的分類。但是,由于神經網絡存在模型訓練需要大量的語料數據,模型的訓練成本太高,模型不具備可解釋性等問題,所以模型并不具備普適性與便捷性。

        針對上述問題,本文提出了一種基于LDAWord2Vec組合特征的算法。該方法借助LDA對長評論文本進行LDA特征提取,借助Word2Vec構建詞的向量空間,利用TF-IDF分配詞權重,能夠有效解決文本的主題過多的問題,提升情感分類器的準確度和召回率。

        1 相關工作

        現今情感分類主要通過情感詞典和機器學習這兩類方法實現?;谇楦性~典的分類方法,主要通過詞典中定義的情感詞,結合自定義的情感計算規(guī)則,判定情感傾向的方法[11]。情感詞典由人工構建,不僅耗費大量的人力物力,且容易受到人的主觀因素的影響,這種情感分類方法對于不同領域的語料具有局限性[12]。基于機器學習的情感分類,主要借助分類算法實現情感分類。該方法需要構建情感特征向量,通過大量已經標注的樣本訓練模型,最后運用分類算法實現對測試樣本的情感傾向預測[13]。Pang等[14]最先從文本中抽取不同的情感詞特征,然后借助機器學習分類算法實現情感分類。相較于英文,中文情感分類任務的難度更高——中文語法更加復雜,中文分詞的準確率更低,從而導致中文文本更難準確地實現情感分類[15]。

        由于LDA主題模型在中文處理上的優(yōu)秀表現,眾多學者將其應用于中文的情感分類任務。毛龍龍[16]提出一種融合LDA主題模型的情感分析方法,通過不同特征對文本進行主題聚類,如選擇表情符號個數、情感詞個數、是否出現否定詞等六個特征,根據不同的主題類別訓練不同的情感分類模型。蘇瑩等[17]提出一種面向無指導的情感分析方法,借助Naive Bayesian與LDA,生成獨立的特征,實現對網絡文本的情感分類。馮勇等[18]提出一種高效的情感分類模型,借助LDA主題分析的結果,對原有的特征詞典進行補充,提高模型的分類效率。

        傳統(tǒng)的文本特征表示方法,缺乏上下文語義分析,將其用于文本表示,容易出現高緯度、高稀疏等問題。Word2Vec是現今主流的詞向量模型,可以提高文本的分類準確率。馬思丹等[19]借助詞向量的優(yōu)點,提出加權Word2Vec的模型,改善傳統(tǒng)模型的文本分類效率。也有學者將Word2Vec與LDA模型結合,提高了文本的分類效率。張群等[20]提出LDA與Word2Vec融合的方法,通過拼接詞向量與LDA融合的短文本特征,解決短文本的特征稀疏問題。陳磊等[21]借助Word2Vec改善LF-LDA的主題分布,將LF-LDA生成的主題向量與Word2Vec的詞向量相結合來表示文本特征,提高文本的分類效率。徐守坤等[22]借助LDA構建主題詞集,利用Word2Vec獲取主題詞集的相似詞匯,根據詞的相似度分配詞權重,提高主題挖掘的準確率。

        綜上所述,現今短評論文本的分類研究已經十分透徹,而長評論文本的情感分類研究卻較少。因此,本文提出借助LDA實現對長評論文本的特征提取,結合Word2Vec和TF-IDF提升長評論文本情感分類的準確率與召回率。

        2 情感分類模型構建

        2.1 基本流程

        本文的實驗技術流程如圖1所示。主要包括數據預處理、構建LDA特征詞庫、構建長文本特征表達、構建情感分類模型、模型效果評價五個部分。

        2.2 LDA主題特征提取

        LDA(latent dirichlet allocaion)主題模型是Blei等[23]于2003年提出的三層貝葉斯模型,該模型認為文檔由多個主題組成,不同主題是詞向量空間上的分布,不同的主題被視為不同特征詞聚集的結果。LDA是一個無監(jiān)督的主題生成模型,其概率表達如圖2所示。其中D是語料庫數據集,N是單個主題的訓練數據,K為主題數。

        該模型實現步驟如下:

        (1)文檔的主題服從參數α下的Dirichlet分布,當前文檔θd的從Dirichlet(α)分布為抽樣得到。

        (2)文檔的特征詞的分布服從參數β的Dirichlet分布,主題k的從Dirichlet(β)分布為抽樣得到。

        (3)文檔的特征詞,從主題分布中獲得其主題分布Zdn從multi(θd)中抽樣得到。

        (4)文檔d中的特征詞wdn服從multi(φzdn)。

        在訓練主題模型前,借助困惑度確定最佳主題數K。困惑度是信息領域的理論,可以闡述為屬于不同主題文檔的不確定性程度。困惑度越低,主題就越清晰。本文為保證模型的準確性,通過繪制Perplexity與Number of Topic的曲線,獲得最佳主題數K。

        照其相關性從大到小對K主題下的主題詞進行排序,取得每個主題下前300個詞作為當前主題的特征詞,構成語料庫的特征詞庫,實現文本的特征提取,主題詞的相關性計算公式如下:

        式(1)中p(w|t)表示詞w屬于當前主題t的概率,λ為調節(jié)參數。

        2.3 Word2Vec詞向量模型

        計算機不能識別文本,只有被編碼向量化后的文本才可以被計算。傳統(tǒng)的文本向量化方式有BOW(Bag of Words)模型,但該模型僅僅統(tǒng)計詞的頻次,忽略不同詞在文本中的重要性。且不能表達詞與詞之間的關系,導致語義特征缺失。Word2Vec是Google在2003年發(fā)布的詞向量模型,可以實現在大規(guī)模語料數據中通過CBOW或Skip-gram訓練生成每個詞的向量特征。CBOW通過輸入詞的上下文向量來預知當前詞出現的概率,而Skip-gram則是通過當前詞預測出上下文出現的概率[24],如圖3所示。

        2.4 TF-IDF詞權重算法

        本模型選擇TF-IDF詞權重算法對Word2 Vec得到的詞向量進行加權,該算法是由詞頻TF(term frequency)與逆文檔頻率IDF(inverse document frequency)組成,體現不同詞在文檔中的重要性。TF即當前詞在此文檔中的出現頻次,計算公式如下:

        式(2)中分子的數值表示當前文檔中ti一詞的出現頻次,分母是當前文檔中所有詞的出現頻次的總和。

        IDF用于衡量每個詞在當前文檔的普遍重要性,用于過濾常用詞的干擾,計算公式如下:

        式(3)中分母表示出現當前詞ti的文檔數量之和,N為所有文檔數量的總和。

        結合TF和IDF,計算得出各個詞的權重,計算公式如下:

        3 實驗分析

        本文使用人工標簽的酒店評論數據。將評論數據進行初步人工篩選,為保證樣本的類別均衡,取積極和消極的長評論文本各1500條,實驗數據的每個文本長度如圖4所示,其中橫坐標為單詞數分布區(qū)間,縱坐標的左軸為文本數,右軸為累積占比。

        借助Jieba對實驗數據集進行分詞,使用詞云對積極與消極的文本進行初步觀測,結果如圖5所示。

        其中“酒店”“房間”等詞為關鍵詞,積極評論詞云中,用戶的評論主要圍繞房間的居住環(huán)境、價格、地理位置、衛(wèi)生等主題;消極評論詞云中,用戶的評論主要圍繞服務態(tài)度、衛(wèi)生、隔音效果、價格等主題。

        3.1 構建長評論文本的LDA特征表達

        為了提高模型的準確性,計算不同的主題數K所對應的困惑度,困惑度和主題數之間的關系曲線如圖6所示。隨著主題數的上升,困惑度隨之下降,當K=6時,混亂程度達到最低,確定最佳的主題數為6。

        將實驗數據集導入主題數為6的LDA主題模型進行文本聚類,初始設置λ值為0,利用公式(1)計算得到不同主題詞與當前主題的相關度。根據相關性對每個詞進行排序輸出,選擇前300的特征詞用于代表當前主題。最終構建出用戶評論中關注的六類主題,且每一個主題詞表示用戶闡述該主題時常用的主題詞。將主題詞匯總,構建出主題詞庫,實現對當前語料的特征提取,部分結果見表1。

        表1 LDA特征提取結果示例

        依據特征詞庫,構建長評論文本的LDA特征表達。將每一條長評論文本依據特征詞庫進行過濾,篩選掉不在特征詞庫中出現的詞匯,縮減文本長度,去除不重要詞匯的干擾,具體操作如表2所示。

        表2 LDA的特征表達示例

        3.2 Word2Vec和TF-IDF構建文本特征

        為更好地突出文本中的情感特征,將TFIDF與Word2Vec結合實現LDA特征表達文本的詞向量表達。將上述得到的LDA特征表達文本作為輸入,訓練CBOW模型,設置Word2Vec詞向量維度為100維,Windows size為5,借助神經網絡迭代,預測當前詞的概率,計算損失函數,修正模型,得到每個詞的詞向量表示,如公式(5)和公式(6)所示。

        式(5)中wi表示預測中心詞,s表示設置的窗口大小。

        P(wi|wi-s,…,wi+s)表示用上下文預測中心詞wi的概率,計算公式如下所示:

        式(6)中w0是上下文向量取均值的結果,dict為字典。

        通過損失函數不斷迭代修正參數得到每個詞向量表示,通過式(4)計算得到每個詞的權重,將TF-IDF作為權重與詞向量結合,得到每個詞的向量特征,將所有詞的向量相加,取均值,作為長文本的句向量。

        利用PCA算法將長文本的特征向量降為2維的空間向量,對應文本的積極和消極標簽作為顏色參數,繪制傳統(tǒng)文本特征TF-IDF與LDA-Word2Vec的長文本特征圖,結果如圖7與圖8所示,其中五角形為積極文本特征詞分布范圍,圓形為消極文本特征詞分布范圍。

        傳統(tǒng)文本向量特征表達的長評論文本的正負評論文本的分類效果并不是很好,有大量積極與消極的文本交織在一起,部分樣本消極的文本出現在積極文本的位置。而經過LDA特征提取后的長文本的特征的分類效果更優(yōu),分類邊界更清晰。

        3.3 模型評估

        本文選擇Precision、Recall作為實驗模型的性能評估指標。其中Precision表示預測所有類別中,預測正確類別的樣本比例。Recall表示預測當前這個類別中,預測正確的樣本比例,具體公式如下所示:

        式(7)和式(8)中TP表示預測正確的正樣數,FN表示預測錯誤的正樣本數,TN表示預測正確的負樣數,FP表示預測錯誤的負樣本數。

        本文主要選擇機器學習中SVM、Logistic、RandomForest、KNN、Bayesian作 為 情 感 分 類器,不同類型分類算法的結果見表3??芍?,RandomFoest和Bayesian相較于其他算法,準確率和召回率都更優(yōu)秀,而KNN的分類準確率最低。通過實驗可以證明,本文提出的方法相較于傳統(tǒng)的TF-IDF和Word2Vec,在情感分類的準確率與召回率方面都體現出優(yōu)秀的水平,可以較大程度上完成對長評論文本的情感分類。

        表3 模型評估

        4 結語

        本文將LDA模型引入到長文本的特征提取中,提出LDA與加權Word2Vec的組合特征的情感分類方法。本模型認為用戶的長評論是基于不同主題詞下有目的選取詞匯表達自己的主觀意見。借助LDA主題模型,獲取長文本語料的主題特征詞庫,對文本進行特征提取,將處理后的文本輸入到CBOW的詞向量模型中進行訓練,使用TF-IDF對每個詞進行權重分配,有效解決了長文本導致的文本情感分類效率低的難題,實驗證明本文提出的方法優(yōu)于傳統(tǒng)方法。

        本文的模型提高了機器學習經典算法的情感分類效率,但是還存在可以改進的空間。模型對特征詞的選擇影響模型的精度,且并未深入考慮情感詞匯的不同權重,只考慮了主題之間的上下文關系,因此下一步重點挖掘不同情感詞匯對于用戶長文本的情感傾向影響。

        猜你喜歡
        文檔向量分類
        向量的分解
        有人一聲不吭向你扔了個文檔
        分類算一算
        聚焦“向量與三角”創(chuàng)新題
        分類討論求坐標
        數據分析中的分類討論
        教你一招:數的分類
        基于RI碼計算的Word復制文檔鑒別
        向量垂直在解析幾何中的應用
        向量五種“變身” 玩轉圓錐曲線
        亚洲a∨无码男人的天堂| 国产婷婷色一区二区三区 | 蜜桃av噜噜一区二区三区香| 日韩成人无码v清免费| 精品丝袜国产在线播放| 激情视频在线播放一区二区三区| 午夜少妇高潮在线观看视频| 人妻少妇进入猛烈时中文字幕| 朝鲜女人大白屁股ass孕交| 永久免费av无码入口国语片| 推油少妇久久99久久99久久| 日韩爱爱视频| 亚洲女同性恋激情网站| 亚洲国产精品婷婷久久| 国产精品乱码人妻一区二区三区| 国产精品伦一区二区三级视频| 3344永久在线观看视频| 久久免费视亚洲无码视频| 女女同性av一区二区三区| 久久久精品亚洲一区二区国产av| 久久99国产精品久久| 国产成人无码免费网站| 亚洲人成精品久久久久| 免费国产在线精品三区| 久久精品不卡一区二区三区| 国产精品人人做人人爽| 四川老熟妇乱子xx性bbw| 在线视频制服丝袜中文字幕| 少妇特殊按摩高潮惨叫无码| 美女脱掉内裤扒开下面让人插| av无码小缝喷白浆在线观看| 国产欧美亚洲精品a| 国产av天堂亚洲国产av麻豆| 伊人狼人大香线蕉手机视频| 激情综合五月开心婷婷| 性无码免费一区二区三区在线| 久久tv中文字幕首页| 国产亚洲精品hd网站| 精品一区2区3区4区| 精品国品一二三产品区别在线观看| 国产情侣久久久久aⅴ免费|