亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Bert-BiLSTM 的商品評論情感分析研究

        2022-12-11 09:43:06徐鵬羅梓汛黃昕凱
        智能計算機(jī)與應(yīng)用 2022年11期
        關(guān)鍵詞:文本情感實驗

        徐鵬,羅梓汛,黃昕凱

        (廣東東軟學(xué)院,廣東 佛山 528225)

        0 引言

        在互聯(lián)網(wǎng)迅速發(fā)展、大數(shù)據(jù)來臨,以及中國電商行業(yè)競爭加劇的背景環(huán)境下,用戶于電商平臺上購買商品的行為規(guī)模呈指數(shù)級上升,評論數(shù)據(jù)也隨之增多。通常情況下,商品的評論數(shù)據(jù)中,蘊含著用戶觀點態(tài)度、情感傾向以及個人的見解。因此挖掘出用戶的評論數(shù)據(jù)中的深層意向至關(guān)重要。在此前提下,商品評價分析應(yīng)運而生。

        商品評價分析是指通過對用戶評論的處理,分析用戶對商品的關(guān)注程度和情感態(tài)度,為商戶選品和用戶購買提供一定的決策輔助[1]。在本文Bert與BiLSTM 的商品評論情感分析研究中,商品評論情感分析占據(jù)主要地位,重點旨在發(fā)現(xiàn)用戶是否有購買該商品的意愿并起到推薦作用,引導(dǎo)更多用戶進(jìn)行購買及評論。傳統(tǒng)的關(guān)鍵詞提取算法和預(yù)訓(xùn)練模型不能很好地聯(lián)系上下文的語境和詞向量稀疏等問題,不能精準(zhǔn)有效地標(biāo)出關(guān)鍵詞。針對此問題,本文采用Bert 模型對評論數(shù)據(jù)進(jìn)行詞向量處理,避免分詞造成的歧義,同時BiLSTM 能結(jié)合上下文的語境,使得模型更為精確,實現(xiàn)評論文本情感分析。

        1 模型構(gòu)建與研究

        1.1 循環(huán)神經(jīng)網(wǎng)絡(luò)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能夠挖掘出特征中語義信息,使深度學(xué)習(xí)模型在處理語言數(shù)據(jù)時運用更加廣泛。循環(huán)神經(jīng)網(wǎng)絡(luò)在原有的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,增加了對隱藏層的循環(huán)結(jié)構(gòu),使隱藏層既可不受輸入影響,還能接收上一時刻隱含層的影響[2]。循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)計展開如圖1 所示。

        圖1 RNN 結(jié)構(gòu)圖Fig.1 RNN structure

        1.2 LSTM

        相比于RNN,LSTM 引入了輸入門i、遺忘門f、輸出門o以及內(nèi)部記憶單元c,通過門控狀態(tài)來控制傳輸狀態(tài),記住需要記憶的信息,忘記不重要的信息;而不是和RNN 一樣,只能夠做記憶上的疊加。LSTM 能有效解決傳統(tǒng)RNN 在處理時間序列長期依賴中的梯度消失和梯度爆炸的問題,且對很多需要“長期記憶的”任務(wù)來說,效果顯著,誤差較?。?]。LSTM 單元結(jié)構(gòu)如圖2 所示。

        圖2 LSTM 單元結(jié)構(gòu)Fig.2 LSTM unit structure

        由圖2 可知,ft稱為遺忘門,表示Ct-1需要用作于計算Ct的特征;“?”表示LSTM 中最重要的門機(jī)制;Wf是遺忘門的權(quán)重;bf是遺忘門的偏置。此處需用到的數(shù)學(xué)公式可寫為:

        對于輸入門i來說,可用于控制輸入x和當(dāng)前計算的狀態(tài)更新到記憶單元的程度大小。相應(yīng)的數(shù)學(xué)表示形式為:

        it能夠控制的部分特征,用來更新Ct,與ft相同,可由如下公式進(jìn)行計算:

        對輸出層來說,其設(shè)計原理的數(shù)學(xué)表達(dá)式為:

        上述所有表達(dá)式中,σ通常是指Sigmoid函數(shù),主要起到門控作用,其輸出為0~1,當(dāng)輸出接近0 或1時,才能符合物理意義上的開或關(guān)。

        1.3 BiLSTM

        BiLSTM 是對LSTM 的改進(jìn)方案。該方案有效解決了LSTM 無法學(xué)習(xí)反向特征的問題,因此本文采用雙向BiLSTM 模型用于情感分類,一個用于保存上一詞語的前后文,另一個用于存儲下一詞語的前后文[4]。BiLSTM 結(jié)構(gòu)如圖3 所示。

        圖3 BiLSTM 結(jié)構(gòu)圖Fig.3 BiLSTM structure

        1.4 Bert

        Bert 是一個預(yù)訓(xùn)練的語言模型,重點強(qiáng)調(diào)了不再采用傳統(tǒng)的單向語言模型、或者把2 個單向語言模型通過淺層拼接的方法來進(jìn)行預(yù)訓(xùn)練,而是通過使用遮擋語言模型(MLM)生成深度的雙向語言表征[5]。

        Bert 的提出為自然處理領(lǐng)域帶來明顯提升。前期的模型是單向訓(xùn)練、并將2 個單向訓(xùn)練相結(jié)合,而Bert 則為了將句子轉(zhuǎn)化為詞向量而使用了多層Transformer[6],對語境的分析相比單向模型來說會更加透徹[2]。Bert-base 的Encoder 是由12 層結(jié)構(gòu)相同的Transformer Encoder 結(jié)構(gòu)堆疊而成。雖然結(jié)構(gòu)上是相同的,但相互間的權(quán)重并不共享[7]。Bert Ttransformer Encoder 結(jié)構(gòu)如圖4 所示。Bert 的模型架構(gòu)上采用了Transformer 的encoder 部分,輸入由字嵌入(token embedding)、段嵌入(segment embedding)和位置嵌入(position embedding)三部分相加構(gòu)成,每個輸入的起始token 會固定設(shè)置為′CLS′,用于下游的分類任務(wù),2個不同的sentence 間會加入′SEP′作為分隔,輸入的尾部同樣會加入一個′SEP′[8]。嵌入層架構(gòu)如圖5 所示。

        圖4 Bert Transformer Encoder 結(jié)構(gòu)Fig.4 Bert Transformer Encoder structure

        圖5 Bert 嵌入層架構(gòu)Fig.5 Bert embedded layer structure

        研究中,由MLM 和下一句預(yù)測(NSP)來進(jìn)行Bert 的模型訓(xùn)練。MLM 對輸入中的部分詞語進(jìn)行隨機(jī)選取替換,致力于通過訓(xùn)練能夠正確預(yù)測出原始輸入的替換詞,進(jìn)而聯(lián)合雙向上下文達(dá)到雙向編碼的效果[9]。NSP 能夠預(yù)測2 個句子是否連在一起,用于挖掘句子關(guān)系。在預(yù)處理時會以50%的概率從其他文檔中隨機(jī)選取首個text的下一個text,在預(yù)訓(xùn)練中預(yù)測其后的text是否為前一個text的真實下文,即可整理得到句子的邏輯關(guān)系[10]。

        注意力機(jī)制如圖6 所示。運算結(jié)構(gòu)為一層Decoder 與一層Encoder 對應(yīng)。在Encoder中,輸入經(jīng)過Embedding后,需進(jìn)行位置嵌入(Positional encoding),再經(jīng)過Multi-Head Attention,最后是全連接層[11]。

        圖6 Attention 運算Fig.6 Attention operation

        1.5 Bert-BiLSTM 模型構(gòu)建

        本文采用Bert 的嵌入層將詞序列抽取輸出embedding 序列、再轉(zhuǎn)換成詞向量形式,同時將Bert輸出的詞向量經(jīng)過BiLSTM 進(jìn)一步再做特征提取,將其傳送到輸出層。輸出層由全連接層和softmax層構(gòu)成,在全連接層調(diào)整特征向量的維數(shù),并使用softmax分類器對評論文本進(jìn)行分類,實現(xiàn)情感分析。模型設(shè)計架構(gòu)如圖7 所示。

        圖7 Bert-BiLSTM 模型架構(gòu)Fig.7 Bert-BiLSTM model structure

        在BiLSTM 的輸出層引入Multi-Head Attention注意力機(jī)制,詞向量在BiLSTM 層產(chǎn)生的輸出向量hi進(jìn)入Multi-Head Attention層輸出,提高文本情感信息的利用反饋。計算公式見如下:

        2 實驗與分析

        2.1 實驗數(shù)據(jù)準(zhǔn)備

        實驗使用的商品評論數(shù)據(jù)集為Julian McAuley,UCSD 整理的Amazon product data-Clothing,Shoes and Jewelry 數(shù)據(jù)集,總共278 677 條數(shù)據(jù),數(shù)據(jù)未帶情感標(biāo)注,實驗抽取10 000 條評論作為實驗數(shù)據(jù),并對文本內(nèi)容以自然語言處理(SNOWNLP)來做分類輔助的人工標(biāo)注,標(biāo)注結(jié)果可分為positive、neutral、negative,選取數(shù)據(jù)集70%作為訓(xùn)練集,20%作為測試集,10%的商品評論作為校驗集。實驗部分?jǐn)?shù)據(jù)示例見表1。

        表1 實驗數(shù)據(jù)示例Tab.1 Examples of experimental data

        為確保數(shù)據(jù)有效性,需對文本數(shù)據(jù)進(jìn)行預(yù)處理。文本預(yù)處理的過程為:去除多余無用符號,對文本單詞進(jìn)行糾錯處理,通過自定義停用詞表將文本數(shù)據(jù)中的無意義單詞進(jìn)行剔除,使用正則表達(dá)式把文本中特殊符號刪除,再使用Sentence BERT 提取到句子主干,索引長度實現(xiàn)標(biāo)準(zhǔn)化,從而避免了句子過長無法訓(xùn)練問題。評論數(shù)據(jù)預(yù)處理結(jié)果示意見表2。

        表2 評論數(shù)據(jù)預(yù)處理示意表Tab.2 Comment data preprocessing schematic

        2.2 實驗參數(shù)

        本文模型Bert-BiLSTM 參數(shù)設(shè)置如下。輸入層采用預(yù)訓(xùn)練模型BERT-Base-uncased,該模型采用12 層Transformer,隱層維度為768,Multi-Head-Attention 的參數(shù)為12,模型總參數(shù)大小為110 MB。特征提取層主要由BiLSTM 構(gòu)成。

        模型訓(xùn)練方面,設(shè)置批次大小為64,最大序列長度為512,隱藏層個數(shù)為13,epoch為4,batch size設(shè)定為256,優(yōu)化器選用LAMB,防止過擬合的dropout率為0.5。

        2.3 實驗評價指標(biāo)

        本文的研究內(nèi)容是預(yù)測商品評論數(shù)據(jù)是否為消極或積極,是自然語言處理中常見的分類任務(wù)。若預(yù)測結(jié)果為積極,標(biāo)記為1,否則標(biāo)記為0。預(yù)測結(jié)果的混淆矩陣見表3。

        表3 混淆矩陣Tab.3 Confusion matrix

        表3中,TP表示預(yù)測結(jié)果為積極,實際評論也為積極;FP表示預(yù)測結(jié)果為積極,而實際為消極;FN表示預(yù)測結(jié)果為消極,而實際為積極;TN表示預(yù)測結(jié)果為消極,實際也為消極。接下來,對于研究中選用的評價指標(biāo),擬展開探討分述如下。

        (1)召回率。表示模型實際為1 的樣本,預(yù)測仍為1 的樣本概率,其計算公式為:

        (2)精準(zhǔn)率。是指在所有預(yù)測為1 的樣本中,實際有多少個樣本為1,其計算公式為:

        (3)F1值。是對召回率和精準(zhǔn)率的綜合評價指標(biāo),是對其進(jìn)行加權(quán)平均的結(jié)果,其計算公式為:

        2.4 實驗結(jié)果分析

        本文從準(zhǔn)確率(Precision score)、召回率(Recall score)、F1(F1-score)三個方面作為評價指標(biāo)。其中,Precision是判別模型對負(fù)樣本的區(qū)分能力;Recall是模型對正樣本的識別能力;F1是將Precision與Recall相結(jié)合的綜合值,這2 個評價指標(biāo)的結(jié)合可以更加全面地反映分類性能。特別地,利用F1值來評估分類器性能時,分類器的性能越好,F(xiàn)1值越接近于1,因此本文選其作為衡量實驗效果的主要評價指標(biāo)。

        在對比實驗上,本文選取了Bert、BiLSTM、W2V-SVM 模型進(jìn)行訓(xùn)練與結(jié)果比較。具體描述如下。

        (1)Bert:使用預(yù)處理模型 BERT -base -uncased,參數(shù)與本文Bert 預(yù)設(shè)參數(shù)保持一致,利用預(yù)訓(xùn)練文本特征后輸入Bert 情感分類。

        (2)BiLSTM:定義參數(shù)大小與2 層雙向LSTM的模型結(jié)構(gòu)一樣,并使用全連接層,再經(jīng)過SoftMax分類器輸出情感分類結(jié)果。

        (3)W2V-SVM:使用SNOWNLP 進(jìn)行分詞,并做數(shù)據(jù)轉(zhuǎn)化,接著將Word2Vec 模型詞表初始化,再將各個詞向量用平均的方式生成整句對應(yīng)的向量。用矩陣進(jìn)行建模與轉(zhuǎn)化,擬合SVM 模型,并使用本文準(zhǔn)備的文本評論數(shù)據(jù)進(jìn)行訓(xùn)練。

        對比模型的實驗結(jié)果見表4。由表4 的整體結(jié)果分析可知,Bert-BILST 模型精度與Bert、BiLSTM和W2V-SVM精度相比分別提高了3.32%、9.1%和4.35%。Bert-BiLSTM 的雙向神經(jīng)網(wǎng)絡(luò)相對于傳統(tǒng)文本分類模型在語境上有較大提升,進(jìn)行情感分析可以獲得更好的結(jié)果。表5 為示例分析結(jié)果展示。

        表4 對比試驗?zāi)P捅容^Tab.4 Comparative test model comparison %

        3 結(jié)束語

        本文對基于Bert 和BiLSTM 的情感分析進(jìn)行了研究。實驗結(jié)果表明,Bert 將句子轉(zhuǎn)化為詞向量,輸入到BiLSTM 模型中,由于BiLSTM 能兼顧上下文的語境,提高句意的情感豐富度,有效提升了文本分類的準(zhǔn)確度,得到較為優(yōu)化的分類器。經(jīng)過對比實驗后,所得結(jié)果均要優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型SVM 以及W2V-SVM、Bert、BiLSTM 等深度學(xué)習(xí)模型。只是本文研究仍有一定不足,如某些評論數(shù)據(jù)存在歧義,過分積極化實則隱藏為消極,在后續(xù)研究中需要對此類數(shù)據(jù)進(jìn)行特殊處理,并且加大評論數(shù)據(jù)集,進(jìn)而提升模型整體效果,增強(qiáng)泛化能力。

        猜你喜歡
        文本情感實驗
        記一次有趣的實驗
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        做個怪怪長實驗
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        久久91精品国产91久| 国精产品一品二品国在线| 日本成年一区久久综合| 六月婷婷亚洲性色av蜜桃| 国产又大又硬又粗| 久久精品欧美日韩精品| 天天做天天爱天天爽综合网| 老司机在线精品视频网站| 国产主播一区二区三区在线观看| 99久久国产综合精品麻豆| 亚洲巨乳自拍在线视频| 人妻中出精品久久久一区二| 亚洲av高清在线观看三区| 日本理论片一区二区三区| 日本人妻伦理片在线观看| 国产精品黑丝美女av| 免费在线观看草逼视频| 91精品福利一区二区三区| 久久久大少妇免费高潮特黄| 久久伊人精品中文字幕有| 日韩亚洲一区二区三区四区| 人妻av有码中文字幕| 精品厕所偷拍一区二区视频| 一本丁香综合久久久久不卡网站| 色偷偷av一区二区三区| 亚洲中文字幕在线第二页| 99久久综合精品五月天| 品色永久免费| 亚洲男人天堂2019| 亚洲人成绝费网站色www| 亚洲一区二区三区国产精品视频| 少妇高潮精品正在线播放| 国产精品婷婷久久爽一下| 成人内射国产免费观看| 亚洲va中文字幕无码久久不卡| 亚洲另类国产综合第一| 在线无码免费看黄网站| 日韩成精品视频在线观看| 日本一道本加勒比东京热| 国产情侣一区二区三区| 中文字幕一精品亚洲无线一区|