亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種通過評價類別分類提升評價對象抽取性能的方法

        2023-01-09 14:28:26崔偉琪徐廣義
        計算機工程 2022年11期
        關(guān)鍵詞:編碼器類別向量

        崔偉琪,嚴(yán) 馨,滕 磊,陳 瑋,徐廣義

        (1.昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650504;2.昆明理工大學(xué) 云南省人工智能重點實驗室,昆明 650504;3.湖南快樂陽光互動娛樂傳媒有限公司,長沙 410000;4.云南南天電子信息產(chǎn)業(yè)股份有限公司,昆明 650040)

        0 概述

        評價對象抽取任務(wù)作為方面級情感分析任務(wù)的一個關(guān)鍵子任務(wù),旨在抽取用戶評論語句中評價對象的實體[1]。評價對象抽取包括以下子任務(wù):抽取評論語料庫中所有的評價對象;對語義相似的評價對象實例進行聚類,保證每個類別中包含相似的多個評價對象實例,即保證評價對象的一致性。

        傳統(tǒng)評價對象抽取任務(wù)的方法大概分為三類:基于規(guī)則的方法,有監(jiān)督的方法和無監(jiān)督的方法。從用戶評論中抽取評價對象的工作最早由文獻[2]提出,主要介紹了顯性評價對象和隱性評價對象的區(qū)別,運用一套基于統(tǒng)計觀察的規(guī)則處理顯性的評價對象。文獻[3]通過計算名詞短語和產(chǎn)品類之間的逐點互信息來檢測名詞或名詞短語是否為產(chǎn)品特征,提升了評價對象抽取任務(wù)的效果。文獻[4]介紹了基于常見信息和依賴信息挖掘的特征,使用WordNet 查找意見種子詞的同義詞和反義詞來提取意見詞,從而對產(chǎn)品評價對象進行抽取。這些方法都嚴(yán)重依賴預(yù)先制定的規(guī)則,并且只要當(dāng)評價對象在很小的一組名詞范圍內(nèi)時模型才表現(xiàn)得很好。在基于規(guī)則的方法中,大多需要構(gòu)建句法依存樹等預(yù)處理工作并需要人為構(gòu)建隱式評價對象字典、情感詞典和名詞規(guī)則[5-6]。該類方法的缺點在于:并不會將抽取的評價對象進行聚類,抽取的評價對象缺少高度的一致性。

        在有監(jiān)督學(xué)習(xí)方法中,文獻[7]提出基于條件隨機場的可以自動學(xué)習(xí)特征的神經(jīng)網(wǎng)絡(luò)模型進行評價對象抽取。另外,卷積神經(jīng)網(wǎng)絡(luò)作為該任務(wù)最有效可行的方法之一用于各個模型的構(gòu)建。例如,文獻[8]使用七層卷積神經(jīng)網(wǎng)絡(luò)對評價對象進行抽取。文獻[9]使用雙嵌入加卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)得到當(dāng)時最好的結(jié)果。文獻[10]介紹一種卷積神經(jīng)網(wǎng)絡(luò)和主題模型相結(jié)合的監(jiān)督學(xué)習(xí)模型,該模型通過動態(tài)濾波器來對評價對象進行抽取,并考慮到評論具有潛在話題結(jié)構(gòu),引入一個神經(jīng)主題模型,將潛在主題集成到基于卷積神經(jīng)網(wǎng)絡(luò)的模塊中,以幫助識別評價對象特征,該模型能夠有效地識別評價對象的各個方面,并產(chǎn)生可解釋的主題。此外,文獻[11]提出了領(lǐng)域自適應(yīng)策略,將知識從一個足夠標(biāo)記的源域轉(zhuǎn)移到未標(biāo)記的目標(biāo)域,并提出了多層次的詞交互轉(zhuǎn)移模型(MSWIT),MSWIT 構(gòu)造了細(xì)粒度組件和粗粒度組件兩個交互式組件,細(xì)粒度組件為單詞級特征表示,粗粒度組件為句子級向量表示。模型不需要顯式地將評價對象與相應(yīng)的類別對齊,而是通過注意機制以及源域中的評價對象類別和評價對象實例的監(jiān)督標(biāo)簽來學(xué)習(xí)對齊,顯著提高了領(lǐng)域自適應(yīng)方法的性能。但監(jiān)督學(xué)習(xí)方法的缺點在于:一方面需要大量標(biāo)注文本,標(biāo)注文本的來源需要耗費大量的人力和財力;另一方面該方法會遇到領(lǐng)域適配問題,即在一個領(lǐng)域內(nèi)訓(xùn)練的模型,使用其他領(lǐng)域的數(shù)據(jù)進行預(yù)測時表現(xiàn)的結(jié)果并不理想。基于以上兩點原因,大部分學(xué)者通常選擇無監(jiān)督方法進行評價對象抽取任務(wù)。

        在無監(jiān)督模型中,LDA 主題模型[12]的應(yīng)用最為廣泛。該類模型的使用大多基于以下3 個假設(shè):評論具有潛在的話題結(jié)構(gòu);話題可以從單詞評論共現(xiàn)中推斷出來;單詞與話題相關(guān),話題也與評論相關(guān)。模型可以識別大規(guī)模語料庫中潛藏的主題信息,其原因在于擺脫了對標(biāo)簽的依賴,模型通常將評價對象看做主題,使用模型去預(yù)測主題的分布并進行抽取。因此,基于LDA 的模型可以發(fā)現(xiàn)更多的評價對象,但是通過評價對象實例推斷標(biāo)準(zhǔn)評價對象的效果卻差強人意,原因在于該方法抽取出的評價對象實例通常是松散且無關(guān)聯(lián)的。文獻[13]首先使用LDA 模型去學(xué)習(xí)多個領(lǐng)域的主題也就是評價對象實例,取交集作為共享的評價對象特征知識庫,然后基于LDA 提出了AKL 模型處理先驗知識庫中的錯誤信息,最終給出自動從網(wǎng)絡(luò)中獲取先驗,并對評論文本進行評價對象抽取的系統(tǒng)。文獻[14]提出嵌入式主題模型(ETM),ETM 是一種生成式文檔模型,將傳統(tǒng)的主題模型與單詞嵌入相結(jié)合,并使用一個分類分布來表示每個單詞,其自然參數(shù)等于一個單詞嵌入和它被分配到主題的嵌入的內(nèi)積,即使使用大量包含不常見詞和停止詞的詞匯,ETM 也能找到可解釋的主題。在主題質(zhì)量和預(yù)測性能方面,ETM 優(yōu)于以前的文檔模型。文獻[15]提出一個新的生成模型,認(rèn)為全局潛在主題是跨文本共享的,隱藏語義和全局潛在主題用于構(gòu)建上下文單詞。主題和單詞嵌入一起訓(xùn)練,訓(xùn)練后的模型將單詞映射到主題相關(guān)嵌入,解決了單詞多義的問題。根據(jù)實驗數(shù)據(jù),該模型在詞匯相似度評估和詞義消歧方面都優(yōu)于詞級嵌入方法。此外,文獻[7]將詞向量引入到評價對象抽取任務(wù)中,將詞嵌入與依存路徑聯(lián)合訓(xùn)練,最后通過CRF 序列標(biāo)注來提取出評價對象,但該方法中依存路徑是多樣化的,人為設(shè)置相同的依存路徑會在模型聚類時受到其他詞匯干擾,導(dǎo)致模型性能下降。文獻[16]提出的模型將主題嵌入與詞嵌入聯(lián)合訓(xùn)練來豐富詞匯的潛在語義信息,從而得到詞匯的向量表示,最后將向量作為輸入送入注意力機制模塊中,在注意力模塊中訓(xùn)練出k維嵌入矩陣,并通過注意力機制提高評價對象的權(quán)重,從而提高模型提取性能。文獻[17]運用基于注意力機制的無監(jiān)督的自編碼模型對評價對象進行抽取,該模型摒棄了傳統(tǒng)主題模型,使用統(tǒng)一的詞嵌入空間訓(xùn)練評價對象嵌入矩陣。一方面該方法無需人工標(biāo)注語料,節(jié)省了大量人力成本,另一方面,相比于主題模型,自編碼模型使得抽取的評價對象實例具有更高的一致性。

        評價對象的多樣性遭遇到瓶頸,而分類任務(wù)正好彌補了這些不足。首先,分類語料的獲取自動包含了評價對象類別信息;其次,評價類別不僅對模型中基于評價對象的重建提供了更好的基準(zhǔn),而且對評價對象的領(lǐng)域特征具有很好的指示作用。例如:“2.88 的價格非常實惠,但是口味有點差強人意”。這句話中評價類別“價格”和“味道”對該句來源于餐廳評論具有良好的指示作用,而且有助于模型抽取更細(xì)粒度的評價對象“價格”和“口味”。再如:“交通方便,房間舒適衛(wèi)生,感覺不錯”。該句可以從評價類別“環(huán)境”和“感受”中輕而易舉地判斷評論來源于酒店,兩類別更有助于模型探索細(xì)粒度的評價對象“交通”、“房間”和“感覺”。因此,上述評價類別信息均包含特定領(lǐng)域的評價對象特征,即相同評價類別的評價對象特征具有相關(guān)性,驗證了通過分類任務(wù)可以對評價對象抽取任務(wù)進行提升的可能性。

        本文提出一種通過文本分類改進基于注意力的自編碼器(AATC)模型?;谧⒁饬C制的長短期記憶(Long Short-Term Memory,LSTM)模型訓(xùn)練一個句子分類器,在分類任務(wù)下生成與評價對象類別相關(guān)的特征信息用于編碼階段,以提升模型在沒有標(biāo)注數(shù)據(jù)情況下自編碼階段的編碼能力,增強自編碼器的合理性和解釋性。通過共享上述模型對文本輸入進行編碼,給句向量增強上下文語義信息的表達能力,同時在自編碼器中對模型進行微調(diào)。最后本文AATC 模型可在沒有任何手動特征抽取的情況下識別和抽取用戶評價對象,并對多領(lǐng)域語料庫中的抽取結(jié)果進行對比驗證。

        1 AATC 模型

        1.1 問題描述

        已知數(shù)據(jù)集D,其中任一評論句s=(w1,w2,…,wn)由n個單詞組成,模型將句子s以單個詞向量的形式輸入到已訓(xùn)練好的基于注意力機制的LSTM 模型中得到句向量表示。本文使用文獻[18]提出的分布式詞嵌入表示詞向量,詞向量模型的嵌入矩陣表示為E∈RV×d,其中,d表示詞向量維度,V表示詞表大小。模型的最終目標(biāo)是學(xué)習(xí)標(biāo)準(zhǔn)評價對象的嵌入矩陣T∈RK×d,其中,K表示預(yù)先設(shè)置的標(biāo)準(zhǔn)評價對象的個數(shù),標(biāo)準(zhǔn)評價對象矩陣在嵌入空間中沒有具體含義,其表征由最終獲取的評價對象實例推理得出。由于詞向量和評價對象矩陣在同一嵌入空間中,每個標(biāo)準(zhǔn)評價對象和單詞可以通過計算余弦相似度的方式在詞向量嵌入空間中尋找與標(biāo)準(zhǔn)評價對象最相似的單詞作為評價對象。文獻[19]提出的ABAE(Attention-Based Aspect Extraction)模型包括兩個步驟:首先通過注意力機制給每個輸入的詞嵌入分配得分,使用加權(quán)平均來表示輸入句子的句向量;然后通過一個自編碼器來處理句向量,編碼階段使用簡單的線性變換和softmax 函數(shù)進行降維,解碼階段使用評價對象矩陣對句向量進行重建。本文在該模型基礎(chǔ)上,探索評論句中不同類別的評價對象對評價對象矩陣訓(xùn)練的關(guān)系,使含有語義信息的句向量通過包含不同評價類別特征的矩陣編碼為中間層語義向量,本文利用句子分類結(jié)果進行評價類別的轉(zhuǎn)移。

        1.2 模型框架

        本文AATC 模型如圖1 所示。將評論句中的單詞向量作為輸入,首先在詞嵌入空間中將所有單詞使用計算余弦相似度距離的方法進行k-means 聚類,聚類得到的中心簇向量來初始化標(biāo)準(zhǔn)評價對象嵌入矩陣T∈RK×d,然后通過捕捉輸入句中單詞與評價對象矩陣的相關(guān)性來訓(xùn)練評價對象矩陣。AATC 模型分為兩個部分:自編碼器部分和句子分類器部分。首先,分類器是一個監(jiān)督模型,它使用基于注意力機制的LSTM 網(wǎng)絡(luò)通過softmax 分類器對句子進行評價類別分類,同時生成不同類別的特征信息。具體地,餐廳領(lǐng)域數(shù)據(jù)分為7 類,分別為食物、環(huán)境、服務(wù)、價格、味道、地點和其他;酒店領(lǐng)域數(shù)據(jù)分為6 類,分別為環(huán)境、服務(wù)、價格、地點、感覺和其他。在分類器訓(xùn)練數(shù)據(jù)時,所使用的數(shù)據(jù)集的每個句子均只包含一類評價對象,包含的評價對象類別即為句子類別。然后,自編碼器模型的輸入部分使用了和句子分類部分一樣的模型參數(shù)初始化并進行無監(jiān)督訓(xùn)練,使用該模型的優(yōu)勢在于:在輸入時融合了輸入句上下文的語義信息。在自編碼器的編碼階段,模型使用了句子分類任務(wù)中包含類別信息的特征,將句向量表征以包含類別特征的轉(zhuǎn)移矩陣的形式轉(zhuǎn)化為中間層語義向量,轉(zhuǎn)移矩陣形式上包含了不同評價類別的語義信息從而編碼成更有意義的中間層向量。解碼階段使用評價對象矩陣與語義向量乘積的形式,旨在捕捉評價對象和語義向量之間的相關(guān)性。在自編碼器訓(xùn)練數(shù)據(jù)中,評論語句可包含多個評價類別的評價對象實例,因為最終的轉(zhuǎn)移矩陣是不同評價類別轉(zhuǎn)移矩陣的加權(quán)平均。最后,將訓(xùn)練好的評價對象嵌入矩陣放回詞向量嵌入矩陣中,通過相似度計算的方式獲取更細(xì)粒度的評價對象實例。下文將詳細(xì)介紹模型的各個部分。

        圖1 AATC 模型框架Fig.1 AATC model framework

        1.2.1 句子分類

        本文使用的基于注意力機制的LSTM 通過softmax 分類器對輸入句子包含的評價類別進行分類。因為在分類器訓(xùn)練數(shù)據(jù)中,使用的數(shù)據(jù)集中每個句子均只包含一類評價對象,所以句子中的評價對象的類別即為句子標(biāo)簽。已知含有n個單詞的句子s中所有詞嵌入表示為,其中,E∈R|n×d|,d表示詞向量維度。通過LSTM 中的3 個門控機制保留或丟棄信息來訓(xùn)練數(shù)據(jù),其中可訓(xùn)練參數(shù)為θlstm,并且LSTM 的輸出隱藏層序列表示為h={h1,h2,…,hn},其中,hi表示序列中第i個單詞的隱藏層。接下來使用注意力機制得到句子表征zs表示如下:

        其中:pi為給第i個隱層向量分配的權(quán)重。

        pi計算如式(2)所示:

        其中:hi∈Rd;參數(shù)W∈Rd×d為過渡矩陣。

        然后將句向量zs通過softmax 分類器得到不同評價類別分布,具體如式(5)所示:

        其中:vs∈R|c|表示對句子s預(yù)測的評價類別概率分布;|c|表示類別個數(shù)。

        對于句子分類任務(wù),本文使用交叉熵作為損失函數(shù),故分類器部分的損失函數(shù)表示如式(6)所示:

        其中:i表示在數(shù)據(jù)集D中的第i條評論句;pi表示句子的真實標(biāo)簽;qi表示預(yù)測標(biāo)簽。

        1.2.2 自編碼器

        本文使用k-means 聚類得到的中心簇向量初始化了評價對象的嵌入矩陣T∈RK×d,其中,K表示評價對象的個數(shù),該K個標(biāo)準(zhǔn)評價對象向量分別表達了在詞嵌入空間中與其相似的評價對象的平均嵌入。在無監(jiān)督學(xué)習(xí)任務(wù)中,評論語句可包含多個評價類別的評價對象實例,該階段通過自編碼器訓(xùn)練評價對象矩陣,增強了上下文語義信息的表達能力。模型使用句子分類訓(xùn)練好的基于注意力機制的LSTM 模型對自編碼的輸入進行初始化可得到輸入句向量表征zs。對句向量zs進行降維編碼,得到中間層的語義向量pt,如式(7)所示:

        其中:轉(zhuǎn)移矩陣Wγ可以捕捉句向量表示與評價對象之間的相關(guān)性,將句向量zs壓縮轉(zhuǎn)化為中間層語義向量pt;b為偏置向量。另外,希望編碼器捕捉到評論句評價對象的類別信息與評價對象之間的相關(guān)性。受文獻[19]的啟發(fā),本文在句子分類任務(wù)階段引入|c|個子矩陣每個子矩陣分別對應(yīng)不同評價類別,子矩陣由訓(xùn)練得來。由于每個句子有多種評價對象類別,因此會有多個子矩陣?;趶氖剑?)中得到的預(yù)測類別,這些子矩陣加權(quán)和后得到最終的轉(zhuǎn)移矩陣,如式(8)所示:

        其中:轉(zhuǎn)移矩陣Wγ通過對每個類別的轉(zhuǎn)移矩陣進行加權(quán)平均得到。然后,使用評價對象矩陣T進行解碼,也就是對句向量進行重建,目的在于使用評價對象矩陣還原評論句類別信息和語義向量的相關(guān)性,具體如式(9)所示:

        重建的目的在于捕捉評價對象矩陣和中間層語義向量之間的關(guān)系,使重建后的句向量rs和重建前的句向量zs無限接近。訓(xùn)練好的評價對象矩陣T∈RK×d可以表示為,其中任 一評價對象類別對應(yīng)的評價對象向量可表示為αk,k∈{1,2,…,K}。每輸入一句評論句s=(x1,x2,…,xn),AATC 模型會根據(jù)訓(xùn)練權(quán)重計算pt。pt作為評價類別的概率分布,取最大值確定評價向量類別i,i∈{1,2,…,K},其中T對應(yīng)的評價對象向量為αi。同時,本文創(chuàng)建了推理出的評價類別與標(biāo)準(zhǔn)評價類別之間的映射關(guān)系,供驗證階段獲取評價對象的標(biāo)簽。最后,通過計算αi與輸入句子中每個單詞xj的余弦相似度,獲取相似度最高的單詞作為該句中的評價對象,其中j∈{1,2,…,n}。

        1.2.3 損失函數(shù)

        對于自編碼器部分,本文會根據(jù)類別個數(shù)分配多個轉(zhuǎn)移矩陣,加權(quán)后放入自編碼器訓(xùn)練評價對象。自編碼器部分的損失函數(shù)本文沿用了最大邊際對比損失[20-22],具體的損失函數(shù)如式(10)所示:

        本文隨機從訓(xùn)練集中抽取m個句子作為負(fù)樣本,將負(fù)樣本的平均值作為負(fù)樣本的代表嵌入表示為ni。構(gòu)建損失函數(shù)的目標(biāo)是使得重建后的向量rs與句向量的表征向量zs相似,與負(fù)樣本的代表嵌入不同。因此,使用合頁損失的形式最大化rs與zs向量的點積,同時最小化rs與ni向量的點積。

        1.2.4 正則項

        本文模型可以學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中最具代表性的向量,然而評價對象矩陣在訓(xùn)練過程中會產(chǎn)生冗余。為了確保評價對象嵌入的多樣性,最終在損失函數(shù)中添加正則項,以保證每個評價對象嵌入的唯一性:

        其中:I為單位矩陣;Tn是T矩陣每行規(guī)范化為1 后的矩陣,Tn·中任何非對角元素都對應(yīng)兩個不同的評價對象嵌入點乘。當(dāng)任意兩個不同評價對象嵌入點積為零時,U達到其最小值。因此,正則化項鼓勵嵌入矩陣T的行之間的正交性,而懲罰不同嵌入向量之間的冗余。損失函數(shù)中加入正則化項后最終如式(12)所示:

        其中:λ為控制正則項的超參數(shù)。

        2 實驗

        2.1 數(shù)據(jù)集

        本文在兩個真實的數(shù)據(jù)集上進行模型評估,兩個數(shù)據(jù)集詳細(xì)信息如表1 所示。

        表1 數(shù)據(jù)集信息Table 1 Dataset information

        針對自編碼器所進行的無監(jiān)督任務(wù),本文分別從大眾點評和攜程網(wǎng)爬取兩萬余條評論,并由專家標(biāo)注餐廳領(lǐng)域5 000 條評論對應(yīng)4 293 個句子,酒店領(lǐng)域4 500 條評論對應(yīng)3 632 個句子用于評價對象的評估。針對有監(jiān)督學(xué)習(xí)的評價類別分類任務(wù),本文同樣采用上述網(wǎng)站的爬取數(shù)據(jù),并過濾單句中僅包含單個評價對象的評論句進行標(biāo)注。餐廳領(lǐng)域數(shù)據(jù)集人工定義的評價對象類別標(biāo)簽為食物、環(huán)境、服務(wù)、價格、味道、地點和其他,總共7 個評價類別;酒店領(lǐng)域數(shù)據(jù)集人工定義的評價對象標(biāo)簽為環(huán)境、服務(wù)、價格、地點、感受和其他,總共6 個評價類別。數(shù)據(jù)集如表2 所示。

        表2 句子分類任務(wù)訓(xùn)練樣本數(shù)量Table 2 Number of training samples for sentence classification task

        2.2 基線方法

        為了驗證AATC 模型的表現(xiàn),本文使用以下5 個基線與其進行比較:

        1)k-means 模型。本文首先在詞嵌入空間中使用k-means 聚類,將每個簇的中心向量代表標(biāo)準(zhǔn)評價對象向量。然后使用與句子的平均詞向量最接近的標(biāo)準(zhǔn)評價對象向量作為該句子的推理評價對象向量。最后同樣以計算標(biāo)準(zhǔn)評價對象與輸入句子中單詞的余弦相似度的方式確定句子的評價對象。本文同樣使用該方法初始化評價對象矩陣T,為了展示本文模型的表現(xiàn),本文選擇直接將k-means 算法的結(jié)果進行對比。

        2)LocLDA 模型[23]。該模型使用了標(biāo)準(zhǔn)的主題模型實現(xiàn)。為避免模型對全局主題進行推理,LocLDA 模型將句子看做是分離的文檔,將評價對象看為主題,使用模型去預(yù)測主題的分布并對評價對象進行抽取。

        3)BTM 模型[24]。該模型是一個專門為短文本設(shè)計的主題模型。與LDA 模型方法相同,BTM 模型同樣將評價對象視為主題,預(yù)測主題的分布并對評價對象進行抽取。BTM 模型的主要優(yōu)點是可以直接對無序詞對共現(xiàn)進行生成建模,緩解了短文檔中數(shù)據(jù)稀疏的問題。

        4)ABAE 模型[17]。ABAE 模型是完全基于無監(jiān)督學(xué)習(xí)的,該模型基于自編碼器,創(chuàng)建評價對象嵌入矩陣,通過先降維再重塑的方式訓(xùn)練評價對象嵌入矩陣。

        5)SUAEx 模型[25]。該模型是無監(jiān)督的,完全依賴于單詞嵌入的相似性,其依賴向量相似性來模擬注意力機制,使模型能夠?qū)W⒂谙嚓P(guān)信息的抽取。

        2.3 參數(shù)設(shè)置

        在模型訓(xùn)練過程中,數(shù)據(jù)經(jīng)過預(yù)處理(去除標(biāo)點符號,去停用詞,去除出現(xiàn)頻率小于10 次的單詞)后,使用Glove[26]生成300 維的詞向量作為輸入。使用k-means 算法初始化評價對象嵌入矩陣,其他參數(shù)均隨機初始化。本文使用網(wǎng)格搜索驗證了評價對象矩陣中評價對象個數(shù)K的取值,最終在餐廳領(lǐng)域中設(shè)置為14,而在酒店領(lǐng)域中將K設(shè)置為13~18 中的數(shù)字,但是結(jié)果相差無幾,所以最終將其統(tǒng)一設(shè)置為14。評價類別個數(shù)c根據(jù)訓(xùn)練語料領(lǐng)域分別設(shè)置為7 和6。在訓(xùn)練過程中,本文固定詞嵌入矩陣,使用Adam 算法進行優(yōu)化。學(xué)習(xí)率設(shè)置為0.005,優(yōu)化方法為Adam。Batch Size 設(shè)置為64,訓(xùn)練28 個Epoch。通過網(wǎng)格搜索最終將懲罰項系數(shù)λ 設(shè)置為1。最終計算結(jié)果為運行10 次后取平均。

        2.4 實驗結(jié)果與分析

        本文從兩個評價標(biāo)準(zhǔn)對模型訓(xùn)練結(jié)果進行評估。一方面看模型是否能夠找到語義一致的評價對象,即評價對象質(zhì)量評估;另一方面看模型是否能夠改善評論數(shù)據(jù)集的評價對象識別性能,即評價對象的識別率。

        2.4.1 評價對象質(zhì)量評估

        以餐廳領(lǐng)域數(shù)據(jù)為例,表3 所示為AATC 模型在該領(lǐng)域所推理出的14 個標(biāo)準(zhǔn)評價對象,與右邊展示的評價對象類別相比粒度更細(xì)。例如本文可以從食物中分出主食、飲品、配菜等。

        表3 餐廳領(lǐng)域評價對象抽取結(jié)果實例Table 3 Example of the result of restaurant field opinion targets extraction

        從表3 可以看出,模型可以有效地對不同領(lǐng)域的評價對象進行抽取。針對不同評價類別,模型可以在此基礎(chǔ)上抽取更細(xì)粒度的評價對象實例。抽取結(jié)果表明,模型具備了較好的評價對象抽取能力。雖然在個別評價對象中模型將形容詞也視為評價對象進行了抽取,但是這種情況較為罕見。

        2.4.2 評價對象實例識別率

        本文使用精確率(P)、召回率(R)和F1 值這3 個度量指標(biāo)來衡量預(yù)測結(jié)果與真實標(biāo)簽的準(zhǔn)確程度。在當(dāng)前任務(wù)中,給出一個評論句,首先指定一個推斷的評價對象實例標(biāo)簽,該標(biāo)簽對應(yīng)式(6)中pi最高權(quán)重實例,然后根據(jù)推斷的評價對象和標(biāo)準(zhǔn)標(biāo)簽之間的映射,將標(biāo)準(zhǔn)標(biāo)簽賦給句子。精確率表示抽取正確的評價對象實例占所有抽取評價對象實例的比例,召回率表示抽取正確的評價對象實例結(jié)果占文本中正確的評價對象實例的比例,F(xiàn)1 值是調(diào)和精確率和召回率的一種綜合評價指標(biāo)。具體評價指標(biāo)計算公式如式(13)~式(15)所示:

        餐廳領(lǐng)域和酒店領(lǐng)域評價結(jié)果分別如表4 和表5 所示,其中加粗字體為最優(yōu)結(jié)果。

        表4 餐廳領(lǐng)域評價對象抽取結(jié)果Table 4 The results of restaurant field opinion targets extraction

        表5 酒店領(lǐng)域評價對象抽取結(jié)果Table 5 Results of hotel field opinion targets extraction

        在酒店數(shù)據(jù)中,本文選取了6 個評價類別。模型在其他類中表現(xiàn)較差,原因在于:其他類中抽取的評價對象的詞匯沒有明確的模式,這使得這些評價對象實例很難進行分類。根據(jù)以上結(jié)果可以看出,k-means 模型作為AATC 的初始化項已經(jīng)有了較好的精確度,AATC 模型在k-means 模型的基礎(chǔ)上,從某種程度上來說,提高了評價對象抽取的一致性。LocLDA 和BTM 同時作為主體模型,而BTM 專門為短文本設(shè)計,根據(jù)訓(xùn)練文本的屬性,BTM 模型的效果好于LocLDA 模型。同時,SUAEx 模型作為一個很強的基線,在評價對象抽取能力方面和AATC 相當(dāng)。SUAEx 模型依靠詞語嵌入的相似性和參照詞來模擬注意神經(jīng)網(wǎng)絡(luò)的注意機制。但是,SUAEx 模型僅限于處理表示為單個單詞的評價對象,對于復(fù)合單詞上的表現(xiàn)不如本文算法,如“酒單”“電池壽命”等,同時SUAEx 模型需要大量的先驗知識,影響了模型的運行效率。此外,AATC 能夠適應(yīng)不同的領(lǐng)域。在許多情況下,AATC 在運行時間成本非常低的情況下取得了優(yōu)于SUAEx 模型的最新技術(shù)成果。相比于ABAE 模型,AATC 依據(jù)句子分類任務(wù)分配了不同的轉(zhuǎn)移矩陣,另外通過循環(huán)神經(jīng)網(wǎng)絡(luò)增強了編碼器輸入階段上下文語義的關(guān)聯(lián)度,這時模型不僅可以準(zhǔn)確抽取單句中評價對象,而且通過觀察可以發(fā)現(xiàn),AATC 抽取的評價對象實例一致性更高。

        3 結(jié)束語

        本文提出一種通過評價類別分類提升評價對象抽取性能的方法。通過基于注意力的LSTM 模塊,本文構(gòu)建的AATC 模型能夠克服數(shù)據(jù)稀疏的問題,捕捉到文本中的詞共現(xiàn)模式,并運用分類器對評價類別進行分類,解決訓(xùn)練過程缺少評價類別多樣性的問題。實驗結(jié)果表明,與k-means、LocLDA 等主流模型相比,AATC 模型在餐廳領(lǐng)域和酒店領(lǐng)域的語料庫中提升效果明顯。但是由于評論數(shù)據(jù)屬于非正式評論題材,可能會出現(xiàn)當(dāng)前的流行詞匯或該領(lǐng)域的特有詞匯,另外在餐廳和酒店領(lǐng)域的評論數(shù)據(jù)中還可能出現(xiàn)拼寫錯誤,而AATC 模型在該方面的識別能力有所欠缺,后續(xù)將考慮輸入文本提煉核心詞來進行抽取研究。

        猜你喜歡
        編碼器類別向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        基于FPGA的同步機軸角編碼器
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        向量垂直在解析幾何中的應(yīng)用
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        論類別股東會
        商事法論集(2014年1期)2014-06-27 01:20:42
        多總線式光電編碼器的設(shè)計與應(yīng)用
        国产精品久久久久久久久免费| 艳妇臀荡乳欲伦交换在线播放| 99久久综合精品五月天| 人妻丰满熟妇av无码处处不卡| 亚洲av福利无码无一区二区| 国产免费拔擦拔擦8x高清在线人| 婷婷中文字幕综合在线| 性饥渴艳妇性色生活片在线播放 | 巨爆乳中文字幕爆乳区| 久久精品视频按摩| 中文字幕你懂的一区二区| 91人妻一区二区三区蜜臀| 性感的小蜜桃在线观看| 国产性感丝袜在线观看| 女色av少妇一区二区三区| 蜜桃视频在线看一区二区三区| 国产做国产爱免费视频| 中文字幕av无码一区二区三区| 中文字幕av无码一区二区三区 | 五月天国产精品| 国内精品久久久久久久久蜜桃| 少妇激情一区二区三区久久大香香| 国产丝袜长腿在线看片网站| 国产三级精品和三级男人| 亚洲国产婷婷香蕉久久久久久| 国产一区二区精品久久岳| 在线 | 一区二区三区四区| 香蕉久久人人97超碰caoproen| 亚洲AV无码成人精品区网页| 日本一区二区三深夜不卡| 国产精品国产三级国产专区51区| 国产一区二区三区不卡视频| 亚洲一区二区三区,日本| 中文字幕日本人妻久久久免费 | 内射少妇36p九色| 久久亚洲av成人无码软件| 女同重口味一区二区在线| 午夜免费观看一区二区三区| 国产香蕉视频在线播放| 色婷婷综合久久久久中文字幕| 草草久久久无码国产专区|