亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT的端到端旅游評(píng)論意見(jiàn)挖掘方法

        2021-09-28 10:11:16蔡玉舒詹瑾瑜
        關(guān)鍵詞:分類(lèi)情感模型

        蔡玉舒,曹 揚(yáng),江 維,詹瑾瑜,李 響,楊 瑞

        (1.電子科技大學(xué) 信息與軟件工程學(xué)院,四川 成都 610054;2.中電科大數(shù)據(jù)研究院有限公司,貴州 貴陽(yáng) 550022;3.提升政府治理能力大數(shù)據(jù)應(yīng)用技術(shù)國(guó)家工程實(shí)驗(yàn)室,貴州 貴陽(yáng) 550022)

        0 引 言

        以“強(qiáng)通用性、強(qiáng)交互性、高集智性和高增值性”為特征的數(shù)字時(shí)代的來(lái)臨,正在激活文化和旅游資源,為文旅產(chǎn)業(yè)發(fā)展注入新活力。數(shù)字技術(shù)在文旅產(chǎn)業(yè)的應(yīng)用,正在賦能公共服務(wù)與行業(yè)監(jiān)管,形成新服務(wù)與新監(jiān)管,讓智能化管理成為可能。

        利用文旅產(chǎn)業(yè)運(yùn)行的各類(lèi)數(shù)據(jù),行政管理部門(mén)更容易識(shí)別差別化個(gè)性化的公共服務(wù)需求,有助于提升對(duì)文旅產(chǎn)業(yè)的公共服務(wù)效率,同時(shí)也為管理部門(mén)的監(jiān)管提供了技術(shù)支撐[1]。分散于各大旅游網(wǎng)站的游客評(píng)論包含了豐富的具有情感傾向的觀點(diǎn)表達(dá),可以為相關(guān)人員提供參考依據(jù)。

        網(wǎng)站的游客評(píng)論數(shù)量龐大,可以借助自然語(yǔ)言處理技術(shù)進(jìn)行信息挖掘。方面級(jí)情感分析(aspect-based sentiment analysis,ABSA)是細(xì)粒度意見(jiàn)挖掘的一種有效方法。ABSA旨在確定評(píng)論對(duì)特定方面(包括方面詞語(yǔ)和描述類(lèi)別)的意見(jiàn)(包括意見(jiàn)詞語(yǔ)和情感極性)[2-4]。例如在評(píng)論“峨眉山金頂上的景色不錯(cuò),但這價(jià)格真心貴”中,“景色”是方面詞,描述的類(lèi)別是風(fēng)景,“不錯(cuò)”是描述方面詞的意見(jiàn)詞,涉及的情感極性是正向(如圖1所示)。ABSA包含了許多子任務(wù),現(xiàn)有的研究大部分集中在給定方面詞的前提下確定對(duì)應(yīng)的情感極性(aspect-based sentiment classification,ABSC)[5-7],但實(shí)際應(yīng)用中問(wèn)題會(huì)稍微復(fù)雜一些,主要體現(xiàn)在兩個(gè)方面:一是在實(shí)際情況中,由于標(biāo)注成本比較高,事先給定的方面詞往往無(wú)法通過(guò)人工標(biāo)注提供。之前的研究試圖借助自動(dòng)化的方法,使用流水線的模式先抽取方面詞之后再進(jìn)行情感分析,但會(huì)引入錯(cuò)誤傳播的問(wèn)題;二是對(duì)爬取的游客評(píng)論進(jìn)行分析后發(fā)現(xiàn),中文的口語(yǔ)表達(dá)中有省略方面詞的現(xiàn)象,例如評(píng)論“方便快捷,及時(shí)到位”中包含了對(duì)網(wǎng)絡(luò)購(gòu)票的積極評(píng)價(jià),但并沒(méi)有明確給出方面詞。在文中的數(shù)據(jù)集中,只包含意見(jiàn)詞而方面詞缺失的情況約占總數(shù)的1/5。如果只對(duì)方面詞進(jìn)行抽取和情感分析,將會(huì)遺漏掉有效評(píng)價(jià)信息。

        圖1 旅游評(píng)論意見(jiàn)挖掘示例圖

        研究者們提出了一些融合詞語(yǔ)抽取和分類(lèi)的多任務(wù)方法,試圖解決第一個(gè)問(wèn)題。早期的工作[8-9]嘗試驗(yàn)證抽取和分類(lèi)兩個(gè)任務(wù)之間的關(guān)系,并提出更為集成的解決方案,但這些方案的效果并沒(méi)有優(yōu)于流水線模型。Li[10]重新檢查了任務(wù),提出了基于兩層堆疊LSTM的序列標(biāo)注模型,其中利用一種簡(jiǎn)單的門(mén)機(jī)制來(lái)保持標(biāo)簽之間的情感一致性。實(shí)驗(yàn)結(jié)果證明了兩個(gè)子任務(wù)的相關(guān)性,但效果不足以投入到實(shí)際應(yīng)用中。此后序列標(biāo)注的方式就成為了融合任務(wù)的基本解決思路。BERT提出之后,率先在ABSC領(lǐng)域取得了很好的效果。Li等人[11]隨后提出了基于BERT的序列標(biāo)注模型,希望用端到端的序列標(biāo)注方式解決抽取和分類(lèi)的融合任務(wù),并為之后的基于BERT的融合任務(wù)研究提供基線。他們利用BERT作為嵌入層獲得句子表示,并在之上構(gòu)建了不同的簡(jiǎn)單解碼網(wǎng)絡(luò)進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果證明了BERT的有效性。但該研究依然以抽取方面詞為基礎(chǔ),并沒(méi)有考慮在實(shí)際的中文評(píng)論中方面詞缺失的情況。同時(shí),在ABSA序列標(biāo)注的問(wèn)題中,如何保持情感一致性也是解碼部分的一個(gè)挑戰(zhàn)。指針網(wǎng)絡(luò)最初的設(shè)計(jì)是簡(jiǎn)化了attention機(jī)制,將輸出序列對(duì)應(yīng)到輸入序列,從而可以適應(yīng)輸入序列長(zhǎng)度的變化[12]。后續(xù)應(yīng)用在機(jī)器閱讀理解任務(wù)(MRC)中的主要方式為設(shè)計(jì)兩個(gè)輸出長(zhǎng)度為l的分類(lèi)器分別預(yù)測(cè)開(kāi)始位置和結(jié)束位置,其中l(wèi)表示句子的長(zhǎng)度。對(duì)于ABSA任務(wù)來(lái)說(shuō),指針網(wǎng)絡(luò)這種直接預(yù)測(cè)詞語(yǔ)邊界的方法,可以解決之前融合任務(wù)中情感一致性的問(wèn)題[10]。

        在這樣的背景之下,文中選擇融合意見(jiàn)詞抽取(opinion words extraction)和描述類(lèi)別分類(lèi)兩個(gè)任務(wù)。通過(guò)抽取意見(jiàn)詞而不是方面詞來(lái)彌補(bǔ)方面詞缺失導(dǎo)致的有效評(píng)價(jià)信息遺漏的問(wèn)題,通過(guò)類(lèi)別分類(lèi)來(lái)彌補(bǔ)方面詞缺失導(dǎo)致的描述目標(biāo)不明確的問(wèn)題,以形成完整的觀點(diǎn)表達(dá),并應(yīng)用在實(shí)際的評(píng)論分析中。文中提出了一種基于BERT的端到端意見(jiàn)挖掘方法,對(duì)上述任務(wù)進(jìn)行分析。首先使用預(yù)訓(xùn)練的BERT作為嵌入層獲得編碼后的句子表示,再使用指針網(wǎng)絡(luò)預(yù)測(cè)句子中每個(gè)位置對(duì)應(yīng)的標(biāo)簽。標(biāo)簽對(duì)應(yīng)著是否處于意見(jiàn)詞范圍內(nèi),以及對(duì)應(yīng)描述的類(lèi)別,將類(lèi)別描述和意見(jiàn)詞拼接之后可以得到觀點(diǎn)表達(dá)二元組。此外,由于旅游領(lǐng)域沒(méi)有相關(guān)的數(shù)據(jù)集,爬取了攜程、同城和途牛三個(gè)網(wǎng)站關(guān)于峨眉山和青城山的評(píng)論,并參照semEval-2014[2]對(duì)評(píng)論進(jìn)行了篩選和手工標(biāo)注。該數(shù)據(jù)集除了應(yīng)用在本任務(wù)中,還可作為領(lǐng)域數(shù)據(jù)集參與ABSA其他子任務(wù)的研究。在構(gòu)造的數(shù)據(jù)集上,文中提出的方法的準(zhǔn)確率可達(dá)到81.9%,相比現(xiàn)有的序列標(biāo)注經(jīng)典方法,效果提升可達(dá)到2%。

        1 系統(tǒng)模型

        文中提供一種基于BERT的端到端意見(jiàn)挖掘方法,解決意見(jiàn)詞抽取及分類(lèi)的問(wèn)題,系統(tǒng)的整體分析框架如圖2所示。

        圖2 旅游評(píng)論序列標(biāo)注模型

        將輸入的評(píng)論句表示為一個(gè)長(zhǎng)度為L(zhǎng)的token序列x={x1,x2,…,xL}。首先使用BERT作為嵌入層對(duì)輸入token進(jìn)行編碼處理,得到輸入token的上下文表示T={t1,t2,…,tL}∈RL×dimt,其中dimt是經(jīng)過(guò)transformer處理后得到的表示向量的維度。其次將上下文表示輸入到下游解碼部分,文中使用指針網(wǎng)絡(luò)構(gòu)建下游解碼網(wǎng)絡(luò),預(yù)測(cè)整個(gè)句子的標(biāo)記序列y={y1,…,yt,…,yL}。其中yt的可能取值為{B,I,O}-{“景區(qū)”,“風(fēng)景”,“票務(wù)”,“體驗(yàn)”,“消費(fèi)”,“服務(wù)”,“旅游團(tuán)”}。其中,“-”之前的字母集中,B代表當(dāng)前字處于意見(jiàn)詞的開(kāi)頭,I代表了當(dāng)前字在意見(jiàn)詞中,O代表了不為意見(jiàn)詞?!?”之后為描述類(lèi)別的集合,是根據(jù)標(biāo)注經(jīng)驗(yàn)給定的7個(gè)預(yù)定義類(lèi)別。

        2 基于BERT的端到端旅游評(píng)論意見(jiàn)挖掘方法

        2.1 編 碼

        文中采取了端到端的方法對(duì)輸入的旅游評(píng)論文本進(jìn)行處理。其中編碼的部分是將輸入的中文句token轉(zhuǎn)換為可計(jì)算的向量形式上下文表示,用以進(jìn)行之后的計(jì)算。這里采用了預(yù)訓(xùn)練的BERT模型來(lái)編碼輸入評(píng)論的上下文信息。BERT[13]是一個(gè)基于多層雙向Transformer的語(yǔ)言表示模型,相比于傳統(tǒng)的word2vec編碼了更多的上下文和句子信息,以此增強(qiáng)了表示的能力。首先在輸入的部分,每個(gè)單詞疊加了三部分的embedding,單詞embedding、句子embedding以及位置embedding。之后引入多層Transformer對(duì)token進(jìn)行優(yōu)化,具體的計(jì)算方式如下:

        Hl=Trans(Hl-1)

        (1)

        其中,H表示句子經(jīng)第l層transformer處理之后的表示結(jié)果,最后一層的表示計(jì)算結(jié)果將作為下游任務(wù)的輸入。

        2.2 解 碼

        得到BERT層計(jì)算的句子表示之后,文中設(shè)計(jì)了指針網(wǎng)絡(luò)為下游任務(wù)解決方法。此外,文中將提出的方法與經(jīng)典序列標(biāo)注任務(wù)所用解碼方式條件隨機(jī)場(chǎng)(CRF)進(jìn)行對(duì)比,在此也做了簡(jiǎn)述。

        2.2.1 指針網(wǎng)絡(luò)

        (1)開(kāi)始結(jié)束位置預(yù)測(cè)。

        由于文中的標(biāo)注任務(wù)涉及到多分類(lèi)的情況,所以選擇使用兩個(gè)n分類(lèi)的分類(lèi)器分別預(yù)測(cè)開(kāi)始位置和結(jié)束位置,其中n表示類(lèi)別的數(shù)量。

        Pstart=softmax(WS·H)∈Rl×n

        (2)

        Pend=tanh(We·(H:WS·H))∈Rl×n

        (3)

        其中,WS為計(jì)算開(kāi)始位置的參數(shù)矩陣,We為計(jì)算結(jié)束位置的參數(shù)矩陣,H為BERT層輸出的句子表示。

        (2)位置匹配。

        在一個(gè)句子X(jué)中可能存在多個(gè)意見(jiàn)詞,這就意味著可能有多個(gè)start和end標(biāo)記,這就涉及到一個(gè)位置匹配的問(wèn)題。因?yàn)橐庖?jiàn)詞抽取實(shí)際上不存在命名實(shí)體識(shí)別(NER)中的實(shí)體嵌套的情況,所以匹配開(kāi)始結(jié)束位置時(shí)使用最近匹配的方式就可以完成。

        (3)訓(xùn)練和測(cè)試。

        模型構(gòu)建的過(guò)程中,開(kāi)始位置的預(yù)測(cè)結(jié)果參與了結(jié)束位置的預(yù)測(cè),因而在最后加入了layer normalization以降低擬合的難度。兩階段的預(yù)測(cè)在訓(xùn)練過(guò)程中會(huì)產(chǎn)生兩個(gè)loss,分別是預(yù)測(cè)開(kāi)始位置時(shí)的Lstart和預(yù)測(cè)結(jié)束位置時(shí)的Lend。最小化的總體訓(xùn)練目標(biāo)函數(shù)如下:

        (4)

        其中,α,β∈[0,1],為控制loss貢獻(xiàn)的超參數(shù)。這兩個(gè)loss以端到端的方式聯(lián)合訓(xùn)練。測(cè)試時(shí)依據(jù)分類(lèi)和抽取是否均一致作為評(píng)價(jià)標(biāo)準(zhǔn)來(lái)計(jì)算準(zhǔn)確度和召回率。

        2.2.2 條件隨機(jī)場(chǎng)

        條件隨機(jī)場(chǎng)是序列標(biāo)注任務(wù)中常用的解碼器,經(jīng)常在NER等序列標(biāo)注任務(wù)中結(jié)合神經(jīng)網(wǎng)絡(luò)使用[14-15]。文中在BERT層之上引入一層條件隨機(jī)場(chǎng)(CRF)完成序列標(biāo)注的任務(wù)。

        (1)CRF。

        CRF通過(guò)引入之前步驟的標(biāo)注結(jié)果進(jìn)行標(biāo)簽約束,同樣改善了之前的模型中無(wú)法保證分類(lèi)一致性的問(wèn)題。

        (5)

        其中,s表示計(jì)算的得分,對(duì)這個(gè)分?jǐn)?shù)進(jìn)行softmax得到標(biāo)注序列的概率值;MA是隨機(jī)初始化的轉(zhuǎn)移矩陣,MP是從BERT得到的句子表示線性轉(zhuǎn)換而來(lái)的發(fā)射矩陣。

        (2)訓(xùn)練與測(cè)試。

        訓(xùn)練時(shí)計(jì)算CRF層的loss,并進(jìn)行優(yōu)化即可。測(cè)試時(shí)同樣依據(jù)的是分類(lèi)和抽取是否均一致作為評(píng)價(jià)標(biāo)準(zhǔn),實(shí)現(xiàn)了對(duì)比<類(lèi)別,開(kāi)始位置,結(jié)束位置>三元組的計(jì)算方法,在計(jì)算F1-score時(shí)采用的是micro-f1。

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)設(shè)置

        本實(shí)驗(yàn)的硬件環(huán)境:CPU為Intel i7 9700K,內(nèi)存為16G RDD4,顯卡為兩塊Nvidia RTX 2080ti,運(yùn)行環(huán)境為L(zhǎng)inux操作系統(tǒng)(Ubuntu 16.04.6)。軟件編程語(yǔ)言為python。

        本實(shí)驗(yàn)使用的預(yù)訓(xùn)練模型是哈工大開(kāi)源的中文預(yù)訓(xùn)練BERT模型“Chinese-bert-wwm”,其中transformer的層數(shù)為L(zhǎng)=12,隱藏層維度為768,學(xué)習(xí)率為2e-6,batch size為8。

        3.2 數(shù)據(jù)集構(gòu)建

        3.2.1 數(shù)據(jù)采集

        本實(shí)驗(yàn)中使用的景區(qū)評(píng)論數(shù)據(jù)均來(lái)自旅游網(wǎng)站的公開(kāi)評(píng)論。通過(guò)爬蟲(chóng)采集來(lái)自三個(gè)旅游網(wǎng)站對(duì)于峨眉山和青城山景區(qū)的公開(kāi)評(píng)論,均發(fā)表于2019年。同時(shí)對(duì)爬取的原始評(píng)論進(jìn)行了去重和篩選的操作,去除了無(wú)效的評(píng)論(如從攜程網(wǎng)站爬取的評(píng)論中存在系統(tǒng)默認(rèn)評(píng)論,“用戶(hù)未點(diǎn)評(píng),系統(tǒng)默認(rèn)好評(píng)”,以及毫無(wú)含義的評(píng)論),并將評(píng)論長(zhǎng)度限制在200個(gè)字之內(nèi)。

        3.2.2 數(shù)據(jù)標(biāo)注方法

        數(shù)據(jù)標(biāo)注參考了英文數(shù)據(jù)集中SemEval-2014提供的標(biāo)注方法,將標(biāo)注分為方面詞、意見(jiàn)詞、情感分類(lèi)以及類(lèi)別四個(gè)維度。

        關(guān)于方面詞以及意見(jiàn)詞的劃分,由兩位專(zhuān)業(yè)人員分別對(duì)所有的句子獨(dú)立進(jìn)行標(biāo)注,再討論并消除有分歧的地方。考慮到ABSA其他子任務(wù)的情況,標(biāo)注方式為,以方面詞為單位標(biāo)記<方面詞,意見(jiàn)詞,類(lèi)別,情感>四元組,同時(shí)提供詞語(yǔ)(包含方面詞和意見(jiàn)詞)開(kāi)始和結(jié)束位置標(biāo)記。一個(gè)評(píng)論句中可能會(huì)有多組標(biāo)記四元組。我們僅保留具有有效意見(jiàn)詞的四元組,方面詞缺失標(biāo)記為“_”。

        關(guān)于類(lèi)別劃分,根據(jù)標(biāo)注經(jīng)驗(yàn)總結(jié)出7個(gè)預(yù)定義的類(lèi)別,分別是:景區(qū)、風(fēng)景、票務(wù)、體驗(yàn)、消費(fèi)、服務(wù)以及旅游團(tuán)。其中“景區(qū)”這一類(lèi)別包含了一些描述范圍模糊以及較難分類(lèi)的情況,和SemEval-2014中的Others接近。

        3.2.3 數(shù)據(jù)集分析

        標(biāo)注完成的數(shù)據(jù)集共有1 746條獨(dú)立的評(píng)論,共3 155個(gè)標(biāo)記四元組。其中方面詞缺失的四元組約占20%。情感極性以及類(lèi)別標(biāo)記情況如表1所示。

        表1 數(shù)據(jù)標(biāo)記分析

        在整個(gè)細(xì)粒度情感分析的任務(wù)中,文中所解決的問(wèn)題只是其中一個(gè)子任務(wù)。構(gòu)造的標(biāo)注數(shù)據(jù)集不僅可以用于當(dāng)前任務(wù),也可以用于探索ABSA的其他子任務(wù),因而采取了更為完整的四元組標(biāo)注方式,希望可以為之后的研究者提供中文語(yǔ)料。

        3.3 模型性能評(píng)估

        3.3.1 意見(jiàn)挖掘模型中分類(lèi)任務(wù)評(píng)估與分析

        由于在旅游領(lǐng)域中類(lèi)別較多,為了進(jìn)一步了解模型在分類(lèi)上的學(xué)習(xí)情況,文中對(duì)比了同一模型在不同類(lèi)別上的表現(xiàn),結(jié)果如表2所示,可以看到同一模型在不同類(lèi)別上的效果也存在差異。

        表2 模型在不同類(lèi)別上的表現(xiàn)

        模型在“消費(fèi)”和“票務(wù)”兩個(gè)類(lèi)別上表現(xiàn)較好,得分較低的三個(gè)分類(lèi)分別為“景區(qū)”、“旅游團(tuán)”和“體驗(yàn)”??傮w而言,標(biāo)記數(shù)據(jù)數(shù)量越多,在模型上的效果越好?!胺?wù)”和“景區(qū)”兩個(gè)類(lèi)別比較特殊,“服務(wù)”類(lèi)別的標(biāo)記數(shù)量最少,但得分較高,“景區(qū)”類(lèi)別的標(biāo)記數(shù)量最多,反而得分比較低。觀察了測(cè)試結(jié)果之后發(fā)現(xiàn),“服務(wù)”類(lèi)別雖然數(shù)量較少,但意見(jiàn)詞和上下文語(yǔ)境相對(duì)比較集中。而“景區(qū)”的意見(jiàn)詞和上下文語(yǔ)境較為分散,包含了無(wú)法準(zhǔn)確分類(lèi)的部分意見(jiàn)組合,特征相對(duì)其他類(lèi)別并不明顯,所以各項(xiàng)得分均處于低位。其中意見(jiàn)詞和上下文語(yǔ)境特殊性的作用在其他類(lèi)別的測(cè)試結(jié)果中也有所體現(xiàn)。

        比如最頻繁出現(xiàn)的意見(jiàn)詞“好”和“棒”,由于指定性不強(qiáng),會(huì)存在被錯(cuò)誤分類(lèi)成數(shù)據(jù)量更大的上下文類(lèi)別的情況。但“體驗(yàn)”類(lèi)別中“不虛此行”和“消費(fèi)”類(lèi)別中的“貴”這樣比較特殊的意見(jiàn)詞,抽取和分類(lèi)的準(zhǔn)確率都更高。

        3.3.2 旅游評(píng)論意見(jiàn)挖掘模型評(píng)估與分析

        本節(jié)將提出方法與現(xiàn)有方法相比較,使用準(zhǔn)確率(precision)、召回率(recall)和F1-score指標(biāo)評(píng)估模型性能。

        如表3所示,在使用構(gòu)建的旅游數(shù)據(jù)集的情況下,文中提出的基于BERT和指針網(wǎng)絡(luò)的方法在測(cè)試集上準(zhǔn)確率可達(dá)到81.9%,F(xiàn)1-score可達(dá)到79.6%。

        表3 不同模型效果比較

        設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn)進(jìn)行評(píng)估。首先將經(jīng)典序列標(biāo)注模型BiLSTM結(jié)合CRF作為基線,由圖3可以看出,同樣以CRF作為解碼結(jié)構(gòu),即使在領(lǐng)域語(yǔ)料規(guī)模較小的情況下,使用BERT作為編碼模塊的效果依然要好于結(jié)構(gòu)相對(duì)簡(jiǎn)單的BiLSTM。表現(xiàn)在最終的F1值上,以BERT為編碼模塊的模型得分高出將近0.3%,這證明了BERT作為編碼模塊相比word2vec與BiLSTM編碼可以生成更有效的句子表示。

        圖3 旅游評(píng)論意見(jiàn)挖掘不同模型比較

        在解碼方式的對(duì)比上,本實(shí)驗(yàn)設(shè)計(jì)了序列標(biāo)注任務(wù)中經(jīng)典的解碼方式CRF,與提出的指針網(wǎng)絡(luò)進(jìn)行對(duì)比。從圖中可以看出,從實(shí)驗(yàn)最終的的效果來(lái)看,指針網(wǎng)絡(luò)模型最終的F1得分要稍高于CRF,高出約1%。同時(shí),在訓(xùn)練的過(guò)程中,觀察最終不同類(lèi)別各自的得分,CRF會(huì)出現(xiàn)由于訓(xùn)練數(shù)據(jù)不夠充分,導(dǎo)致得分偏高的情況,而指針網(wǎng)絡(luò)相比而言則要更加穩(wěn)定。

        由上述分析可知,文中提出的方法相比于經(jīng)典序列標(biāo)注方法,在解碼上使用BERT生成了更為有效的句子表示。在編碼上,以指針網(wǎng)絡(luò)作為解碼網(wǎng)絡(luò)相比CRF,在準(zhǔn)確率和F1-score上均有提升。

        4 結(jié)束語(yǔ)

        隨著旅游類(lèi)互聯(lián)網(wǎng)產(chǎn)品的興起,網(wǎng)絡(luò)上產(chǎn)生了大量針對(duì)目的景點(diǎn)的主觀評(píng)論,通過(guò)對(duì)評(píng)論進(jìn)行意見(jiàn)挖掘可為旅游監(jiān)管提供重要依據(jù)。在此背景下,文中結(jié)合方面級(jí)情感分析中意見(jiàn)詞抽取和類(lèi)別分類(lèi)兩個(gè)子任務(wù),提出了基于BERT的端到端評(píng)論意見(jiàn)挖掘模型,得到<意見(jiàn)詞,類(lèi)別>二元組,以形成完整的觀點(diǎn)表達(dá),并應(yīng)用于實(shí)際的評(píng)論分析中。和現(xiàn)有的序列標(biāo)注模型相比,文中提出的模型具備更好的性能。此外,還構(gòu)建了中文旅游評(píng)論數(shù)據(jù)集,供此后相關(guān)任務(wù)的研究。

        目前該研究還有可以改進(jìn)的地方。比如,由于方面級(jí)情感分析領(lǐng)域數(shù)據(jù)標(biāo)記成本較高的原因,標(biāo)記數(shù)據(jù)的數(shù)量往往非常少,文中提出的數(shù)據(jù)集規(guī)模也并不大,在這種情況下模型受數(shù)據(jù)約束的影響比較大。在實(shí)驗(yàn)中,BERT由于復(fù)雜度較高,在較小規(guī)模的領(lǐng)域數(shù)據(jù)集上,整體效果相比BiLSTM難以有很大的提升。利用已有的領(lǐng)域數(shù)據(jù)集進(jìn)行知識(shí)遷移可能是一個(gè)比較有效的解決小數(shù)據(jù)量問(wèn)題的思路。因此在未來(lái)的研究中,可考慮使用知識(shí)遷移的方法,解決方面級(jí)情感分析中領(lǐng)域數(shù)據(jù)缺少的問(wèn)題。

        猜你喜歡
        分類(lèi)情感模型
        一半模型
        分類(lèi)算一算
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        分類(lèi)討論求坐標(biāo)
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        數(shù)據(jù)分析中的分類(lèi)討論
        中文字幕av在线一二三区| 夜夜骚久久激情亚洲精品| 老色鬼在线精品视频| 色视频www在线播放国产人成| 久久波多野结衣av| 亚洲av一二三四又爽又色又色| 少妇下面好爽好紧好湿一区二区| 久久久久久国产精品免费免费| 色窝窝在线无码中文| 亚洲美女性生活一级片| 国产三级精品三级男人的天堂| 最近中文字幕免费完整版| 精品国产a∨无码一区二区三区| 开心激情站开心激情网六月婷婷| 国产在线91精品观看| 毛片无码国产| 国产在视频线精品视频www666| 国产免费激情小视频在线观看 | 黄色av亚洲在线观看| 无遮挡h肉动漫在线观看| 国产剧情福利AV一区二区| 区三区久久精品水蜜桃av| 少妇激情av一区二区三区| 18禁黄网站禁片免费观看| 综合无码综合网站| 成人全部免费的a毛片在线看| 人妻熟妇乱又伦精品hd| 丰满岳乱妇久久久| caoporon国产超碰公开| 精品人妻69一区二区三区蜜桃| 日本黄网站三级三级三级| 专区亚洲欧洲日产国码AV| 国产精品成年人毛片毛片| 天天做天天摸天天爽天天爱| 国产精品久久久久久妇女6080 | 午夜一级韩国欧美日本国产 | 国产成人精品一区二区三区| 日韩一线无码av毛片免费| 少妇爽到爆视频网站免费| 亚洲高清在线天堂精品| 搡老熟女中国老太|