亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Bert-Condition-CNN的中文微博立場檢測①

        2019-11-15 07:05:52王安君黃凱凱陸黎明
        計算機系統(tǒng)應用 2019年11期
        關鍵詞:博文詞組立場

        王安君,黃凱凱,陸黎明

        (上海師范大學 信息與機電工程學院,上海 201400)

        1 引言

        近年來針對微博數(shù)據(jù)的情感分析引起了廣泛的關注[1],同時也促進了立場檢測研究的興起與發(fā)展.立場檢測可以看作是針對特定目標話題進行的對情感分析任務的改進.2016年Mohanmmad 等[2]構(gòu)建了基于Twitter 數(shù)據(jù)的立場檢測英文數(shù)據(jù)集,并用于SemEval-2016 會議的Task 6:立場檢測(Stance Detection).隨后,Xu 等[3]從Mohammad 等人的工作中受到啟發(fā),構(gòu)建了面向中文微博的立場檢測數(shù)據(jù)集,并將其用于2016年的自然語言處理與中文計算會議(Natural Language Processing and Chinese Computing,NLPCC)發(fā)表的任務中.

        立場檢測任務通過自然語言處理技術,分析出當前微博文本內(nèi)容對目標話題的立場傾向是“支持”、“反對”還是“中立”.看似與情感分析相似,但情感分析側(cè)重的是一段文本中情感特征的極性,而立場檢測是要根據(jù)給定的目標話題來判斷文本的立場,在很多情況下是無法僅僅從文本的情感極性來判斷其立場分類的.例如,“最反感這些拉客的! 還有在機動車道上行駛的!”,這條微博不考慮任何目標話題時,它的情感極性是消極的,但是當針對“深圳禁摩限電”這個話題時,這條微博的立場應為“支持”.由于立場檢測任務比情感分析多出一步很重要的目標話題特征,所以在模型的設計與使用上自然也要與情感分析有所不同.早期的立場檢測研究中,往往直接忽略掉目標話題而只是對微博的文本內(nèi)容進行類似情感分析的處理.而在當前的立場檢測研究中,將目標話題與微博文本內(nèi)容以不同方式拼接到一起然后進行分類,這些方法都沒有對目標話題同微博文本之間的關系特征進行分析.

        本文提出了一個基于Bert-Condition-CNN 的立場檢測模型,首先對微博文本集進行主題短語的提取以擴大話題信息在微博文本中的覆蓋率;然后使用BERT獲取擴充后的話題集和微博文本的句向量,通過構(gòu)建兩個文本序列間的Condition 矩陣來提取話題信息和微博文本間的關系特征;最后使用CNN 對關系矩陣Condition 層進行立場信息的判斷.

        2 相關工作

        針對立場檢測任務,目前國內(nèi)外的研究人員采用的方法主要有基于特征工程的機器學習方法和基于神經(jīng)網(wǎng)絡的深度學習方法.

        2.1 基于特征工程的機器學習方法

        Zheng 等[4]將微博文本中的情感詞和主題詞作為特征詞進行提取,然后通過Word2Vec 對特征詞進行詞向量的訓練,將詞向量取平均作為文本的特征輸入到SVM 分類器中進行立場分類.實驗表明只使用情感詞作為特征時,對立場的分類并不理想,情緒并不能準確地反映作者的立場傾向,而加入主題詞的特征選取效果更好.Dian 等[5]探究了文本的多種特征融合對立場檢測的影響,分別有基于詞頻統(tǒng)計的詞袋特征、基于同義詞典的詞袋特征、詞與立場標簽的共現(xiàn)關系特征、文本的Word2Vec 的字向量和詞向量,對這些特征的不同組合方式,分別使用SVM、隨機森林和決策樹對進行立場分類,實驗表明詞與立場標簽的共現(xiàn)關系同Word2Vec 的字、詞向量的組合對立場分類的結(jié)果改善最為明顯.

        2.2 基于深度學習的方法

        相比基于特征工程的機器學習方法而言,深度學習的優(yōu)勢在于不用進行復雜的人工特征抽取,而是通過將文本內(nèi)容全部映射為向量,然后使用多層的神經(jīng)網(wǎng)絡與標簽之間進行擬合自動學習文本的特征.目前現(xiàn)有的立場檢測研究中,基于深度學習的工作主要是通過將目標話題信息以不同的方式添加到微博文本內(nèi)容中和通過修改神經(jīng)網(wǎng)絡結(jié)構(gòu)這兩種方法來提升立場檢測效果.

        Wei 等[6]使用基于Yoon Kim[7]的卷積神經(jīng)網(wǎng)絡對微博文本進行分類,它使用了一種對模型投票的機制來融合訓練中產(chǎn)生的各模型結(jié)果,每一個epoch 訓練結(jié)束后都會迭代一些測試集數(shù)據(jù)對標簽進行預測,最終測試集的結(jié)果是將所有的epoch 迭代完,每條數(shù)據(jù)選擇被預測次數(shù)最多的標簽作為最終結(jié)果,但是它只針對微博文本進行了特征提取和分類,而忽略了目標話題在立場檢測中的作用.針對這個問題,Augenstein等[8]提出了一個Bidirectional Conditional Encoding 模型將目標話題與微博文本進行拼接,通過使用BiLSTM(Bidirectional Long Short-Term Memory)將目標話題細胞狀態(tài)層的輸出作為微博文本BiLSTM 的細胞狀態(tài)層的初始值,從而實現(xiàn)兩個文本序列的拼接,而隱層狀態(tài)的BiLSTM 對目標話題和微博文本的編碼則是相互獨立的.為了加強模型針對目標話題對立場檢測的影響,Bai 等[9]提出了一種基于注意力的BiLSTM-CNN 模型對中文微博立場進行檢測,首先使用BiLSTM 和卷積神經(jīng)網(wǎng)絡CNN 分別獲取文本的全局特征和局部卷積特征;然后使用基于注意力(Attention)的權重矩陣將文本的BiLSTM 輸出加入到CNN 的輸出中;將最終獲取到的CNN 的句子表示輸入Softmax 層進行分類.在基于注意力機制的方法上,Yue 等[10]提出了基于兩段注意力機制的立場檢測模型,首先使用Word2Vec 進行詞向量表示;然后對微博文本的詞向量和目標話題的詞向量進行Attention 計算,使用BiLSTM 對微博文本進行特征提取,對提取到的特征再次與目標話題進行Attention計算,將最后得到的結(jié)果使用Softmax 進行分類.

        根據(jù)對現(xiàn)有研究的分析和對比,如何充分發(fā)揮話題信息在立場檢測任務中的作用是本文研究的重點.

        3 本文工作

        本文的主要工作是設計完成了基于BERT-Condition-CNN 的中文微博立場檢測模型.首先,為增大話題信息在微博文本中的覆蓋率,本文結(jié)合LDA 和點互信息,在數(shù)據(jù)處理部分對微博文本進行主題短語的提取,將目標話題進行擴充構(gòu)成話題集;然后進行網(wǎng)絡模型的構(gòu)建,使用Bert 獲取話題集和微博文本的句向量(分別用U、V 表示),并構(gòu)建兩個句向量矩陣的Condition層C,以計算目標話題和微博文本的關系特征;最后使用CNN 學習得到最終的立場信息輸入Softmax 層得到立場標簽.模型的流程圖如圖1所示,本章將對模型中各個部分的具體實現(xiàn)步驟進行介紹.

        圖1 Bert-Condition-CNN 流程圖

        3.1 主題短語提取

        本文的主題短語提取采用的是基于n-grams 的識別技術[11],首先對語料進行n-grams 詞組集合的構(gòu)建(這里的n-grams 詞組是指由相鄰的n個詞組成的詞組序列);然后將n-grams 詞組集合中包含低頻詞和標點符號的無意義詞組序列進行刪除構(gòu)成主題短語候選集;最后對候選集中的詞組進行打分,主要考慮兩個方面:主題關聯(lián)度和短語質(zhì)量.主題關聯(lián)度是指詞組序列中包含主題詞的比例numkeys/n(其中numkeys是詞組中含主題詞的個數(shù);n是詞組的長度),本文使用LDA 主題模型對微博文本進行主題詞的提??;短語質(zhì)量是指詞組中相鄰詞之間的點互信息和,點互信息(Pointwise Mutual Information,PMI)通常被用于計算兩個詞之間的關聯(lián)度[12],其計算公式如下:

        以詞組在語料中出現(xiàn)的頻率freq為權重,最終短語的得分計算方法為:

        設置短語得分的閾值為s,當詞組的score大于等于s時,認為該詞組可合并為主題短語.如果詞組的score小于s,則其為普通詞組序列.主題短語提取的算法步驟如算法1.

        算法1.主題短語提取算法1.將微博語料進行分詞處理并進行詞頻統(tǒng)計;2.使用LDA 對語料進行主題詞的提取,設定主題個數(shù)為K;3.構(gòu)建語料的n-grams 詞組集合,刪除其中包含步驟1 中統(tǒng)計出的低頻詞和包含標點符號的詞組序列,構(gòu)成主題短語候選集D;4.對步驟3 構(gòu)建的候選集D 中的詞組進行主題關聯(lián)度和短語質(zhì)量的打分,將短語得分大于閾值s 的詞組作為主題短語進行提取.

        上述算法通過主題關聯(lián)度過濾掉不包含主題詞或包含主題詞比例較少的詞組,通過計算詞間的PMI值來判定詞組合并為短語是否合理,最后通過頻率篩選掉具有高主題關聯(lián)度和高短語質(zhì)量但出現(xiàn)次數(shù)不多的詞組.表1為NLPCC 語料中5 個目標話題的主題短語提取結(jié)果、實驗中低頻詞的閾值為3、主題個數(shù)K=200、短語得分閾值s為0.0019,從每個話題的結(jié)果中選取5 個作為最終的主題短語.

        表1 NLPCC 中主題短語的提取結(jié)果

        3.2 Bert 句向量

        2018年Google AI 團隊發(fā)布了一種新的語言模型Bert[13],Bert 一經(jīng)推出,給自然語言處理中的預訓練模型帶來了突破性的發(fā)展,在許多自然語言處理任務上取得了state-of-the-art 的成績.Bert 是一種多層雙向的Transformer 編碼器,其結(jié)構(gòu)如圖2所示(圖中Tm模塊為Transformer 中的Encoder 部分).

        圖2 Bert 結(jié)構(gòu)圖

        Bert 的預訓練過程使用的是兩個非監(jiān)督任務:Masked LM(掩碼語言模型)和Next Sentence Prediction(下一句話預測).第一個任務是使用Masked LM 實現(xiàn)了雙向語言模型的預訓練,不同于Word2Vec 等其他語言模型需要對輸入序列中所有詞進行預測,Masked LM 是在輸入數(shù)據(jù)中隨機選取15%的詞進行masked操作,通過上下文的詞去預測這15%的詞,以避免下文的詞對當前詞的影響,從而實現(xiàn)了真正意義上的“雙向”.這15%被masked 的詞中,有80%是用“[MASK]”符號進行替代,10%用語料中隨機抽出的詞進行替代,剩余的10%保留原有詞不進行轉(zhuǎn)變.Bert 的第二個任務是Next Sentence Prediciton,用來判斷兩句話(A,B)是否為上下句關系的二分類任務.訓練數(shù)據(jù)中50%的(A,B)數(shù)據(jù)是真實上下句作為正例,剩余的50%的(A,B)中的B 是隨機抽取的作為負例進行訓練.該任務的最終預訓練結(jié)果可以達到97%~98% 的準確率.Bert 預訓練模型也可作為fine-tuning 用于改善序列對分類的效果,用于QA (判斷兩句話是否為問答對)和NLI(自然語言推理)任務等.

        在本文的實驗中,使用了Google 發(fā)布的Bert 中文的預訓練模型“BERT-Base,Chinese”.該模型采用了12 層的Transformer,輸出大小為768 的維度向量,multi-head Attention 的參數(shù)為12,模型總參數(shù)大小為110 MB,共包含約2 萬的中文簡體字和繁體字,含有部分英文單詞和數(shù)字.將模型載入后,可以直接輸出訓練好的字向量或句向量.本文使用該模型獲取句向量并將其作為后續(xù)網(wǎng)絡模型的輸入.

        3.3 Condition 計算層

        使用3.1 節(jié)中抽取出的主題短語對目標話題進行擴充得到話題集(targets),在<話題集,微博文本>的數(shù)據(jù)中,微博文本可以對應到更多的話題相關信息.將擴充后的話題集和微博文本使用句子序列的方式進行表示:話題集targets={target1,…,targetn}、微博文本weibo={sent1,…,sentm},其中n、m分別代表話題集中包含話題的個數(shù)和微博文本中包含的句子個數(shù).不同與第一章中介紹的用Attention 將話題以不同的權重加到微博文本中的計算方法,本文提出的方法是對話題集和微博文本進行關系矩陣的計算.如圖3所示,在對targets 和weibo 進行關系矩陣的計算前,先將targeti和sentj(0<=i<=n,0<=j<=m)通過Bert預訓練模型輸出為句向量,記ui=Bert(targeti),vj=Bert(sentj),得到的關系矩陣稱為Condition,其中cij=score(ui,vj).

        圖3 Condition 計算層的構(gòu)建

        Condition 層的作用可以看作是對原本計算<target,weibo>的立場檢測任務分解為計算每一對<targeti,sentj>序列組合的立場檢測.通常認為立場檢測任務分為以下兩個步驟:一是判斷sentj是否是圍繞targeti進行展開評論的,即兩個文本序列之間是否存在蘊含關系;二是sentj針對targeti的立場是支持、中立還是反對的.若sentj與targeti不存在蘊含關系時,則其立場為中立.在本節(jié)的Condition 計算層中進行的主要工作是通過計算sentj與targeti的關系得分score(ui,vj),從而判斷兩個序列是否在蘊含關系.由于ui,vj均是句向量(句向量的維度為d),所以在計算score(ui,vj)時,參考向量之間的距離計算,本文設計了歸一化的歐幾里得距離、余弦距離和向量點乘的3 種方法:

        (1) 歸一化的歐幾里得距離

        歐幾里得距離是向量中常用的距離定義,兩點的距離越大,歐幾里得距離越大,由此代表的兩個句向量之間的關系就越小.因此歐幾里得距離與ui,vj的關系成反比.故在本文的實驗中采取式(3)所示的歸一化處理,使得score(ui,vj)與ui,vj的關系形成正比.

        (2) 余弦距離

        余弦距離計算的是兩個向量所形成夾角的余弦值,如式(4)所示,值越大說明兩個句向量的夾角越小,兩個向量的關系就越大.

        (3) 向量點乘

        向量點乘的計算同余弦距離相比,不僅可以體現(xiàn)兩個向量之間的夾角,還反映了向量ui在向量vj上的映射大小,計算公式如式(5)所示.

        在這3 種計算向量關系的方法中,歐幾里得距離是通過計算空間距離來反映向量之間的關系;余弦距離是通過計算空間中兩個向量之間的夾角余弦值來反映向量之間的關系.點乘計算不但反映了向量間的夾角,而且其計算復雜度和空間復雜度都相對較低,因此在深度學習中,通常使用點乘來計算兩個向量之間的關系.通過3 種方法計算得到的關于話題集和微博文本之間的關系矩陣Condition 層,反映了微博文本和話題集的蘊含關系.在后續(xù)特征提取的計算中,以Condition 層作為輸入進行分類.

        3.4 CNN 特征提取層

        CNN 特征提取層的輸入是3.3 節(jié)中的Condition計算層,該特征矩陣為話題集與微博文本之間的關系矩陣,其中涵蓋了話題targeti和文本sentj這一對文本序列中存在的蘊含關系和所持立場信息.本節(jié)內(nèi)容針對Condition 層對所有<targeti,sentj>序列對計算得到的Cij進行特征融合并分類,通過二維卷積計算相鄰序列對<ui,vj>的關系特征對最終立場分類影響的權重,計算公式如式(6)所示.

        式中,K(i-m,j-n)為卷積核權重參數(shù),b為偏置項,f為非線性激活函數(shù),通常為Relu、Sigmoid 或Tanh.卷積后的特征矩陣S要經(jīng)過最大池化層的處理,池化層可以看作是一種降采樣方式,最大池化就是選取當前池化窗口中最大的數(shù)值作為特征,可有效縮減特征矩陣的大小,縮小模型參數(shù)數(shù)量,從而加快計算速度,有利于減少模型的過擬合問題.將池化后的特征向量使用全連接進行特征融合,然后進行Softmax 算法對其進行分類.全連接層和Softmax 層的主要任務是將最終獲取到的特征信息進行融合,獲取特征向量對于每個立場標簽的得分,并輸出<targets,weibo>的最終立場標簽.本文采用Softmax 層是概率轉(zhuǎn)換層,將輸入的向量以概率形式表示,完成對立場標簽的預測.

        4 實驗結(jié)果與分析

        4.1 數(shù)據(jù)集

        本文使用的數(shù)據(jù)集是NLPCC 在2016年發(fā)布的任務4:“中文微博立場檢測任務”中所提供的公開數(shù)據(jù)集.該數(shù)據(jù)集中共包含4000 條已標注立場類別標簽的中文微博數(shù)據(jù),其中3000 條為訓練集,1000 條為測試集,如圖4所示.

        圖4 立場檢測任務數(shù)據(jù)

        數(shù)據(jù)以“<id><target><weibo><stance>”的格式給出,其中“target”為目標話題,共有5 個,分別是:“iPhone SE”、“春節(jié)放鞭炮”、“俄羅斯在敘利亞的反恐行動”、“開放二胎”和“深圳禁摩限電”;“weibo”為微博文本內(nèi)容,一般文本長度較大,因此在進行實驗前需要先將其進行斷句處理;“stance”是立場標簽,共有3 個分類:“FAVOR”代表支持、“AGAINST”代表反對、“NONE”代表中立.針對5 個不同的目標話題,其立場標簽的分布情況如表2所示.

        表2 NLPCC 訓練集數(shù)據(jù)分布

        4.2 數(shù)據(jù)預處理

        由于微博文本中的數(shù)據(jù)較為口語化,并包含很多表情符號、繁體字、URL 鏈接、多次標點符號重復等情況.這些情況都會對文本分析產(chǎn)生很大的噪聲影響,因此本文在預處理部分進行了語料清洗的工作,主要包括:清除了冗余的標點符號和鏈接,將繁體字轉(zhuǎn)為簡體等,如表3所示.

        表3 數(shù)據(jù)預處理對比

        Bert-Condition-CNN 模型的輸入是基于句子級別的,但因為微博文本的內(nèi)容普遍較長,所以需要在預處理部分將微博文本內(nèi)容進行斷句處理.本文在實驗中將微博文本中出現(xiàn)的“,”、“?”、“!”,“、”和“.”標點符號作為斷句標識符對文本內(nèi)容進行斷句分割.斷句后訓練集和測試集中微博文本的長度(包含句子的個數(shù))分布情況如圖5所示.由圖可見訓練集和測試集文本長度的分布大體上是一致的,且大部分數(shù)據(jù)的長度是集中在0~25 之間,因此為保證在計算Condition 層時,微博文本內(nèi)容的長度一致.所以在預處理部分將微博文本的長度固定為25,對長度不足25 的數(shù)據(jù)進行“[PAD]”符號的補齊,長度大于25 的數(shù)據(jù)進行截斷處理.

        4.3 評價指標

        分類器的主要評價指標有準確率(Accuracy)、精確率(Percision)、召回率(Recall)和F 值(F-score).準確率是指分類正確的樣本占總樣本個數(shù)的比例,精確率是指分類正確的正樣本占分類器預測為正樣本個數(shù)的比例,召回率是指分類正確的正樣本占真正的正樣本個數(shù)的比例.為平衡精確率和召回率之間的關系,以免出現(xiàn)由于數(shù)據(jù)類別分布不均衡導致兩個分數(shù)之間相差過大,無法充分反映分類器的效果,通常在分類任務中,引入兩者的調(diào)和平均值,F(xiàn)度量值作為分類的評價指標,其計算公式如式(7)所示.

        圖5 訓練集和測試集的微博長度

        在NLPCC 任務中,官方給出的評價指標是使用FFaver和FAgainst的平均值作為最終評價指標.其中FFaver是“支持”標簽的F度量,F(xiàn)Against是“反對”標簽的F度量.其計算公式如下:

        4.4 參數(shù)設置

        實驗中涉及的網(wǎng)絡模型參數(shù)如表4所示.使用Relu 作為卷積層的激活函數(shù).實驗采用4.1 節(jié)中介紹的數(shù)據(jù)集,其中3000 為訓練集,1000 為測試集.將訓練集中20% 的數(shù)據(jù)抽出作為驗證集使用,迭代次數(shù)epoch=150,選取在驗證集上得到最好效果的模型作為最終模型在測試集上進行測試.

        表4 模型參數(shù)

        4.5 實驗結(jié)果與分析

        為了驗證本文提出的基于Condition-CNN 的模型在中文微博立場檢測任務上的有效性.本節(jié)進行了如下實驗對比.

        如表5所示,首先對比了采用拼接法將目標話題和微博文本連在一起(Concat) 和使用本文提出的Condition 層對話題集和微博文本進行關系矩陣構(gòu)建的兩種方法的效果.同時給出了Bai[9]中提到的BiLSTMCNN-ATT 在相同數(shù)據(jù)集上的表現(xiàn)結(jié)果.

        表5 Condition 層的實驗結(jié)果

        在本次對比中,Concat 和Condition 的實驗中均使用了Bert預訓練模型輸出句向量.通過這兩種對話題和微博文本的不同組成方式的實驗結(jié)果對比表明,基于Condition 計算層進行話題和微博文本關系構(gòu)建的方式對立場檢測任務的效果有著明顯的提升.表中BiLSTM-CNN-ATT 的模型是基于注意力的混合網(wǎng)絡模型,BiLSTM-CNN-ATT 的FFavor值取得了最高分,但其分類結(jié)果不均衡的現(xiàn)象導致了最終的FAvg值的降低.通過Concat 方法和BiLSTM-CNN-ATT 的對比,可以看到,Bert作為句向量的語義特征抽取能力是優(yōu)于RNN 和CNN 的甚至是優(yōu)于將RNN、CNN、Attention拼接組合起來的效果.

        表6中對比了3.3 節(jié)中給出的3 種Condition 層計算的方法,分別是基于歐幾里得距離(Euclidean)、余弦距離(cosine)和點乘計算(dot)的.實驗結(jié)果顯示基于點乘計算的效果最佳,并且相對于另外兩個計算方式,點乘的計算復雜度也相對較低,因此在后續(xù)的實驗中采用Condition 計算方式都是采用點乘的方法,包括在表5中的Condition 計算也是使用的點乘.

        表6 Condition 的3 種計算方式

        為了方便對模型結(jié)構(gòu)進行驗證對比,上述兩個對比實驗在進行訓練及測試的時候針對的是數(shù)據(jù)集中所有的數(shù)據(jù),并未做話題的區(qū)分.但實際上,從實驗數(shù)據(jù)的角度出發(fā),5 個目標話題是相互獨立的,因此將5 個話題的數(shù)據(jù)分開進行單獨訓練會得到更好的效果.如表7所示,將話題分開單獨訓練的結(jié)果同Dian[5]和Yue[10]的ATA 模型進行對比.其中Dian 的工作是基于不同特征融合的機器學習模型,經(jīng)過實驗對比,對不同目標話題采取了不同的特征組合方式.該工作在2016年NLPCC 的任務中取得了第一名的成績.Yue的ATA 模型是基于深度學習的模型,采用兩段注意力機制將目標話題和微博文本進行組合.該表中僅使用了FAvg進行對比.

        表7 5 個話題分開單獨訓練結(jié)果

        從實驗對比結(jié)果中可以看出,基于Bert-Condition-CNN 的模型在5 個話題的立場檢測中,F(xiàn)Avg均取得了最高的分值.在話題“深圳禁摩限電”、“開放二胎”和“春節(jié)放鞭炮”中FAvg都取得了0.8 以上的分數(shù).在話題“春節(jié)放鞭炮”和“開放二胎”的任務上以微弱的形式勝出;在話題“俄羅斯在敘利亞反恐行動”、“深圳禁摩限電”和“iPhone SE”中取得了1%~3% 的提升.在同ATA 模型的對比中,進一步驗證了Condition 層對立場檢測任務的提升.

        對于分類結(jié)果較差的兩個話題“俄羅斯在敘利亞反恐行動”和“iPhone SE”.這兩個話題經(jīng)主題短語提取后形成的話題集如3.1 中的表分別為{“極端組織”、“戰(zhàn)斗民族”、“大國博弈”、“勝利陣線”、“武裝分子”}和{“中國市場”、“電池續(xù)航”、“開發(fā)者大會”、“外觀侵權”、“1200 萬像素攝像頭”}.首先這兩個話題集在數(shù)據(jù)中的覆蓋率相比于其他話題的覆蓋率來講是較低的,在通過Condition 計算層計算時形成的關系矩陣大多較為稀疏.因此在進行立場檢測分類時得到的效果較差.

        5 結(jié)論與展望

        本文的主要工作是基于構(gòu)建話題和微博文本之間Bert句向量的Condition 層,利用卷積神經(jīng)網(wǎng)絡模型,實現(xiàn)了對中文微博的立場檢測研究,并給出了一種主題短語提取的方法.經(jīng)過實驗對比分析,驗證了本文提出的模型Bert-Condition-CNN 的有效性和在立場檢測任務中取得的進步.

        首先對微博數(shù)據(jù)進行分析發(fā)現(xiàn),單一的目標話題對微博文本數(shù)據(jù)的覆蓋不足,因此需要對微博文本進行主題短語的提取.本文提出了基于LDA 和點互信息提取的方式.首先從n-grams 詞組集合中刪去包含低頻詞和標點符號的無意義詞組序列構(gòu)成主題短語候選集,然后使用LDA 對文本進行主題詞提取和點互信息計算,分別用來反映詞組的主題相關性和短語質(zhì)量;最終將候選集中的詞組進行主題相關性和短語質(zhì)量的打分,并以在語料中出現(xiàn)的頻率為權重,從而選出主題短語.

        其次在對文本進行向量之間的映射時,使用了Google 在2018年發(fā)布的Bert預訓練模型,直接生成句向量.通過對話題集和微博文本的句向量進行Condition計算,得到兩個文本的關系特征矩陣.對立場檢測的分類是基于Condition 層進行計算.

        最后通過與目前現(xiàn)有研究中取得最好成績的基于特征融合的機器學習模型和基于深度學習的模型均在相同的數(shù)據(jù)集上進行了對比,對本文提出模型的有效性進行了驗證.

        本文在進行立場檢測的實驗對比時發(fā)現(xiàn),在“俄羅斯在敘利亞的反恐行動”和“iPhone SE”兩個話題上,本文提出的基于Condition-CNN 模型的得分相對于其他三個話題的得分較低.對實驗結(jié)果進行分析后發(fā)現(xiàn),主要是因為針對這兩個話題進行的主題短語提取結(jié)果中,得到的結(jié)果在微博文本中的立場表現(xiàn)并不十分明顯.因此,如何提取有利于進行立場檢測研究的主題短語還有待改進.

        猜你喜歡
        博文詞組立場
        立場
        第一次掙錢
        武術研究的立場
        武術研究(2020年3期)2020-04-21 08:36:54
        誰和誰好
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        打電話2
        副詞和副詞詞組
        重訪“反對解釋”之立場與命題
        法律方法(2013年1期)2013-10-27 02:26:56
        立場
        中國青年(1949年20期)1949-08-17 03:19:30
        国产狂喷水潮免费网站www| 日本韩国三级aⅴ在线观看 | 视频一区视频二区亚洲免费观看| 全部亚洲国产一区二区| 国产乱人对白| 亚洲另类精品无码专区| 国产自精品在线| 无色码中文字幕一本久道久| av无码一区二区三区| 久久久久久久综合狠狠综合| 日韩亚洲欧美精品| 亚洲乱码中文字幕三四区| 国产欧美一区二区精品久久久| 无码人妻丰满熟妇啪啪7774| 级毛片无码av| av在线播放免费网站| 国产精品无码aⅴ嫩草| 福利在线国产| 久久深夜中文字幕高清中文| 久久国产精品一区二区三区| 精产国品一二三产品蜜桃| 久久国产欧美日韩高清专区| 日本在线一区二区三区视频| 日本天堂免费观看| 亚洲男人第一av网站| 蜜桃一区二区三区自拍视频| 成人国产激情自拍视频| 久久精品国产网红主播| 国产精品无码久久久久免费AV| 中文字幕亚洲永久精品| 成人欧美一区二区三区在线观看 | 97精品一区二区三区| 乌克兰少妇xxxx做受野外| 中字亚洲国产精品一区二区| 日本办公室三级在线观看| 欧美性猛交xxxx三人| 99热这里只有精品国产99热门精品| 国产目拍亚洲精品二区| 男人国产av天堂www麻豆| 中国丰满大乳乳液| 亚洲精品午夜精品国产|