亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種量子概率啟發(fā)的對話諷刺識(shí)別網(wǎng)絡(luò)模型

        2022-09-17 13:51:16張亞洲朱少林
        電子學(xué)報(bào) 2022年8期
        關(guān)鍵詞:特征文本情感

        張亞洲,俞 洋,朱少林,陳 銳,戎 璐,梁 輝

        (鄭州輕工業(yè)大學(xué)軟件學(xué)院,河南鄭州 450002)

        1 引言

        現(xiàn)代漢語詞典將“諷刺”解釋為“諷刺是一種修辭策略,通過夸張、比喻等手法對人或事進(jìn)行揭露、批評或嘲笑”.諷刺表達(dá)的字面含義往往與真實(shí)意圖截然相反,從而可以完全扭轉(zhuǎn)作者的情感極性,傳遞出批評或嘲弄的隱含情緒.隨著互聯(lián)網(wǎng)與社交網(wǎng)絡(luò)的迅速發(fā)展,越來越多的用戶參與網(wǎng)上聊天、評論互動(dòng)等,諷刺語言的使用日趨頻繁,在日常對話中扮演著重要的角色.例如,“你看這位大哥面相如何?”,“我覺得他長得真有創(chuàng)意,太抽象了”.

        識(shí)別文本中的諷刺情感在許多領(lǐng)域都有廣泛的應(yīng)用,例如幫助企業(yè)預(yù)測消費(fèi)者對其產(chǎn)品的態(tài)度,根據(jù)用戶偏好進(jìn)行個(gè)性化推薦,或幫助政府機(jī)關(guān)了解民眾的輿論態(tài)勢等[1].因此,學(xué)術(shù)界與工業(yè)界對識(shí)別文本中的諷刺產(chǎn)生了濃厚的興趣[2,3].一般而言,諷刺識(shí)別是指利用自然語言處理技術(shù)、統(tǒng)計(jì)知識(shí)、機(jī)器或深度學(xué)習(xí)等,對語句、文檔、對話等不同粒度的文本的諷刺極性進(jìn)行鑒別.諷刺識(shí)別也屬于情感分類的子任務(wù).傳統(tǒng)的諷刺識(shí)別方法主要集中在敘述式文本,例如產(chǎn)品評論,微博等,沒有涉及到用戶之間的互動(dòng)對話.

        對話諷刺識(shí)別正在成為該領(lǐng)域一個(gè)嶄新且更具挑戰(zhàn)性的研究課題,主要是因?yàn)椋海?)互動(dòng)對話中,每位談話者并不獨(dú)立,而是持續(xù)受到其他談話者的影響,導(dǎo)致其諷刺情緒前后發(fā)生變化;(2)談話者間的交互,默認(rèn)隱藏了許多信息,例如他們的性別、周圍環(huán)境、文化背景等[4,5].目前的對話諷刺識(shí)別方法主要探討上下文作用或?qū)W習(xí)上下文依賴,難以考慮自然語言固有的不確定性.

        量子的必要性解釋在語言哲學(xué)范疇上,根據(jù)已有的研究成果[6,7],自然語言固有的不確定性是指人類情感活動(dòng)的自發(fā)性,不經(jīng)過任何先前的知覺,而由身體的組織、精力或由對象接觸外部感官而發(fā)生于自身的原始感官印象,即主觀情感無需經(jīng)過任何理性推理過程而自動(dòng)生成,且情感活動(dòng)的變化無需任何符合理性邏輯的理由.即使已經(jīng)收集了全部先驗(yàn)知識(shí),也可能無法提前預(yù)知人類的情感起伏.例1:小明發(fā)現(xiàn)他的手機(jī)壞了,小明可能會(huì)感到難過,生氣,也可能感到高興.如果小明生性節(jié)儉,那么小明會(huì)自然感到傷心;如果小明正好想換一部新手機(jī),那么小明會(huì)有一種找到借口的高興.因此,情感規(guī)律具備這樣的內(nèi)在不確定性.反映到書面語言(文本)上,指的是情感表達(dá)的不完備性與上下文性,使得其無法孤立地表達(dá)確切的情感[7].已有的方法都是建立自經(jīng)典概率和經(jīng)典邏輯基礎(chǔ)上,認(rèn)為任何時(shí)刻(即使在決策判斷之前),建模對象的狀態(tài)也是確定的.然而一旦面對情感活動(dòng)的不可確定性時(shí),經(jīng)典概率有時(shí)很難發(fā)揮作用.國內(nèi)外的科學(xué)家們已經(jīng)證實(shí)人類的情感與決策并不總是遵循經(jīng)典概率,譬如琳達(dá)問題[8],次序選擇(即人們對先聽好消息后聽壞消息與先聽壞消息后聽好消息兩種順序有不同的情感態(tài)度)[9]等.

        量子概率(Quantum Probability,QP)作為量子物理中建模不確定粒子行為的數(shù)學(xué)框架,已被用于描述人工智能中各種自然語言處理任務(wù)[10~13].作為量子力學(xué)背后的抽象數(shù)學(xué)與統(tǒng)計(jì)解釋,量子概率不應(yīng)只被用于描述微觀物理世界的規(guī)律,而同樣可以脫離原始的物理背景,作為一種數(shù)學(xué)框架應(yīng)用于信息科學(xué)等宏觀領(lǐng)域.注意,這種應(yīng)用并不是把宏觀系統(tǒng)還原為微觀粒子的量子效應(yīng),而是將它看作是一個(gè)整體系統(tǒng).鑒于基于量子理論的對話諷刺識(shí)別研究幾近空白,本文計(jì)劃將量子幾何的哲學(xué)思想與數(shù)學(xué)主義應(yīng)用于對話諷刺識(shí)別領(lǐng)域,從量子視角重新探討情感表達(dá)與演化的本質(zhì)屬性,構(gòu)建量子啟發(fā)的對話諷刺識(shí)別網(wǎng)絡(luò)模型,為自然語言處理與人工智能領(lǐng)域提供一種新思路.

        本文提出一種量子概率啟發(fā)式對話諷刺識(shí)別網(wǎng)絡(luò)(Quantum Probability Inspired Network,QPIN).具體而言,QPIN 包含一個(gè)復(fù)值話語嵌入層,一個(gè)量子復(fù)合層,一個(gè)量子測量層以及一個(gè)全連接層.首先,本文將對話中每句話語視作是一組單詞的類量子疊加,表示為復(fù)值向量.其次,我們將相鄰話語之間的上下文交互建模為量子系統(tǒng)與其周圍環(huán)境的交互,構(gòu)成一個(gè)量子復(fù)合系統(tǒng),由密度矩陣表示.再次,鑒于量子系統(tǒng)的信息與性質(zhì)可以由量子測量結(jié)果的概率分布描述,我們對每句話語進(jìn)行量子測量,進(jìn)一步提取諷刺特征,將其輸入到全連接層和softmax函數(shù)獲得諷刺識(shí)別結(jié)果.

        本文在MUStARD 與2020 Sarcasm Detection Reddit Track兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)評價(jià),以驗(yàn)證QPIN模型的有效性.通過與眾多前沿模型的比較,例如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit,BiGRU),多頭注意力長短期記憶網(wǎng)絡(luò)(Multi-Head Attention

        based Bidirectional Long Short Term Memory,MHABiLSTM),上下文LSTM(Contextual Long Short Term Memory,C-LSTM),雙向自注意力變換網(wǎng)絡(luò)(Bidirectional Encoder Representations from Transformers,BERT),上下文交互網(wǎng)絡(luò)(Contextual Network,C-Net)以及多任務(wù)學(xué)習(xí)框架(Multi-Task Learning,MTL),表明本文的方法在F1與Acc指標(biāo)上取得更高的分類結(jié)果.

        本文的主要?jiǎng)?chuàng)新貢獻(xiàn)有以下幾點(diǎn).(1)首次利用量子概率,提出面向?qū)υ捴S刺識(shí)別的量子概率啟發(fā)式網(wǎng)絡(luò).它能夠自然地將量子理論引入到宏觀人工智能領(lǐng)域,是一套從文本表征到上下文交互再到特征識(shí)別的端到端式理論結(jié)構(gòu),探索量子理論的潛力.(2)引入復(fù)數(shù)概率幅,提出一種復(fù)值話語表示方法.該方法將文本話語表征為指數(shù)形式的復(fù)值向量,將振幅與語義知識(shí)聯(lián)系起來,將隱藏的相位角與情感知識(shí)聯(lián)系起來,既能夠同時(shí)捕捉語義與情感,也能夠借助復(fù)數(shù)概率幅描述不確定性.(3)提出一種建模話語上下文性的量子復(fù)合表示方法.量子復(fù)合將能夠以“全局到局部”方式建模上下文交互.

        2 量子概率基礎(chǔ)

        2.1 量子概率

        量子概率理論是由馮·諾依曼發(fā)展建立的一種基于線性代數(shù)的一般化概率理論,目的是解釋量子理論的數(shù)學(xué)基礎(chǔ)[14,15].量子概率理論是量子力學(xué)背后的抽象數(shù)學(xué)與統(tǒng)計(jì)解釋,它更關(guān)心的是符號之間抽象的關(guān)系與結(jié)構(gòu),而非符號對應(yīng)的實(shí)物(例如物理量).因此,量子概率并不是只能描述微觀粒子,同樣可以脫離于原始物理背景,而去描述宏觀系統(tǒng)中的類量子現(xiàn)象,例如人類決策判斷、次序效應(yīng)、認(rèn)知干涉、不確定性等.

        在量子概率中,量子概率空間封裝于復(fù)數(shù)希爾伯特空間H.希爾伯特空間是歐式空間的直接推廣,是一個(gè)無限維的內(nèi)積空間,被廣泛應(yīng)用于數(shù)學(xué)分析與量子力學(xué)中.量子概率中,假設(shè)一個(gè)量子狀態(tài)向量u=(u1u2…un)T∈H,記作左矢|u>.它的轉(zhuǎn)置向量,記作右矢<u|.兩個(gè)狀態(tài)向量|u>和|v>的外積構(gòu)成一個(gè)矩陣,記作|u><v|.對于狀態(tài)向量|u>,在u方向上的投影算符可以寫作Π=|u><u|,代表量子概率空間的基本事件.

        2.2 量子疊加

        量子疊加是指一個(gè)量子系統(tǒng)可以同時(shí)處于多個(gè)互斥基態(tài)的疊加態(tài),直到它被測量.測量之后,該系統(tǒng)從疊加態(tài)塌縮到其中一個(gè)基態(tài)上.假設(shè){|w1>|w2>…|wn>}構(gòu)成量子概率空間上的一組正交基,那么|u>=,其中zj是復(fù)數(shù)權(quán)值.

        量子概率中,量子態(tài)可以處于純態(tài),也可以處于混合態(tài).純態(tài)對應(yīng)于希爾伯特空間中的狀態(tài)向量|u>,而混合態(tài)是由幾種純態(tài)依照概率組成的量子態(tài),由密度矩陣ρ表示.假設(shè)量子系統(tǒng)處于純態(tài)|u1>|u2>…|un>的混合中,對應(yīng)的密度矩陣定義為其中pj代表每個(gè)純態(tài)的經(jīng)典概率,全部概率的總和為1.密度矩陣是經(jīng)典理論中位置和狀態(tài)概率分布的量子擴(kuò)展,將量子態(tài)與經(jīng)典不確定性容納進(jìn)同一體系下,描述了系統(tǒng)全部信息與性質(zhì).

        3 量子概率啟發(fā)式諷刺識(shí)別網(wǎng)絡(luò)

        本文提出的QPIN 模型,如圖1 所示.QPIN 模型包含一個(gè)復(fù)值嵌入層、一個(gè)量子復(fù)合層、一個(gè)量子測量層以及一個(gè)全連接層.

        圖1 類量子交互網(wǎng)絡(luò)結(jié)構(gòu)示意圖.?表示張量積,?表示向量外積操作,⊙表示逐位相乘,⊕表示矩陣相加,表示量子測量操作

        3.1 復(fù)值嵌入層

        受李秋池的工作啟發(fā)[11],本文采用復(fù)值嵌入表示方法.鑒于單詞是組成人類語言的基本單元,本文將對話中的每個(gè)單詞w視作一個(gè)基態(tài)|w>,假設(shè){|w1>|w2>…|wn>}構(gòu)成對話希爾伯特空間Hdig的正交基向量.本文采用獨(dú)熱編碼(one-hot encoding)去表示每一個(gè)單詞基向量例如第j個(gè)基向量

        為了捕捉諷刺話語中的不確定性,本文將每句話語視作是一組單詞基向量{|w1>|w2>…|wn>}的量子疊加.那么目標(biāo)話語ut可以表示為:

        其中,zj是第j個(gè)單詞的復(fù)數(shù)概率幅,滿足.i稱為虛數(shù)單位,r是概率幅的振幅,θ是相位角.本文賦予振幅與相位具體的含義,將振幅與語義信息關(guān)聯(lián),將相位角置為情感傾向程度,從而同時(shí)建模了語義與情感信息.

        3.2 量子復(fù)合層

        在量子概率中,理想的量子測量描述了被測系統(tǒng),測量裝置以及周圍環(huán)境(例如臨近系統(tǒng))的完全交互.但是,在實(shí)際測量中,我們認(rèn)為測量裝置與周圍環(huán)境并不會(huì)同等地參與被測系統(tǒng)的交互,即它們的參與程度不是相等的,例如距離遠(yuǎn)的系統(tǒng)與距離近的系統(tǒng)對被測系統(tǒng)的影響是不同的.這種交互類似于對話中不同話語之間的交互.不同的上下文話語表達(dá)著不同強(qiáng)度的人際交互.

        本文將目標(biāo)話語|ut>視作被測系統(tǒng),將其上下文{|c1>|c2>…|cλ>…|ck>}視作周圍環(huán)境.兩者的交互構(gòu)成一個(gè)量子復(fù)合系統(tǒng),例如目標(biāo)話語|ut>與第λ個(gè)上下文話語|cλ>之間的交互構(gòu)成了一個(gè)量子復(fù)合系統(tǒng).考慮到所有上下文的影響,本文建模每一個(gè)上下文與目標(biāo)語句的交互,構(gòu)造出k個(gè)不同的復(fù)合系統(tǒng).其中,第λ個(gè)復(fù)合系統(tǒng)形式化為:

        其中,p(λ)是第λ個(gè)復(fù)合系統(tǒng)的交互概率,衡量第λ個(gè)上下文話語的交互程度,我們在模型訓(xùn)練過程中自動(dòng)更新它的值.

        根據(jù)式(3),目標(biāo)話語已經(jīng)由密度矩陣ρt表示.本文使用密度矩陣表示的原因是:密度矩陣能夠統(tǒng)一目標(biāo)話語的全部信息與性質(zhì),例如語義知識(shí),情感信息,上下文交互,概率分布信息等.

        3.3 量子測量層

        其中,tr是跡操作,γ∈[1,2,…,G].fγ是特征向量ft的第γ個(gè)特征分量,得到ft=(f1f2…fγ…fG).

        3.4 卷積層

        本文同樣設(shè)計(jì)一個(gè)卷積層針對密度矩陣提取特征.目的是調(diào)查量子測量與卷積層的特征提取效率對比,旨在理解量子測量對宏觀信息提取的潛力,如圖2所示.

        圖2 卷積層對話語密度矩陣提取特征框架

        本文嘗試了不同的卷積核,并根據(jù)最優(yōu)實(shí)驗(yàn)結(jié)果,設(shè)置了4個(gè)卷積核,卷積核大小分別是{1,2,3,4}×d,對目標(biāo)話語的密度矩陣進(jìn)行卷積操作,對卷積后的特征最大池化,將池化后的信息連接到一起構(gòu)成諷刺特征ft=(f1f2…fG).

        3.5 全連接層

        其中,N是訓(xùn)練集樣本量表示真值標(biāo)簽表示預(yù)測標(biāo)簽,t是話語索引,?是類別索引,μ‖φ‖2是正則項(xiàng).本文使用反向傳播算法訓(xùn)練網(wǎng)絡(luò)模型并更新參數(shù).為了避免訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象,本文使用隨機(jī)剪枝策略.

        3.6 方法討論

        介紹量子概率啟發(fā)式對話諷刺識(shí)別網(wǎng)絡(luò)(下面簡寫為QPIN)之后,本文詳細(xì)闡述并討論其與現(xiàn)有深度神經(jīng)網(wǎng)絡(luò)方法的區(qū)別與相似.

        相似之處從模型構(gòu)建角度分析,QPIN 與深度神經(jīng)網(wǎng)絡(luò),譬如卷積神經(jīng)網(wǎng)絡(luò)、全連接神經(jīng)網(wǎng)絡(luò)及長短期記憶網(wǎng)絡(luò)等類似,仍然采用深度學(xué)習(xí)與逐層訓(xùn)練的思路,包含了輸入層、隱藏層、輸出層等基本組件,通過深度多層抽象,逐漸將初始的“低層”特征表示轉(zhuǎn)化為“高層”特征表示.整個(gè)訓(xùn)練是一個(gè)端到端式監(jiān)督學(xué)習(xí)與擬合過程.

        區(qū)別之處從模型構(gòu)建角度分析,QPIN 與已有的神經(jīng)網(wǎng)絡(luò)存在五點(diǎn)不同:(1)整體架構(gòu)不同,QPIN 是量子概率驅(qū)動(dòng)的架構(gòu),由量子理論中的核心組件自下而上搭建而成,具備量子概率的數(shù)學(xué)支撐,每一個(gè)組件都有物理解釋,不是作為“黑盒子”使用;(2)輸入層不同,首次將復(fù)數(shù)帶入到諷刺識(shí)別任務(wù)中,將每句話表征為復(fù)值表示,不再是實(shí)數(shù)向量;(3)隱藏層不同,QPIN采用量子符合與混合態(tài)構(gòu)建隱藏層.目標(biāo)話語與上下文的交互,被視作是k個(gè)復(fù)合系統(tǒng)上的量子混合態(tài),表示為密度矩陣;(4)特征提取方式不同,已有方法通常直接采用全連接層提取特征和降維,而QPIN 以一種測量的視角,采用G個(gè)測量算符對目標(biāo)話語的密度矩陣表示進(jìn)行量子測量,提取最終特征.從研究目標(biāo)分析,QPIN 作為量子諷刺識(shí)別領(lǐng)域的有效嘗試,旨在推動(dòng)量子人工智能與量子信息處理的發(fā)展.

        4 實(shí)驗(yàn)與結(jié)果

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        本文采用MUStARD[16]和2020 Sarcasm Detection Reddit Track[17]兩個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).MUStARD 數(shù)據(jù)集收集自“生活大爆炸”、“老友記”等情景喜劇,共包含690 個(gè)視頻對話.每個(gè)對話記錄了目標(biāo)話語以及對話上下文話語,其中目標(biāo)話語被標(biāo)注為“諷刺”或“非諷刺”.

        2020 SarcasmDetection Reddit Track(下面簡寫為Reddit)收集自Reddit 論壇,僅包含文本模態(tài).它共有3 100個(gè)諷刺博文,3 100個(gè)非諷刺博文以及18 618個(gè)上下文博文.實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)如表1所示.

        表1 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)

        4.2 評估指標(biāo)與參數(shù)設(shè)置

        本文采用精確率(Precision,P)、召回率(Recall,R)、微觀F1(Micro-F1,Mi-F)及準(zhǔn)確率(Accuracy,Acc)作為性能評估指標(biāo),詳細(xì)參數(shù)設(shè)置如表2所示.

        表2 參數(shù)設(shè)置

        4.3 對比模型

        為了評估QPIN 的有效性與實(shí)際性能,本文對比了一系列前沿基線模型.它們分別是:

        (1)CNN[18]:它包含兩個(gè)卷積層,一個(gè)全連接層.它采用預(yù)訓(xùn)練的GloVe詞向量對話語文本執(zhí)行諷刺分類.

        (2)BiGRU:它采用一個(gè)雙向的門控循環(huán)網(wǎng)絡(luò)去學(xué)習(xí)目標(biāo)話語的隱藏狀態(tài),輸入到softmax 函數(shù)執(zhí)行諷刺識(shí)別.它考慮了單詞的歷史和未來的上下文信息.

        (3)MHA-BiLSTM[19]:它使用自然語言處理領(lǐng)域內(nèi)熱門的多頭注意力機(jī)制,并與雙向LSTM 融合去抽取目標(biāo)話語中更突出的特征,學(xué)習(xí)更優(yōu)的話語表示.

        (4)C-LSTM[4]:它首先利用CNN 去提取話語特征,然后將歷史話語特征與目標(biāo)話語特征拼接,輸入到LSTM中執(zhí)行諷刺識(shí)別.

        (5)SVM+BERT[16]:它首先利用BERT 得到目標(biāo)話語的向量表示,然后輸進(jìn)SVM 分類器執(zhí)行諷刺分類.本文將SVM的核函數(shù)設(shè)置為“高斯核”.此外,本文也將上下文特征與目標(biāo)話語特征拼接,以考慮上下文的影響.

        (6)C-Net:它利用目標(biāo)話語的標(biāo)簽去標(biāo)注上下文話語,然后利用目標(biāo)話語與上下文訓(xùn)練BERT,學(xué)習(xí)話語上下文表示.

        (7)MTL:它是最前沿的多模態(tài)多任務(wù)學(xué)習(xí)框架,首先提出段內(nèi)與段外兩種注意力機(jī)制去學(xué)習(xí)段內(nèi)與段外信息,拼接這兩種信息得到話語表示.其次,利用情感知識(shí)幫助提升諷刺識(shí)別的性能.為了公平比較,本文只用文本與圖像模態(tài)的結(jié)果.

        (8)QMSA[12]:為了驗(yàn)證本文提出QPIN 的有效性,本文對比了其他量子啟發(fā)的多模態(tài)情感分類模型.與QPIN 不同,QMSA 采用的是實(shí)數(shù)BERT向量構(gòu)建每一句文本與圖像文檔的密度矩陣,并不考慮對話上下文,最后將密度矩陣輸入到SVM分類器中執(zhí)行諷刺分類.

        (9)QSR[10]:它是一個(gè)基于量子理論的文本情感分類模型,利用量子語言模型與word2vec 將其表征為量子疊加態(tài),利用最大似然估計(jì)訓(xùn)練為密度矩陣,輸入到隨機(jī)森林分類器中執(zhí)行分類.

        (10)QMN[4]:QMN 使用密度矩陣去表征文本與圖像特征,通過LSTM 提取上下文特征后,采用量子干涉對文本與圖像特征進(jìn)行融合.

        此外,本文也設(shè)計(jì)了QPIN 的三種變體,分別是QPIN-QM,QPIN-CNN和QPIN-QM-CNN.其中,QPINQM 只使用量子測量層提取特征,QPIN-CNN 只使用卷積層提取特征,而QPIN-QM-CNN 將量子測量與卷積層提取的特征拼接到一起,組成的新特征輸入到全連接層執(zhí)行分類.

        4.4 MUStARD數(shù)據(jù)集結(jié)果分析

        各個(gè)模型在MUStARD 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示.MUStARD 數(shù)據(jù)集采集自情景喜劇,對話中邏輯跳躍性強(qiáng),由于是演繹性樣本,臺(tái)詞隱喻性、刻意性強(qiáng),比較考驗(yàn)?zāi)P偷纳舷挛睦斫馀c文本表征能力.因此,在該數(shù)據(jù)集上模型的上下文建模與語義捕捉能力影響其性能.BiGRU、MHA-BiLSTM、C-LSTM、SVM+BERT、CNet、MTL 以及QPIN 模型全部優(yōu)于CNN.原因是它們均考慮到了上下文信息,表明在對話諷刺識(shí)別中上下文的重要性.BiGRU、MHA-BiLSTM 與C-LSTM 三個(gè)RNN變體模型中性能處于同一水平,BiGRU 獲得最高F1 結(jié)果,而C-LSTM 獲得最高準(zhǔn)確率.相比于這三種模型,SVM+BERT 在微觀F1 指標(biāo)上表現(xiàn)更好,這依賴于預(yù)訓(xùn)練BERT能夠提供更優(yōu)良的話語表示.SVM+BERT顯著地超越CNN,在F1 與Acc 指標(biāo)上分別提升13.3%與9.7%.這展示了預(yù)訓(xùn)練語言模型的特征抽象能力.此外,BERT 作為預(yù)訓(xùn)練模型,已經(jīng)在龐大的數(shù)據(jù)集上訓(xùn)練完成.但是BERT 計(jì)算量過于龐大且參數(shù)量遠(yuǎn)高于CNN.相比于BiGRU、MHA-BiLSTM 與C-LSTM,SVM+BERT 在F1 指標(biāo)上獲得顯著改進(jìn),分別提升了3.7%、5.4%與4.4%.但是在Acc指標(biāo)上沒有顯著改進(jìn),甚至落后于MHA-BiLSTM 與C-LSTM.原因可能是MUStARD數(shù)據(jù)集數(shù)量很少,且角色話語分布極度不平衡,導(dǎo)致MHA-BiLSTM 與C-LSTM 獲得很低的F1分值,卻擁有較高的Acc 分值.LSTM 的優(yōu)勢在于建模短文本上下文,一定程度上緩解了梯度消失的缺點(diǎn).對于這種不平衡數(shù)據(jù)集,機(jī)器學(xué)習(xí)領(lǐng)域通用做法是更加注重F1 指標(biāo)上的表現(xiàn).SVM+BERT(+上下文)通過將上下文特征與目標(biāo)話語拼接,提升了微弱的性能.

        表3 各個(gè)模型在MUStARD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

        作為最新的對話諷刺識(shí)別模型之一,C-Net 通過建模談話者間的依賴信息,超越SVM+BERT 而獲得不錯(cuò)的結(jié)果.在眾多基線模型中,MTL 取得最優(yōu)實(shí)驗(yàn)結(jié)果.相比于C-Net,MTL 分別在F1 與準(zhǔn)確率方面提升了1.8%和1.7%.原因在于MTL 既考慮到上下文信息,也利用了情感知識(shí)對諷刺識(shí)別的幫助.QMSA作為經(jīng)典的量子啟發(fā)的多模態(tài)情感分類模型,其性能表現(xiàn)不佳.原因是QMSA 是淺層模型,僅僅利用定義構(gòu)建密度矩陣,也并不考慮對話上下文,限制了文檔的表征能力.QMSA 不是端到端模型結(jié)構(gòu),密度矩陣自定義之后不會(huì)根據(jù)訓(xùn)練集而自適應(yīng)學(xué)習(xí).通過與QPIN-QM 的結(jié)構(gòu)對比,QPIN-QM 在文檔表示上引入了復(fù)值,包含了BERT實(shí)數(shù)部分與虛數(shù)部分,該表示相比于QMSA加入新的補(bǔ)充知識(shí),即相位角.此外,引入了上下文復(fù)合表示與密度矩陣的可學(xué)習(xí)設(shè)置,使得能夠根據(jù)上下文不同,自適應(yīng)學(xué)習(xí)話語密度矩陣.這兩個(gè)組件對QPIN 模型性能的提升貢獻(xiàn)度最大,也是QPIN-QM 顯著超越QMSA 模型的主要原因,體現(xiàn)了QPIN 的先進(jìn)性與創(chuàng)新性.QSR 性能結(jié)果相比于QMSA更差,原因是其既不考慮多模態(tài)信息,不涉及多模態(tài)表示,也不考慮對話上下文交互,嚴(yán)重限制QSR 模型分類能力.QMN 作為目前量子對話情感分類領(lǐng)域中最前沿的方法之一,性能結(jié)果非常良好,超越了C-Net,僅次于MTL,證明了量子對話情感分類方法的潛力.

        4.5 Reddit數(shù)據(jù)集結(jié)果分析

        相比于MUStARD,Reddit 數(shù)據(jù)集不僅樣本量更大,每條話語也更長,且僅包含文本模態(tài).但是Reddit數(shù)據(jù)集是論壇回復(fù)性樣本,上下文的時(shí)效性較長,交互性較差.同時(shí),每條話語都是長文本,對于捕捉關(guān)鍵信息,譬如表達(dá)諷刺的單詞或短語,更加困難.長文本內(nèi)單詞間的上下文性也需要考慮在內(nèi).因此從樣本角度,Reddit 數(shù)據(jù)集更加考驗(yàn)?zāi)P偷恼Z義、情感表征能力.各個(gè)模型在Reddit 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4 所示.CNN、BiGRU、C-LSTM 性能最差,而MHA-BiLSTM 表現(xiàn)相對較好.因?yàn)镽eddit 數(shù)據(jù)集中上下文話語篇幅較長,上下文建模更為困難,使得拼接上下文話語特征入LSTM 效果不明顯.SVM+BERT 顯著地超越CNN、BiGRU、C-LSTM,在F1 與Acc 分值上分別提升了1.4%、2.7%,6.3%、6.3%,4.5%、4.1%.這表明在數(shù)據(jù)量更大、數(shù)據(jù)分布平衡的數(shù)據(jù)集上,BERT 憑借預(yù)訓(xùn)練模型顯露出明顯的優(yōu)勢.類似地,SVM+BERT(+上下文)憑借BERT 的特征學(xué)習(xí)能力,超越了傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),原因是LSTM 抽取特征的能力遠(yuǎn)弱于Transformer.

        表4 各個(gè)模型在Reddit數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

        C-Net 與MTL 作為最前沿的對話諷刺識(shí)別框架在各項(xiàng)指標(biāo)上勝過其他基線模型,且兩者獲得近乎相等的識(shí)別結(jié)果.原因是兩者均是基于預(yù)訓(xùn)練語言模型設(shè)計(jì)文本表征方法,如BERT和ALBERT,均可以建模長文本內(nèi)部的單詞上下文以及利用多頭注意力機(jī)制捕捉長文本中的關(guān)鍵信息.而作為量子啟發(fā)的多模態(tài)情感分析模型QMSA 表現(xiàn)非常差,其準(zhǔn)確率位列最后一位.QMSA 模型的兩大核心組件分別是密度矩陣與多模態(tài)干涉特征融合.鑒于Reddit數(shù)據(jù)集只包含文本數(shù)據(jù),并不涉及多模態(tài)交互.QMSA中的量子啟發(fā)的決策融合完全失效,只剩下利用量子理論定義文本密度矩陣,且不會(huì)隨著訓(xùn)練過程而改進(jìn).初始密度矩陣表征能力有限且固定,這嚴(yán)重限制了QMSA 在Reddit 數(shù)據(jù)集上的性能.相比而言,QPIN 的四個(gè)核心組件:復(fù)值表示、上下文復(fù)合表示、端到端式訓(xùn)練以及量子測量均沒有受到數(shù)據(jù)集的影響.因此QPIN 遠(yuǎn)遠(yuǎn)超過QMSA 框架,獲得最佳了性能.

        本文提出的QPIN-CNN 與QPIN-QM 仍然優(yōu)于CNet 與MTL,取得優(yōu)良的識(shí)別結(jié)果,F(xiàn)1 分?jǐn)?shù)分別達(dá)到67.5%與68.0%.但是由于本文在Reddit 數(shù)據(jù)集上僅選擇了800 個(gè)量子測量算符,遠(yuǎn)遠(yuǎn)少于在MUStARD 數(shù)據(jù)集中的1 400個(gè)測量算符,使得QPIN-QM 提取的特征維度減少,降低了信息承載與描述能力,導(dǎo)致QPIN-CNN與QPIN-QM 相差無幾,處于同一水平.這表明,測量算符的數(shù)目將會(huì)直接影響QPIN 的性能.QPIN-QM-CNN以微弱優(yōu)勢超越了QPIN-CNN與QPIN-QM,取得最佳識(shí)別性能.原因是在測量算符數(shù)目較少的情況下,結(jié)合CNN 以補(bǔ)充提取特征是一種性能補(bǔ)償手段.相比于MTL,QPIN-QM-CNN 分別在F1 與準(zhǔn)確率方面提升了2.3%和2.3%.

        4.6 量子概率與經(jīng)典概率實(shí)驗(yàn)對比

        本文已經(jīng)分別從動(dòng)機(jī)、理論層面詳細(xì)描述了量子概率的潛力.為了支撐這一觀點(diǎn),本節(jié)將從實(shí)驗(yàn)角度出發(fā),通過對比經(jīng)典(貝葉斯)概率與量子概率的實(shí)驗(yàn)結(jié)果,驗(yàn)證量子概率的有效性.對于貝葉斯概率方法,本文將設(shè)計(jì)與QPIN 相似的網(wǎng)絡(luò)結(jié)構(gòu),以保證兩者公平比較.鑒于貝葉斯概率并無復(fù)數(shù)、密度矩陣、量子復(fù)合與量子測量等概念,本文首先利用BERT 得到每句話語的語義向量表示,并將每句話語的情感極性作為補(bǔ)充特征與之拼接,成為新特征(該設(shè)置對比復(fù)值嵌入表示).其次,對目標(biāo)話語與其上下文的特征進(jìn)行線性相加,用于捕捉上下文信息(該設(shè)置對比量子復(fù)合).再次,將上下文特征輸入到樸素貝葉斯分類器中獲得目標(biāo)話語的預(yù)測概率,作為進(jìn)一步提取的概率特征(該設(shè)置對比量子測量層).最后,將這些預(yù)測概率輸入到全連接層得到諷刺識(shí)別結(jié)果.對比結(jié)果如表5所示.

        表5 量子概率與經(jīng)典概率實(shí)驗(yàn)結(jié)果

        可以觀察到,在MUStARD 與Reddit 數(shù)據(jù)集上,量子概率啟發(fā)的網(wǎng)絡(luò)QPIN 在F1 值與準(zhǔn)確率方面均顯著超越經(jīng)典概率方法NB+BERT.該實(shí)驗(yàn)結(jié)果支撐了本文的理論論點(diǎn),表明量子概率從動(dòng)機(jī)、理論與實(shí)驗(yàn)都有較大潛力,可以作為另外一種更加一般化的概率體系去解決自然語言處理難題.

        4.7 談話者角色重要性分析

        鑒于對話中談話者角色也會(huì)影響諷刺極性的判斷,例如情景喜劇“生活大爆炸”中“謝爾頓”這一角色相較于其他角色表達(dá)更多的諷刺,本文將談話者的角色信息作為一種補(bǔ)充知識(shí)考慮到QPIN 模型內(nèi),分析角色對模型性能的影響.此外,鑒于Reddit數(shù)據(jù)集都是論壇用戶,用戶名各種各樣,并不體現(xiàn)特定諷刺信息,其角色信息并沒有記錄,因此我們只建模MUStARD 數(shù)據(jù)集中的角色信息.我們采用兩種方法引入角色信息以及角色對諷刺的影響:(1)利用BERT 將每個(gè)角色名表征為向量,與對應(yīng)的話語向量拼接成一個(gè)新向量,再執(zhí)行后續(xù)的量子復(fù)合等操作;(2)受Transformer 模型啟發(fā),將每位角色與諷刺表達(dá)的關(guān)聯(lián)度作為縮放因子γ,例如“謝爾頓”與諷刺表達(dá)的關(guān)聯(lián)度較大,那么可以設(shè)置γ=1.2,“拉杰什”與諷刺表達(dá)關(guān)聯(lián)度較低,可以設(shè)置γ=0.8.該縮放因子γ與諷刺特征ft=(f1f2…fγ…fG)結(jié)合組成新的諷刺特征fnewt=γft.然后,我們將新諷刺特征輸入到全連接層獲得諷刺識(shí)別結(jié)果.為了尋求最佳性能,我們將每位角色的縮放因子γ隨機(jī)初始化,并設(shè)置為可訓(xùn)練.詳細(xì)的實(shí)驗(yàn)結(jié)果如表6所示.

        表6 角色信息實(shí)驗(yàn)結(jié)果

        可以觀察到,僅僅利用BERT 將每位角色表征為向量的做法并未取得模型性能的提升,與之前的QPINQM 處于同一性能水平,表明這種融入角色信息的方法過于樸素,需要更加詳細(xì)深入的角色建模方法.第二種只采用縮放因子的方式以0.66%的微弱優(yōu)勢超過了當(dāng)前的QPIN-QM,表明了角色引入對模型性能的幫助與必要性.第三種同時(shí)利用縮放因子和角色向量的方法并未超越第二種,但是勝過QPIN-QM.這印證了我們之前的解釋,即僅僅將角色名表征為BERT 向量對模型提升并無實(shí)質(zhì)性幫助.綜上,縮放因子的效果仍然有待提升,需要進(jìn)一步深入研究,這些將留給我們下一步工作.

        5 結(jié)論

        對話諷刺識(shí)別是一項(xiàng)嶄新且具有挑戰(zhàn)性的人工智能任務(wù).本文嘗試了將量子概率與復(fù)數(shù)體系引入到經(jīng)典諷刺識(shí)別中.基于此,本文提出了一種量子概率啟發(fā)的對話諷刺識(shí)別網(wǎng)絡(luò)模型,旨在建模人類諷刺語言中固有的不確定性問題.本文在兩個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了大規(guī)模實(shí)驗(yàn),驗(yàn)證了本文提出方法的有效性.本文也進(jìn)行了一系列模型分析,例如量子概率與經(jīng)典概率方法對比分析、參數(shù)分析等,全方面剖析QPIN 模型的優(yōu)缺點(diǎn),探索了量子概率在諷刺識(shí)別任務(wù)的潛力.

        猜你喜歡
        特征文本情感
        如何在情感中自我成長,保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達(dá)“特征”
        情感
        在808DA上文本顯示的改善
        不忠誠的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨(dú)立
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        朝鲜女子内射杂交bbw| 国产老熟女精品一区二区| 三级全黄裸体| 女人被爽到呻吟gif动态图视看| 婷婷九月丁香| 日本红怡院东京热加勒比| 九一免费一区二区三区偷拍视频| 乱色精品无码一区二区国产盗| 国产亚洲av人片在线观看| 国产丝袜免费精品一区二区| 国产精品国产三级国产专区50| 国产精品乱码人妻一区二区三区| 一区二区传媒有限公司| 久久久久久一级毛片免费无遮挡| 日本一区二区三区免费| 人妻熟妇乱又伦精品hd| 亚洲精品国产av成拍色拍| 在线观看国产三级av| 国产精品高清国产三级国产av| 中文字幕人乱码中文字幕| 真实国产乱啪福利露脸| japanese色国产在线看视频| 女女同女同一区二区三区| 在线精品无码字幕无码av| 免费啪啪视频一区| 国产性感丝袜美女av| 中文乱码字幕精品高清国产| 鲁鲁鲁爽爽爽在线视频观看| 国产成人8x视频网站入口| 日韩国产自拍视频在线观看| 国产精品国产三级国产av品爱网| 欧美成人看片黄a免费看| 国产精品女同久久久久久| 亚洲乱码中文字幕视频| 日韩精品无码中文字幕电影| 国产福利酱国产一区二区| 亚洲人成网站77777在线观看| 国产一区二区三区视频免费在线 | 一本久到久久亚洲综合| 亚洲熟女av一区少妇| 亚洲无线一二三四区手机|