亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于人物特征增強的擬人句要素抽取方法研究

        2023-10-25 02:22:20王素格
        中文信息學報 2023年8期
        關(guān)鍵詞:擬人本體實體

        李 婧,王素格,2,陳 鑫,王 典,李

        (1. 山西大學 計算與信息技術(shù)學院,山西 太原 030006;2. 山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006;3. 山西財經(jīng)大學 金融學院,山西 太原 030006)

        0 引言

        擬人作為最常見的修辭格之一,是將事物人格化,把原來不具有人動作和性格的事物比作和人一樣的模樣,在我們的日常交流和文學作品中常有意識或無意識地使用。例如,童話故事里的動物、植物能講話。擬人的三要素為本體、擬人詞、擬體[1]。本體: 被描寫和說明的事物,事物本身不是人,但是具有人的特點。擬人詞: 用來描繪人物特點的詞語,如“夜空中的小星星在對你微笑”中擬人詞為“微笑”。擬體: 與本體相對,就是人。由于擬人的修辭方式具有增強表達力,并生動刻畫所描述對象的特點,常被用于散文的寫作中,將物體、動物、植物、思想或抽象概念等比擬為人,將事物人格化,使其具有人的動作、思想或情感。在近年的高考語文散文類鑒賞題中,多有涉及擬人句的考查。以2020年浙江省高考語文第10題為例。

        原文: 穿過小城,一片暮靄中,波塔波夫終于走到了房子跟前。小心翼翼地打開小門,可是小門還是咯吱地響了一聲?;▓@仿佛抖動了一下。樹枝上有雪花簌簌飄落,沙沙作響……

        問題: 賞析文中畫線部分的語言特點。

        部分參考答案: 語言具有詩化風格。如通過“花園仿佛抖動了一下”的擬人化描寫,表現(xiàn)波塔波夫內(nèi)心的情感波瀾,情景交融,充滿詩意。

        根據(jù)上述部分參考答案,如果能抽取擬人句中的本體和擬人詞,不僅可以幫助解答鑒賞類問題,還可以進一步了解作者或主人公想表達的思想感情。

        本文基于多任務(wù)學習,提出基于人物特征增強的擬人句要素抽取方法。該方法主要包含三個部分: 表示增強、要素抽取及關(guān)系檢測。具體地,在表示增強部分,將人物特征詞融入句子的表示中;要素抽取部分利用條件隨機場,確定標簽之間的前后依賴關(guān)系;關(guān)系檢測部分使用自注意力機制,建模字間的關(guān)系。為了實現(xiàn)擬人句的要素抽取和關(guān)系檢測部分間的信息交互,使用要素同步機制和關(guān)系同步機制。在創(chuàng)建的擬人數(shù)據(jù)集中進行<本體,擬人詞>抽取的實驗,結(jié)果表明本文提出的模型性能優(yōu)于其他比較模型。

        1 相關(guān)工作

        對于要素抽取,研究者們利用多任務(wù)學習方法,通過在相關(guān)任務(wù)間共享表示信息,提升模型在原始任務(wù)上的泛化性能。由CRF[2]可以有效學習輸出標簽之間的前后依賴關(guān)系,近些年在自然語言處理領(lǐng)域中得到了廣泛使用。Huang等人[3]提出了一系列基于長短時記憶(LSTM)的序列標注模型,并首次將BiLSTM-CRF模型應(yīng)用于NLP基準序列標記數(shù)據(jù)集,證明了此模型可以有效地利用過去和未來的輸入特征,對于CRF層,使用句子級的標記信息,使方法具有較強的魯棒性,而且對嵌入詞的依賴性也小。但有關(guān)擬人句要素抽取的相關(guān)研究目前較少,趙琳玲[1]通過對擬人修辭手法的分析,發(fā)現(xiàn)擬人句中包含顯著的人物特征,因而提出了基于人物特征的擬人句判別及要素抽取方法,但僅對擬人句中的本體進行了抽取,并沒有對擬人詞進行抽取且未判斷二者存在的二元關(guān)系。

        對于實體關(guān)系抽取,已有很多的研究工作。早期方法[4-5]將實體抽取和關(guān)系抽取視為兩個獨立的子任務(wù),在抽取所有實體后,采用管道方法進行關(guān)系分類。為了在兩個子任務(wù)之間建立橋梁,實體和關(guān)系的聯(lián)合抽取模型已經(jīng)引起了研究者的廣泛關(guān)注。在抽取模型中,通常使用標記策略構(gòu)建實體和關(guān)系之間的連接。其中,NovelTagging模型[6]將實體類型和關(guān)系角色作為標簽的不同部分,再將聯(lián)合抽取任務(wù)建模作為單個序列標注問題,缺點是不能處理重疊的情況。作為改進,文獻[7-9]執(zhí)行了多輪標記過程,從而緩解重疊的問題。Seq2Seq方法接收非結(jié)構(gòu)化文本作為輸入,并直接將實體-關(guān)系三元組解碼為順序輸出。這種簡潔的方法符合人類的注釋過程,即注釋者先讀句子,理解句子的意思,然后按順序指出實體-關(guān)系對。CopyRE模型[10]是基于Seq2Seq的聯(lián)合抽取方法,通過兩個具有復(fù)制機制的對應(yīng)實體生成關(guān)系,但只能生成實體的最后一個字。因此,CopyMTL模型[11]應(yīng)用多任務(wù)學習框架抽取多字實體,解決了CopyRE模型生成實體不完整的問題。由于擬人句中的本體和擬人詞之間存在一定的隱式語義關(guān)系,若直接使用實體關(guān)系抽取方法,則不能將本體和擬人詞進行準確的抽取。例如“月亮那么明媚又充滿哀傷”,該句子中的本體是“月亮”,擬人詞是“哀傷”。為了解決此問題,本文基于多任務(wù)學習,提出了一種基于人物特征增強的擬人句要素抽取模型。

        2 擬人句語料庫和特征詞庫構(gòu)建

        2.1 擬人句語料庫構(gòu)建

        由于目前沒有開放的擬人句數(shù)據(jù)集,所以我們?nèi)斯?gòu)建數(shù)據(jù)資源。數(shù)據(jù)來源于高中語文課文、查字典網(wǎng)、散文吧網(wǎng)站以及全國部分省市的高考語文真題,具有一定的代表性。通過篩選和標注處理,構(gòu)建了4 283條擬人句的數(shù)據(jù)集。

        標注過程中,由三名同學同時標注相同的數(shù)據(jù)。對于同一待標注句,檢驗三人的標注結(jié)果,當至少兩人標注一致時,則數(shù)據(jù)入庫;否則三人共同討論,確定一致結(jié)果。

        2.2 擬人特征詞庫構(gòu)建

        對于一個擬人句,擬人詞是用來描繪人物特征的詞語,將人物特征細分為人物的情感、動作、神態(tài)、性格、外貌和其他特征六類,通過對擬人數(shù)據(jù)進行人物特征統(tǒng)計,統(tǒng)計結(jié)果和人物特征示例如表1所示。

        表1 擬人數(shù)據(jù)統(tǒng)計結(jié)果和人物特征示例

        從表1中可以看出,將人物特征歸納為六個方面,從不同的角度對人物的特點進行描述。同時,對擬人句進行分析發(fā)現(xiàn),存在一個擬人句包含多種人物特征的情況,例如“冬天對自己的創(chuàng)造很是得意,歡呼雀躍著,在雪原上嬉戲玩耍?!痹诖藬M人句中,“得意”屬于人物神態(tài),“歡呼雀躍”“嬉戲玩?!睂儆谌宋飫幼?從多角度對“冬天”進行了人物特征描寫。根據(jù)對擬人句的人物特征統(tǒng)計結(jié)果,發(fā)現(xiàn)80.97%的擬人句中包含人物動作,其次是人物情感、其他特征、人物性格。因而,體現(xiàn)了人物特征在擬人句中的重要性。

        在已構(gòu)建的擬人數(shù)據(jù)集上,總結(jié)出較為常見的人物特征詞匯1 586個,利用哈工大的《同義詞詞林擴展版》和WordNet進行同義詞查找,對特征詞匯進一步擴充,使詞庫盡可能多地包含相關(guān)詞匯,最終構(gòu)建有2 480個詞匯或短語的人物特征詞庫即為DF,其中,人物特征詞庫包含表1中提到的六種人物特征,同時詞匯帶有褒、貶不同含義,覆蓋面廣,幾乎涵蓋了文學作品中常用到的人物特征,對于更準確地進行擬人句要素抽取,具有一定的輔助作用。

        3 擬人句要素抽取方法

        在擬人句中,本體和擬人詞之間存在一定的隱式語義關(guān)系,這兩個要素可以同時存在,但兩者之間不一定存在二元關(guān)系。例如“寧靜的夜晚,只有那天上的星星在竊竊私語,一排排柳樹倒映在水中,欣賞著自己的容貌?!痹谠摼渥又写嬖趦蓚€本體——“星星”和“柳樹”,三個擬人詞——“竊竊私語”“欣賞”“容貌”,若按照一般的要素抽取方法僅將本體和擬人詞抽取,難以找到兩個本體分別對應(yīng)的擬人詞,因此,為了解決這個問題,本文提出基于人物特征增強的擬人句要素抽取方法。在要素抽取時將其看作序列標注問題,采用BIO標注方法產(chǎn)生五種標記,其中B-T和I-T分別表示本體的首部和中部,B-P和I-P分別表示擬人詞的首部和中部,O沒有任何含義。同時,通過建模字間的關(guān)系,最終推理出<本體,擬人詞>,完成擬人句要素抽取。

        <本體,擬人詞>抽取任務(wù)的目標,是從給定句子S中獲得本體與擬人詞構(gòu)成的集合C={},其中ai和oi分別表示本體和擬人詞,它們可以是一個詞或短語?;谌宋锾卣髟鰪姷臄M人句要素抽取方法模型的總體框架如圖1所示。

        在該模型框架中,表示增強部分將人物特征詞作為特定領(lǐng)域的特征引入編碼層,與BERT得到的上下文表示向量進行結(jié)合,得到句子的增強表示的特征。要素抽取部分和關(guān)系檢測部分用于提取本體、擬人詞以及判斷二者存在的二元關(guān)系。此外,還使用了一個同步單元實現(xiàn)要素抽取部分和關(guān)系檢測部分之間的信息交互。整體模型需要多個遞歸過程,最后采用一個推理層捕獲<本體,擬人詞>。

        3.1 表示增強部分

        表示增強部分是指人物特征增強后的編碼層。由于預(yù)訓練模型的編碼傾向于捕獲一般文本表示,但缺乏領(lǐng)域知識。為了彌補相關(guān)領(lǐng)域信息的不足,在編碼層中加入了人物特征進行增強。

        輸入序列與已構(gòu)建好的人物特征詞庫DF進行檢索,找到所有可能構(gòu)成人物特征的子序列。將X[i:j]定義為X的子序列,X以xi開始,以xj結(jié)束,再利用掩模矩陣MD表示人物特征。其中第i行和第j列的元素mij表示子序列X[i:j]是否為人物特征的表達式。

        (1)

        利用額外的Transformer編碼器計算輸入句子的人物特征的特定表示。該層包括兩個子層,一個多頭自注意力機制和一個前饋網(wǎng)絡(luò),每個子層后面都有一個殘差連接和層規(guī)范化。融合了人物特征信息的特征掩蔽編碼器的最終輸出表示為HD。最后,將HL和HD進行加權(quán)平均,得到人物特征增強表示HEncoder。

        HEncoder=γHL+(1-γ)HD

        (2)

        其中,γ為加權(quán)參數(shù)。在這項工作中,采用了γ=0.5。

        3.2 要素抽取部分

        (3)

        (4)

        預(yù)測序列Yt的概率計算如式(5)所示。

        (5)

        3.3 關(guān)系檢測部分

        由于本體和擬人詞之間的二元關(guān)系結(jié)構(gòu)可以是一對一,也可以是一對多,甚至是多對多。因此,考慮到本體和擬人詞之間關(guān)系的復(fù)雜性,采用自注意力作為關(guān)系檢測部分,根據(jù)句子的上下文信息動態(tài)地建模字間關(guān)系,而不受時序限制。

        (6)

        (7)

        在最后一步t中,通過最大化似然概率,進一步將監(jiān)督信息引入到Gt的計算中,如式(8)所示。

        (8)

        其中,標準關(guān)系矩陣Z由元素zi,j組成,關(guān)系概率p(zi,j|xi,xj)計算如式(9)所示。

        (9)

        其中,zi,j=1表示第i個字與第j個字之間存在關(guān)系,反之亦然。有了這些監(jiān)督信息,可以引導(dǎo)注意力更有效地捕捉字間的關(guān)聯(lián)。

        3.4 同步單元

        3.4.1 要素同步機制

        3.4.2 關(guān)系同步機制

        3.5 聯(lián)合學習

        為了同步學習要素抽取部分和關(guān)系檢測部分,將各自的損失函數(shù)進行融合。對于要素抽取部分,給定標準標簽序列Y,最后一步最小化負對數(shù)似然損失函數(shù)如式(16)所示。

        (16)

        對于關(guān)系檢測部分,將標準注釋轉(zhuǎn)換為一個one-hot矩陣,其中0表示沒有關(guān)系,1表示兩個字間存在二元關(guān)系。最小化最后一步預(yù)測分布與標準分布之間的交叉熵損失如式(17)所示。

        (17)

        將這兩部分結(jié)合,構(gòu)建整個模型的損失目標如式(18)所示。

        L(θ)=LE+LR

        (18)

        3.6 推理層

        (19)

        4 實驗

        4.1 參數(shù)設(shè)置與評價指標

        本文采用精確率P、召回率R和F1值作為評價指標。

        圖2 部分超參數(shù)對實驗性能的影響

        4.2 對比方法介紹

        為了驗證本文提出方法的有效性,將其與如下基線方法進行對比實驗。

        BERT+CH[1]該模型采用BiLSTM-CRF的方法抽取擬人句中的本體。編碼層分為兩部分,一是使用BERT得到上下文向量表示,二是微調(diào)BERT,將segmentid參數(shù)設(shè)置為是否為人物特征,采用1或0表示,拼接二者。但此模型沒有對擬人詞以及要素存在的二元關(guān)系進行進一步研究。

        W+F[15]該模型的Embedding層為每個詞的向量和詞性特征的拼接。此模型是對比喻句中的要素進行識別和抽取,現(xiàn)用于擬人句識別。

        SDRN[14]: 該模型研究的是方面意見對抽取(AOPE)任務(wù),目的是成對地提取方面和意見表達。

        BERT+CH+SDRN(B+C+S) 將上述BERT+CH和SDRN方法進行結(jié)合,在SDRN的編碼層中微調(diào)BERT,將segmentid參數(shù)設(shè)置為是否為人物特征,采用1或0表示。

        SDRN+SMHSA[16](S+S) 該模型將SDRN模型中關(guān)系檢測部分換為SMHSA模型中的多頭自注意力的方法。SMHSA的主要任務(wù)是聯(lián)合實體和關(guān)系抽取,得到關(guān)系三元組。

        4.3 實驗結(jié)果與分析

        利用第3節(jié)提出的模型以及4.2節(jié)介紹的對比模型,在已構(gòu)建的擬人數(shù)據(jù)中進行對比實驗,結(jié)果如表2所示。

        表2 六種方法的對比實驗結(jié)果 (單位: %)

        由表2實驗結(jié)果可以看出:

        (1) 與其他模型進行比較,本文提出的模型在<本體,擬人詞>抽取任務(wù)的F1值達到了目前最優(yōu),驗證了本文使用聯(lián)合學習方法對<本體,擬人詞>的抽取是有效的。

        (2) 由于本文的模型是對SDRN模型進行的改進,因此,本文所提出的方法與SDRN的結(jié)果比較。在<本體,擬人詞>抽取的任務(wù)上,本文提出的模型比SDRN,在P值、R值、F1值上分別提高了1.75,1.10,1.37個百分點,驗證了在編碼層中加入人物特征進行增強,彌補了預(yù)訓練模型在編碼時對相關(guān)領(lǐng)域信息獲取不足的問題。

        (3) 由于之前的工作并沒有對<本體,擬人詞>抽取進行研究,而SDRN在很大程度上解決了判斷兩者間存在二元關(guān)系的問題,這說明自注意力機制有助于學習句子內(nèi)部要素間相關(guān)聯(lián)的依賴關(guān)系。BERT+CH+SDRN模型將BERT編碼中的sigmentid進行修改,改變了上下文的語義。SDRN+SMHSA模型的要素抽取部分使用的是SDRN實體識別部分,而關(guān)系檢測部分則采用SMHSA模型中抽取實體關(guān)系任務(wù)的方法,導(dǎo)致實驗結(jié)果不理想,其原因是在擬人句中本體和擬人詞的關(guān)系不同于實體間的關(guān)系,利用該方法存在關(guān)系無法判別的問題。而我們的模型使用了自注意力機制。

        值得說明的是,本文使用聯(lián)合學習模型的參數(shù)是在訓練時僅考慮了<本體,擬人詞>抽取的關(guān)系F1值達到最高,因此,僅僅抽取本體或擬人詞的性能指標不是最佳。

        4.4 消融實驗

        為了驗證模型各個部分的性能,將模型中去掉部分信息進行消融實驗。

        -feature: 表示將人物特征融合去掉后的模型。

        -ESM: 將模型中的要素同步機制(ESM)去掉,只保留全連接層更新關(guān)系隱藏表示。

        -RSM: 將模型中的關(guān)系同步機制(RSM)去掉,并采用全連接層更新擬人詞隱藏表示 。

        -ESM-RSM: 將模型中的要素同步機制(ESM)和關(guān)系同步機制(RSM)均去掉。

        上述四種方法與本文的模型在擬人數(shù)據(jù)中的比較結(jié)果如表3所示。

        表3 <本體,擬人詞>抽取消融實驗對比結(jié)果 (單位: %)

        由表3實驗結(jié)果可以看出:

        (1) -feature、-ESM和-RSM在<本體,擬人詞>抽取任務(wù)的評價指標F1上均有所下降。其中,-feature與本文模型的性能相比下降明顯,說明具有人物特征增強的編碼層對<本體,擬人詞>抽取任務(wù)是有效的,在一定程度上彌補了一般編碼層對相關(guān)領(lǐng)域信息不足的問題。

        (2) -ESM-RSM是所有方法中最差的,說明使用ESM或RSM,對模型的整體都是有幫助的,且兩個同時使用的性能優(yōu)于只使用一個。特別是ESM的貢獻略大于RSM。另外,在這種同步機制的作用下,我們的模型優(yōu)于其他基線方法。

        5 總結(jié)

        針對擬人句的本體和擬人詞抽取問題,本文提出了基于人物特征增強的擬人句要素抽取方法。首先通過表示增強部分將人物特征詞作為特定領(lǐng)域的特征引入編碼層,與BERT得到的上下文表示向量進行結(jié)合,得到能夠增強表示的特征。其次,使用要素抽取部分和關(guān)系檢測部分,同時提取本體、擬人詞和二者存在的二元關(guān)系。此外,還用同步單元實現(xiàn)后兩個部分之間的信息交互。經(jīng)過多個遞歸過程后,最后采用推理層捕獲<本體,擬人詞>,并與其他模型進行對比實驗。實驗表明,人物特征增強和多任務(wù)學習的共同采用提高了本文所提出方法的有效性。

        猜你喜歡
        擬人本體實體
        Abstracts and Key Words
        哲學分析(2023年4期)2023-12-21 05:30:27
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        中國音樂學(2020年4期)2020-12-25 02:58:06
        擬人句
        快樂語文(2020年15期)2020-07-06 02:55:18
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        擬人句
        快樂語文(2019年12期)2019-06-12 08:41:54
        擬人句
        快樂語文(2018年27期)2018-10-20 07:12:50
        學會擬人句
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        哲學評論(2017年1期)2017-07-31 18:04:00
        兩會進行時:緊扣實體經(jīng)濟“釘釘子”
        振興實體經(jīng)濟地方如何“釘釘子”
        亚洲精品在线一区二区| 亚洲综合自拍| 丰满熟妇人妻av无码区| 日本免费精品免费视频| 美女露出粉嫩小奶头在视频18禁| 伊人久久精品久久亚洲一区| 91福利视频免费| 亚洲精品一区二区视频| 麻豆视频在线播放观看| 日本大片免费观看视频| 91麻豆国产香蕉久久精品 | 国产青青草视频在线播放| 李白姓白白又白类似的套路| 亚洲av无码久久精品色欲| 亚洲av鲁丝一区二区三区| 中文字幕一区二区人妻痴汉电车 | 东北女人啪啪对白| 国产伦精品一区二区三区| 久久亚洲国产成人亚| 亚洲av高清一区三区三区| 亚洲色偷偷偷综合网| 天堂√中文在线bt| 噜噜噜色97| 亚洲国产精品区在线观看| 97精品国产97久久久久久免费| 伊人精品在线观看| 国产三级在线观看高清| 午夜性刺激免费看视频| 久久精品无码专区免费青青| 亚洲欧美日韩在线中文一| 蜜桃视频羞羞在线观看| 成人免费xxxxx在线观看| 国产一国产一级新婚之夜| 国内精品国产三级国产avx| 免费a级毛片18禁网站| 久久久久久人妻一区二区三区| 亚洲国产欧美久久香综合| 综合亚洲二区三区四区在线| 欧美老熟妇喷水| 国产99久久无码精品| 亚洲av熟女天堂久久天堂|