亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于同義詞詞林和規(guī)則的中文遠程監(jiān)督人物關(guān)系抽取方法*

        2021-09-23 01:22:44謝明鴻王紅斌
        計算機工程與科學(xué) 2021年9期
        關(guān)鍵詞:示例句式實體

        謝明鴻,冉 強,王紅斌

        (1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650500; 2.昆明理工大學(xué)云南省人工智能重點實驗室,云南 昆明 650500)

        1 引言

        隨著互聯(lián)網(wǎng)大數(shù)據(jù)時代的到來,各式各樣的數(shù)據(jù)以一種近乎爆炸的方式不斷地增長。面對五花八門、分類多樣的數(shù)據(jù),尤其是文本數(shù)據(jù),如何快速且有效地發(fā)掘抽取其中的實體及實體關(guān)系就成為了一個亟待解決的問題。關(guān)系抽取是信息抽取和自然語言理解中的一個核心任務(wù)。關(guān)系抽取的目標是從一個或多個句子中預(yù)測其中的實體與實體對應(yīng)的關(guān)系[1 - 3]。同樣地,人物關(guān)系抽取的目的是利用從樣本數(shù)據(jù)集中提取到的特征對人物實體對間的關(guān)系進行預(yù)測,由此得到的人物實體對-關(guān)系三元組〈en1,rel,en2〉可進一步用于構(gòu)建高質(zhì)量、大規(guī)模的人物關(guān)系知識圖譜[4]和知識庫,并應(yīng)用于自動問答系統(tǒng)等任務(wù),幫助人們快速獲取有效的信息。

        用于關(guān)系抽取的大規(guī)模標注數(shù)據(jù)集的獲取是關(guān)系抽取的一大難題。有監(jiān)督方法的關(guān)系抽取數(shù)據(jù)集,通常需要人們花費大量的時間和精力去整理收集并人工添加標簽,無疑代價巨大。因此,遠程監(jiān)督的思想應(yīng)運而生。遠程監(jiān)督最早是由Mintz等人[5]于2009年國際計算語言學(xué)協(xié)會年會(ACL2009)上提出的,是一種用知識庫去自動對齊樸素文本實體并標注的方法。但是,受遠程監(jiān)督思想假設(shè)性太強的影響,由此構(gòu)建的數(shù)據(jù)集存在標簽噪聲問題。人們發(fā)現(xiàn)多示例學(xué)習(xí)的思想比較契合遠程監(jiān)督的噪聲問題,因此,在多示例學(xué)習(xí)的基礎(chǔ)上結(jié)合神經(jīng)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)機器學(xué)習(xí)方法進行關(guān)系抽取成為了一大研究熱點。然而,一般的神經(jīng)網(wǎng)絡(luò)雖然能從訓(xùn)練數(shù)據(jù)集中通過迭代訓(xùn)練自動學(xué)習(xí)和提取特征,但標簽噪聲以及遠程監(jiān)督語料質(zhì)量等問題的存在使得利用一般神經(jīng)網(wǎng)絡(luò)進行關(guān)系抽取的效果并不盡人意,并且需要消耗大量時間和計算資源。

        本文針對遠程監(jiān)督人物關(guān)系抽取數(shù)據(jù)集中存在的標簽噪聲問題,借助同義詞詞林統(tǒng)計能表達人物關(guān)系的人物關(guān)系觸發(fā)詞的詞頻確定候選關(guān)系,結(jié)合中文人物關(guān)系的特定句式搭配等規(guī)則在多示例學(xué)習(xí)思想下判斷人物關(guān)系。在遠程監(jiān)督人物關(guān)系數(shù)據(jù)集IPRE(Inter-Personal Relationship Extraction)[6]上進行實驗驗證,結(jié)果表明本文提出的方法具有較好的F1值,并且關(guān)系抽取效果受遠程監(jiān)督數(shù)據(jù)集噪聲的影響較小,能進一步識別一些數(shù)據(jù)集沒有標注出的人物關(guān)系。

        2 相關(guān)工作

        人物關(guān)系抽取是關(guān)系抽取中的一個子任務(wù)。傳統(tǒng)的有監(jiān)督關(guān)系抽取方法存在缺少大量人工標注好的數(shù)據(jù)集問題。因此,運用遠程監(jiān)督思想快速獲取大規(guī)模有標注語料的方法成為了一個可行的思路。遠程監(jiān)督的主要思想是根據(jù)知識庫中已有的實體對與對應(yīng)關(guān)系的三元組〈en1,rel,en2〉,假設(shè)在樸素文本中檢測到具有和知識庫中相同的2個實體en1和en2,就認為這樣的句子具有知識庫中的關(guān)系,利用這一假設(shè)在大規(guī)模樸素文本中去自動對齊實體對,并給該句子中的實體對賦上對應(yīng)的關(guān)系標簽。這樣的方法在構(gòu)建大規(guī)模的關(guān)系抽取語料時具有省時省力的優(yōu)點,但這樣的假設(shè)太過理想化,許多具有同一實體對的句子可能并沒有體現(xiàn)知識庫中對應(yīng)的關(guān)系,甚至并不存在任何關(guān)系,因此,這種方法在構(gòu)建數(shù)據(jù)集的過程中會引入大量的標簽噪聲問題。例如,在表1中,例句1人物實體葉莉是姚明的“妻子”,而例句2則不能反映任何人物關(guān)系(用NA表示)。

        Table 1 Example of label noise表1 標簽噪聲例子

        針對遠程監(jiān)督數(shù)據(jù)集假設(shè)過強導(dǎo)致的標簽噪聲問題,Surdeanu等人[7]通過多示例學(xué)習(xí)的思想緩解噪聲問題。多示例學(xué)習(xí)的主要思想是數(shù)據(jù)集由多個包(bag)組成,每個bag由一個或多個示例(instances)所構(gòu)成。特別地,bag中單個的instance沒有標簽,而bag作為多個instances的集合具有標簽。當一個bag中存在至少一個或多個正標記的instances時,就認為該bag具有正標簽;相反,當一個bag中所存在的所有instances都為負示例樣本時,該bag被賦予負標簽。多示例學(xué)習(xí)在訓(xùn)練過程中通過學(xué)習(xí)一個bag中的正示例特征并削弱負示例特征的影響,能從一定程度上緩解遠程監(jiān)督噪聲數(shù)據(jù)帶來的影響。

        利用神經(jīng)網(wǎng)絡(luò)的方法處理遠程監(jiān)督數(shù)據(jù)集噪聲問題成為了一大熱點。Zeng等人[8]在多示例學(xué)習(xí)的基礎(chǔ)上提出了PCNN(Piecewise Convolutional Neural Networks)神經(jīng)網(wǎng)絡(luò),將詞向量與位置向量相結(jié)合,在句子特征向量卷積后根據(jù)實體位置分為3段池化進行特征抽取,提高了神經(jīng)網(wǎng)絡(luò)關(guān)系抽取的性能。Lin等人[9]在文獻[8]的基礎(chǔ)上增加了attention機制,依據(jù)計算得到的標簽向量和句子向量間的注意力權(quán)重得分給bag中的各個句子賦予不同的權(quán)重,抑制了噪聲示例的影響。Feng等人[10]提出利用強化學(xué)習(xí)方法在句子級上提取關(guān)系,提高了模型對噪聲的忍受能力。Shen等人[11]利用基于BERT (Bidirectional Encoder Representation from Transformers) 模型的分類器和對bag數(shù)據(jù)集進行語料重構(gòu)的方法去噪,取得了不錯的效果。

        雖然神經(jīng)網(wǎng)絡(luò)運用在遠程監(jiān)督數(shù)據(jù)集上取得了不錯的效果,但面對標簽噪聲問題,現(xiàn)有的方法只是在模型對特征的提取能力和噪聲緩解能力上做出了一定的改進,并且受模型訓(xùn)練時長和計算資源的影響,神經(jīng)網(wǎng)絡(luò)方法的推廣與運用具有較高門檻和限制。此外,中文文本句式結(jié)構(gòu)復(fù)雜,因此運用傳統(tǒng)機器學(xué)習(xí)方法或基于規(guī)則的方法進行遠程監(jiān)督中文人物關(guān)系抽取任務(wù)也成為了一種可行的思路。

        Figure 1 Chinese distant supervised personal relationship extraction method 圖1 中文遠程監(jiān)督人物關(guān)系抽取方法

        劉丹丹等人[12]將同義詞詞林運用到中文關(guān)系抽取任務(wù)上,利用中文語義信息提高關(guān)系抽取性能?!锻x詞詞林》最早是由梅家駒等人[13]編纂的,編寫此書的目的是希望找到一些可以表示同種意思或語境的詞語,為翻譯或者創(chuàng)作工作提供幫助。中文表達關(guān)系的詞語種類繁多,僅憑人力很難在短時間內(nèi)將各種關(guān)鍵性詞語歸納完全。對于人物關(guān)系抽取,借用同義詞詞林可以較為方便快捷地得到代表各種人物關(guān)系的人物關(guān)系觸發(fā)詞,覆蓋面廣,準確率高。潘云等人[14]首次利用中文在線資源人物關(guān)系知識庫構(gòu)建中文人物關(guān)系抽取系統(tǒng),結(jié)合標簽傳播算法進行遠程監(jiān)督人物關(guān)系抽取。黃蓓靜等人[15]提出了一種利用句子模式聚類及模式評分對遠程監(jiān)督訓(xùn)練集進行去噪的方法,提升了遠程監(jiān)督關(guān)系抽取準確率。黃楊琛等人[16]提出了一種可以對遠程監(jiān)督自動生成的訓(xùn)練數(shù)據(jù)去噪的人物實體關(guān)系抽取模型,融合詞法特征和句法特征并根據(jù)關(guān)系指示詞的過濾算法提高了遠程監(jiān)督關(guān)系抽取的準確率。以上基于機器學(xué)習(xí)或基于規(guī)則的方法從不同角度提升了人物關(guān)系抽取模型的性能,雖然借用了知識庫等外部知識提升性能,但是沒有處理標簽噪聲問題,有些還需要繁瑣的算法來緩解噪聲問題。本文結(jié)合多示例學(xué)習(xí)思想和同義詞詞林,僅根據(jù)中文數(shù)據(jù)集本身固有信息和同義詞詞林等少量外部知識,融合中文人物關(guān)系特有的句式在多示例學(xué)習(xí)思想下對遠程監(jiān)督人物關(guān)系數(shù)據(jù)集進行人物關(guān)系分類。實驗結(jié)果表明,本文方法受噪聲干擾小,效果良好。

        3 基于同義詞詞林和規(guī)則的中文遠程監(jiān)督人物關(guān)系抽取方法

        3.1 人物關(guān)系抽取方法思想

        本文方法利用同義詞詞林和固定句式搭配規(guī)則在多示例學(xué)習(xí)思想下完成對遠程監(jiān)督人物關(guān)系數(shù)據(jù)的關(guān)系抽取,主要思想如圖1所示。具體可分為人物關(guān)系觸發(fā)詞擴展、根據(jù)人物關(guān)系觸發(fā)詞詞頻確定主要候選關(guān)系和次要候選關(guān)系、人物關(guān)系判別規(guī)則構(gòu)建和多關(guān)系預(yù)測4個步驟,具體如下所示:

        步驟1人物關(guān)系觸發(fā)詞擴展。人物關(guān)系觸發(fā)詞對基于規(guī)則的人物關(guān)系抽取具有重要作用。因此,本文方法首要步驟便是擴展人物關(guān)系觸發(fā)詞。首先得到根據(jù)多示例學(xué)習(xí)思想劃分好bag的遠程監(jiān)督人物關(guān)系語料集,利用訓(xùn)練集中的正示例,選取人物關(guān)系觸發(fā)詞(能表達某種人物關(guān)系的詞,多為名詞或動詞,例如父親、母親、嫁、娶等)來擴展同義詞詞林中對應(yīng)類別的同義詞詞簇。

        步驟2候選關(guān)系確定。根據(jù)步驟1擴展后的人物關(guān)系觸發(fā)詞來協(xié)助確定bag的候選關(guān)系。統(tǒng)計語料集中每個bag擴展后的人物關(guān)系觸發(fā)詞數(shù)量,進行人物關(guān)系觸發(fā)詞詞頻統(tǒng)計,選取觸發(fā)詞詞頻高的前2個詞來確定最大詞頻關(guān)系候選和次大詞頻關(guān)系候選。

        步驟3人物關(guān)系判別規(guī)則構(gòu)建。得到bag的候選關(guān)系后,根據(jù)多示例學(xué)習(xí)思想對bag中的每個句子示例依次進行主要關(guān)系候選判斷和次要關(guān)系候選判斷:若一個bag中有1個以上的句子滿足關(guān)系判定條件,則給該bag賦予對應(yīng)關(guān)系正標簽,若沒有一個句子滿足關(guān)系判定條件,給該bag賦予NA,即負標簽。關(guān)系判定條件具體方法包含實體人物性別判斷、重復(fù)人物實體處理和固定句式搭配等,若滿足判斷條件,則確定bag人物關(guān)系為主要關(guān)系候選或次要關(guān)系候選中的一種,否則判斷bag人物關(guān)系為NA,即沒有關(guān)系。

        步驟4多關(guān)系預(yù)測。由于bag存在多標簽的情況,因此在步驟3得到對應(yīng)bag的某種關(guān)系預(yù)測結(jié)果后,還需要進行多關(guān)系預(yù)測,最后得到關(guān)系預(yù)測結(jié)果。

        3.2 人物關(guān)系抽取方法實現(xiàn)

        3.2.1 人物關(guān)系觸發(fā)詞擴展

        人物關(guān)系觸發(fā)詞對基于規(guī)則的人物關(guān)系抽取具有重要意義。本文將用于判斷人物關(guān)系的一些重要詞匯定義為人物關(guān)系觸發(fā)詞。這樣的詞匯在中文表達中有多個類似的詞,例如,表達戀人關(guān)系的“戀愛”一詞,就有“相戀”“交往”“戀情”等多個詞與之類似。因此,本文將可以表達某種人物關(guān)系的同類觸發(fā)詞歸在一個簇下,形成表達某種候選人物關(guān)系的觸發(fā)詞集?!锻x詞詞林》原本已包含了一定數(shù)量的人物關(guān)系觸發(fā)詞的同義詞。但是,由于《同義詞詞林》提供的和人物關(guān)系相關(guān)的同義詞不能完全涵蓋遠程監(jiān)督語料中表達人物關(guān)系的觸發(fā)詞,為了盡可能完善人物關(guān)系觸發(fā)詞的覆蓋范圍,以提升人物關(guān)系抽取模型的性能,本文利用word2vec預(yù)訓(xùn)練的詞向量模型,通過計算《同義詞詞林》中關(guān)系觸發(fā)詞詞向量與訓(xùn)練集中所有詞語詞向量的余弦距離,選取余弦距離小于0.5、與關(guān)系觸發(fā)詞相關(guān)性較大的詞語,用于擴展《同義詞詞林》中對應(yīng)簇下的同義詞。余弦距離計算公式如式(1)所示:

        cos_dis=1-cosθ=

        (1)

        其中,N代表詞向量維度,xi、yi分別代表2個詞向量第i維的值。

        3.2.2 人物關(guān)系判別規(guī)則構(gòu)建

        (1)構(gòu)建固定句式搭配。

        根據(jù)擴展的人物關(guān)系觸發(fā)詞和中文固定的句式搭配可以較快確定大部分人物實體之間的關(guān)系。人物關(guān)系觸發(fā)詞一般以名詞或動詞居多,并且常常與人物實體中的1個或2個在相對位置上靠得很近。本文根據(jù)人物關(guān)系觸發(fā)詞與實體對的相對位置確定人物關(guān)系,因此構(gòu)建能判斷各種人物關(guān)系的搭配句式尤為重要。本文構(gòu)建的固定句式如表2所示。

        Table 2 Fixed sentence patterns表2 固定句式搭配

        表2中,en1代表人物實體1,en2代表人物實體2,“+”代表句子中實體與觸發(fā)詞之間的相對位置距離。根據(jù)表2給出的固定句式即可簡單確定句子中人物實體對關(guān)系,圖2所示為根據(jù)固定句式搭配判斷人物關(guān)系的例子。

        Figure 2 Judging relationship by fixed sentence patterns圖2 固定句式搭配判斷關(guān)系

        如圖2所示,人物實體en1和人物實體en2已經(jīng)給出,en1“姚明”在句子中的位置下標是4,人物關(guān)系觸發(fā)詞“妻子”位置下標是6,en2“葉莉”位置下標是11,滿足編號3“en1(+1/+2)觸發(fā)詞en2”的句式搭配。故根據(jù)人物關(guān)系觸發(fā)詞“妻子”和固定句式搭配可以得到實體對-關(guān)系三元組〈en1,現(xiàn)妻,en2〉。值得注意的是,在同一固定句式搭配中,實體1和實體2的順序發(fā)生變化,相應(yīng)的關(guān)系預(yù)測結(jié)果也會不同。對于圖2中的句子,如果實體1變成了“葉莉”,實體2變成了“姚明”,則預(yù)測的結(jié)果就成了〈en1,現(xiàn)夫,en1〉。此外,當一個句子中出現(xiàn)多個有關(guān)聯(lián)的人物關(guān)系觸發(fā)詞時,則需要關(guān)聯(lián)人物關(guān)系觸發(fā)詞句式判斷人物關(guān)系。關(guān)聯(lián)人物關(guān)系觸發(fā)詞句式如表3所示。

        Table 3 Trigger word sentence patterns of related personal relation表3 關(guān)聯(lián)人物關(guān)系觸發(fā)詞句式

        由于篇幅有限,表3僅展示了部分關(guān)聯(lián)人物關(guān)系觸發(fā)詞句式。當有多個關(guān)聯(lián)的人物關(guān)系觸發(fā)詞出現(xiàn)在一個句子中時,如果僅根據(jù)其中一個觸發(fā)詞判斷人物實體間的關(guān)系,忽視另外一個人物關(guān)系觸發(fā)詞,則大概率會出錯。例如,對于滿足句式“祖父(+1/+2)en1+父親(+1/+2)en2”的句子,句子中en1和en2的關(guān)系為“兒子”。如果在判斷句式的時候忽略“祖父”,則句式為“en1+父親(+1/+2)en2”,判斷en1和en2之間關(guān)系為“父親”,顯然這個判斷是錯誤的。因此,對于一個句子含有多個關(guān)聯(lián)人物關(guān)系觸發(fā)詞的情況需要根據(jù)表3的關(guān)聯(lián)人物關(guān)系觸發(fā)詞句式進行人物關(guān)系判斷。此外,除了以上句式外,還需要進行一些其他處理,以進一步提升遠程監(jiān)督人物關(guān)系抽取的準確性和可擴展性。

        (2)重復(fù)人物實體處理。

        根據(jù)人物關(guān)系觸發(fā)詞和固定句式搭配能正確識別出一部分語料所包含的人物關(guān)系,但通過對語料進行重復(fù)人物實體處理能進一步提升人物關(guān)系抽取的效率與準確性。遠程監(jiān)督產(chǎn)生的數(shù)據(jù)集是由知識庫自動對齊互聯(lián)網(wǎng)文本產(chǎn)生的,可能會出現(xiàn)一句話中存在多個重復(fù)人物名的情況。例如“張充和人物經(jīng)歷:張充和的曾祖是晚清名臣張樹聲,曾任兩廣總督。”中,人物實體名“張充和”在句子中出現(xiàn)了2次。本文發(fā)現(xiàn)保留距離觸發(fā)詞“曾祖”更近的實體有助于確定對人物關(guān)系抽取有幫助的區(qū)域,使得分類效果更好。因此,針對重復(fù)人物實體的情況,本文選取離觸發(fā)詞較近的實體確定位置下標進行關(guān)系抽取。

        (3)實體人物性別判斷。

        根據(jù)觸發(fā)詞和固定句式搭配識別人物關(guān)系可能會出現(xiàn)不知道人物性別,從而無法準確判斷實體人物關(guān)系的情況。因此,實體人物性別的判斷在一些不能直接依據(jù)觸發(fā)詞和固定句式搭配確定人物關(guān)系的情況下顯得尤為重要。本文根據(jù)人物性別關(guān)鍵詞與人物實體的相對位置確定人物性別,表4所示為本文中使用的一部分人物性別關(guān)鍵詞同義詞簇。利用同義詞詞林中這些能表達人物性別的詞簇,結(jié)合句式搭配判斷句子中人物實體性別,在一些特殊情況下能準確地判斷人物關(guān)系。表4和表5所示為人物性別判斷詞簇和人物性別判斷句式。

        Table 4 Personal gender cluster表4 人物性別詞簇

        Table 5 Sentence patterns of judging personal gender表5 人物性別判斷句式

        如表5所示,判斷人物性別需要關(guān)鍵詞的性別屬性和人物實體與關(guān)鍵詞的位置關(guān)系。當句子具有人物關(guān)系觸發(fā)詞并滿足一定句式,但不確定人物實體性別無法進一步判斷人物實體間的關(guān)系時,就需要借助實體人物性別判斷去正確地識別人物關(guān)系。圖3所示為根據(jù)實體人物性別判斷和句式搭配判斷人物關(guān)系的例子。

        Figure 3 Judging relationship by the gender of personal entity圖3 實體人物性別判斷關(guān)系

        如圖3所示,已知en1“馬志明”,en2“馬三立”,根據(jù)人物關(guān)系觸發(fā)詞“長子”結(jié)合句式搭配“en1en2(+2)觸發(fā)詞”可以判斷en2“馬三立”的兒子是en1“馬志明”,但在沒有外部知識,即不知道人物實體性別的情況下,無法判斷en1“馬志明”和en2“馬三立”的確切人物關(guān)系,因為僅憑“en1en2(+1/+2)兒子”無法判斷en2“馬三立”是父親還是母親。但是,運用人物性別判斷句式,由表5可根據(jù)“先生”一詞得到en2“馬三立”的身份是男性,因此得到實體對-關(guān)系三元組〈en1,父親,en2〉。

        3.2.3 多關(guān)系預(yù)測

        前面幾節(jié)的方法主要針對單關(guān)系預(yù)測,而多示例學(xué)習(xí)存在“多樣本多標簽”的情況,即對含有多個句子示例的bag來說,一個bag可能具有多個人物關(guān)系標簽。因此,本節(jié)主要討論如何對bag進行多關(guān)系預(yù)測。本文所使用的遠程監(jiān)督數(shù)據(jù)集具體分為3大類:親屬關(guān)系、社交關(guān)系和師生關(guān)系,具體又分為35類關(guān)系(包含NA)。除了親屬關(guān)系中前夫/妻、現(xiàn)夫/妻、未婚夫/妻存在多關(guān)系的情況,同一大類中不可能出現(xiàn)多關(guān)系標簽。因為一個bag中的多個句子可能存在一對人物實體的關(guān)系是未婚夫/妻、現(xiàn)夫/妻、前夫/妻的情況,但他們的關(guān)系不可能是父親、爺爺并存,這樣的關(guān)系是有悖常理的。因此,多關(guān)系預(yù)測的一般是親屬、社交或師生關(guān)系交叉存在的情況。本文采用的多關(guān)系預(yù)測方法是首先在主要關(guān)系候選或次要關(guān)系候選中預(yù)測出bag中存在的某一大類關(guān)系,接著再判斷bag中是否還存在其他大類關(guān)系,最后得到盡可能詳盡的關(guān)系預(yù)測結(jié)果。圖4所示為人物關(guān)系預(yù)測流程,其中包含多關(guān)系預(yù)測。

        如圖4所示,句子①~句子⑤是一個bag中包含同一實體對“周森鋒”和“霍焰”的句子示例。根據(jù)人物關(guān)系觸發(fā)詞對這些句子進行詞頻統(tǒng)計,得到最大詞頻關(guān)系候選和次大詞頻關(guān)系候選;接著根據(jù)人物關(guān)系判別規(guī)則對候選關(guān)系進行人物關(guān)系判別,預(yù)測出其中一個關(guān)系為“妻子”;隨后進行多關(guān)系預(yù)測,根據(jù)之前的“妻子”關(guān)系結(jié)合句子③中的“戀情”一詞可判斷實體對可能存在“戀人”關(guān)系,而“妻子”和“戀人”分屬于3大關(guān)系中的親屬關(guān)系和社交關(guān)系,故做出“戀人”關(guān)系預(yù)測。綜上,最終對實體對“周森鋒”和“霍焰”的關(guān)系預(yù)測為“妻子”和“戀人”。

        Figure 4 Process of personal relationship prediction圖4 人物關(guān)系預(yù)測流程

        4 實驗結(jié)果與分析

        4.1 數(shù)據(jù)集

        實驗采用的是CCKS 2019 eval Task3提供的人物關(guān)系遠程監(jiān)督數(shù)據(jù)集IPRE[6]。該數(shù)據(jù)集是通過爬取中文百度百科網(wǎng)頁資源中的人物關(guān)系三元組,利用遠程監(jiān)督的方法構(gòu)建而成。IPRE有35類人物關(guān)系,其中NA表示沒有關(guān)系,為關(guān)系負例,其余34類關(guān)系為關(guān)系正例。IPRE總共有超過410 000個句子,其中大約有9 000個句子的標簽是人工標注的。數(shù)據(jù)集分為訓(xùn)練集(70%)、驗證集(10%)和測試集(20%),僅驗證集和測試集的正例標簽是人工標注,其余標簽均為遠程監(jiān)督生成。

        4.2 評價指標

        采用對預(yù)測結(jié)果計算F1值進行實驗評價,由于遠程監(jiān)督包含大量的負樣本,因此僅計算正例預(yù)測結(jié)果的F1值。具體計算如式(2)~式(4)所示:

        (2)

        (3)

        (4)

        其中,Nr表示正例關(guān)系預(yù)測正確的bag的數(shù)目,Nsys表示預(yù)測結(jié)果中正例關(guān)系bag的數(shù)目,Nstd表示驗證集中給出的正例關(guān)系bag的數(shù)目。

        4.3 實驗結(jié)果與分析

        運用本文方法對IPRE數(shù)據(jù)測試集進行人物關(guān)系分類。將本文方法(同義詞詞林+固定句式搭配)與作為baseline的CNN+ATT(Convolutional Neural Networks+ATTention)[9],PCNN+ATT(Piecewise Convolutional Neural Networks+ATTention)[9]以及Shen等人[11]提出的Bert with Reconstructing在bag任務(wù)上的分類結(jié)果進行對比分析,人物關(guān)系分類結(jié)果如表6所示。

        Table 6 Comparison of classification results of each method表6 各方法的分類結(jié)果對比

        從表6可以看出,本文方法的F1值對比CNN+ATT和PCNN+ATT等方法有了較為明顯的提升,但與Bert with Reconstructing相比仍有一定的差距。對于IPRE數(shù)據(jù)集中存在大量的標簽噪聲、正負樣本失衡并且語料質(zhì)量良莠不齊等問題,CNN+ATT和PCNN+ATT雖然利用神經(jīng)網(wǎng)絡(luò)自動提取文本中的特征,利用分段卷積池化試圖提取更細節(jié)的句法和語法信息,甚至利用注意力機制盡可能消除bag中無關(guān)示例的影響,但對噪聲的緩解能力始終有限。Bert with Reconstructing利用BERT模型進行特征抽取和分類,并對語料中的句子進行重構(gòu),去噪效果較好,但是,基于BERT的神經(jīng)網(wǎng)絡(luò)模型包含大量參數(shù)訓(xùn)練并且需要消耗大量的GPU計算資源。本文提出的基于同義詞詞林和規(guī)則的方法僅根據(jù)正例標簽示例擴展人物關(guān)系觸發(fā)詞,采用規(guī)則的方法不需要進行模型的訓(xùn)練,所以基本不受標簽噪聲和正負樣本失衡的影響;同時提出的的重復(fù)人物實體和實體人物性別判斷等處理方式都從一定程度上緩解了語料質(zhì)量問題。綜上所述,本文方法相比CNN+ATT和PCNN+ATT對噪聲的容忍度更強。在F1值上本文方法相比Bert with Reconstructing仍有一定差距,但在整個關(guān)系抽取過程中本文方法所耗的時間與計算資源要低很多。

        在前面的實驗基礎(chǔ)之上,還進行了正樣本預(yù)測數(shù)量的實驗,得到的結(jié)果如表7所示。通過對表7的分析,將本文方法的關(guān)系預(yù)測結(jié)果與數(shù)據(jù)集給定的標簽進行了人工校驗比對,得到了部分假陰性示例,如表8所示。

        Table 7 Prediction result of positive samples表7 正樣本預(yù)測結(jié)果

        Table 8 Part of false negative instances表8 部分假陰性示例

        表7所示為本文方法對正樣本預(yù)測的結(jié)果數(shù)量。從預(yù)測的結(jié)果可以看出,本文方法預(yù)測的正樣本數(shù)量遠大于驗證集所標注的正樣本數(shù)量。通過對預(yù)測結(jié)果為正樣本而測試集標簽為負樣本的數(shù)據(jù)進行人工校驗發(fā)現(xiàn),測試集中的一部分數(shù)據(jù)為假陰性樣本。由于篇幅有限,表8僅展示了部分對預(yù)測結(jié)果為非NA而測試集關(guān)系標簽為NA的句子進行人工校驗得到的假陰性示例句子。這一部分假陰性數(shù)據(jù)說明本文方法具有識別假陰性樣本人物關(guān)系的能力,受噪聲的干擾較小。

        5 結(jié)束語

        本文針對遠程監(jiān)督人物關(guān)系抽取數(shù)據(jù)集IPRE中存在的標簽噪聲問題,提出了一種基于同義詞詞林和規(guī)則的遠程監(jiān)督人物關(guān)系抽取方法。該方法首先根據(jù)訓(xùn)練集中正樣本示例擴展同義詞詞林中的人物關(guān)系觸發(fā)詞詞簇;隨后對每一個bag統(tǒng)計人物關(guān)系觸發(fā)詞詞頻確定候選人物關(guān)系,根據(jù)固定句式搭配規(guī)則和重復(fù)人物實體處理、實體人物性別判斷等處理方法在多示例學(xué)習(xí)思想下確定人物關(guān)系類別;最后根據(jù)各個大類間關(guān)系并存的可能性進行多關(guān)系的預(yù)測判斷。雖然本文提出的固定句式搭配規(guī)則能識別出一定數(shù)量的人物關(guān)系,但因為中文表達方式的豐富多樣,所以存在一部分滿足句式搭配但實際人物關(guān)系并不和本文方法預(yù)測的結(jié)果一致的情況,下一步將引入更加完善、嚴謹?shù)囊?guī)則進行改進。

        猜你喜歡
        示例句式實體
        大還是小
        2019年高考上海卷作文示例
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        常見單位符號大小寫混淆示例
        山東冶金(2019年5期)2019-11-16 09:09:22
        “全等三角形”錯解示例
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        基本句式走秀場
        例析wh-ever句式中的常見考點
        兩會進行時:緊扣實體經(jīng)濟“釘釘子”
        振興實體經(jīng)濟地方如何“釘釘子”
        国产精品麻豆成人av电影艾秋 | 国内精品久久人妻性色av| 国产精品国产三级国产专区不| 精品国际久久久久999波多野| 国产无遮挡裸体免费视频| 国产在线视欧美亚综合| 国产精品午夜高潮呻吟久久av| 国产自拍av在线观看视频| 亚洲成av人在线观看天堂无码| 久久88综合| 亚洲天堂一区二区精品| 蜜臀一区二区三区精品| 丰满熟妇乱子伦| 尤物无码一区| 国产激情小视频在线观看| 国产大片内射1区2区| 国产女女做受ⅹxx高潮| 污污污国产免费网站| 国产69精品麻豆久久| 精品久久久无码人妻中文字幕豆芽 | 国产91在线|亚洲| 人妻少妇被粗大爽视频| 久久97久久97精品免视看| 粉嫩少妇内射浓精videos| 亚洲熟女国产熟女二区三区| 亚洲精品视频中文字幕| 欧美黑人xxxx又粗又长| 亚洲国产A∨无码影院| 久久亚洲宅男天堂网址| 日韩久久无码免费毛片软件| 夜夜爽一区二区三区精品| 久久久国产精品粉嫩av| 精品在线视频在线视频在线视频| 97精品一区二区视频在线观看| 亚洲熟妇网| 亚洲av极品尤物不卡在线观看| 日韩av午夜在线观看| 国产偷窥熟女精品视频| 亚洲二区三区四区太九| 人妻诱惑中文字幕在线视频| 特级婬片国产高清视频|