亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        BERT 輔助金融領(lǐng)域人物關(guān)系圖譜構(gòu)建

        2022-01-18 11:38:54張純鵬辜希武李瑞軒李玉華
        計(jì)算機(jī)與生活 2022年1期
        關(guān)鍵詞:模型

        張純鵬,辜希武,李瑞軒,李玉華,劉 偉

        華中科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢430074

        信息化時(shí)代下,金融行業(yè)的各個(gè)公司、監(jiān)管機(jī)構(gòu)每天都會(huì)在互聯(lián)網(wǎng)上發(fā)布大量的公告,將公告中的人員實(shí)體以及相關(guān)屬性提取出來(lái),發(fā)現(xiàn)人員之間的隱含關(guān)系,以結(jié)構(gòu)化的形式描述金融行業(yè)中與人物相關(guān)的概念、實(shí)體及其關(guān)系,構(gòu)建金融領(lǐng)域人物關(guān)系圖譜,能夠?qū)鹑诨顒?dòng)進(jìn)行深度分析,可以幫助金融從業(yè)人員進(jìn)行合作伙伴選擇、人事任命等關(guān)鍵決策,對(duì)促進(jìn)金融活動(dòng)的順利完成具有重要意義。另外,伴隨著我國(guó)經(jīng)濟(jì)的快速發(fā)展,金融活動(dòng)的日益頻繁,經(jīng)濟(jì)犯罪也越來(lái)越難以發(fā)現(xiàn)與監(jiān)管,通過(guò)構(gòu)建金融行業(yè)人物關(guān)系圖譜,可以發(fā)現(xiàn)金融從業(yè)人員的校友、同事等社會(huì)關(guān)系,對(duì)預(yù)警潛在的金融活動(dòng)風(fēng)險(xiǎn),打擊經(jīng)濟(jì)犯罪活動(dòng)也具有重要意義。構(gòu)建金融領(lǐng)域人物關(guān)系圖譜關(guān)鍵是從非結(jié)構(gòu)化的金融公告中抽取出人員相關(guān)的實(shí)體、屬性以及事件,主要涉及到命名實(shí)體識(shí)別、關(guān)系抽取、事件抽取等子任務(wù)。

        近年來(lái),隨著計(jì)算能力的不斷提升,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)逐漸成為了命名實(shí)體識(shí)別的主流方法?;谏窠?jīng)網(wǎng)絡(luò)的方法將命名實(shí)體識(shí)別視作序列標(biāo)注任務(wù),搭建多層的神經(jīng)網(wǎng)絡(luò)模型,將文本中的單詞或者字符表示為詞向量,作為模型輸入,通過(guò)神經(jīng)網(wǎng)絡(luò)模型對(duì)單詞或字符進(jìn)行分類,抽取文本中的命名實(shí)體。常見(jiàn)的神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)等。Huang 等人提出了多種基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)的序列標(biāo)記模型,通過(guò)對(duì)比實(shí)驗(yàn)表明雙向LSTM 連接條件隨機(jī)場(chǎng)(conditional random field,CRF)模型可以達(dá)到較好的命名實(shí)體識(shí)別效果;Strubell 等人將空洞卷積(dilated convolutions)用于命名實(shí)體識(shí)別,加大感受野,提高了模型的訓(xùn)練和預(yù)測(cè)速度;預(yù)訓(xùn)練語(yǔ)言模型可以從大量無(wú)標(biāo)注文本中學(xué)到潛在的語(yǔ)義信息,為下游的自然語(yǔ)言處理任務(wù)提供更好的特征表示。BERT預(yù)訓(xùn)練語(yǔ)言模型在11 項(xiàng)自然語(yǔ)言處理任務(wù)上均取得了最好成績(jī),將BERT 應(yīng)用于命名實(shí)體識(shí)別任務(wù)能取得更好的效果。

        實(shí)體關(guān)系抽取指的是在實(shí)體識(shí)別的基礎(chǔ)上,從非結(jié)構(gòu)化文本中抽取出預(yù)先定義的實(shí)體關(guān)系。傳統(tǒng)的關(guān)系抽取是在一句話中發(fā)現(xiàn)實(shí)體之間的關(guān)系,大都沒(méi)有對(duì)關(guān)系的屬性做進(jìn)一步的抽取,且無(wú)法發(fā)現(xiàn)金融公告中跨文檔的人員之間的關(guān)系。人員作為一個(gè)實(shí)體,往往包含若干實(shí)體屬性(如出生日期、性別等),人員屬性的提取將人員與實(shí)體屬性建立關(guān)系,可以看作關(guān)系提取的一種特殊形式。目前從非結(jié)構(gòu)化人員文本中提取結(jié)構(gòu)化人員屬性的研究較少,Dib 等人使用描述人物的Wikipedia 數(shù)據(jù)作為語(yǔ)料輸入,通過(guò)分析句子依賴圖,輸出結(jié)構(gòu)化的只包含任職經(jīng)歷的人物簡(jiǎn)歷信息;Plum等人使用Wikipedia和Wikidata 作為數(shù)據(jù)源,提取滿足特定要求的人員信息,但涉及的人員屬性比較少。

        非結(jié)構(gòu)化的人員簡(jiǎn)歷文本中通常包含多個(gè)任職事件與教育事件,如何不依賴觸發(fā)詞且準(zhǔn)確地提取人員簡(jiǎn)歷的多個(gè)任職事件與教育事件是一個(gè)值得研究的問(wèn)題。現(xiàn)有的事件提取方法,通常是針對(duì)新聞等語(yǔ)料,大多依賴觸發(fā)詞來(lái)檢測(cè)某種類型的事件,然后提取相關(guān)的事件參數(shù),不適用于非結(jié)構(gòu)化人員簡(jiǎn)歷文本的情況。Zeng 等人提出可以通過(guò)事件中的關(guān)鍵參數(shù)來(lái)檢測(cè)事件類型的存在,不依賴觸發(fā)詞檢測(cè)事件并提取事件參數(shù),但是無(wú)法解決非結(jié)構(gòu)化人員簡(jiǎn)歷這種具有多個(gè)任職事件和教育事件的特殊情況。

        本文針對(duì)非結(jié)構(gòu)化人員簡(jiǎn)歷的特殊情況,通過(guò)研究一種填充層次化人員信息模板的方法,提取跨文檔的人員之間的關(guān)系,在非結(jié)構(gòu)化人員簡(jiǎn)歷文本中不依賴觸發(fā)詞提取多個(gè)任職經(jīng)歷與教育經(jīng)歷事件,提出一種基于BERT 的中文金融領(lǐng)域人物關(guān)系圖譜構(gòu)建框架,實(shí)驗(yàn)表明所提出的方法可以有效地解決非結(jié)構(gòu)化金融人員簡(jiǎn)歷文本的信息提取問(wèn)題,有效構(gòu)建金融領(lǐng)域人物關(guān)系圖譜。

        1 相關(guān)基礎(chǔ)

        BERT 是谷歌提出的一種預(yù)訓(xùn)練語(yǔ)言模型,在11項(xiàng)自然語(yǔ)言處理任務(wù)上均取得了最好成績(jī),是近年來(lái)自然語(yǔ)言處理領(lǐng)域取得的重大的進(jìn)展之一。

        BERT 是基于Transformer的深度雙向語(yǔ)言表征模型,利用Transformer 架構(gòu)構(gòu)造了一個(gè)多層雙向的編碼器(encoder)網(wǎng)絡(luò),基本結(jié)構(gòu)如圖1 所示,表示輸入的句子中每個(gè)詞的詞向量,Trm 表示Transformer編碼器,表示輸入句子的每個(gè)單詞的輸出的詞向量。

        圖1 BERT 模型結(jié)構(gòu)Fig.1 BERT model structure

        BERT 模型的輸入詞向量由三部分相加得到,這三部分分別是詞表征(token embedding)、段表征(segment embedding)、位置表征(position embedding)。詞表征表示當(dāng)前詞初始詞向量,通常是查表獲得;段表征表示當(dāng)前詞屬于哪個(gè)句子;位置表征表示當(dāng)前詞在句子中的位置索引。另外,句子的原始輸入需要添加[CLS]和[SEP]標(biāo)簽,[CLS]添加在開(kāi)頭,可以用來(lái)表征整個(gè)句子;[SEP]標(biāo)簽用于分隔兩個(gè)句子,表示句子結(jié)尾。

        BERT 預(yù)訓(xùn)練過(guò)程包含兩個(gè)不同的預(yù)訓(xùn)練任務(wù),分別是掩蓋語(yǔ)言模型(masked language model)和下一句預(yù)測(cè)(next sentence prediction)任務(wù)。掩蓋語(yǔ)言模型通過(guò)將某些詞統(tǒng)一替換為標(biāo)識(shí)符[MASK]的方式隨機(jī)遮蓋一些詞,然后通過(guò)被遮蓋的詞的上下文信息來(lái)預(yù)測(cè)這些被遮蓋的詞,這樣每個(gè)詞的向量表示能夠綜合參考上下文信息。下一句預(yù)測(cè)指的是預(yù)測(cè)某個(gè)句子是否是另一個(gè)句子的下一句。這樣便將句子之間的關(guān)系引入了模型,使得模型可以獲取句子之間的語(yǔ)義信息。

        BERT 模型完成預(yù)訓(xùn)練后,通過(guò)微調(diào)重新訓(xùn)練的方式,調(diào)整預(yù)訓(xùn)練過(guò)程中的模型參數(shù),使得模型更適用于下游任務(wù),從而獲得更好的效果。針對(duì)句子級(jí)別的分類任務(wù),取第一個(gè)標(biāo)簽[CLS]的輸出向量表示作為句子表示;對(duì)于字符級(jí)別的分類任務(wù),取所有字符的最后層transformer 輸出,送到softmax 層做分類即可。

        2 金融領(lǐng)域人物關(guān)系圖譜構(gòu)建框架

        利用BERT 預(yù)訓(xùn)練語(yǔ)言模型構(gòu)建金融領(lǐng)域人物關(guān)系圖譜,使用如圖2 所示人物關(guān)系圖譜構(gòu)建框架。該框架分為三部分:第一部分為人員屬性實(shí)體抽取,該部分使用BERT 模型從金融人員簡(jiǎn)歷文本中抽取出生日期、任職單位等人員屬性實(shí)體;第二部分為人員屬性關(guān)聯(lián),該部分通過(guò)定義并填充人員模板,將人員屬性名與人員屬性值關(guān)聯(lián)起來(lái),將相關(guān)的人員屬性值關(guān)聯(lián)起來(lái),構(gòu)成任職事件或教育事件;第三部分為人物關(guān)系圖譜構(gòu)建,該部分利用人員模板發(fā)現(xiàn)人員之間的關(guān)系,定義人物關(guān)系圖譜存儲(chǔ)模型,利用圖數(shù)據(jù)庫(kù)存儲(chǔ)人物關(guān)系圖譜。

        圖2 金融領(lǐng)域人物關(guān)系圖譜構(gòu)建框架Fig.2 Construction framework of financial personal relationship graphs

        2.1 基于BERT 的人員屬性實(shí)體抽取

        使用BERT 模型對(duì)非結(jié)構(gòu)化簡(jiǎn)歷文本中的人員屬性實(shí)體進(jìn)行抽取。模型由輸入層和24 個(gè)隱藏層構(gòu)成,最后一個(gè)隱藏層的輸出即為對(duì)應(yīng)的每個(gè)字符的向量表示,利用每個(gè)字符的向量表示,進(jìn)行人員屬性實(shí)體的分類。將字符的向量編碼輸入到線性分類器中,再經(jīng)過(guò)softmax 操作,得到每個(gè)字符對(duì)應(yīng)每個(gè)人員屬性標(biāo)簽的概率分布,選出對(duì)應(yīng)最大概率值的人員屬性標(biāo)簽,作為當(dāng)前字符的最終人員屬性標(biāo)簽分類。得到所有字符的模型預(yù)測(cè)人員屬性分類后,對(duì)預(yù)測(cè)結(jié)果進(jìn)行處理,得到非結(jié)構(gòu)化人員簡(jiǎn)歷文本中的人員屬性實(shí)體。

        2.2 基于BERT 的人員屬性關(guān)聯(lián)

        使用BERT 模型抽取出的人員屬性(如出生日期、人員職位、任職公司等)可能有多個(gè)候選值,需要確定某些人員屬性名唯一對(duì)應(yīng)的人員屬性值,從而將人員屬性名與人員屬性值關(guān)聯(lián)起來(lái)。另外,某些人員屬性值之間有關(guān)聯(lián)關(guān)系,有關(guān)聯(lián)關(guān)系的人員屬性值構(gòu)成了某個(gè)事件實(shí)例,比如任職時(shí)間、離職時(shí)間、任職單位、任職部門、職位等屬性值就構(gòu)成了任職事件實(shí)例,需要將相關(guān)屬性值正確關(guān)聯(lián)組合,識(shí)別篩選出正確的事件實(shí)例。通過(guò)BERT-Template 方法填充人員模板解決人員屬性關(guān)聯(lián)任務(wù)。人員模板由固定的鍵值(key-value)對(duì)組成,存儲(chǔ)為JSON 文件格式,以結(jié)構(gòu)化的形式描述人員實(shí)體,記錄人員的屬性信息。人員模板的鍵用來(lái)標(biāo)識(shí)人員的屬性,通常用字符串來(lái)表示;人員模板的值與某個(gè)鍵對(duì)應(yīng),可以是數(shù)組也可以是具體的值。將值為數(shù)組的鍵稱為人員模板的多值屬性,將值不是數(shù)組的鍵稱為人員模板的單值屬性。人員模板的單值屬性將人員屬性與人員屬性實(shí)體關(guān)聯(lián)起來(lái),對(duì)于人員模板單值屬性,采用了一定的策略進(jìn)行填充,通常選取單值屬性對(duì)應(yīng)的出現(xiàn)次數(shù)最多的人員屬性實(shí)體進(jìn)行填充。人員模板的多值屬性記錄了事件實(shí)例列表,將事件涉及的人員屬性實(shí)體關(guān)聯(lián)起來(lái)。

        完成人員屬性關(guān)聯(lián)任務(wù)最核心的是建立人員多值屬性實(shí)體之間的關(guān)聯(lián)。通過(guò)BERT-Template 方法填充人員模板多值屬性,完成人員多值屬性實(shí)體之間的關(guān)聯(lián),該方法通過(guò)獲取事件實(shí)例向量,對(duì)事件實(shí)例的真實(shí)性進(jìn)行分類判斷,從而不依賴觸發(fā)詞提取人員的多個(gè)教育經(jīng)歷與任職經(jīng)歷事件。事件實(shí)例分類的模型架構(gòu)如圖3 所示。在模型的輸入層,將包含事件實(shí)例的句子輸入到訓(xùn)練好的BERT 預(yù)訓(xùn)練模型中,獲取BERT 模型最后一個(gè)隱藏層的輸出,該隱藏層的輸出就是句子中每個(gè)字符的向量表示,通過(guò)人員屬性實(shí)體包含的字符在句子中的索引,將屬性實(shí)體中所有字符的向量進(jìn)行組合,可以獲得人員屬性實(shí)體對(duì)應(yīng)的字符向量組。

        圖3 事件分類模型架構(gòu)圖Fig.3 Structure diagram of event classification model

        在模型的融合層,使用每個(gè)屬性實(shí)體對(duì)應(yīng)的字符向量組生成事件實(shí)例向量。事件實(shí)例向量的生成方式如式(1)、式(2)所示。

        式中,表示最終的事件實(shí)例向量,V表示事件中的人員屬性實(shí)體向量,ev表示人員屬性實(shí)體的字符向量組,MaxPooling 表示最大池化操作,⊕表示向量的拼接操作。首先,對(duì)人員屬性實(shí)體的字符向量組進(jìn)行最大池化操作(MaxPooling),獲取到向量組中向量的每一維的最大值,然后將每一維的最大值組合成新的向量,作為人員屬性實(shí)體向量,記為V;對(duì)當(dāng)前事件實(shí)例所有的人員屬性實(shí)體的字符向量組進(jìn)行最大池化操作,就得到了當(dāng)前事件實(shí)例所有的人員屬性實(shí)體向量{,,…,V,…,V},將所有的人員屬性實(shí)體向量進(jìn)行拼接操作,得到最終的事件實(shí)例向量。

        最后是模型的輸出層,在輸出層將事件實(shí)例向量送入到全連接網(wǎng)絡(luò)進(jìn)行分類,判斷是否是真實(shí)的事件實(shí)例。

        2.3 人物關(guān)系圖譜構(gòu)建

        人員模板中包含了單值人員屬性以及多值人員屬性構(gòu)成的事件實(shí)例列表??梢岳脤哟位娜藛T模板,發(fā)現(xiàn)人員實(shí)體之間的關(guān)系。

        人員模板的某一個(gè)多值屬性可以記為={,,…,e,…,e|≥0},其中e表示人員多值屬性,記為e={,,…,t,…,t|≥2},其中t為人員屬性值。人員模板與人員模板中的同一種多值屬性分別記為_(kāi)、_,人員模板與中的某種人員屬性實(shí)體分別記為t、t,如果滿足{t=t|(te∈_)∧(te∈_)}≠?,則可以認(rèn)為人員模板與人員模板在人員多值屬性e上存在共現(xiàn)關(guān)系,即人員與人員具有某種關(guān)系。當(dāng)e為畢業(yè)院校時(shí),認(rèn)為人員與具有校友關(guān)系(alumnus);當(dāng)e為任職單位時(shí),認(rèn)為人員與人員具有同事關(guān)系(colleague)。

        將人員實(shí)體映射為Neo4j 圖數(shù)據(jù)庫(kù)中的Person節(jié)點(diǎn),將人員的單值屬性及其對(duì)應(yīng)的人員屬性實(shí)體映射為Neo4j 圖數(shù)據(jù)庫(kù)中的Person 節(jié)點(diǎn)的屬性鍵值對(duì),將人員實(shí)體之間的同事關(guān)系和校友關(guān)系映射為Neo4j圖數(shù)據(jù)庫(kù)中的邊。

        定義好人物關(guān)系圖譜在圖數(shù)據(jù)庫(kù)中的數(shù)據(jù)模型后,將人員模板中的信息以及3.3 節(jié)發(fā)現(xiàn)的人物關(guān)系,存儲(chǔ)到Neo4j數(shù)據(jù)庫(kù)中。

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        目前在中文金融領(lǐng)域尚無(wú)公開(kāi)的人員簡(jiǎn)歷文本數(shù)據(jù)集,本文從網(wǎng)絡(luò)上爬取了上市公司年報(bào)、招股說(shuō)明書(shū)以及公司官網(wǎng)上的文檔,獲取了金融公告中的非結(jié)構(gòu)化人員簡(jiǎn)歷文本信息,并通過(guò)人工標(biāo)注的方式,對(duì)非結(jié)構(gòu)化人員簡(jiǎn)歷文本信息,進(jìn)行人員屬性實(shí)體相關(guān)的BIO(B-begin,I-inside,O-outside)標(biāo)注,人員屬性實(shí)體標(biāo)注數(shù)據(jù)集的基本信息如表1 所示。

        表1 人員屬性實(shí)體標(biāo)注數(shù)據(jù)集信息Table 1 Information of personnel attribute entity labeling dataset

        通過(guò)人工的方式構(gòu)筑層次化的人員模板,邀請(qǐng)多位金融領(lǐng)域?qū)<覍?duì)生成的數(shù)據(jù)集進(jìn)行校對(duì)修改,保證了數(shù)據(jù)集準(zhǔn)確性。人工構(gòu)建的層次化人員模板數(shù)據(jù)集的基本信息如表2 所示。

        表2 層次化人員模板數(shù)據(jù)集信息Table 2 Information of hierarchical personnel templates dataset

        3.2 超參數(shù)設(shè)置

        本文使用albert_large_zh 為基礎(chǔ)模型,該模型由24 個(gè)Transformer 編碼器構(gòu)成,每個(gè)Transformer 編碼器包含16 個(gè)注意力頭,詞向量的維度為1 024。

        在微調(diào)訓(xùn)練階段,本文設(shè)置批處理大小32,對(duì)應(yīng)的學(xué)習(xí)率設(shè)置為2E-5,預(yù)熱率為0.1,句子的最大長(zhǎng)度設(shè)置為128,對(duì)數(shù)據(jù)集迭代6 次,在一塊RTX2080Ti上使用adam 優(yōu)化器訓(xùn)練。

        3.3 人員屬性實(shí)體抽取實(shí)驗(yàn)與結(jié)果分析

        本文使用查準(zhǔn)率()、查全率()和1 值作為人員屬性實(shí)體抽取的評(píng)價(jià)指標(biāo),分別與基于啟發(fā)式規(guī)則的方法、經(jīng)典的BiLSTM-CRF方法進(jìn)行對(duì)比?;趩l(fā)式規(guī)則的方法,通過(guò)人工編寫一些模板或正則表達(dá)式,對(duì)文本中的屬性實(shí)體進(jìn)行抽取。人員屬性實(shí)體抽取實(shí)驗(yàn)結(jié)果如表3 所示。

        表3 人員屬性實(shí)體抽取實(shí)驗(yàn)結(jié)果Table 3 Experimental results of personnel attribute entity extraction

        由表3 可以看出,基于BERT 的人員屬性實(shí)體提取方法與基于BiLSTM-CRF 的方法在查準(zhǔn)率、查全率以及1 值三個(gè)評(píng)價(jià)指標(biāo)上均超過(guò)了0.900 0。相對(duì)于基于BiLSTM-CRF 的方法,基于BERT 的人員屬性實(shí)體提取方法在查準(zhǔn)率、查全率以及1 值三個(gè)評(píng)價(jià)指標(biāo)上,均取得了最優(yōu)的效果?;趩l(fā)式規(guī)則的方法依賴于人工編寫規(guī)則,而規(guī)則很難覆蓋所有的情況,查準(zhǔn)率、查全率與1 值和另外兩種方法相比,效果最差。

        3.4 人員屬性關(guān)聯(lián)方法實(shí)驗(yàn)與結(jié)果分析

        從非結(jié)構(gòu)化的文本中抽取出人員屬性實(shí)體后,通過(guò)BERT-Template 方法構(gòu)造層次化的人員模板,從而完成人員屬性關(guān)聯(lián)。將訓(xùn)練數(shù)據(jù)按照9∶1 的比例劃分為訓(xùn)練集與測(cè)試集,使用訓(xùn)練集進(jìn)行8 000 次迭代訓(xùn)練,訓(xùn)練過(guò)程中使用測(cè)試集測(cè)試模型。將BiLSTM-CRF 模型替換BERT 模型作為對(duì)比實(shí)驗(yàn),教育經(jīng)歷事件實(shí)例與任職經(jīng)歷事件實(shí)例最終分類的結(jié)果評(píng)價(jià)指標(biāo)如表4 所示,其中正確率()的計(jì)算方式如式(3)所示,其中表示被正確分類為某一類的樣本數(shù),表示將其他類的樣本錯(cuò)誤地分類成當(dāng)前類樣本的樣本數(shù),表示將當(dāng)前類樣本錯(cuò)誤地分類成其他類樣本的樣本數(shù),表示將負(fù)類預(yù)測(cè)為負(fù)類數(shù)的數(shù)量。

        表4 事件分類結(jié)果Table 4 Event classification results

        在任職經(jīng)歷和教育經(jīng)歷事件真假分類上,BERTTemplate 方法比BiLSTM-CRF 方法的1 值分別高了0.03 與0.03。綜合來(lái)看,BERT-Template方法更優(yōu)。

        3.5 人物關(guān)系圖譜構(gòu)建評(píng)估

        得到層次化的人員模板后,對(duì)人員模板之間的同事關(guān)系以及校友關(guān)系進(jìn)行發(fā)現(xiàn)和抽取。使用抽取到的人員關(guān)系與人員模板信息構(gòu)建知識(shí)圖譜,存儲(chǔ)到Neo4j 圖數(shù)據(jù)庫(kù)中。分別使用人工啟發(fā)式規(guī)則、BERT-Template 方法和BiLSTM-CRF 方法構(gòu)建的層次化人員模板進(jìn)行人物關(guān)系的發(fā)現(xiàn)和抽取,與人工構(gòu)建的準(zhǔn)確的層次化人員模板進(jìn)行人員關(guān)系發(fā)現(xiàn)和抽取得到的結(jié)果進(jìn)行對(duì)比。對(duì)比結(jié)果如表5 所示。

        表5 人員實(shí)體關(guān)系發(fā)現(xiàn)與抽取實(shí)驗(yàn)結(jié)果Table 5 Experiment results of personnel entity relationship discovery and extraction

        表5 中通過(guò)BERT-Template 方法,在基于BERT預(yù)訓(xùn)練模型構(gòu)建的層次化人員模板的基礎(chǔ)上進(jìn)行人物關(guān)系的發(fā)現(xiàn)和抽取,與BiLSTM-CRF 方法相比,在同事關(guān)系與校友關(guān)系上,查準(zhǔn)率分別提升了0.02 與0.03,1 值均提升了0.02;與啟發(fā)式規(guī)則方法相比,在同事關(guān)系與校友關(guān)系上,查準(zhǔn)率分別提升了0.07 與0.23,1 值分別提升了0.07 與0.22。綜合來(lái)看,BERT-Template方法能取得較好的效果。

        4 結(jié)束語(yǔ)

        本文研究中文金融領(lǐng)域人物關(guān)系圖譜構(gòu)建方法,提出一種金融領(lǐng)域人物關(guān)系圖譜構(gòu)建框架,旨在解決現(xiàn)有的人員簡(jiǎn)歷信息抽取方法存在的分散文本中的人物屬性及其關(guān)系的發(fā)現(xiàn)與提取問(wèn)題、非結(jié)構(gòu)化人員簡(jiǎn)歷文本中人員屬性的抽取以及關(guān)聯(lián)問(wèn)題。使用BERT 模型,準(zhǔn)確抽取出人員屬性實(shí)體,利用微調(diào)訓(xùn)練好的BERT 模型對(duì)事件實(shí)例向量分類,構(gòu)造層次化的人員信息模板,解決人員屬性關(guān)聯(lián)問(wèn)題,最終通過(guò)填充好的人員信息模板,更加方便準(zhǔn)確地提取人員關(guān)系,構(gòu)建人物關(guān)系圖譜。實(shí)驗(yàn)表明了該金融領(lǐng)域人物關(guān)系圖譜構(gòu)建框架的有效性。本框架依賴于人工標(biāo)注的數(shù)據(jù)集,下一步考慮使用弱監(jiān)督學(xué)習(xí)的方法,進(jìn)一步地?cái)U(kuò)充數(shù)據(jù)集,減少人工構(gòu)建數(shù)據(jù)集的工作量。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        中文字幕亚洲一二三区| 久久综合网天天 | 久久久99精品视频| 日本办公室三级在线观看| 色婷婷一区二区三区四区成人网| 国产精品18久久久久久麻辣| 精品亚洲午夜久久久久| 国产大片在线观看91| 久久青青草原国产毛片| 麻豆久久久9性大片| 国产高清吃奶成免费视频网站| 国产精品黄色av网站| 久久成人国产精品一区二区| 人妻暴雨中被强制侵犯在线| 午夜短无码| 蜜桃视频成年人在线观看| 美女视频黄是免费| 东北寡妇特级毛片免费| 亚洲色偷拍一区二区三区 | 99精品久久精品一区二区| 粗大的内捧猛烈进出在线视频| 国产精品亚洲美女av网站| 激情五月开心五月麻豆| 天天鲁在视频在线观看| 国内精品久久久久影院优| 国产精品一区又黄又粗又猛又爽| 18禁止进入1000部高潮网站| 欧美日韩一区二区三区自拍| 国产精品18久久久久久首页| 高清不卡av一区二区| 激烈的性高湖波多野结衣| 99热这里只有精品3| 91国语对白在线观看| 在线免费观看亚洲天堂av| 国产免费二区三区视频| 精品淑女少妇av久久免费| 久久久久久99精品| 亚洲无毛成人在线视频| 无码aⅴ免费中文字幕久久| 久久精品国产99精品九九| 亚洲精品av一区二区日韩|