周映彤,孟 劍,郭 巖,劉 悅,賀廣福,董 琳,程學(xué)旗
(1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)實(shí)驗(yàn)室,北京 100190;2. 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100029)
金融公告中關(guān)鍵數(shù)據(jù)的抽取,在量化分析、信用評(píng)估、風(fēng)險(xiǎn)控制、工程建模、運(yùn)營(yíng)管理和企業(yè)違規(guī)監(jiān)察等應(yīng)用中都具有一定的實(shí)用價(jià)值,如圖1所示[1]。近年互聯(lián)網(wǎng)金融信息服務(wù)規(guī)模保持年平均增長(zhǎng)率在30%以上,金融公告信息量正在隨著金融市場(chǎng)迅猛發(fā)展而爆發(fā),而公告文本語(yǔ)言的多樣性提高了人工進(jìn)行信息抽取的代價(jià)。因此,研究金融公告的信息抽取技術(shù)具有重要的理論和現(xiàn)實(shí)意義。
圖1 中國(guó)量化金融行業(yè)白皮書(shū)節(jié)選
從文本結(jié)構(gòu)的維度,我們將公告分為半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)兩類。本文重點(diǎn)研究無(wú)結(jié)構(gòu)金融公告中的多元關(guān)系抽取技術(shù)。
金融公告具有依法強(qiáng)制披露屬性,上市公司需要進(jìn)行指定類別公告的定期披露,每條金融公告都具有明確標(biāo)識(shí)的業(yè)務(wù)類別,因此本文根據(jù)表1將金融公告進(jìn)行分類具有合理性。
表1 金融公告分類及抽取字段
無(wú)結(jié)構(gòu)公告文本結(jié)構(gòu)自由,屬于純文本格式的自然語(yǔ)言文本。相比較其他公告文本,其主要特點(diǎn)在于實(shí)體間關(guān)系涉及比較復(fù)雜的財(cái)務(wù)關(guān)系,即實(shí)體間的多元關(guān)系。例如,圖2所示的無(wú)結(jié)構(gòu)金融公告中,要抽取的是“A、B、C”三個(gè)字段,屬于一組多元關(guān)系。
圖2 無(wú)結(jié)構(gòu)金融公告抽取中多元關(guān)系示例
1.1.1監(jiān)督學(xué)習(xí)方法
在基于依存語(yǔ)法分析樹(shù)方面,人們提出了多種基于核函數(shù)的實(shí)體關(guān)系抽取方法,包括依存樹(shù)核函數(shù)方法、最短路徑依存樹(shù)核函數(shù)方法、卷積樹(shù)核函數(shù)方法以及它們的組合核函數(shù)方法。
Zelenko[2]等利用淺層句法分析結(jié)果,用連接實(shí)體對(duì)的最小公共子樹(shù)表征關(guān)系實(shí)例,通過(guò)計(jì)算兩棵子樹(shù)之間的核函數(shù),訓(xùn)練SVM等分類器,在較小的新聞?wù)Z料庫(kù)中取得了較好的關(guān)系抽取效果。Culotta[3]等改進(jìn)Zelenko等的方法,利用依存關(guān)系句法樹(shù)表示關(guān)系實(shí)例。添加詞性、實(shí)體類型等特征,并在相似度計(jì)算時(shí)加入嚴(yán)格的匹配約束。Bunescu[4]等對(duì)其做進(jìn)一步改進(jìn),提出了實(shí)體對(duì)最短依存路徑核函數(shù),比較最短依存路徑上相同節(jié)點(diǎn)的個(gè)數(shù),計(jì)算核函數(shù),但同樣召回率較低。
為了解決上述問(wèn)題,在基于依存語(yǔ)法分析樹(shù)的關(guān)系抽取任務(wù)中,研究人員引入了卷積核函數(shù)。卷積核函數(shù)通過(guò)統(tǒng)計(jì)離散結(jié)構(gòu)之間相同子結(jié)構(gòu)的數(shù)目,計(jì)算兩者的相似度。黃瑞紅[5]等研究了卷積核方法對(duì)中文關(guān)系抽取的有效性,發(fā)現(xiàn)僅依靠最短依存路徑核難以提高中文的實(shí)體關(guān)系抽取效果。Zhang[6]等和Zhou[7]等利用實(shí)體對(duì)最短路徑樹(shù),加入語(yǔ)義關(guān)系的不同層面特征,并綜合考慮謂語(yǔ)上下文信息,利用了卷積樹(shù)核函數(shù)的方法。Qian[8]等利用實(shí)體對(duì)的動(dòng)態(tài)依存關(guān)系樹(shù)。莊成龍[9]等在加入語(yǔ)義信息之外,對(duì)最短路徑樹(shù)進(jìn)行裁剪,去掉修飾語(yǔ)冗余和并列冗余信息。虞歡歡[10]等結(jié)合關(guān)系實(shí)例的結(jié)構(gòu)化信息與實(shí)體語(yǔ)義信息,構(gòu)造出二合一句法和實(shí)體語(yǔ)義關(guān)系樹(shù)。
1.1.2 無(wú)監(jiān)督方法
Hasegawa[11]等通過(guò)將命名實(shí)體對(duì)之間的文本進(jìn)行聚類,用聚類結(jié)果表示關(guān)系類別,使用聚類集合中詞頻最高的詞作為關(guān)系描述詞。在大規(guī)模新聞?wù)Z料上的實(shí)驗(yàn)證明其方法可行。Stevenson[12]引入WordNet語(yǔ)義詞典,改善了關(guān)系抽取模板聚類時(shí)的相似度計(jì)算過(guò)程。Zhang[13]等利用淺層句法樹(shù)表示關(guān)系實(shí)例,通過(guò)計(jì)算句法樹(shù)之間的相似度,利用層次聚類算法進(jìn)行聚類,該方法兼顧了低頻實(shí)體對(duì)之間可能存在的語(yǔ)義關(guān)系。Rosenfeld[14]等提出將關(guān)系特征和實(shí)體特征有效結(jié)合的方法。
針對(duì)無(wú)結(jié)構(gòu)金融公告信息抽取任務(wù),已有算法存在以下不足:
(1) 已有方法主要抽取三元組,而金融公告中的關(guān)鍵信息多具有復(fù)雜的財(cái)務(wù)關(guān)系,本質(zhì)是實(shí)體間的多元關(guān)系,相關(guān)研究還不成熟,往往需要結(jié)合上下文間關(guān)聯(lián)。
(2) 現(xiàn)有的開(kāi)放式信息抽取系統(tǒng)在金融公告垂直域應(yīng)用不成熟。金融公告抽取的特定任務(wù),已有研究缺少垂直域的優(yōu)化,沒(méi)有成熟的針對(duì)中文金融公告信息抽取的方法。
(3) 關(guān)系抽取多以動(dòng)詞為核心,這樣會(huì)遺漏以實(shí)體名詞等為核心的關(guān)系,而無(wú)結(jié)構(gòu)金融公告中這一類關(guān)系很常見(jiàn),導(dǎo)致召回率下降。
針對(duì)垂直域多元關(guān)系抽取任務(wù)面臨的挑戰(zhàn),本文重點(diǎn)研究并設(shè)計(jì)了無(wú)結(jié)構(gòu)金融公告中多元關(guān)系抽取算法TextMining和模型FTA-GCN。
基于依存關(guān)系樹(shù)頻繁子樹(shù)挖掘的TextMining算法,主要通過(guò)頻繁子樹(shù)挖掘和子樹(shù)拓展,有效提取無(wú)結(jié)構(gòu)金融公告中的多元關(guān)系,并且無(wú)監(jiān)督學(xué)習(xí)算法可以有效降低對(duì)標(biāo)注數(shù)據(jù)集的依賴,但該算法召回率偏低。
依存句法分析樹(shù)的結(jié)構(gòu)信息為關(guān)聯(lián)型信息,為了解決TextMining多元關(guān)系抽取召回率偏低的問(wèn)題,本文融合TextMining算法和多頭自注意力引導(dǎo)圖卷積編碼,提出多元關(guān)系抽取模型FTA-GCN,使得TextMining得到的頻繁子樹(shù)結(jié)構(gòu)信息被有效利用,在Attention層融合,提高召回率和金融公告多元關(guān)系抽取中非動(dòng)詞實(shí)體的關(guān)注度。
本文將頻繁子樹(shù)挖掘拓展算法、注意力引導(dǎo)圖卷積模型等引入到金融公告多元關(guān)系抽取任務(wù)中,并在構(gòu)建的金融公告集上做一定垂直域優(yōu)化。在多元關(guān)系抽取的正確率上,F(xiàn)TA-GCN算法較傳統(tǒng)GCN方法[15]提升了約8%左右。
垂直域優(yōu)化主要是針對(duì)金融公告多元關(guān)系抽取任務(wù)中名詞實(shí)體繁多的現(xiàn)象,本文使用較為成熟的金融實(shí)體識(shí)別和實(shí)體消歧方法來(lái)解決繁多名詞實(shí)體帶來(lái)的混淆問(wèn)題。相比開(kāi)放式抽取,垂直域模型抽取效果具有較大優(yōu)勢(shì)。
2.2.1 金融實(shí)體識(shí)別
本文整理的金融實(shí)體名稱詞典比較詳盡。對(duì)比了幾款實(shí)體識(shí)別模型,選擇在開(kāi)源HanLP工具(1)HanLP詞性標(biāo)注: 參照https://www.hankcs.com/nlp/part-of-speech-tagging.html#h2-8.提供的網(wǎng)絡(luò)模型上,加入金融實(shí)體詞典數(shù)據(jù),同時(shí)開(kāi)啟人名、地名、專有名詞的詞典增強(qiáng)模式,進(jìn)行實(shí)體識(shí)別垂直域優(yōu)化,有效地改善了抽取效果。數(shù)據(jù)集樣例如圖3所示。
圖3 整合的金融實(shí)體集
2.2.2 實(shí)體消歧
實(shí)驗(yàn)選擇使用基于檢索的實(shí)體消歧方法,使用圖3中金融實(shí)體集中實(shí)體的分組聚類來(lái)拓展檢索,加強(qiáng)了實(shí)體消歧效果,特別體現(xiàn)在簡(jiǎn)稱、全稱消歧方面。在實(shí)體較多且易產(chǎn)生混淆的公告文本中,這種建立在成熟方案上的垂直域優(yōu)化方法具有適用性。
金融公告數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)清理、詞性標(biāo)注、金融實(shí)體識(shí)別、實(shí)體消歧、構(gòu)建依存句法分析樹(shù)幾個(gè)主要步驟得到依存句法分析樹(shù)。TextMining算法基于依存分析樹(shù)進(jìn)行頻繁子樹(shù)挖掘[16]和拓展,完成金融公告中的多元關(guān)系抽取。
2.3.1 子樹(shù)挖掘算法改進(jìn)
TextMining頻繁子樹(shù)挖掘算法,首先由句子形成依存句法分析樹(shù)(Treebank 1.0標(biāo)簽集(2)Treebank 1.0標(biāo)簽集: 參照https://www.hankcs.com/nlp/parsing/neural-network-based-dependency-parser.html.,15類),樹(shù)結(jié)構(gòu)可以有效利用圖結(jié)構(gòu)的各種分析算法。參考自gSpan[16]的FTGen頻繁子樹(shù)挖掘算法,生成超過(guò)最低支持度(出現(xiàn)頻率)的子樹(shù)結(jié)構(gòu)。TextMining主要改進(jìn)點(diǎn)是通過(guò)頻繁子樹(shù)依賴路徑的拓展來(lái)獲取更加準(zhǔn)確的包含抽取的多元關(guān)系的節(jié)點(diǎn)信息。頻繁子樹(shù)挖掘本身是一種無(wú)監(jiān)督學(xué)習(xí)算法,可以有效降低對(duì)標(biāo)注數(shù)據(jù)集的依賴,但該算法有召回率偏低的問(wèn)題。通過(guò)子樹(shù)的拓展和調(diào)整可以有效改善抽取效果。FTGen算法描述如下:
FTGen(Frequent subtree Generation)算法第一步判斷要擴(kuò)展的頻繁子樹(shù)是否為全樹(shù)最小深度遍歷編碼,以避免對(duì)重復(fù)生成的子樹(shù)做擴(kuò)展。第二步對(duì)頻繁邊集中的每條邊進(jìn)行擴(kuò)展判斷。第三步將已提取的邊從邊集中去掉,減小需要擴(kuò)展的邊集,第四步判斷當(dāng)前提取的邊是否為樹(shù)邊,如果是,將其加入到頻繁子樹(shù)t中。第五步判斷在頻繁子樹(shù)T中是否存在t的同構(gòu)子樹(shù)。如果不存在,將t加入到結(jié)果集T中。第六步對(duì)擴(kuò)展后的t遞歸執(zhí)行FTGen以得到全部頻繁子樹(shù)。
利用輸入句子的依存分析的模型,或者基于依存關(guān)系的模型,在關(guān)系抽取中被證明是有效的,因?yàn)橐来鏄?shù)提供了可以在關(guān)系抽取中利用的豐富結(jié)構(gòu),其能夠捕獲字面形式上比較模糊的遠(yuǎn)距離句法關(guān)系(例如,從句比較長(zhǎng)或有復(fù)雜的范圍限定的情況)。但是與關(guān)系相關(guān)的大多數(shù)信息通常包含在以兩個(gè)實(shí)體的共同所在的公共子樹(shù)內(nèi)。并且之前的研究已經(jīng)表明,通過(guò)消除句子中的無(wú)關(guān)信息,移除此范圍之外的詞有助于關(guān)系抽取,因此出現(xiàn)了以下兩方面問(wèn)題:
(1) 直接在解析樹(shù)上進(jìn)行操作的模型通常很難并行化,因此計(jì)算效率很低,因?yàn)閷?shù)對(duì)齊并進(jìn)行有效的批處理訓(xùn)練通常是非常重要的。
(2) 基于主語(yǔ)和賓語(yǔ)之間最短依賴路徑的模型計(jì)算效率更高,但這種簡(jiǎn)化的假設(shè)也有很大的局限性。當(dāng)模型僅考慮依賴路徑時(shí),一些關(guān)鍵信息(比如: 否定關(guān)系)將被丟失。
因此本文希望通過(guò)TextMining頻繁子樹(shù)挖掘算法作為移除句子中無(wú)關(guān)信息的一種新的方式。然而,過(guò)于激進(jìn)的“剪枝”(例如,僅保留一定高頻率的頻繁子樹(shù))可能導(dǎo)致關(guān)鍵信息的丟失。本文設(shè)計(jì)以頻繁子樹(shù)為中心點(diǎn)的依賴路徑拓展技術(shù),保留依存分析樹(shù)中到頻繁子樹(shù)距離為K以內(nèi)的節(jié)點(diǎn)。K=0,表示僅保留頻繁子樹(shù)即可;K=1,表示保留直接相連的節(jié)點(diǎn);K=∞,表示保留頻繁子樹(shù)所在的整個(gè)LCA子樹(shù)。
這種修剪和拓展策略區(qū)別于LCA剪枝、最短依賴路徑剪枝,有適應(yīng)于依存樹(shù)多元關(guān)系抽取的獨(dú)特優(yōu)勢(shì)。實(shí)驗(yàn)證明,用K=1進(jìn)行剪枝可以實(shí)現(xiàn)保留相關(guān)信息(如否定和連接)和盡可能多地去除無(wú)關(guān)內(nèi)容之間的最佳平衡。
本文提出了融合TextMining子樹(shù)挖掘和注意力圖卷積模型的FTA-GCN算法,充分利用TextMining得到的頻繁子圖節(jié)點(diǎn)信息,有效提高多元關(guān)系抽取中對(duì)非動(dòng)詞實(shí)體的抽取效果。
2.4.1 圖卷積模型改進(jìn)
現(xiàn)有的GCN模型[15]在編碼依存關(guān)系前將全依賴樹(shù)剪枝為子樹(shù),子樹(shù)中不存在的邊在鄰接矩陣中對(duì)應(yīng)的元素直接賦值為0。這種方法雖然降低了不相關(guān)信息的干擾,但一定程度上消除了原始的全依賴樹(shù)中的信息。本節(jié)的Attention引導(dǎo)層實(shí)現(xiàn)的模型直接把整棵依賴樹(shù)作為輸入,可以改善這一問(wèn)題,如圖4所示。
圖4 Attention引導(dǎo)層訓(xùn)練過(guò)程
(1)
抽取模型如圖5所示,改進(jìn)包括: 每個(gè)執(zhí)行模塊都包括Attention引導(dǎo)層、密集連接層和線性組合層。密集連接層通過(guò)有效增加模型深度,能夠捕捉其豐富的局部和非局部信息,得到更佳的圖表征,結(jié)構(gòu)如圖6所示。
圖5 改進(jìn)的圖卷積模型
圖6 密集連接層(子層層數(shù)為3)
(2)
最后,通過(guò)線性組合將N個(gè)分離的密集連接層的輸出向量組合成式(4)的hcomb以及每個(gè)實(shí)體的組合表達(dá)hei,he2,…,hei,參考現(xiàn)有GCN方法[15]中的前饋神經(jīng)網(wǎng)絡(luò)分類器FFNN進(jìn)行分類訓(xùn)練和關(guān)系抽取。
金融公告多元關(guān)系抽取任務(wù)中實(shí)現(xiàn)的依存關(guān)系樹(shù)“軟修剪”方法,通過(guò)網(wǎng)絡(luò)微調(diào)和參數(shù)優(yōu)化,自主實(shí)現(xiàn)的模型能夠更好地利用全依賴樹(shù)的結(jié)構(gòu)信息,尤其是非直接相連的邊、間接的多跳路徑連接的信息,有效捕捉這些關(guān)聯(lián)較弱的復(fù)雜多元關(guān)系,抽取結(jié)果優(yōu)于現(xiàn)有的GCN方法。
2.4.2 FTA-GCN融合算法
TextMining提供了豐富且準(zhǔn)確的多元關(guān)系節(jié)點(diǎn)信息,為了更有效地利用這部分結(jié)構(gòu)信息,本文進(jìn)一步探索依存分析樹(shù)結(jié)構(gòu),提出FTA-GCN算法。該算法融合了TextMining和改進(jìn)的注意力圖卷積模型,充分利用TextMining得到的頻繁子圖拓展節(jié)點(diǎn)信息,將頻繁子圖結(jié)構(gòu)信息融合進(jìn)表達(dá)矩陣,自主優(yōu)化表達(dá)結(jié)構(gòu),輸入圖卷積網(wǎng)絡(luò)進(jìn)行訓(xùn)練和分類。由于圖卷積的抽取效果高度依賴于正確的解析樹(shù)輸入,這種融合做法對(duì)抽取效果的提高有較大幫助。
圖7 FTA-GCN Attention層融合
實(shí)驗(yàn)所用數(shù)據(jù)集情況和分類表如表2所示。
表2 實(shí)驗(yàn)數(shù)據(jù)集分類
數(shù)據(jù)集來(lái)源是分類爬取官方披露網(wǎng)站的公告,其中,PubMed是公開(kāi)的多元關(guān)系數(shù)據(jù)集(醫(yī)藥類)。進(jìn)行數(shù)據(jù)預(yù)處理、格式轉(zhuǎn)換,為垂直域金融數(shù)據(jù)分析提供了可供訓(xùn)練的數(shù)據(jù)集參考。
在無(wú)結(jié)構(gòu)金融公告的文本抽取實(shí)驗(yàn)中,一般抽取到的是交叉句子,且包含n元關(guān)系。本文要解決的關(guān)鍵問(wèn)題是多元關(guān)系抽取。因此,為了更客觀地評(píng)價(jià)抽取效果,本文設(shè)計(jì)了多元關(guān)系正確率的評(píng)價(jià)指標(biāo)。
正確率判定方法: 抽取屬性值中25%以上為正例,則判斷這一組多元關(guān)系抽取準(zhǔn)確,為正例。
多元關(guān)系覆蓋率: 在為抽取準(zhǔn)確的多元關(guān)系組中,抽取屬性值為正例的占全部抽取屬性值的百分比。
無(wú)結(jié)構(gòu)抽取實(shí)驗(yàn)流程圖如圖8所示。
圖8 無(wú)結(jié)構(gòu)抽取實(shí)驗(yàn)流程圖
實(shí)驗(yàn)1: 實(shí)體識(shí)別垂直域優(yōu)化
實(shí)驗(yàn)對(duì)比了加入金融實(shí)體數(shù)據(jù)集進(jìn)行垂直域優(yōu)化后抽取結(jié)果的變化,如表3所示。
表3 實(shí)體識(shí)別垂直域優(yōu)化
結(jié)果分析: 可見(jiàn)本文構(gòu)建的整合的金融實(shí)體優(yōu)化數(shù)據(jù)集可以一定程度上做到垂直域優(yōu)化,提高公告文本抽取的正確率、召回率,這種基于上市公司名分組的拓展,加強(qiáng)了檢索模型的實(shí)體鏈接,在金融公告這一類實(shí)體較多的文本中,垂直域優(yōu)化效果體現(xiàn)得比較強(qiáng)。
實(shí)驗(yàn)2: 實(shí)體消歧方法垂直域優(yōu)化
實(shí)驗(yàn)對(duì)比了不同的金融實(shí)體消歧方法對(duì)抽取效果的影響,在自建金融公告數(shù)據(jù)集中進(jìn)行對(duì)比驗(yàn)證實(shí)驗(yàn),結(jié)果如圖9所示。
圖9 金融實(shí)體消歧方法垂直域優(yōu)化
結(jié)果分析: 綜合表3和圖9可見(jiàn)無(wú)結(jié)構(gòu)金融公告抽取算法的垂直域優(yōu)化效果,只采用分詞和詞性標(biāo)注組件進(jìn)行訓(xùn)練時(shí),因金融實(shí)體間關(guān)系復(fù)雜,抽取效果不是很好。
實(shí)驗(yàn)3: 詞向量嵌入方法影響
實(shí)驗(yàn)對(duì)比了不同方法的詞向量嵌入效果,如表4所示。
表4 詞向量嵌入方法對(duì)比
結(jié)果分析: 綜合實(shí)驗(yàn)數(shù)據(jù)來(lái)看,選用GloVe[21]300維詞嵌入可以最好地呈現(xiàn)設(shè)計(jì)模型的抽取效果,能有效地利用全局的先驗(yàn)統(tǒng)計(jì)信息和上下文詞的相對(duì)權(quán)重信息。
實(shí)驗(yàn)4: 頻繁子樹(shù)拓展策略對(duì)比
驗(yàn)證TextMining頻繁子樹(shù)挖掘算法拓展策略的優(yōu)化,選擇FTA-GCN的模型進(jìn)行,通過(guò)調(diào)整TextMining融合到輸入鄰接矩陣的頻繁子樹(shù)節(jié)點(diǎn)信息來(lái)驗(yàn)證對(duì)比結(jié)果。分為頻繁子樹(shù)按依賴路徑K值拓展、頻繁子樹(shù)LCA整數(shù)和全依存樹(shù)不進(jìn)行子樹(shù)挖掘幾個(gè)對(duì)照組,結(jié)果如圖10所示。
圖10 頻繁子樹(shù)拓展策略對(duì)比
結(jié)果分析: 基于頻繁子樹(shù)拓展策略的調(diào)優(yōu),符合前面設(shè)計(jì)部分的分析,在頻繁子樹(shù)依賴路徑拓展K值為1時(shí),達(dá)到最佳狀態(tài)。同樣的方法也適用于僅通過(guò)頻繁子樹(shù)挖掘來(lái)進(jìn)行多元關(guān)系抽取的實(shí)驗(yàn)。
實(shí)驗(yàn)5: FTA-GCN對(duì)非動(dòng)詞關(guān)注度提升
最后一個(gè)實(shí)驗(yàn)是相比于GCN,驗(yàn)證FTA-GCN對(duì)名詞實(shí)體提升的關(guān)注度,采用對(duì)抽取關(guān)鍵屬性中對(duì)應(yīng)詞性的占比和數(shù)量來(lái)評(píng)價(jià)關(guān)注程度和抽取效果,結(jié)果如表5所示。
表5 對(duì)非動(dòng)詞關(guān)注度提升
結(jié)果分析: 由于頻繁子樹(shù)挖掘的融合,核心名詞實(shí)體等作為先驗(yàn)值加權(quán)可以導(dǎo)入訓(xùn)練模型中??梢钥闯?,名詞實(shí)體在FTA-GCN模型進(jìn)行的關(guān)系抽取任務(wù)中被更有效地抽取出來(lái)。
最終抽取效果比對(duì)如圖11所示。
圖11 抽取效果對(duì)比
實(shí)驗(yàn)6: PubMed數(shù)據(jù)集抽取效果對(duì)比
PubMed數(shù)據(jù)集是標(biāo)準(zhǔn)化多元關(guān)系抽取測(cè)試集,屬于英文醫(yī)學(xué)專業(yè)數(shù)據(jù)集,沒(méi)有進(jìn)行垂直域的優(yōu)化,根據(jù)文獻(xiàn)[15]的數(shù)據(jù)劃分和經(jīng)驗(yàn),對(duì)超參數(shù)進(jìn)行了網(wǎng)格搜索調(diào)優(yōu),多頭參數(shù)N實(shí)驗(yàn)選值范圍為{1,2,3,4},密集連接層子層參數(shù)L實(shí)驗(yàn)選值范圍為{2,3,4}。實(shí)驗(yàn)獲得最佳組合和超參數(shù)設(shè)置為: lr=0.3, num_epoch=100, pooling=max, mlp_layers=2, pooling_l2=0.003,N=2,L=5,具體實(shí)驗(yàn)結(jié)果如表6所示。
表6 PubMed數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
結(jié)果分析: 基于規(guī)則和種子的啟發(fā)式具有良好的正確率,召回率欠佳,TextMining和圖卷積可以有效進(jìn)行無(wú)結(jié)構(gòu)金融公告信息抽取,具有實(shí)用性。
實(shí)驗(yàn)7: 自建金融公告數(shù)據(jù)集抽取效果對(duì)比
在本文構(gòu)建的無(wú)結(jié)構(gòu)金融公告數(shù)據(jù)集上,參考前述實(shí)驗(yàn)結(jié)果,對(duì)超參數(shù)進(jìn)行了網(wǎng)格搜索調(diào)優(yōu),多頭參數(shù)N實(shí)驗(yàn)選值范圍為{1,2,3,4}。實(shí)驗(yàn)獲得最佳組合和超參數(shù)設(shè)置為: lr=0.3, num_epoch=100, pooling=max, mlp_layers=2, pooling_l2=0.003, N=2, L=5,實(shí)驗(yàn)結(jié)果如表7所示。
表7 自建金融公告數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
結(jié)果分析: 和基于規(guī)則、傳統(tǒng)Bi-LSTM、GCN三類關(guān)系抽取模型相比,F(xiàn)TA-GCN模型達(dá)到了最佳的多元正確率,多元正確率較現(xiàn)有GCN方法提升了13%左右,TextMining融合的模型具有良好的抽取正確率,TextMining召回率偏低,但采用的無(wú)監(jiān)督方法降低了人工標(biāo)注的復(fù)雜度。
本文從有效利用依存句法分析樹(shù)結(jié)構(gòu)出發(fā),首先提出了基于依存關(guān)系樹(shù)頻繁子樹(shù)挖掘的TextMining算法,進(jìn)行了TextMining無(wú)監(jiān)督多元關(guān)系抽取實(shí)驗(yàn)。然后基于依存句法分析樹(shù),在金融公告多元關(guān)系抽取任務(wù)中實(shí)現(xiàn)了多頭自注意力機(jī)制引導(dǎo)的圖卷積網(wǎng)絡(luò)抽取模型。最后基于TextMining和改進(jìn)的注意力圖卷積模型融合提出了FTA-GCN抽取算法。本文介紹了TextMining和FTA-GCN的算法和流程,分別在PubMed、自建金融公告數(shù)據(jù)集上,與基于規(guī)則、傳統(tǒng)Bi-LSTM和現(xiàn)有GCN[15]的Baseline模型進(jìn)行了對(duì)比實(shí)驗(yàn)。同時(shí),在實(shí)體詞典優(yōu)化(垂直域優(yōu)化)、實(shí)體消歧優(yōu)化、詞向量嵌入優(yōu)化、剪枝策略優(yōu)化、對(duì)非動(dòng)詞關(guān)注度提升等方面進(jìn)行了細(xì)粒度實(shí)驗(yàn),評(píng)價(jià)多元關(guān)系抽取效果。結(jié)果表明,本文算法在無(wú)結(jié)構(gòu)金融公告的信息抽取任務(wù)上有效、魯棒,具有實(shí)用性。