亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向并購重組類公告的信息抽取

        2020-05-22 12:33:24勝,李勝,朱
        計算機工程與設計 2020年5期
        關(guān)鍵詞:規(guī)則文本實驗

        黃 勝,李 勝,朱 菁

        (1.重慶郵電大學 通信與信息工程學院,重慶 400065;2.重慶郵電大學 光通信與網(wǎng)絡重點實驗室,重慶 400065;3.深圳證券信息有限公司 數(shù)據(jù)中心,廣東 深圳 518000)

        0 引 言

        并購重組類公告是上市公司進行信息披露的重要組成部分。有效的信息獲取可以極大促進市場監(jiān)管、投融資決策、股市預測以及企業(yè)畫像等領域的發(fā)展。如何精準且高效的實現(xiàn)并購重組類公告信息的結(jié)構(gòu)化,成為金融和證券公司應用服務開發(fā)的重要一環(huán)。

        隨著機器學習和深度學習的不斷發(fā)展,序列標注法成為當前信息抽取任務的主流方法。文獻[1]針對生物醫(yī)學命名實體識別任務提出了PowerBioNE生物命名實體識別系統(tǒng),采用隱馬爾可夫模型(hidden Markov model,HMM)識別生物醫(yī)學領域?qū)嶓w,獲得了較好的實用效果[1];文獻[2]提出一種循環(huán)條件隨機場(recurrent conditional random field, RCRF)模型,該模型將條件隨機場的特性有效融于循環(huán)神經(jīng)網(wǎng)絡,并在語言理解領域取得了較好的應用[2]。然而傳統(tǒng)機器學習模型無法充分利用上下文語義特征信息,不能解決長距離依賴問題。

        文獻[3]將雙向長短期記憶網(wǎng)絡(bidirectional long short-term memory,BiLSTM)結(jié)合條件隨機場(conditional random field,CRF)模型在i2b2/VA開放數(shù)據(jù)集中獲得了0.85的F值,實驗結(jié)果表明該模型對于電子病歷中部分臨床實體的識別具有良好的效果[3]。文獻[4]將門控循環(huán)單元(gated recurrent unity,GRU)與CRF結(jié)合用于中文文本序列標注任務中,取得了較好的效果[4]。文獻[5]在BiLSTM-CRF模型的基礎上引入了注意力機制,通過學習全文“篇章級”信息,使該模型在藥物實體識別任務中的F值提高了1.48%[5]。

        在上述研究的基礎上,本文結(jié)合了傳統(tǒng)特征規(guī)則法以及序列標注法的優(yōu)勢,針對并購重組類公告的特征,提出了一種“篇章級”的信息抽取方案[15]。該方案能有效解決由單一規(guī)則法或深度神經(jīng)網(wǎng)絡帶來的抽取效果不好等問題,為自由長文本的信息抽取任務提供一種思路。

        1 并購重組類公告信息抽取方案設計

        并購重組類公告是一種具有一定格式規(guī)范的自由長文本,表述形式多樣且篇幅較長[6]。同一類型公告對于收購、出售、資產(chǎn)重組等商業(yè)行為的描述各有不同,長達500頁的公告文本中包含了大量的干擾信息,為傳統(tǒng)的信息抽取方案帶來了較大的挑戰(zhàn)[15]。

        針對公告文本特點,借鑒降維思想,提出規(guī)則法和序列標注法相結(jié)合的聯(lián)合抽取方案,通過方法級聯(lián)可以有效提高對并購重組類公告信息抽取的準確率。該方案將整個信息抽取流程拆分為兩個部分:①“句子級”抽取,公告文本中包含大量冗余信息,采用規(guī)則法,解析文本結(jié)構(gòu),編寫規(guī)則以“標題定位內(nèi)容”的形式從文本中抽取出關(guān)鍵句子集合。將“篇章級”抽取縮小為“句子級”抽取,降低冗余信息的干擾;②“字段級”抽取,采用序列標注法,訓練命名實體識別聯(lián)合模型,從關(guān)鍵句子集合中抽出所需的字段信息,實現(xiàn)“句子級”到“字段級”抽取[15],具體方案流程如圖1所示。

        圖1 公告信息抽取方案

        2 基于規(guī)則法的文本“句子級”抽取

        2.1 規(guī)則法抽取方案設計

        以領域知識為基礎的規(guī)則法,對特定領域文本識別的準確率較高[7]。優(yōu)先選擇規(guī)則法對金融領域并購重組類公告文本進行篇章級”抽取,可以有效降低自由長文本信息抽取的復雜度。相較于直接使用序列標注法的單一文本信息抽取而言,融合了規(guī)則法優(yōu)勢的組合方案更加適用于特定領域的自由長文本信息抽取任務中[15]。

        并購重組類公告具有一定的格式規(guī)范,文本以標題加內(nèi)容的形式組成,通常包含“摘要部分”和“正文部分”。通過解析文本結(jié)構(gòu),抽象出關(guān)鍵字段在文本中描述形式和定位特征,針對性的提出一套規(guī)則標簽體系用于約束各個字段規(guī)則模板的制定,設計規(guī)則邏輯運算抽取算法解析定位邏輯[15]。對于公告文本T,解析規(guī)則模板,以“標題定位內(nèi)容”的方式從文本中獲取關(guān)鍵句子Sj,通過預處理,最終得到關(guān)鍵字段所屬的句子集合Pi

        T={P1,P2,…,Pi}

        (1)

        Pi={S1,S2,…,Sj}

        (2)

        將Pi定義為新的文本段落,段落集合實現(xiàn)對公告文本T的重構(gòu),從而保留文本的“段落級”信息和“篇章級”信息。

        2.2 規(guī)則標簽體系設計

        規(guī)則標簽體系包含了整體定位邏輯,通過復雜的規(guī)則邏輯運算組合可以有效提升規(guī)則抽取的準確率,是保證“句子級”抽取準確率的關(guān)鍵之一。為了盡可能多的兼容各種自然語言的文本描述形式,設計了以下規(guī)則標簽體系,見表1。

        2.3 規(guī)則邏輯運算抽取引擎設計

        規(guī)則邏輯運算抽取引擎通過解析規(guī)則模板,獲取定位邏輯,從并購重組類公告文本中抽取所需的“句子級”信息用于進行序列標注,實現(xiàn)文本的“篇章級”抽取縮小為“句子級”抽取[15]。

        整個抽取模式分為兩種:模式1、“標題定位內(nèi)容”的抽取形式,這要求從公告文本中剝離出完整的文本目錄結(jié)構(gòu),以“樹”的形式呈現(xiàn),通過制定完善的標題規(guī)則獲取標題間的層級關(guān)系,實現(xiàn)內(nèi)容部分的精準定位;模式2、全文匹配,采用內(nèi)容規(guī)則對全文進行無差別匹配,對于匹配的結(jié)果需要進行相應的過濾和篩選。抽取的基本元素分為:表格、段落和句子,根據(jù)不同字段的位置特征,對不同的

        表1 規(guī)則標簽符號說明

        元素進行處理,本文主要以段落和句子的處理方式為主[15]。規(guī)則邏輯運算抽取引擎設計步驟如下,三層目錄結(jié)構(gòu)的設定可以覆蓋當前所有抽取字段的定位特征,抽取流程如圖2所示:

        (1)文本預處理,加載規(guī)則,提取文本目錄結(jié)構(gòu)樹;

        (2)抽取模式判斷,若為模式1,轉(zhuǎn)到第(3)步,否則獲取全文內(nèi)容并轉(zhuǎn)到第(7)步;

        (3)fristLevelTitle是否為空,否則令parentT等于fristLevelTitle,并轉(zhuǎn)到第(4)步,是則返回異常,結(jié)束抽取;

        (4)在parentT的所有1~3級子標題中匹配,獲取 secLevelTitle 并判斷是否為空,否則令parentT等于 secLevelTitle,跳轉(zhuǎn)至第(5)步;

        (5)在parentT的所有1~3級子標題中匹配,獲取thirdLevelTitle并判斷是否為空,否則令parentT等于thridLevelTitle,跳轉(zhuǎn)至第(6)步;

        (6)以parentT為上限,獲取下限標題,劃定抽取范圍進行第(7)步的抽??;

        (7)在劃定的內(nèi)容部分,根據(jù)內(nèi)容規(guī)則邏輯的設定抽出表格、段落、句子等基礎元素,當返回lastTitle時,默認取該標題下的所有文本,轉(zhuǎn)至第(8)步;

        (8)對抽取的句子和段落集合進行篩選,經(jīng)過處理后用于序列標注。

        3 基于序列標注法的文本“字段級”抽取

        3.1 BiGRU-Attention模型設計

        本文采用雙向門控循環(huán)單元(bidirectional gated recurrent unity,BiGRU)和注意力機制(Attention)相結(jié)合的序列標注模型,BiGRU-Attention模型主要包含:GloVe詞向量層、BiGRU神經(jīng)網(wǎng)絡層、Attention層以及CRF層[15],這樣的設計具有以下4個優(yōu)點:①常用的詞向量工具有word2vec和GolVe,后者以其對大規(guī)模語料的模型訓練效率更高,更容易實現(xiàn)并行化,相對更加適用于當前任務[8];②GRU單元相較于常用的LSTM單元擁有更簡單的結(jié)構(gòu),在保證模型識別準確率的同時能提升模型的訓練效率;③注意力層的引入使得模型在學習實體上下文語義特征的同時,引入全文“篇章級”信息以及關(guān)聯(lián)實體對之間的相關(guān)性特征,有效提高模型預測的準確率;④CRF層通過計算實體標簽之間的轉(zhuǎn)移概率,可以獲取標簽序列之間的相關(guān)性進而使模型得到標簽預測的全局最優(yōu)解[9]。

        BiGRU-Attention聯(lián)合模型如圖3所示。其中wn為詞向量,hn為BiGRU層的隱狀態(tài),M為關(guān)聯(lián)實體矩陣,an為Attentio第n層分配的權(quán)重,vn為標簽預測概率,B或O代表最終預測的實體標簽。

        圖2 規(guī)則抽取流程

        圖3 BiGRU-Attention模型結(jié)構(gòu)[15]

        3.2 BiGRU模型結(jié)構(gòu)

        3.2.1 GRU

        GRU結(jié)構(gòu)相較于LSTM結(jié)構(gòu)進行了簡化,僅保留更新門和重置門,二者通過控制歷史信息的存儲量以及對當前狀態(tài)的影響程度來提升對當前序列預測的準確性[10]。GRU在保證模型效果的同時,模型結(jié)構(gòu)更簡單、參數(shù)更少、收斂性更好[11],模型更新方式如下

        rt=σ(Wr·[ht-1,xt])

        (3)

        zt=σ(Wz·[ht-1,xt])

        (4)

        (5)

        (6)

        3.2.2 BiGRU

        雙向神經(jīng)網(wǎng)絡結(jié)構(gòu)可以有效學習文本的上下文語義信息,使得模型對當前時刻的預測可以結(jié)合前后時刻的相關(guān)信息,提高模型對實體預測的準確性。本文采用兩個GRU單元,正向GRU單元用于捕獲上文的語義特征,反向GRU單元用于捕獲下文的語義特征,通過結(jié)合上下文語義信息提升模型預測的準確性[15]。

        (7)

        (8)

        (9)

        3.3 Attention機制

        通過模擬人腦對注意力的分配機制,Attention模型對不同的信息分配不同的權(quán)重,實現(xiàn)對局部關(guān)鍵信息的突出[15]。注意力機制最早應用于圖像領域[12],隨后在NLP領域的機器翻譯[13]、文本分類[14]等任務上取得了優(yōu)異的表現(xiàn)。當前任務中,實體wi呈現(xiàn)以下特征:①同一個wi與關(guān)鍵字段所屬的句子集合Pi呈一對多的關(guān)系,例如:字段“交易標的”、“收購方式”抽取的句子集合中會同時包含字段“成交金額”對應的實體信息;②句中包含wi的關(guān)聯(lián)實體對,例:“采用收益法,截止至2019年8月15日,資產(chǎn)評估值為2160.18萬元?!敝小百Y產(chǎn)評估值”字段實體:“2160.18萬元”和“評估方法”字段實體:“收益法”組成關(guān)聯(lián)實體對。針對以上特征,在常用的BiGRU-CRF序列標注模型基礎上,引入了Attention層,融合全文“篇章級”信息及關(guān)聯(lián)實體對的影響,計算當前實體分配的權(quán)重概率,從而提升對關(guān)鍵實體標簽預測的精準度[15]。

        attx=softmax(f(set,elementx,W))

        (10)

        其中,f(·) 用于計算elementx與set中各個詞匯之間的相關(guān)性,W為隨模型一同訓練的參數(shù)。

        然后利用attx對relation中的信息進行篩選融合,可獲得當前詞的全文“篇章級”信息chapterx

        chapterx=attx·relation

        (11)

        通過使用哈工大LTP平臺的開源語義依存分析模型,可以有效融合與當前詞匯具有語義關(guān)系的實體信息,獲取句子Sx中的關(guān)聯(lián)實體矩陣M, LTP中部分依存關(guān)系標注集見表2。關(guān)聯(lián)實體的上下文信息dependxy

        dependxy=Mxy·relation (12)

        那么融合全文“篇章級”信息和實體對之間語義關(guān)聯(lián)信息后,詞匯最終的概率權(quán)重ax

        ax=tanh(chapterx,∑ydenpendxy)

        (13)

        4 實驗分析

        4.1 數(shù)據(jù)集

        實驗數(shù)據(jù)通過自定義爬蟲從“巨潮資訊網(wǎng)”上抓取2000篇上市公司并購重組類公告文本,其中訓練集為1600篇、驗證集和測試集分別為200篇。選取當前較為常用的BIO(begin,inside,outside)書簽機制進行標注。在此基礎上增加E(end)標簽和S(single)標簽對包含“交易標的”、“成交金額”在內(nèi)的12個字段進行語料標注,以方便對標簽實體的解析。標注標簽及說明見表3。其中S標簽表示由單個詞組成的實體,O標簽表示其它類型的實體,B標簽表示目標實體的首個詞,I標簽為其中間詞匯,E標簽表示目標實體的最后一個詞匯[15]。

        表3 標注標簽及說明[15]

        4.2 實驗評價指標

        實驗采用準確率(Precision,P)、召回率(Recall,R)以及F1值(F1-score,F(xiàn)1)作為評價指標,分別對實驗結(jié)果進行測評。

        4.3 實驗設置

        實驗采用Keras的深度學習框架,底層為TensorFlow,實驗選用BP(反向傳播算法)來訓練BiGRU-Attention聯(lián)合序列標注模型,采用SGD(隨機梯度下降算法)調(diào)整樣本訓練時的權(quán)重參數(shù)。其中詞向量設定為100維,optimizer(優(yōu)化器)選擇“adam”,學習率設置為0.01,Batch_size設置為50,Dropout參數(shù)rate設置為0.5。參數(shù)經(jīng)過多次迭代后根據(jù)準確率、召回率調(diào)整得到。

        4.4 實驗結(jié)果及分析

        實驗一:實驗選取“標題定位內(nèi)容”的規(guī)則抽取方案作為實驗方案,選取“全文內(nèi)容匹配”的規(guī)則抽取方案作為對比方案。對包含“重組類型”、“標的行業(yè)”等在內(nèi)的12個字段進行“句子級”抽取?!熬渥蛹墶背槿〗Y(jié)果及對比見表4。

        如表4所示,實驗方案的抽取效果明顯優(yōu)于對比方案。由于文本表述形式多樣,人工制定規(guī)則的不夠完善,使得實驗方案的抽取效果仍然有待提高。

        表4 “句子級”抽取結(jié)果及對比(均值)[15]

        實驗二:實驗選取基于BiGRU-Attention的序列標注法作為實驗方案,選取包含CRF、LSTM、GRU等在內(nèi)的多個模型為對照組進行實驗,來驗證當前方案的可靠性。采用實驗方案的“字段級”抽取結(jié)果見表5。序列標注模型效果對比見表6。

        表5 “字段級”抽取結(jié)果展示[15]

        表6 序列標注模型效果對比(均值)[15]

        如表5所示,模型對于關(guān)聯(lián)實體對之間的識別效果較好,其中關(guān)聯(lián)實體對:“交易標的”、成交金額”和“收購方式”的平均F1值達到了0.92;“評估方法”、“評估基準日”、“資產(chǎn)賬面值”、“資產(chǎn)評估值”的平均F1值達到了0.94。而“配套融資金額”字段F1值只有0.86,模型識別效果較差,造成改結(jié)果主要有兩個原因:①“字段級”抽取的準確率依賴于“句子級”抽取,由于人工制定的規(guī)則模板不夠完善,該字段表述形式的多樣性,使得“句子級”抽取效果較差。經(jīng)后續(xù)規(guī)則的豐富,可以進一步提升該字段的抽取準確率;②“配套融資金額”字段不具備與之組成關(guān)聯(lián)實體對的字段實體,使得模型對該字段的識別效果不佳[15]。

        如表6所示,通過實驗數(shù)據(jù)對照發(fā)現(xiàn),融合了依存關(guān)聯(lián)矩陣的BiGRU-Attention聯(lián)合模型,可以較好的學習全文“篇章級”信息,并且對于關(guān)聯(lián)實體對之間的識別效果較好。該方案對并購重組類公告文本中的金融實體識別準確率明顯高于其它序列標注模型,相較于目前主流的BiLSTM-Attention序列標注模型的F1值提高了約3個百分點[15]。

        5 結(jié)束語

        上市公司并購重組類公告是一種具有一定格式規(guī)范的自由長文本,針對公告特點,借鑒降維思想,提出規(guī)則法和序列標注法相結(jié)合的聯(lián)合信息抽取方案。采用規(guī)則法,設計標簽體系,編寫規(guī)則邏輯運算抽取引擎,將“篇章級”抽取縮小為“句子級”抽取,提出基于BiGRU-Attention的序列標注法,將句子抽取縮小為“字段級”抽取[15]。實驗結(jié)果表明本方案,具有更好準確率,驗證該方案在并購重組類公告以及同類文本的信息抽取任務中具有一定的可行性,目前該方法已在“深圳證券信息有限公司巨潮財經(jīng)數(shù)據(jù)庫和專業(yè)數(shù)據(jù)終端”中有實際應用。

        在未來的工作中,筆者將繼續(xù)研究對并購重組類公告的信息抽取任務,提出更優(yōu)的方案以解決對文本實體之間映射關(guān)系的抽取,例如:syntaxnet等。

        猜你喜歡
        規(guī)則文本實驗
        記一次有趣的實驗
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        在808DA上文本顯示的改善
        做個怪怪長實驗
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        亚洲AV无码一区二区水蜜桃| 粗大猛烈进出白浆视频| 亚洲精品黑牛一区二区三区| 国产成人亚洲综合无码DVD| 国产啪啪视频在线观看| 一区二区三区视频在线观看免费| 色综合色狠狠天天综合色| 亚洲欧美国产日韩制服bt| 强d乱码中文字幕熟女1000部| 亚洲国产av一区二区三区天堂| 在线看无码的免费网站| 无遮挡亲胸捏胸免费视频| 久九九久视频精品网站| 人妻夜夜爽天天爽三区麻豆av| 亚洲人成人无码www影院| 美女胸又www又黄的网站| 日本少妇爽的大叫高潮了| 亚洲精品久久区二区三区蜜桃臀| 亚洲精品无人区| 四虎精品影视| 人妻精品久久久一区二区| 青春草在线视频观看| 久久精品人人爽人人爽| 国产高潮流白浆免费观看不卡| 国产午夜精品久久精品| 欧美成人精品a∨在线观看 | av在线网站手机播放| 午夜国产视频一区二区三区| 国产性生大片免费观看性| 亚洲动漫成人一区二区| 伊人久久大香线蕉av色婷婷| 99精品国产成人一区二区| 国产免费又色又爽又黄软件| 亚洲精品中文字幕乱码二区 | 国产成年无码v片在线| 青青草视频网站免费观看| 国产无卡视频在线观看| 久久久亚洲精品一区二区三区| 成人午夜毛片| 一区二区三区视频偷拍| 射精区-区区三区|