亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT的閱讀理解式標(biāo)書文本信息抽取方法

        2022-07-09 11:12:50涂飛明劉茂福張耀峰

        涂飛明,劉茂福?,夏 旭,張耀峰

        1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065;

        2.智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430065;

        3.湖北經(jīng)濟(jì)學(xué)院湖北數(shù)據(jù)與分析中心,湖北武漢430205

        0 引言

        在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代,各大采購平臺(tái)網(wǎng)站每天都會(huì)發(fā)布大量招投標(biāo)和中標(biāo)公告,這些公告內(nèi)容涉及方方面面,蘊(yùn)含著很大的商業(yè)價(jià)值。對(duì)于企業(yè)而言,及時(shí)獲取這些招投標(biāo)數(shù)據(jù),并從中抽取所需信息,具有十分重要的意義。而網(wǎng)站上發(fā)布的標(biāo)書文本多為非結(jié)構(gòu)化文本,這給信息的抽取以及統(tǒng)計(jì)工作帶來難度。

        信息抽?。╥nformation extraction)是從非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本中對(duì)用戶指定類型的實(shí)體、關(guān)系以及事件進(jìn)行自動(dòng)標(biāo)識(shí)和分類,輸出為結(jié)構(gòu)化的信息[1]。由于其廣泛應(yīng)用,近年來,信息抽取成為自然語言處理(natural language processing)領(lǐng)域研究的熱門課題。信息抽取主要包括命名實(shí)體識(shí)別(named entity recognition)、關(guān)系抽取(relation extraction)和事件抽?。╡vent extraction)三個(gè)子任務(wù)[2],信息抽取的關(guān)鍵是命名實(shí)體的識(shí)別。早期常用的是基于規(guī)則的抽取方法[3],但該方法存在泛化能力差的問題。

        深度學(xué)習(xí)的發(fā)展對(duì)自然語言處理領(lǐng)域產(chǎn)生了巨大的影響[4],在信息抽取中使用也相當(dāng)普遍。在預(yù)訓(xùn)練模型發(fā)布之前,信息抽取主要模型以CNN和RNN[5]為主。Akbik等[6]通過動(dòng)態(tài)存儲(chǔ)每個(gè)詞的所有上下文嵌入,并對(duì)這些嵌入進(jìn)行池化操作以提取詞的全局上下文嵌入,該方法顯著提高了命名實(shí)體的識(shí)別效果。BERT(bidirectional encoder representations from transformers)模型的提出[7],使得多項(xiàng)自然語言處理任務(wù)取得了更好的效果,預(yù)訓(xùn)練模型被越來越多的學(xué)者使用。Xue等[8]提出針對(duì)聯(lián)合實(shí)體和關(guān)系提取任務(wù)的集中注意力模型,該模型通過動(dòng)態(tài)范圍注意力機(jī)制將BERT模型集成到聯(lián)合學(xué)習(xí)中,提高了共享參數(shù)層的特征表示能力。Qiu等[9]使用預(yù)訓(xùn)練模型,并以問答的方式,實(shí)現(xiàn)臨床醫(yī)療文本的結(jié)構(gòu)化。

        近年,有學(xué)者將信息抽取任務(wù)轉(zhuǎn)化為問答(question answering)任務(wù)來處理,取得較好效果。機(jī)器閱讀理解(machine reading comprehension)是一類基于文本的問答任務(wù),Levy等[10]將關(guān)系映射為問題,把關(guān)系抽取任務(wù)轉(zhuǎn)為簡(jiǎn)單的閱讀理解任務(wù)。McCann等[11]將10個(gè)不同的自然語言處理任務(wù)轉(zhuǎn)化為問答任務(wù),并將10個(gè)不同的任務(wù)數(shù)據(jù)集轉(zhuǎn)化為問答數(shù)據(jù)集。Li等[12]利用閱讀理解模型進(jìn)行多輪對(duì)話,從而實(shí)現(xiàn)對(duì)文本實(shí)體-關(guān)系信息的抽取。Qiu等[13]提出QA 4IE框架,利用問答的靈活性,在句子間生成更加豐富的關(guān)系三元組。Li等[14]針對(duì)命名實(shí)體識(shí)別任務(wù),提出了一個(gè)統(tǒng)一的閱讀理解框架,能夠同時(shí)識(shí)別出文本中的非嵌套實(shí)體和嵌套實(shí)體。

        機(jī)器閱讀理解任務(wù)定義為給定一篇文章以及基于文章的問題,讓機(jī)器給出問題的答案。隨著斯坦福大學(xué)發(fā)布SQuAD(Stanford Question Answering Dataset)閱讀理解數(shù)據(jù)集[15],閱讀理解任務(wù)獲得了大量的關(guān)注。Wang等[16]提出了在SQuAD數(shù)據(jù)集上的第一個(gè)端到端的閱讀理解模型,該模型先對(duì)問題和原文分別進(jìn)行編碼,然后利用Match-LSTM將問題和原文融合,最后使用Pointer-Network從原文中選取答案片段。Seo等[17]在注意力機(jī)制的基礎(chǔ)上進(jìn)行改進(jìn),提出了BiDAF(bi-directional attention flow)模型,該模型利用雙向注意力流,得到一個(gè)問題感知的上下文表征,獲得更深層次的上下文語義信息。由于之前的SQuAD數(shù)據(jù)集全為有答案的情況,斯坦福大學(xué)又發(fā)布了SQuAD 2.0數(shù)據(jù)集[18],SQuAD 2.0數(shù)據(jù)集存在原文中沒有材料支持,無法作答的情況,其語料更加符合現(xiàn)實(shí)應(yīng)用場(chǎng)景。受人類閱讀習(xí)慣的啟發(fā),Zhang等[19]提出一種回顧式閱讀器(retrospective reader),集成泛讀和答案驗(yàn)證的模式,在SQuAD 2.0中取得佳績(jī)。

        本文提出一種基于BERT的閱讀理解信息抽取方法,用于對(duì)標(biāo)書文本中的預(yù)算金額、甲方名稱、甲方聯(lián)系方式、代理機(jī)構(gòu)名稱和代理機(jī)構(gòu)聯(lián)系方式5項(xiàng)信息進(jìn)行抽取。抽取的信息多為單位名、人名以及數(shù)字(包括金額和電話號(hào)碼)這樣的實(shí)體,若將其視為命名實(shí)體識(shí)別任務(wù),則有以下兩個(gè)弊端:1)在標(biāo)書文本中,公司名多為嵌套命名實(shí)體,而傳統(tǒng)命名實(shí)體識(shí)別模型大多是針對(duì)非嵌套命名實(shí)體識(shí)別任務(wù)的[20],抽取效果欠佳;2)部分要抽取的信息并不完全是實(shí)體,而是包含了其他符號(hào)的字符串,如金額“¥35,000.00元”、電話號(hào)碼“0755-82****88轉(zhuǎn)3454”(為保護(hù)隱私,電話號(hào)碼部分?jǐn)?shù)字已掩蓋,下同)以及公司名“內(nèi)蒙古電力(集團(tuán))有限責(zé)任公司”等。

        本文將標(biāo)書文本的信息抽取任務(wù)看作閱讀理解任務(wù),而非命名實(shí)體識(shí)別任務(wù)。對(duì)于給定的標(biāo)書文檔,對(duì)其提問,如“采購單位”,然后讓模型預(yù)測(cè)出答案,得到的結(jié)果即要抽取的甲方名稱,其他四項(xiàng)需要抽取的項(xiàng)目以類似的方式進(jìn)行抽取。基于閱讀理解的方法可以同時(shí)適用文本中非嵌套實(shí)體和嵌套實(shí)體的抽取,相比于傳統(tǒng)的序列標(biāo)注方法,基于閱讀理解的方法更簡(jiǎn)單直觀,可遷移性也強(qiáng)。另外,基于閱讀理解的方法能夠讓問題編碼一些先驗(yàn)語義知識(shí),能夠更容易區(qū)分具有相似標(biāo)簽的分類,如甲方名稱和代理機(jī)構(gòu)名稱。

        1 數(shù)據(jù)集構(gòu)建

        從中國(guó)政府采購網(wǎng)(http://www.ccgp.gov.cn/)獲取標(biāo)書網(wǎng)頁文本1 450份,然后清洗數(shù)據(jù),去除JavaScript、CSS代碼以及注釋文本等代碼文本,去除HTML標(biāo)簽,替換部分符號(hào),得到純凈、規(guī)范的中國(guó)政府采購網(wǎng)發(fā)布的標(biāo)書正文。根據(jù)我們對(duì)中國(guó)政府采購網(wǎng)標(biāo)書正文的了解,構(gòu)建出規(guī)則庫,使用規(guī)則對(duì)其進(jìn)行抽取,再進(jìn)行人工檢驗(yàn),更正規(guī)則抽取錯(cuò)誤的例子,給出預(yù)算金額、甲方名稱、甲方聯(lián)系方式、代理機(jī)構(gòu)名稱以及代理機(jī)構(gòu)聯(lián)系方式5個(gè)字段的內(nèi)容。

        將以上5個(gè)字段內(nèi)容轉(zhuǎn)換成SQuAD數(shù)據(jù)格式,對(duì)標(biāo)書文本提出5個(gè)問題,并給出答案文本以及答案開始位置,得到問題-答案對(duì)共7 250份。SQuAD格式的數(shù)據(jù)如例1。

        例1

        2 信息抽取方法

        2.1 整體架構(gòu)

        對(duì)標(biāo)書文本抽取上述5項(xiàng)信息,整體架構(gòu)如圖1所示。首先輸入原始標(biāo)書網(wǎng)頁文本,對(duì)其進(jìn)行預(yù)處理操作,得到標(biāo)書純文本,基于文本內(nèi)容,匹配問題關(guān)鍵詞列表,生成問題,把問題與文本拼接,然后使用BERT閱讀理解模型進(jìn)行預(yù)測(cè),得到問題的答案。

        圖1 閱讀理解式信息抽取方法整體架構(gòu)Fig.1 Overall structure of information extraction method via reading comprehension

        2.2 問題生成

        對(duì)于每個(gè)要抽取的字段,都會(huì)為其設(shè)置一個(gè)問題,然后讓閱讀理解模型根據(jù)問題給出預(yù)測(cè)答案。為生成閱讀理解數(shù)據(jù)集,我們構(gòu)建了規(guī)則庫用于信息的初步抽取,統(tǒng)計(jì)到標(biāo)書文本中常見的信息關(guān)鍵詞,生成問題關(guān)鍵詞列表,表1為部分問題關(guān)鍵詞列表。我們?yōu)槊總€(gè)字段設(shè)置一個(gè)默認(rèn)問題,然后在文本中查找這些問題關(guān)鍵詞,匹配成功則生成對(duì)應(yīng)問題;否則,使用默認(rèn)的問題。本文生成的問題均為偽問題。比如,例2中標(biāo)書文本包含“招標(biāo)單位”關(guān)鍵詞,抽取甲方名稱時(shí),就生成問題:“招標(biāo)單位”。

        表1 部分問題關(guān)鍵詞列表Table 1 The partial of question keywords list

        例2

        段落:…項(xiàng)目概況如下:1.項(xiàng)目名稱:沈陽市紅十字會(huì)醫(yī)院棋盤山分院污水處理站運(yùn)維服務(wù)項(xiàng)目2.項(xiàng)目編號(hào):LNWX21046-C 3.招標(biāo)單位:沈陽市紅十字會(huì)醫(yī)院…

        問題:招標(biāo)單位

        答案:沈陽市紅十字會(huì)醫(yī)院

        對(duì)于閱讀理解模型而言,問題包含了重要的先驗(yàn)語義信息,能夠幫助模型確定答案的位置。所以,合適的問題對(duì)于答案的正確預(yù)測(cè)有著重要作用。

        2.3 基于BERT的閱讀理解模型

        在得到問題和文本后,使用BERT模型進(jìn)行預(yù)測(cè)。閱讀理解的任務(wù)是,給定問題(question)和包含答案的段落(paragraph),模型需要預(yù)測(cè)答案文本的起始位置和結(jié)束位置,從而給出答案文本,這實(shí)際上是一種抽取式問答。本文使用預(yù)訓(xùn)練好的BERT中文語言模型[21],針對(duì)閱讀理解任務(wù)進(jìn)行微調(diào)。

        如圖2所示,在閱讀理解任務(wù)中,BERT將問題和段落組成一個(gè)序列,序列的第一個(gè)字符為一個(gè)特殊字符[CLS],并用一個(gè)特殊字符[SEP]將問題和段落區(qū)分開。E為輸入序列,特殊字符[CLS]的最終隱藏向量表示為C∈RH,第i個(gè)輸入詞的最終隱藏向量表示為Ti∈RH,其中H為隱藏層的維度。

        圖2 BERT閱讀理解模型框架圖Fig.2 BERT-based reading comprehension model framework

        微調(diào)過程中,引入向量Vstart∈RH和Vend∈RH,Vstart表示答案起始位置判斷向量,Vend表示答案結(jié)束位置判斷向量。表示第i個(gè)詞是答案片段開始的概率,通過Ti和Vstart點(diǎn)積,再接上段落中所有詞的softmax計(jì)算得到

        從位置i到位置j的候選答案片段分?jǐn)?shù)表示為Vstart·Ti+Vend·Tj,選取分?jǐn)?shù)最高的片段作為預(yù)測(cè)結(jié)果,同時(shí)保證i≤j。

        3 實(shí)驗(yàn)部分

        3.1 評(píng)價(jià)指標(biāo)

        本文使用兩個(gè)評(píng)價(jià)指標(biāo):EM(exact match)和F1值,計(jì)算評(píng)價(jià)指標(biāo)時(shí)忽略標(biāo)點(diǎn)符號(hào)。

        EM:對(duì)于每個(gè)問題-答案對(duì),若模型預(yù)測(cè)結(jié)果與標(biāo)準(zhǔn)答案完全匹配,單個(gè)樣例EM為1,否則為0,最后取全部測(cè)試集數(shù)據(jù)的均值。EM用于計(jì)算預(yù)測(cè)結(jié)果與正確答案是否完全匹配,反映了精準(zhǔn)匹配度。

        F1:首先得到預(yù)測(cè)結(jié)果與標(biāo)準(zhǔn)答案的最長(zhǎng)公共子串(longest common substring,LCS),根據(jù)LCS的長(zhǎng)度和標(biāo)準(zhǔn)答案的長(zhǎng)度計(jì)算召回率(R),根據(jù)LCS的長(zhǎng)度和預(yù)測(cè)結(jié)果的長(zhǎng)度計(jì)算精確率(P),再由R和P計(jì)算F1,如公式(3),然后同樣取全部數(shù)據(jù)均值。F1用于計(jì)算預(yù)測(cè)結(jié)果與標(biāo)準(zhǔn)答案之間字符級(jí)別的匹配程度,反映了模糊匹配度。

        3.2 實(shí)驗(yàn)結(jié)果

        本文進(jìn)行了基于BERT的命名實(shí)體識(shí)別抽取任務(wù)的實(shí)驗(yàn),將數(shù)據(jù)集格式轉(zhuǎn)換為適用于命名實(shí)體識(shí)別任務(wù)的格式,設(shè)置預(yù)算金額、甲方名稱、甲方聯(lián)系方式、代理機(jī)構(gòu)名稱以及代理機(jī)構(gòu)聯(lián)系方式5類命名實(shí)體,實(shí)驗(yàn)?zāi)繕?biāo)為從文本中抽取這5類命名實(shí)體,并同樣使用EM和F1評(píng)價(jià)指標(biāo),用于對(duì)比閱讀理解的抽取方法。為了比較不同閱讀理解模型的抽取效果,本文進(jìn)行了一系列閱讀理解模型對(duì)比實(shí)驗(yàn),選用Match-LSTM、BiDAF和Retro-Reader模型進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2,其中“BERT”為本文模型。

        表2 實(shí)驗(yàn)結(jié)果Table 2 Exper imental results %

        因?yàn)榻痤~的特征比較明顯,多為數(shù)字加“元”或“萬元”,適合Match-LSTM模型識(shí)別抽取,所以在“預(yù)算金額”上Match-LSTM表現(xiàn)較好。在其他字段BERT和Retro-Reader模型的抽取效果都比其他模型好。在“甲方聯(lián)系方式”和“代理機(jī)構(gòu)聯(lián)系方式”兩個(gè)字段上BERT抽取效果要優(yōu)于Retro-Reader。Retro-Reader模型預(yù)測(cè)集成了粗讀和精讀兩個(gè)階段,粗讀階段判斷問題是否可以回答;精讀階段尋找答案片段,驗(yàn)證問題是否可以回答,給出最終的判斷。Retro-Reader適合處理包含無法回答問題的閱讀理解任務(wù),而本文的語料均包含抽取的信息,因此更適合BERT。另外,BERT的解碼階段直接采用線性網(wǎng)絡(luò)層連接,設(shè)計(jì)上相比Retro-Reader更簡(jiǎn)單,訓(xùn)練時(shí)資源耗費(fèi)更少。

        3.3 實(shí)例分析

        例3

        context:…采購代理機(jī)構(gòu)信息(如有)名 稱:遼源市宏基建設(shè)工程招標(biāo)有限公司地址:遼源市隆基華典55號(hào)樓門市 聯(lián)系方式:0437-31****3…

        question:代理機(jī)構(gòu)聯(lián)系方式

        answer:0437-31****3

        NER-BERT:0437

        Match-LSTM:-

        BiDAF:-

        BERT:0437-31****3

        Retro-Reader:0437-31****3

        如例3,對(duì)于代理機(jī)構(gòu)聯(lián)系方式的抽取,命名實(shí)體識(shí)別任務(wù)的抽取結(jié)果為“0437”,丟失了部分內(nèi)容。閱讀理解任務(wù)的Match-LSTM和BiDAF預(yù)測(cè)答案為“-”,而BERT以及Retro-Reader預(yù)測(cè)答案為“0437-31****3”,與標(biāo)準(zhǔn)答案一致。標(biāo)準(zhǔn)答案的位置相對(duì)文中“采購代理機(jī)構(gòu)信息”位置較遠(yuǎn),預(yù)訓(xùn)練模型更能學(xué)習(xí)到上下文語義信息,在閱讀理解任務(wù)上更具有優(yōu)勢(shì)。

        例4

        context:…項(xiàng)目名稱:成安縣經(jīng)濟(jì)開發(fā)區(qū)污水處理廠設(shè)施惡臭氣體設(shè)備采購項(xiàng)目…采購人信息名稱:成安縣環(huán)潔公司…

        question:采購人

        answer:成安縣環(huán)潔公司

        NER-BERT:成安縣環(huán)潔公司

        Match-LSTM:成安縣經(jīng)濟(jì)開發(fā)區(qū)

        BiDAF:成安縣經(jīng)濟(jì)開發(fā)區(qū)

        BERT:成安縣環(huán)潔公司

        Retro-Reader:成安縣環(huán)潔公司

        如例4,對(duì)于甲方名稱的抽取,標(biāo)準(zhǔn)答案是“成安縣環(huán)潔公司”,命名實(shí)體識(shí)別任務(wù)的抽取結(jié)果為“成安縣環(huán)潔公司”,Match-LSTM和BiDAF錯(cuò)誤地從標(biāo)書文本的項(xiàng)目名稱中選取“成安縣經(jīng)濟(jì)開發(fā)區(qū)”片段作為答案,BERT和Retro-Reader則是從文本中選取位置與“采購人信息名稱:”相近的“成安縣環(huán)潔公司”作為答案,使用預(yù)訓(xùn)練模型,更能準(zhǔn)確定位到答案位置。

        4 結(jié)語

        本文提出了一種基于BERT的標(biāo)書文本閱讀理解式信息抽取方法,該方法將信息抽取任務(wù)轉(zhuǎn)換成閱讀理解任務(wù),對(duì)于給定標(biāo)書文本,生成問題對(duì)模型提問,然后模型從文本中抽取片段給出預(yù)測(cè)結(jié)果。使用BERT預(yù)訓(xùn)練模型能夠增強(qiáng)語言表征能力,提升閱讀理解抽取效果。實(shí)驗(yàn)結(jié)果顯示:對(duì)于標(biāo)書文本信息抽取,閱讀理解抽取方法相比傳統(tǒng)的命名實(shí)體識(shí)別抽取方法具有更好的效果。在今后的工作中,將完善數(shù)據(jù)集的構(gòu)建,嘗試用更多的方法實(shí)現(xiàn)文本信息抽取任務(wù)。

        成人av在线免费播放| 初尝黑人巨砲波多野结衣| 国产爽爽视频在线| 伊人不卡中文字幕在线一区二区| 中文字幕人妻久久久中出| 无码a级毛片免费视频内谢| 人妻无码久久一区二区三区免费| 亚洲一区二区欧美色妞影院| av免费在线观看网站大全| 免费国产自拍在线观看| 伊在人天堂亚洲香蕉精品区| 久久国产精品不只是精品| 人妻无码AⅤ中文系列久久免费| 国产av精选一区二区| 久久aaaa片一区二区| 国产婷婷一区二区三区| 国产一级淫片免费播放电影| 一区二区三区日本久久| 无码国产精成人午夜视频一区二区| 亚洲精品乱码久久久久久金桔影视| 亚洲成人欧美| 午夜一区二区三区在线观看| 欧洲美女黑人粗性暴交视频| av香港经典三级级 在线| 亚洲 暴爽 AV人人爽日日碰 | 国产黄色片在线观看| 国内精品人人妻少妇视频| 偷拍一区二区三区四区| 天天综合网天天综合色| 无码国产精品第100页| 在线观看视频亚洲一区二区三区| 加勒比hezyo黑人专区| 国产精品后入内射日本在线观看| 中文亚洲AV片在线观看无码| 加勒比东京热一区二区| 亚欧美日韩香蕉在线播放视频| 亚洲精品国产成人AV| 久草久热这里只有精品| 黄污在线观看一区二区三区三州| 亚洲第一av导航av尤物| 久久久久国产亚洲AV麻豆|