亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        采用BI-LSTM-CRF模型的數(shù)值信息抽取

        2019-05-16 08:32:36王竣平蔡?hào)|風(fēng)
        關(guān)鍵詞:數(shù)值模板主體

        王竣平 白 宇 蔡?hào)|風(fēng)

        (沈陽(yáng)航空航天大學(xué)人機(jī)智能研究中心 遼寧 沈陽(yáng) 110136)(遼寧省知識(shí)工程與人機(jī)交互工程技術(shù)研究中心 遼寧 沈陽(yáng) 110136)

        0 引 言

        數(shù)值信息是文本中的一種重要信息,也是數(shù)據(jù)中直觀的表達(dá)方式之一。而且數(shù)值信息的抽取對(duì)信息檢索、數(shù)值類問答,知識(shí)庫(kù)或事實(shí)庫(kù)構(gòu)建、文本可視化分析等應(yīng)用具有重要的現(xiàn)實(shí)意義。

        數(shù)值在非結(jié)構(gòu)化文本中非常普遍,常見的數(shù)值包括時(shí)間、貨幣、數(shù)量詞、電話號(hào)碼等,但僅僅單純對(duì)數(shù)值的抽取意義不大,因?yàn)閿?shù)值只有存在于相應(yīng)的語言環(huán)境中,和相關(guān)的主體,單位等元素一起存在,才能更全面地表達(dá)出其本身所攜帶的信息。一個(gè)數(shù)值信息應(yīng)該包括主體、屬性、屬性值等基本元素,考慮到數(shù)值信息表述中的相對(duì)性特征,數(shù)值信息還應(yīng)該包括比較詞、趨勢(shì)詞、比較對(duì)象、時(shí)間、地點(diǎn)等元素。

        當(dāng)前的數(shù)值信息的抽取以模板的方式為主,且抽取的格式無法完全表達(dá)數(shù)值信息的含義。為了更加全面地描述數(shù)值信息且克服模板抽取的局限性,本文提出了一種數(shù)值信息的存儲(chǔ)格式和抽取方法。輸入例子和輸出結(jié)果分別如表1和表2所示,數(shù)值信息的抽取流程圖如圖1所示。

        表1 輸入句子

        表2 部分輸出結(jié)果

        圖1 數(shù)值信息抽取流程圖

        1 相關(guān)研究

        關(guān)于信息抽取方面目前主要有4種方法:基于規(guī)則、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)、基于規(guī)則統(tǒng)計(jì)相結(jié)合以及基于深度學(xué)習(xí)的方法。基于規(guī)則的方法有:封春生等[3]人利用關(guān)鍵字來定義模式匹配原則;朱文琰等[4]提出一種基于正則表達(dá)式狀態(tài)轉(zhuǎn)換的算法,來學(xué)習(xí)復(fù)雜正則表達(dá)式來抽取網(wǎng)頁(yè)中的信息;仇培元等[5]提出使用詞性序列來制定抽取模式。這些方法的移植性較差?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)方法有:使用條件隨機(jī)場(chǎng)[6-8],利用序列標(biāo)注的思想對(duì)命名實(shí)體來進(jìn)行抽取。文獻(xiàn)[9-10]采用了基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方法進(jìn)行屬性的抽取。通常來說結(jié)合的方式有兩種,先使用規(guī)則后使用統(tǒng)計(jì)和先使用統(tǒng)計(jì)后使用規(guī)則兩種方法,具體選擇哪種方法,需要根據(jù)具體的問題來選擇方法?;谏疃葘W(xué)習(xí)的方法:這類方法通常不再依賴于人工特征或領(lǐng)域知識(shí),實(shí)現(xiàn)了端到端的抽取模式,減少了人工特征提取所需的代價(jià)。文獻(xiàn)[11]提出了BI-LSTM-CRF模型,通過序列標(biāo)注進(jìn)行命名實(shí)體識(shí)別均達(dá)到了最好的效果。

        在數(shù)值信息抽取方面,大部分相關(guān)工作都是采用基于模式匹配的方式。對(duì)數(shù)值信息進(jìn)行抽取,首先要對(duì)數(shù)值進(jìn)行識(shí)別。石海峰等[12]利用數(shù)字+單位的方法來對(duì)數(shù)值信息進(jìn)行識(shí)別;文獻(xiàn)[13]對(duì)數(shù)詞和量詞進(jìn)行分類,分析數(shù)詞和量詞的組合方式并對(duì)組合方式進(jìn)行分類,形成知識(shí)庫(kù)。利用知識(shí)庫(kù)對(duì)數(shù)量名短語進(jìn)行識(shí)別(包括數(shù)值)。肖洪等[14]采用了基于規(guī)則的方法,從海量年鑒文本中抽取宏觀數(shù)值信息,為了使數(shù)值信息含義更加明確,使用了由六元組結(jié)構(gòu)表示數(shù)值信息的方法,但沒有對(duì)數(shù)值信息的表達(dá)模式做具體的分析,只定義了3種抽取模式。溫有奎等[15]利用人工抽取數(shù)值的經(jīng)驗(yàn),開發(fā)了數(shù)值型知識(shí)元抽取軟件,用于抽取《年鑒》中的數(shù)值信息。文獻(xiàn)[16]開發(fā)了一個(gè)可以從大量的日文文檔中半自動(dòng)抽取數(shù)值信息的一個(gè)系統(tǒng),并能夠根據(jù)抽取到的數(shù)值信息自繪制多種圖形。文獻(xiàn)[17]將數(shù)值信息根據(jù)時(shí)間將數(shù)值信息分為了絕對(duì)數(shù)值信息和相對(duì)數(shù)值信息,采用了一種數(shù)值信息抽取模板輔以條件隨機(jī)場(chǎng)的方法。但文獻(xiàn)[17]的相對(duì)數(shù)值信息只做到了在時(shí)間上的比對(duì),并且對(duì)含有多數(shù)值的句子的抽取效果不佳。

        本文針對(duì)數(shù)值信息抽取過程中比較信息處理比較單一和多數(shù)值抽取效果不佳的問題,并結(jié)合數(shù)值信息的特點(diǎn),提出了一種抽取框架和抽取方法。比較關(guān)系的處理上,不僅僅局限于時(shí)間上的比較,而且對(duì)于含有多數(shù)值、多同種類型元素的句子,數(shù)值信息抽取效果也得到了改善。相比于單純用模式匹配來對(duì)整個(gè)數(shù)值信息抽取的方法,本文方法有效改善了大量人工干預(yù)來制定抽取模式和模式?jīng)_突的問題。

        2 數(shù)值信息元素識(shí)別

        2.1 屬性值識(shí)別

        屬性值是判斷數(shù)值信息是否被抽取的關(guān)鍵所在,也是判斷一個(gè)數(shù)值信息是否存在的關(guān)鍵。所以本文先對(duì)屬性值進(jìn)行抽取,并將屬性值作為抽取的觸發(fā)詞。但在非結(jié)構(gòu)化的文本中,屬性值存在大量省略表達(dá)的情況。而且無論是省略還是非省略的情況,屬性值規(guī)律性比較強(qiáng),而模板相比于其他方法,更適合抽取這種表達(dá)規(guī)律性較強(qiáng)的屬性值。故本文采用模板的方式對(duì)屬性值進(jìn)行識(shí)別。

        2.1.1屬性值抽取模板

        通過觀察文本,趨勢(shì)詞和單位會(huì)因并列表達(dá)而存在省略的情況,故本文在定義屬性值抽取模板時(shí),同時(shí)將趨勢(shì)詞、單位和量詞進(jìn)行抽取。抽取數(shù)字的趨勢(shì)詞和量詞,不僅對(duì)數(shù)字的意義表示的更為全面,同時(shí)也能表示出數(shù)字之間的邏輯關(guān)系。

        本文定義的屬性值抽取模板如表3所示。其中:“Qu”代表趨勢(shì)詞;“Num”代表數(shù)字;“Dan”用來代表單位;“Li”代表量詞。并按表格的順序由上至下進(jìn)行匹配。

        表3 屬性值的抽取模式

        2.1.2單位、量詞和趨勢(shì)詞知識(shí)庫(kù)的建立

        本文通過建立知識(shí)詞庫(kù)結(jié)合模板來對(duì)屬性值進(jìn)行抽取。單位、量詞、趨勢(shì)詞相對(duì)有限,所以通過建立知識(shí)庫(kù)來進(jìn)行抽取屬性值進(jìn)行抽取。

        1) 單位。從知網(wǎng)和外部知識(shí)中獲取單位的個(gè)數(shù)為673個(gè)。將數(shù)值單位的類型分成14大類分別為:長(zhǎng)度、質(zhì)量、體積、面積、溫度、密度、壓強(qiáng)、功率、力、速度、電、光照度、組合單位、其他。單位詞表如表4所示。

        表4 單位表

        2) 趨勢(shì)詞和量詞。趨勢(shì)詞表達(dá)了屬性值所在數(shù)值信息之間的邏輯關(guān)系,是進(jìn)行推理的重要標(biāo)志。本文在文獻(xiàn)[17]收集的趨勢(shì)詞的基礎(chǔ)上進(jìn)行補(bǔ)充,趨勢(shì)詞表如表5所示。

        收集到的方向量詞為:及以上、以上、左右。

        2.2 主體、屬性、比較詞識(shí)別

        數(shù)值信息元素識(shí)別的目的是為了標(biāo)注出句子中各詞匯是否在數(shù)值信息中,可以看作序列標(biāo)注問題,目前常見的用于序列標(biāo)注的模型有CRF模型、BI-LSTM-CRF模型。BI-LSTM-CRF模型具有對(duì)句子整體信息的長(zhǎng)距離依賴、自動(dòng)抽象特征等以及利用CEF假設(shè)標(biāo)簽之間存在關(guān)系而非獨(dú)立性的特點(diǎn)[11,20],而且不需要人工精心構(gòu)建特征,編寫特征模板等優(yōu)勢(shì),因此被越來越多研究者使用。本研究選擇BI-LSTM-CRF模型來完成數(shù)值信息的主體、屬性、比較詞關(guān)鍵元素進(jìn)行識(shí)別。

        2.2.1模型建立

        BI-LSTM-CRF模型是將BI-LSTM網(wǎng)絡(luò)和 CRF模型結(jié)合起來,即在BI-LSTM網(wǎng)絡(luò)的隱藏層后加一層CRF線性層,BI-LSTM層可以有效地使用之前或者之后的輸入特征[11]。通過CRF層可以使用句子級(jí)別的之前或之后的標(biāo)簽信息。BI-LSTM-CRF模型結(jié)構(gòu)如圖2所示。

        圖2 BI-LSTM-CRF模型結(jié)構(gòu)

        對(duì)于句子序列X=(x1,x2,…,xn),分別進(jìn)入兩個(gè)LSTM,將LSTM正序輸出和反序輸出的進(jìn)行拼接,通過引入狀態(tài)轉(zhuǎn)移矩陣[A],然后設(shè)定矩陣P為雙層LSTM網(wǎng)絡(luò)的輸出。[A]i,j表示時(shí)序上從第i個(gè)狀態(tài)轉(zhuǎn)移到第j個(gè)狀態(tài)的概率;[P]i,j表示輸入觀察序列中第i個(gè)詞為第j個(gè)標(biāo)注的概率。則觀察序列[X]對(duì)應(yīng)的標(biāo)注序列y=(y1,y2,…,yn)的預(yù)測(cè)輸出為:

        動(dòng)態(tài)規(guī)劃算法可以有效地計(jì)算狀態(tài)轉(zhuǎn)移矩陣和優(yōu)化標(biāo)簽序列,具體算法請(qǐng)參考文獻(xiàn)[18]。

        2.2.2訓(xùn)練方法

        本文將主體、屬性、比較詞標(biāo)注體系如表6所示。圖3為數(shù)值信息元素標(biāo)注示意圖,其中,文字部分為文本經(jīng)中文分詞后的詞序列,各詞上方代碼為輸入的數(shù)值信息元素類型標(biāo)記代碼。

        表6 主體、屬性、比較詞標(biāo)注體系

        圖3 標(biāo)注示意圖(非數(shù)值信息元素標(biāo)記代碼為“NaN”)

        分詞后的詞序列首先需要分布式向量化,這里采用的是文獻(xiàn)[19]提出的word2vec方法?;诒疚臉?gòu)建的標(biāo)注流程圖如圖4所示。

        我們將整個(gè)訓(xùn)練數(shù)據(jù)分批次,并每次處理一批包含一個(gè)由批量大小參數(shù)確定的句子數(shù)量的句子列表,本文選擇的批大小為50。對(duì)于每一批次,我們分別運(yùn)行BI-LSTM-CRF模型。首先運(yùn)行雙向LSTM-CRF模型正向傳播,通過正向傳播BI-LSTM網(wǎng)絡(luò)的前向狀態(tài)和后向狀態(tài),得到所有詞對(duì)應(yīng)所有標(biāo)簽的概率。然后,運(yùn)行CRF層來計(jì)算網(wǎng)絡(luò)輸出和狀態(tài)轉(zhuǎn)移矩陣邊緣概率的梯度。之后,將錯(cuò)誤從輸出反向傳播到輸入,其中包括向前和向后狀態(tài)的反向傳播。進(jìn)而可以更新相應(yīng)的狀態(tài)轉(zhuǎn)移矩陣[A],標(biāo)簽標(biāo)注概率矩陣[P][11],并使用了dropout方法來減少過擬合。

        將標(biāo)注出來的語料進(jìn)行整理,通過如下標(biāo)簽來對(duì)句子中的數(shù)值信息所屬元素進(jìn)行標(biāo)記:主體:、屬性:、比較詞:、比較對(duì)象:、時(shí)間:、地點(diǎn):、屬性值:< >。

        2.3 時(shí)間、地點(diǎn)元素識(shí)別

        數(shù)值信息地點(diǎn)元素的識(shí)別則使用了公開的工具,地名和機(jī)構(gòu)名的識(shí)別采用了哈工大的LTP工具,時(shí)間元素的識(shí)別則采用了正則表達(dá)式匹配的方法。并根據(jù)實(shí)際情況,利用正則表達(dá)式和知識(shí)庫(kù)對(duì)地點(diǎn)和時(shí)間元素進(jìn)行補(bǔ)充。比如地點(diǎn)中表達(dá):中、西部地區(qū),需要抽取出中部地區(qū)和西部地區(qū)。再比如時(shí)間上的省略表達(dá):2016年3月、4月,需要抽取出2016年3月、2016年4月。

        2.4 比較對(duì)象識(shí)別

        通過含有數(shù)值的文本進(jìn)行分析,比較對(duì)象均來自于除比較詞外的其他元素,為了不增加標(biāo)注的標(biāo)簽量,識(shí)別出比較詞之后,采用如下規(guī)則從已識(shí)別的數(shù)值信息元素中將比較對(duì)象識(shí)別出來。

        (1) 將比較詞和數(shù)值之間的數(shù)值信息元素標(biāo)記為比較對(duì)象。

        (2) 將介詞后面到分句結(jié)束之間的數(shù)值信息元素標(biāo)記為比較對(duì)象。

        (3) 若上面兩種情況都不滿足且還存在比較詞,上一個(gè)分句的主體和屬性值補(bǔ)充到該分句作為比較對(duì)象。

        (4) 對(duì)于不同的元素則組合為一個(gè)比較對(duì)象,相同則認(rèn)為多個(gè)比較對(duì)象。

        例如:經(jīng)過標(biāo)注后處理成、。橡膠和消費(fèi)量在比較詞和數(shù)字之間且一個(gè)是主體一個(gè)是屬性,元素類型不同,經(jīng)過規(guī)則(1)和規(guī)則(4)后,我們將比較對(duì)象識(shí)別出并標(biāo)記為:、。

        3 數(shù)值信息元素關(guān)系識(shí)別

        非結(jié)構(gòu)化文本含有多個(gè)屬性值時(shí),頻繁出現(xiàn)的省略描述方式造成不同數(shù)值信息混雜,不利于計(jì)算機(jī)自動(dòng)區(qū)分。在訓(xùn)練數(shù)據(jù)集有限,特征明顯且確定的情況下,本文采用基于特征的方式進(jìn)行識(shí)別,去判斷屬性值和識(shí)別出的其他元素之間是否有語義關(guān)系。本文所選擇的特征如表7所示。

        表7 特征列表

        在進(jìn)行識(shí)別之前,先將識(shí)別好的句子按逗號(hào)進(jìn)行分割,以含有屬性值的分句為單位,對(duì)分句中的元素進(jìn)行識(shí)別。如果分句中缺少元組中需要的數(shù)值信息元素,即有省略的情況,則將前面分句中最近出現(xiàn)的相同數(shù)值信息元素按表7中的特征進(jìn)行判別。若整個(gè)句子所有分句無相應(yīng)元素,則認(rèn)為數(shù)值信息不含有該元素。

        從表7中,由上到下對(duì)特征進(jìn)行匹配只要有一條符合的結(jié)果為是,則我們就認(rèn)為該成份和該屬性值有關(guān)系。例如經(jīng)過識(shí)別后得到這樣的一個(gè)標(biāo)注的句子:

        已達(dá),去年,和分別、。

        比如要尋找屬性值41.8%的其他數(shù)值信息元素,在該分句中含有兩個(gè)主體,其中天然橡膠出現(xiàn)次序和41.8%在該分句中同類型屬性值均為第一次出現(xiàn)。根據(jù)特征4,認(rèn)為41.8%的主體為天然橡膠。而上一個(gè)分句中有屬性且只有一個(gè),即消費(fèi)量,所以我們認(rèn)為消費(fèi)量是41.8%的屬性。對(duì)于比較對(duì)象、比較詞、時(shí)間、地點(diǎn)全部都唯一,根據(jù)特征3,判斷屬性值41.8%和三者有關(guān)系。

        4 實(shí) 驗(yàn)

        4.1 實(shí)驗(yàn)環(huán)境

        本文從工信部的網(wǎng)站上爬取了工信數(shù)據(jù),經(jīng)過篩選出含有屬性值的句子共4 725句。經(jīng)人工標(biāo)注后為實(shí)驗(yàn)語料,并按4∶1的比例隨機(jī)劃分出訓(xùn)練集和測(cè)試集,語料樣例如表1所示。

        為對(duì)比本文方法與模式比配方法的效果,本文參照文獻(xiàn)[19]已有成果構(gòu)建了基于模式匹配的數(shù)值數(shù)值信息抽取方法。每一個(gè)模式對(duì)應(yīng)一個(gè)數(shù)值信息數(shù)值信息。并將本文標(biāo)注出來的主體,比較詞作為知識(shí)對(duì)該方法進(jìn)行補(bǔ)充。

        本文采用正確率(P),召回率(R),和F-值(F)來對(duì)方法的性能進(jìn)行評(píng)價(jià)。三個(gè)指標(biāo)的計(jì)算公式如下:

        (1)

        (2)

        (3)

        4.2 參數(shù)設(shè)定

        本文選用了712 M搜狗全網(wǎng)新聞?wù)Z料訓(xùn)練詞向量,采用的分詞工具為清華大學(xué)的THULAC。采用了tensorflow深度學(xué)習(xí)框架。將分好詞的語料以詞向量作為神經(jīng)網(wǎng)絡(luò)的輸入。參考文獻(xiàn)[21-22]的經(jīng)驗(yàn)值,設(shè)置的參數(shù)為:詞向量200維、學(xué)習(xí)率0.01、迭代次數(shù)300、批大小50、Dropout取0.5。

        4.3 結(jié)果與分析

        為判定每一步的結(jié)果,將屬性值識(shí)別結(jié)果,以及主體、屬性、比較詞的識(shí)別的抽取結(jié)果,分別如表8、表9所示。

        表8 屬性值識(shí)別結(jié)果

        表9 數(shù)值信息元素的識(shí)別結(jié)果

        為評(píng)價(jià)對(duì)數(shù)值信息抽取的效果,在對(duì)屬性值標(biāo)注和BI-LSTM-CRF模型的識(shí)別的主體、屬性、比較詞基礎(chǔ)上,分別進(jìn)行數(shù)值信息抽取實(shí)驗(yàn),抽取得到的數(shù)值信息中的成員全部正確則認(rèn)為數(shù)值信息抽取正確。與模式匹配法比較的實(shí)驗(yàn)結(jié)果如表10所示。

        表10 數(shù)值信息抽取結(jié)果

        對(duì)于屬性值識(shí)別部分,準(zhǔn)確率、召回率和F-值均到達(dá)95%以上,這是因?yàn)閷傩灾翟诜墙Y(jié)構(gòu)化文本中的表達(dá)比較固定且規(guī)律明顯,而模板的方法的優(yōu)勢(shì)在于對(duì)固定規(guī)律的表示,因而可以用較少的代價(jià)實(shí)現(xiàn)很好的效果。然而一些不常見的組合單位和包含數(shù)字的主體則對(duì)屬性值的識(shí)別造成了干擾,比如:分鐘、月戶等。

        從數(shù)值信息中的主體、屬性、比較詞的元素識(shí)別結(jié)果可以看出,BI-LSTM-CRF模型在不使用人工設(shè)計(jì)特征和編寫特征模板的前提下,對(duì)三種元素的識(shí)別的F-均達(dá)到了84%以上。對(duì)于主體和屬性來說,文本中有很多較長(zhǎng)的表達(dá)。BI-LSTM-CRF模型能夠自動(dòng)從文本序列中抽象出文本特征進(jìn)而給CRF層進(jìn)行訓(xùn)練,因而抽象過程中使用的詞向量能夠抽象出很多人工無法表達(dá)的特征,所以對(duì)文本的觀察更為全面。比如“石油基合成橡膠”在訓(xùn)練語料中并沒有完全出現(xiàn),只出現(xiàn)了“合成橡膠”,BI-LSTM-CRF模型就能識(shí)別出此主體。原因在于輸入的詞表示向量帶入了一定的語義信息,雖然訓(xùn)練語料中未出現(xiàn),但經(jīng)過BI-LSTM-CRF模型的抽象可以較好地學(xué)習(xí)出一些特征。

        對(duì)于比較詞識(shí)別的F-值達(dá)到了90%以上,但在識(shí)別時(shí)會(huì)將不含屬性值的分句中的比較詞識(shí)別出來。像“比較明顯”、“占主導(dǎo)地位”中的,“比”、“占”也有些會(huì)被識(shí)別成比較詞,但因?yàn)楸疚姆椒ㄊ且詫傩灾底鳛閿?shù)值信息抽取的觸發(fā)詞,故這種比較的錯(cuò)誤詞對(duì)最后的數(shù)值信息抽取結(jié)果并不會(huì)產(chǎn)生影響。

        從表10的數(shù)值信息抽取結(jié)果可以看出,本文提出的方法要好于模式匹配的方法。原因在于,對(duì)于只含有一個(gè)屬性值的句子來說,這種句子表達(dá)具有一定的規(guī)律性,有利于模式匹配。但對(duì)于含有多個(gè)屬性值的句子來說,屬性值和主體的元素都存在省略表達(dá)情況,而且對(duì)于含有多個(gè)屬性值、多個(gè)主體、屬性等元素時(shí),這種之間的關(guān)系抽取利用模板很難表達(dá)出來,而非結(jié)構(gòu)化文本中隨意表達(dá)的無關(guān)詞較多。并且有時(shí)候一個(gè)句子會(huì)被多個(gè)模式匹配或者不被匹配,從而抽取出錯(cuò)誤信息或者抽取不出來。本文方法以屬性值為觸發(fā)詞,通過特征識(shí)別各個(gè)元素和屬性值的關(guān)系,對(duì)句子含有多數(shù)值和多主體等元素情況具有較好的抽取結(jié)果,方法具有靈活性和可移植性。本文方法的數(shù)值信息最終抽取結(jié)果是建立在其元素識(shí)別的基礎(chǔ)之上,因此各個(gè)識(shí)別過程產(chǎn)生的誤差會(huì)傳遞積累,有時(shí)一個(gè)主體等相關(guān)元素識(shí)別錯(cuò)誤,會(huì)導(dǎo)致多個(gè)數(shù)值信息的抽取產(chǎn)生錯(cuò)誤。因此,提高識(shí)別階段的識(shí)別質(zhì)量是提高本文方法抽取精度的關(guān)鍵,也是后續(xù)研究的主要內(nèi)容之一。

        在非結(jié)構(gòu)化文本中,對(duì)于定中關(guān)系的屬性值和主體會(huì)省略一些屬性的表達(dá)。比如“180臺(tái)平板電腦”,由于表達(dá)習(xí)慣將“數(shù)量”這個(gè)屬性省略,省略的屬性往往是這個(gè)單位所屬的類別。所以今后要對(duì)收集到的單位進(jìn)行更加詳細(xì)的分類,加入句法分析等特征,進(jìn)而對(duì)屬性進(jìn)行推理補(bǔ)充,以減少這種因?yàn)槭÷远斐傻臄?shù)值信息的抽取錯(cuò)誤。

        對(duì)于抽取出來的數(shù)值信息中比較類型的數(shù)值信息,可根據(jù)需要做相應(yīng)的邏輯處理,推理出句子中隱含有的數(shù)值信息,表示成不含有比較元素的數(shù)值信息。

        5 結(jié) 語

        本文提出一種數(shù)值信息表示方法和數(shù)值信息抽取框架。該表示方法可以全面地表示出數(shù)值信息。抽取過程主要分為兩步:數(shù)值信息元素和關(guān)系識(shí)別。其中針對(duì)屬性值表達(dá)比較固定的特點(diǎn),利用模板的方法對(duì)句子中的屬性值在進(jìn)行識(shí)別。采用了BI-LSTM-CRF模型對(duì)數(shù)值信息主體、屬性和比較詞進(jìn)行識(shí)別。通過選取特征,判斷屬性值和其他元素之間的關(guān)系。實(shí)驗(yàn)結(jié)果表明,采用BI-LSTM-CRF識(shí)別的抽取方法正確率和召回率都達(dá)到75%以上,優(yōu)于現(xiàn)有的模式匹配方法。

        在未來的工作中,我們將嘗試對(duì)深度學(xué)習(xí)模型參數(shù)進(jìn)行改進(jìn),分別對(duì)主體、屬性、比較詞的識(shí)別進(jìn)行優(yōu)化。同時(shí)增加句法和句子角色等特征,嘗試采用機(jī)器學(xué)習(xí)相關(guān)模型來進(jìn)行元素之間的關(guān)系識(shí)別,進(jìn)一步提高數(shù)值信息抽取的準(zhǔn)確率。

        猜你喜歡
        數(shù)值模板主體
        用固定數(shù)值計(jì)算
        鋁模板在高層建筑施工中的應(yīng)用
        鋁模板在高層建筑施工中的應(yīng)用
        數(shù)值大小比較“招招鮮”
        論自然人破產(chǎn)法的適用主體
        關(guān)于遺產(chǎn)保護(hù)主體的思考
        基于Fluent的GTAW數(shù)值模擬
        焊接(2016年2期)2016-02-27 13:01:02
        鋁模板在高層建筑施工中的應(yīng)用
        城市綜改 可推廣的模板較少
        論多元主體的生成
        亚洲a∨天堂男人无码| 无遮挡1000部拍拍拍免费| 99久久精品午夜一区二区| 亚洲男人天堂| 红杏性无码免费专区| 成人水蜜桃视频在线观看| 日韩人妻少妇一区二区三区| 扒开双腿疯狂进出爽爽爽视频| 精品少妇一区一区三区| 国产影片免费一级内射| 国色天香社区视频在线| 老熟女高潮一区二区三区| 黑人巨大精品欧美在线观看| 国产激情视频在线观看首页| 美女扒开大腿让男人桶| 欧美性狂猛xxxxx深喉| 国产成人亚洲精品2020| 日韩精品免费av一区二区三区 | 啪啪无码人妻丰满熟妇| 69精品人妻一区二区| 久久久久人妻精品一区二区三区 | 成人免费a级毛片| 久久精品国产99国产精2020丨| 网红极品女神精品视频在线| 精品女同一区二区三区| 精品乱码久久久久久久| 亚洲高清在线不卡中文字幕网| 伊人久久大香线蕉av色婷婷| 无码熟妇人妻av在线影片最多| 久久精品亚洲乱码伦伦中文| 国产一区二区精品网站看黄| 日韩在线精品视频一区| 色偷偷av男人的天堂| 成人片99久久精品国产桃花岛| 丰满人妻被公侵犯的视频| 精品无人码麻豆乱码1区2区| 国产亚洲日韩欧美一区二区三区| 亚洲日本在线中文字幕| 熟妇高潮一区二区三区在线观看| 亚洲乱码av中文一区二区| 久久国产香蕉一区精品天美|