亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于構(gòu)件理解的文檔格式優(yōu)化方法

2020-11-19 07:24:36郝海利

北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版) 2020年5期

王娟，李寧，郝海利

(北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字文化傳播重點(diǎn)實(shí)驗(yàn)室，北京 100101)

0 引言

流式文檔在日常辦公和文獻(xiàn)出版等領(lǐng)域中應(yīng)用廣泛，但流式文檔格式復(fù)雜，排版形式多樣，使用時難免會出現(xiàn)各種錯誤[1]。據(jù)統(tǒng)計(jì)，錯誤主要分為標(biāo)題邏輯結(jié)構(gòu)錯誤、排版格式錯誤以及文檔構(gòu)件錯誤。其中，文檔構(gòu)件錯誤占了較大比重[2]。文檔構(gòu)件是指形如圖片、表格、文本段等具有相對獨(dú)立語義和獨(dú)立功能的文檔組成成分[3]。對文檔構(gòu)件進(jìn)行糾錯有利于文檔的規(guī)范化，從而使其更好地被計(jì)算機(jī)理解[4]。文檔格式優(yōu)化，即在文檔理解的基礎(chǔ)上，根據(jù)排版要求，將文檔調(diào)整為規(guī)范化格式。以往通過手工對文檔進(jìn)行格式調(diào)整的方法，工作量大且難以發(fā)現(xiàn)各種錯誤。因此，本文從文檔構(gòu)件的理解出發(fā)，針對文檔構(gòu)件可能存在的多種錯誤情況，采取不同的查錯糾錯方法，以此達(dá)到文檔格式優(yōu)化的目的[5]。

本文方法主要針對的是學(xué)術(shù)論文。學(xué)術(shù)論文等結(jié)構(gòu)性較強(qiáng)的文檔往往由多種基本單元組成，如標(biāo)題、摘要、關(guān)鍵詞、章節(jié)、圖表等。要進(jìn)行文檔格式優(yōu)化，首先需要計(jì)算機(jī)正確理解文檔結(jié)構(gòu)，這是本文方法的前提。文檔結(jié)構(gòu)理解即基于文檔的格式和內(nèi)容來理解文檔各部分的作用[6]，其包含兩方面內(nèi)容：首先，計(jì)算機(jī)需要識別出文檔的各個構(gòu)件，例如圖片、表格、文本段等；其次，計(jì)算機(jī)還要識別文檔中各構(gòu)件之間的邏輯關(guān)系，例如各級標(biāo)題之間的嵌套關(guān)系。在文檔結(jié)構(gòu)理解中，典型的有基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法?；谝?guī)則的方法較多地使用規(guī)則(模板)對文檔的構(gòu)件和結(jié)構(gòu)進(jìn)行識別[7]。通過將待測文檔與模板進(jìn)行比較，識別出待測文檔的文檔構(gòu)件和結(jié)構(gòu)[8]。徐東風(fēng)等[9]通過預(yù)先設(shè)定文檔標(biāo)準(zhǔn)格式，實(shí)現(xiàn)了本科生畢業(yè)論文格式與標(biāo)準(zhǔn)文檔的格式檢測和匹配。但是，基于規(guī)則的方法存在一定缺陷，例如，需要人工提取特征，未能充分利用文檔構(gòu)造規(guī)律等。機(jī)器學(xué)習(xí)的方法常采用序列標(biāo)注模型，將文檔段落以及各個構(gòu)件的前后依賴關(guān)系看成序列數(shù)據(jù)，通過序列標(biāo)注模型進(jìn)行邏輯標(biāo)簽序列的識別。雷洋等[10]使用基于CRF(conditional random field)的序列標(biāo)注方法，將文檔結(jié)構(gòu)理解看作序列標(biāo)注問題，在特征模板之上建立CRF訓(xùn)練模型，并通過監(jiān)督學(xué)習(xí)方法實(shí)現(xiàn)文檔結(jié)構(gòu)識別?；谛蛄械姆椒梢越Y(jié)合多種特征，特別是上下文特征，還可以在一定程度上實(shí)現(xiàn)容錯，但難以找到最優(yōu)結(jié)構(gòu)。除了序列標(biāo)注方法外，還有基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法。張真等[11]根據(jù)流式文檔特點(diǎn),提出一種基于雙向LSTM(long short-term memory)的文檔結(jié)構(gòu)識別方法，從文檔單元的格式、內(nèi)容與語義方面篩選關(guān)鍵特征,在此基礎(chǔ)上,使用雙向LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)建識別模型,實(shí)現(xiàn)了18種邏輯標(biāo)簽的識別。

本文利用張真等[11]的文檔結(jié)構(gòu)識別的結(jié)果，實(shí)現(xiàn)基于構(gòu)件的文檔格式優(yōu)化方法。構(gòu)建了文檔糾錯語料庫，統(tǒng)計(jì)文檔結(jié)構(gòu)出錯的規(guī)律，針對不同的錯誤，采用不同的方法進(jìn)行查錯分析，并給出相應(yīng)的糾錯建議，從而達(dá)到文檔格式優(yōu)化的目的。

1 排版錯誤的分類

在研究基于構(gòu)件理解的文檔格式優(yōu)化方法之前，首先對流式文檔排版錯誤的規(guī)律進(jìn)行分析。本課題所在的項(xiàng)目組標(biāo)注了相當(dāng)數(shù)量的文檔語料，這些文檔語料主要來自于多家學(xué)報(bào)的學(xué)術(shù)論文的初稿，本研究對語料的排版錯誤進(jìn)行了統(tǒng)計(jì)。

參照文檔結(jié)構(gòu)理解的方法，我們構(gòu)造了一個文檔構(gòu)件集合，將錯誤分為4種類別，即：構(gòu)件的缺失、冗余、亂序和誤用。缺失，即文檔中缺少必要的構(gòu)件；亂序，即文檔中的構(gòu)件順序錯誤；冗余，即文檔中出現(xiàn)多余的文檔構(gòu)件；誤用，即文檔中構(gòu)件使用錯誤。表1是文檔構(gòu)件序列中的錯誤類型及其正確示例。

表1 錯誤類型及其正確示例

對語料庫中的糾錯語料進(jìn)行細(xì)分類及概率統(tǒng)計(jì)，結(jié)果如表2所示。

表2 錯誤細(xì)分類及概率統(tǒng)計(jì)

對文檔構(gòu)件的特點(diǎn)進(jìn)行分析，發(fā)現(xiàn)：除了中文論文名稱、作者姓名、單位等構(gòu)件只會在論文頭部出現(xiàn)之外，其余的文檔構(gòu)件都會在正文中多次出現(xiàn)；不同位置的文檔構(gòu)件錯誤表現(xiàn)形式往往不同。針對文檔構(gòu)件錯誤的特點(diǎn)，本文采取不同的方法進(jìn)行處理。例如文檔局部構(gòu)件的結(jié)構(gòu)錯誤采用語法規(guī)則與統(tǒng)計(jì)相結(jié)合的方法處理；文檔列表、標(biāo)題、公式等構(gòu)件的編號內(nèi)容采用規(guī)則的方法處理。

2 排版格式的查錯與糾錯

2.1 基于XML的文檔排版規(guī)則描述

本文使用XML Schema語法來描述文檔構(gòu)件組成文檔的規(guī)則[12]。主要研究針對學(xué)術(shù)論文的格式優(yōu)化，所設(shè)計(jì)的Schema反映了學(xué)術(shù)論文的排版規(guī)范。

假設(shè)文檔結(jié)構(gòu)識別后的文檔構(gòu)件序列為C={中文論文名稱，姓名，單位，中文摘要，…，一級標(biāo)題，圖片，圖題，文本段}，將該序列與文檔的Schema進(jìn)行有效性驗(yàn)證，從而發(fā)現(xiàn)不規(guī)范的文檔構(gòu)件。除標(biāo)題之外，還設(shè)計(jì)了每個構(gòu)件的Schema，描述相關(guān)的元素以及關(guān)系約束。利用Schema對各個構(gòu)件進(jìn)行檢查，得到錯誤信息后，再采用統(tǒng)計(jì)與規(guī)則相結(jié)合的方法提供糾錯建議，修改完成后，對文檔構(gòu)件序列再次進(jìn)行驗(yàn)證檢查。

2.2 基于統(tǒng)計(jì)的局部內(nèi)容查錯與糾錯

對文檔的構(gòu)件進(jìn)行劃分，將中文論文名稱、姓名、單位、中文關(guān)鍵詞、中文摘要、英文論文名稱、英文摘要、英文關(guān)鍵詞、文本段以及郵箱等歸類為頭部元素；將一級標(biāo)題、文本段、列表、圖片、圖題、表題、表格、公式、二級標(biāo)題、三級標(biāo)題等歸類為正文元素。

在Schema驗(yàn)證后得到錯誤的構(gòu)件時，針對這兩種類型的元素所產(chǎn)生的錯誤情況，采用不同的方法來進(jìn)行處理。頭部元素采用基于統(tǒng)計(jì)與規(guī)則相結(jié)合的方法，為其構(gòu)造備選項(xiàng)集合，從中選擇備選項(xiàng)后繼續(xù)進(jìn)行驗(yàn)證；正文元素中的文檔局部構(gòu)件采用自然語言處理中的接續(xù)關(guān)系的思想進(jìn)行查錯，并采用規(guī)則的方法進(jìn)行糾錯。除此之外，還采用規(guī)則的方法處理文檔中的標(biāo)號錯誤。

2.2.1 備選項(xiàng)集合

建立備選項(xiàng)集合主要針對的是頭部元素的糾錯。本研究參考了文本校對技術(shù)中的概率統(tǒng)計(jì)方法，將其應(yīng)用到流式文檔構(gòu)件的查錯和糾錯之中。

假設(shè)P(Ui|U1U2…Ui…UN)表示文檔構(gòu)件序列C=U1U2…Ui…UN中某個構(gòu)件Ui出現(xiàn)的概率，概率值越大就表明該構(gòu)件Ui出現(xiàn)在其位置的可能性越大。分析已有的糾錯語料庫，將其中常見的文檔構(gòu)件的錯誤類型利用極大似然規(guī)律對概率值進(jìn)行求解[13]。首先計(jì)算先驗(yàn)概率：

(1)

則條件概率P(Ui|C)的極大似然估計(jì)為

(2)

利用上述方法將文檔中存在的錯誤構(gòu)件替換為另一構(gòu)件。替換的準(zhǔn)則為替換后的文檔構(gòu)件序列需符合Schema規(guī)范。首先，構(gòu)建備選項(xiàng)集合(Aset,alternative set)。一個文檔構(gòu)件序列中的某一構(gòu)件Ui所對應(yīng)的備選項(xiàng)集合A(V)由文檔理解的結(jié)果和其在文檔語料庫中所對應(yīng)的統(tǒng)計(jì)概率經(jīng)過排序后所得，如式(3)所示。

(3)

式中vi為某一構(gòu)件Ui的備選項(xiàng)。例如，A(中文關(guān)鍵詞)={文本段，英文關(guān)鍵詞，郵箱，二級標(biāo)題，三級標(biāo)題}中，等式左側(cè)是錯誤構(gòu)件，在本例中是中文關(guān)鍵詞，等式右側(cè)為其對應(yīng)的備選項(xiàng)集合。本文所使用的備選項(xiàng)集合如表3所示。

表3 備選項(xiàng)集合

2.2.2 基于接續(xù)關(guān)系的構(gòu)件查錯

基于接續(xù)關(guān)系的構(gòu)件查錯方法主要應(yīng)用于正文元素。本文采用N-Gram模型(N=2)，如式(4)所示[14]。

wt-2,wt-1)

(4)

通過統(tǒng)計(jì)文檔糾錯語料庫中符號wi-1和符號串wi-1wi的出現(xiàn)次數(shù)R(wi-1)、R(wi-1wi)來估計(jì)條件概率[15]，如式(5)所示。

(5)

將上述理論應(yīng)用于文檔構(gòu)件查錯糾錯中。對待檢測的文檔構(gòu)件序列C=U1U2…Ui…UN，通過計(jì)算構(gòu)件之間的條件概率來體現(xiàn)接續(xù)關(guān)系。根據(jù)語料統(tǒng)計(jì)得出閾值，超過閾值則說明構(gòu)件之間存在接續(xù)關(guān)系，否則，則認(rèn)為構(gòu)件之間不存在接續(xù)關(guān)系，即構(gòu)件可能出現(xiàn)錯誤。本文得到的構(gòu)件之間的條件概率如表4所示，所設(shè)定的閾值為0.8。

表4 部分構(gòu)件條件概率

表4中，圖片構(gòu)件在前、圖題構(gòu)件在后時，轉(zhuǎn)移概率大于0.8，說明兩者存在接續(xù)關(guān)系。本文將此方法與基于概率統(tǒng)計(jì)的方法相結(jié)合，對文檔構(gòu)件序列進(jìn)行綜合判斷。

2.2.3 統(tǒng)計(jì)與規(guī)則相結(jié)合的糾錯方法

綜合上述方法，首先將流式文檔進(jìn)行結(jié)構(gòu)識別以及構(gòu)件識別，得到一個文檔構(gòu)件序列C=U1U2...Ui...UN，將該序列對應(yīng)的XML文件與2.1節(jié)所定義的Schema進(jìn)行有效性驗(yàn)證，再分析得到的錯誤信息。其中，若錯誤為2.2.1節(jié)中備選項(xiàng)集合中出現(xiàn)的屬于頭部元素的文檔構(gòu)件Ui，則嘗試用備選項(xiàng)集合中的構(gòu)件進(jìn)行替換；若錯誤為2.2.2節(jié)中屬于正文元素的具有接續(xù)關(guān)系的文檔構(gòu)件，則使用規(guī)則的方法進(jìn)行糾錯；糾錯完成后，再次進(jìn)行Schema驗(yàn)證，若仍存在錯誤信息則繼續(xù)對文檔構(gòu)件進(jìn)行糾錯，直至到達(dá)所設(shè)置的循環(huán)次數(shù)，或者驗(yàn)證通過，則算法結(jié)束。

2.3 基于規(guī)則的編號查錯方法

2.3.1 編號分類

文檔中經(jīng)常出現(xiàn)編號錯誤，與其他構(gòu)件不同，編號錯誤比較適合采用基于規(guī)則的方法進(jìn)行糾錯。將編號種類分為標(biāo)題標(biāo)號、公式編號以及列表編號。各類編號的典型形式如表5所示。

表5 三類編號的一般形式

2.3.2 編號獲取

要對編號進(jìn)行查錯，首先要獲取編號。而文檔中編號方式分為兩種：手動編寫編號與自動編寫編號。不同的編號方式需要采用不同的方式獲取編號。本文通過Word對象模型中的列表項(xiàng)屬性來判斷編號的編寫形式。如果是手動編寫的編號，可以利用正則表達(dá)式來匹配編號信息；如果是自動編寫的編號，則可以通過列表項(xiàng)屬性將編號的各項(xiàng)信息提取出來。部分編號的正則表達(dá)式如表6所示。

2.3.3 編號查錯算法

獲取到編號信息后，首先要對信息進(jìn)行整理。為此定義了兩個用于描述編號信息的集合。

定義1編號集合(NS，number set)，是編號描述信息的集合。其中，ns∈NS為編號項(xiàng)。編號擁有一個屬性集合，為NP(number property)。

表6 編號正則表達(dá)式

定義2編號屬性集合NP，主要描述所獲得的編號的各種屬性信息。表7為編號屬性集合中的概念及其含義。

表7 編號屬性

在獲取到編號后，將編號列表作為編號查錯算法的輸入，通過判斷編號的類型，決定采用哪種編號查錯方法。例如，若編號類型為公式編號，則采用公式編號的查錯方法；若編號類型為列表編號，則采用列表編號的查錯方法；而對于標(biāo)題編號，當(dāng)存在多個層級的編號時，需要將各級編號進(jìn)行分割，逐一判斷。例如，對于標(biāo)題編號1.2.3，存在三級編號，需要將三級編號分割為3個數(shù)值1、2、3后再依次判斷。對編號的檢查完畢后，輸出編號的錯誤信息。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)及評測方法

本文的文檔語料庫收集了100篇來自某學(xué)報(bào)已經(jīng)發(fā)表的學(xué)術(shù)論文的初稿。實(shí)驗(yàn)采用的評價(jià)指標(biāo)為準(zhǔn)確率、召回率和F度量，三者的定義如下：

(6)

(7)

(8)

除此之外，本研究還根據(jù)查錯結(jié)果進(jìn)行了一定程度的糾錯，糾錯以批注的方式在原文檔中給出相應(yīng)建議。對糾錯建議進(jìn)行評價(jià)的指標(biāo)使用的是糾錯準(zhǔn)確率(CorrectingRate)，定義如下：

(9)

3.2 實(shí)驗(yàn)結(jié)果及分析

以一篇文檔為例，圖1為文檔構(gòu)件查錯糾錯示例，圖2為編號查錯示例。

表8為文檔構(gòu)件查錯糾錯實(shí)驗(yàn)結(jié)果。除內(nèi)容構(gòu)件誤用錯誤類型糾錯準(zhǔn)確率為90%外，其他6種錯誤類型的糾錯準(zhǔn)確率可以達(dá)到100%。

表8 文檔構(gòu)件查錯糾錯實(shí)驗(yàn)結(jié)果 %

表9為文檔構(gòu)件編號查錯實(shí)驗(yàn)結(jié)果。在針對5種錯誤類型的編號查錯中，除標(biāo)題編號順序錯誤的糾錯率為80%外，其他錯誤類型的糾錯準(zhǔn)確率都可以達(dá)到100%。

表9 文檔構(gòu)件編號查錯實(shí)驗(yàn)結(jié)果 %

本文方法在各種錯誤類型的查錯中，糾錯準(zhǔn)確率都可以達(dá)到80%以上，但絕大部分召回率偏低。針對召回率偏低的原因進(jìn)行分析可知：首先，學(xué)術(shù)論文格式多樣，可能無法檢查到不在規(guī)則范圍內(nèi)的錯誤；其次，本研究的實(shí)驗(yàn)語料庫是基于文檔結(jié)構(gòu)識別的結(jié)果，文檔結(jié)構(gòu)識別的差錯會影響糾錯的結(jié)果。例如文檔結(jié)構(gòu)識別可能將表題識別成文本段，這將影響后續(xù)對表題的查錯與糾錯，降低召回率。

4 結(jié)束語

本文提出了一種文檔構(gòu)件查錯糾錯方法：利用Schema對文檔局部構(gòu)件進(jìn)行語法檢查，根據(jù)得到的錯誤信息，采用統(tǒng)計(jì)與規(guī)則相結(jié)合的方法得出糾錯建議；針對文檔局部構(gòu)件，采用統(tǒng)計(jì)與規(guī)則相結(jié)合的方法進(jìn)行糾錯；針對文檔標(biāo)題、公式以及列表的編號采用規(guī)則的方式進(jìn)行糾錯。該方法在100篇的實(shí)驗(yàn)數(shù)據(jù)集上總體準(zhǔn)確率接近100%，F(xiàn)度量總體可以達(dá)到70%以上。

本文方法只針對文檔的局部構(gòu)件查錯，針對文檔全局邏輯結(jié)構(gòu)的查錯與糾錯，采用了基于語法的方法，不在本文展開。針對目前本方法存在的召回率較低的問題，將嘗試構(gòu)造更多的規(guī)則應(yīng)用于文檔構(gòu)件的查錯中，例如，針對不同類型的文檔構(gòu)建針對性的糾錯規(guī)則；同時采用更好的文檔結(jié)構(gòu)識別模型。