亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于構(gòu)件理解的文檔格式優(yōu)化方法

        2020-11-19 07:24:36郝海利
        關(guān)鍵詞:文檔構(gòu)件錯誤

        王 娟,李 寧,郝海利

        (北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字文化傳播重點(diǎn)實(shí)驗(yàn)室,北京 100101)

        0 引言

        流式文檔在日常辦公和文獻(xiàn)出版等領(lǐng)域中應(yīng)用廣泛,但流式文檔格式復(fù)雜,排版形式多樣,使用時難免會出現(xiàn)各種錯誤[1]。據(jù)統(tǒng)計(jì),錯誤主要分為標(biāo)題邏輯結(jié)構(gòu)錯誤、排版格式錯誤以及文檔構(gòu)件錯誤。其中,文檔構(gòu)件錯誤占了較大比重[2]。文檔構(gòu)件是指形如圖片、表格、文本段等具有相對獨(dú)立語義和獨(dú)立功能的文檔組成成分[3]。對文檔構(gòu)件進(jìn)行糾錯有利于文檔的規(guī)范化,從而使其更好地被計(jì)算機(jī)理解[4]。文檔格式優(yōu)化,即在文檔理解的基礎(chǔ)上,根據(jù)排版要求,將文檔調(diào)整為規(guī)范化格式。以往通過手工對文檔進(jìn)行格式調(diào)整的方法,工作量大且難以發(fā)現(xiàn)各種錯誤。因此,本文從文檔構(gòu)件的理解出發(fā),針對文檔構(gòu)件可能存在的多種錯誤情況,采取不同的查錯糾錯方法,以此達(dá)到文檔格式優(yōu)化的目的[5]。

        本文方法主要針對的是學(xué)術(shù)論文。學(xué)術(shù)論文等結(jié)構(gòu)性較強(qiáng)的文檔往往由多種基本單元組成,如標(biāo)題、摘要、關(guān)鍵詞、章節(jié)、圖表等。要進(jìn)行文檔格式優(yōu)化,首先需要計(jì)算機(jī)正確理解文檔結(jié)構(gòu),這是本文方法的前提。文檔結(jié)構(gòu)理解即基于文檔的格式和內(nèi)容來理解文檔各部分的作用[6],其包含兩方面內(nèi)容:首先,計(jì)算機(jī)需要識別出文檔的各個構(gòu)件,例如圖片、表格、文本段等;其次,計(jì)算機(jī)還要識別文檔中各構(gòu)件之間的邏輯關(guān)系,例如各級標(biāo)題之間的嵌套關(guān)系。在文檔結(jié)構(gòu)理解中,典型的有基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法?;谝?guī)則的方法較多地使用規(guī)則(模板)對文檔的構(gòu)件和結(jié)構(gòu)進(jìn)行識別[7]。通過將待測文檔與模板進(jìn)行比較,識別出待測文檔的文檔構(gòu)件和結(jié)構(gòu)[8]。徐東風(fēng)等[9]通過預(yù)先設(shè)定文檔標(biāo)準(zhǔn)格式,實(shí)現(xiàn)了本科生畢業(yè)論文格式與標(biāo)準(zhǔn)文檔的格式檢測和匹配。但是,基于規(guī)則的方法存在一定缺陷,例如,需要人工提取特征,未能充分利用文檔構(gòu)造規(guī)律等。機(jī)器學(xué)習(xí)的方法常采用序列標(biāo)注模型,將文檔段落以及各個構(gòu)件的前后依賴關(guān)系看成序列數(shù)據(jù),通過序列標(biāo)注模型進(jìn)行邏輯標(biāo)簽序列的識別。雷洋等[10]使用基于CRF(conditional random field)的序列標(biāo)注方法,將文檔結(jié)構(gòu)理解看作序列標(biāo)注問題,在特征模板之上建立CRF訓(xùn)練模型,并通過監(jiān)督學(xué)習(xí)方法實(shí)現(xiàn)文檔結(jié)構(gòu)識別?;谛蛄械姆椒梢越Y(jié)合多種特征,特別是上下文特征,還可以在一定程度上實(shí)現(xiàn)容錯,但難以找到最優(yōu)結(jié)構(gòu)。除了序列標(biāo)注方法外,還有基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法。張真等[11]根據(jù)流式文檔特點(diǎn),提出一種基于雙向LSTM(long short-term memory)的文檔結(jié)構(gòu)識別方法,從文檔單元的格式、內(nèi)容與語義方面篩選關(guān)鍵特征,在此基礎(chǔ)上,使用雙向LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)建識別模型,實(shí)現(xiàn)了18種邏輯標(biāo)簽的識別。

        本文利用張真等[11]的文檔結(jié)構(gòu)識別的結(jié)果,實(shí)現(xiàn)基于構(gòu)件的文檔格式優(yōu)化方法。構(gòu)建了文檔糾錯語料庫,統(tǒng)計(jì)文檔結(jié)構(gòu)出錯的規(guī)律,針對不同的錯誤,采用不同的方法進(jìn)行查錯分析,并給出相應(yīng)的糾錯建議,從而達(dá)到文檔格式優(yōu)化的目的。

        1 排版錯誤的分類

        在研究基于構(gòu)件理解的文檔格式優(yōu)化方法之前,首先對流式文檔排版錯誤的規(guī)律進(jìn)行分析。本課題所在的項(xiàng)目組標(biāo)注了相當(dāng)數(shù)量的文檔語料,這些文檔語料主要來自于多家學(xué)報(bào)的學(xué)術(shù)論文的初稿,本研究對語料的排版錯誤進(jìn)行了統(tǒng)計(jì)。

        參照文檔結(jié)構(gòu)理解的方法,我們構(gòu)造了一個文檔構(gòu)件集合,將錯誤分為4種類別,即:構(gòu)件的缺失、冗余、亂序和誤用。缺失,即文檔中缺少必要的構(gòu)件;亂序,即文檔中的構(gòu)件順序錯誤;冗余,即文檔中出現(xiàn)多余的文檔構(gòu)件;誤用,即文檔中構(gòu)件使用錯誤。表1是文檔構(gòu)件序列中的錯誤類型及其正確示例。

        表1 錯誤類型及其正確示例

        對語料庫中的糾錯語料進(jìn)行細(xì)分類及概率統(tǒng)計(jì),結(jié)果如表2所示。

        表2 錯誤細(xì)分類及概率統(tǒng)計(jì)

        對文檔構(gòu)件的特點(diǎn)進(jìn)行分析,發(fā)現(xiàn):除了中文論文名稱、作者姓名、單位等構(gòu)件只會在論文頭部出現(xiàn)之外,其余的文檔構(gòu)件都會在正文中多次出現(xiàn);不同位置的文檔構(gòu)件錯誤表現(xiàn)形式往往不同。針對文檔構(gòu)件錯誤的特點(diǎn),本文采取不同的方法進(jìn)行處理。例如文檔局部構(gòu)件的結(jié)構(gòu)錯誤采用語法規(guī)則與統(tǒng)計(jì)相結(jié)合的方法處理;文檔列表、標(biāo)題、公式等構(gòu)件的編號內(nèi)容采用規(guī)則的方法處理。

        2 排版格式的查錯與糾錯

        2.1 基于XML的文檔排版規(guī)則描述

        本文使用XML Schema語法來描述文檔構(gòu)件組成文檔的規(guī)則[12]。主要研究針對學(xué)術(shù)論文的格式優(yōu)化,所設(shè)計(jì)的Schema反映了學(xué)術(shù)論文的排版規(guī)范。

        假設(shè)文檔結(jié)構(gòu)識別后的文檔構(gòu)件序列為C={中文論文名稱,姓名,單位,中文摘要,…,一級標(biāo)題,圖片,圖題,文本段},將該序列與文檔的Schema進(jìn)行有效性驗(yàn)證,從而發(fā)現(xiàn)不規(guī)范的文檔構(gòu)件。除標(biāo)題之外,還設(shè)計(jì)了每個構(gòu)件的Schema,描述相關(guān)的元素以及關(guān)系約束。利用Schema對各個構(gòu)件進(jìn)行檢查,得到錯誤信息后,再采用統(tǒng)計(jì)與規(guī)則相結(jié)合的方法提供糾錯建議,修改完成后,對文檔構(gòu)件序列再次進(jìn)行驗(yàn)證檢查。

        2.2 基于統(tǒng)計(jì)的局部內(nèi)容查錯與糾錯

        對文檔的構(gòu)件進(jìn)行劃分,將中文論文名稱、姓名、單位、中文關(guān)鍵詞、中文摘要、英文論文名稱、英文摘要、英文關(guān)鍵詞、文本段以及郵箱等歸類為頭部元素;將一級標(biāo)題、文本段、列表、圖片、圖題、表題、表格、公式、二級標(biāo)題、三級標(biāo)題等歸類為正文元素。

        在Schema驗(yàn)證后得到錯誤的構(gòu)件時,針對這兩種類型的元素所產(chǎn)生的錯誤情況,采用不同的方法來進(jìn)行處理。頭部元素采用基于統(tǒng)計(jì)與規(guī)則相結(jié)合的方法,為其構(gòu)造備選項(xiàng)集合,從中選擇備選項(xiàng)后繼續(xù)進(jìn)行驗(yàn)證;正文元素中的文檔局部構(gòu)件采用自然語言處理中的接續(xù)關(guān)系的思想進(jìn)行查錯,并采用規(guī)則的方法進(jìn)行糾錯。除此之外,還采用規(guī)則的方法處理文檔中的標(biāo)號錯誤。

        2.2.1 備選項(xiàng)集合

        建立備選項(xiàng)集合主要針對的是頭部元素的糾錯。本研究參考了文本校對技術(shù)中的概率統(tǒng)計(jì)方法,將其應(yīng)用到流式文檔構(gòu)件的查錯和糾錯之中。

        假設(shè)P(Ui|U1U2…Ui…UN)表示文檔構(gòu)件序列C=U1U2…Ui…UN中某個構(gòu)件Ui出現(xiàn)的概率,概率值越大就表明該構(gòu)件Ui出現(xiàn)在其位置的可能性越大。分析已有的糾錯語料庫,將其中常見的文檔構(gòu)件的錯誤類型利用極大似然規(guī)律對概率值進(jìn)行求解[13]。首先計(jì)算先驗(yàn)概率:

        (1)

        則條件概率P(Ui|C)的極大似然估計(jì)為

        (2)

        利用上述方法將文檔中存在的錯誤構(gòu)件替換為另一構(gòu)件。替換的準(zhǔn)則為替換后的文檔構(gòu)件序列需符合Schema規(guī)范。首先,構(gòu)建備選項(xiàng)集合(Aset,alternative set)。一個文檔構(gòu)件序列中的某一構(gòu)件Ui所對應(yīng)的備選項(xiàng)集合A(V)由文檔理解的結(jié)果和其在文檔語料庫中所對應(yīng)的統(tǒng)計(jì)概率經(jīng)過排序后所得,如式(3)所示。

        (3)

        式中vi為某一構(gòu)件Ui的備選項(xiàng)。例如,A(中文關(guān)鍵詞)={文本段,英文關(guān)鍵詞,郵箱,二級標(biāo)題,三級標(biāo)題}中,等式左側(cè)是錯誤構(gòu)件,在本例中是中文關(guān)鍵詞,等式右側(cè)為其對應(yīng)的備選項(xiàng)集合。本文所使用的備選項(xiàng)集合如表3所示。

        表3 備選項(xiàng)集合

        2.2.2 基于接續(xù)關(guān)系的構(gòu)件查錯

        基于接續(xù)關(guān)系的構(gòu)件查錯方法主要應(yīng)用于正文元素。本文采用N-Gram模型(N=2),如式(4)所示[14]。

        wt-2,wt-1)

        (4)

        通過統(tǒng)計(jì)文檔糾錯語料庫中符號wi-1和符號串wi-1wi的出現(xiàn)次數(shù)R(wi-1)、R(wi-1wi)來估計(jì)條件概率[15],如式(5)所示。

        (5)

        將上述理論應(yīng)用于文檔構(gòu)件查錯糾錯中。對待檢測的文檔構(gòu)件序列C=U1U2…Ui…UN,通過計(jì)算構(gòu)件之間的條件概率來體現(xiàn)接續(xù)關(guān)系。根據(jù)語料統(tǒng)計(jì)得出閾值,超過閾值則說明構(gòu)件之間存在接續(xù)關(guān)系,否則,則認(rèn)為構(gòu)件之間不存在接續(xù)關(guān)系,即構(gòu)件可能出現(xiàn)錯誤。本文得到的構(gòu)件之間的條件概率如表4所示,所設(shè)定的閾值為0.8。

        表4 部分構(gòu)件條件概率

        表4中,圖片構(gòu)件在前、圖題構(gòu)件在后時,轉(zhuǎn)移概率大于0.8,說明兩者存在接續(xù)關(guān)系。本文將此方法與基于概率統(tǒng)計(jì)的方法相結(jié)合,對文檔構(gòu)件序列進(jìn)行綜合判斷。

        2.2.3 統(tǒng)計(jì)與規(guī)則相結(jié)合的糾錯方法

        綜合上述方法,首先將流式文檔進(jìn)行結(jié)構(gòu)識別以及構(gòu)件識別,得到一個文檔構(gòu)件序列C=U1U2...Ui...UN,將該序列對應(yīng)的XML文件與2.1節(jié)所定義的Schema進(jìn)行有效性驗(yàn)證,再分析得到的錯誤信息。其中,若錯誤為2.2.1節(jié)中備選項(xiàng)集合中出現(xiàn)的屬于頭部元素的文檔構(gòu)件Ui,則嘗試用備選項(xiàng)集合中的構(gòu)件進(jìn)行替換;若錯誤為2.2.2節(jié)中屬于正文元素的具有接續(xù)關(guān)系的文檔構(gòu)件,則使用規(guī)則的方法進(jìn)行糾錯;糾錯完成后,再次進(jìn)行Schema驗(yàn)證,若仍存在錯誤信息則繼續(xù)對文檔構(gòu)件進(jìn)行糾錯,直至到達(dá)所設(shè)置的循環(huán)次數(shù),或者驗(yàn)證通過,則算法結(jié)束。

        2.3 基于規(guī)則的編號查錯方法

        2.3.1 編號分類

        文檔中經(jīng)常出現(xiàn)編號錯誤,與其他構(gòu)件不同,編號錯誤比較適合采用基于規(guī)則的方法進(jìn)行糾錯。將編號種類分為標(biāo)題標(biāo)號、公式編號以及列表編號。各類編號的典型形式如表5所示。

        表5 三類編號的一般形式

        2.3.2 編號獲取

        要對編號進(jìn)行查錯,首先要獲取編號。而文檔中編號方式分為兩種:手動編寫編號與自動編寫編號。不同的編號方式需要采用不同的方式獲取編號。本文通過Word對象模型中的列表項(xiàng)屬性來判斷編號的編寫形式。如果是手動編寫的編號,可以利用正則表達(dá)式來匹配編號信息;如果是自動編寫的編號,則可以通過列表項(xiàng)屬性將編號的各項(xiàng)信息提取出來。部分編號的正則表達(dá)式如表6所示。

        2.3.3 編號查錯算法

        獲取到編號信息后,首先要對信息進(jìn)行整理。為此定義了兩個用于描述編號信息的集合。

        定義1編號集合(NS,number set),是編號描述信息的集合。其中,ns∈NS為編號項(xiàng)。編號擁有一個屬性集合,為NP(number property)。

        表6 編號正則表達(dá)式

        定義2編號屬性集合NP,主要描述所獲得的編號的各種屬性信息。表7為編號屬性集合中的概念及其含義。

        表7 編號屬性

        在獲取到編號后,將編號列表作為編號查錯算法的輸入,通過判斷編號的類型,決定采用哪種編號查錯方法。例如,若編號類型為公式編號,則采用公式編號的查錯方法;若編號類型為列表編號,則采用列表編號的查錯方法;而對于標(biāo)題編號,當(dāng)存在多個層級的編號時,需要將各級編號進(jìn)行分割,逐一判斷。例如,對于標(biāo)題編號1.2.3,存在三級編號,需要將三級編號分割為3個數(shù)值1、2、3后再依次判斷。對編號的檢查完畢后,輸出編號的錯誤信息。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)及評測方法

        本文的文檔語料庫收集了100篇來自某學(xué)報(bào)已經(jīng)發(fā)表的學(xué)術(shù)論文的初稿。實(shí)驗(yàn)采用的評價(jià)指標(biāo)為準(zhǔn)確率、召回率和F度量,三者的定義如下:

        (6)

        (7)

        (8)

        除此之外,本研究還根據(jù)查錯結(jié)果進(jìn)行了一定程度的糾錯,糾錯以批注的方式在原文檔中給出相應(yīng)建議。對糾錯建議進(jìn)行評價(jià)的指標(biāo)使用的是糾錯準(zhǔn)確率(CorrectingRate),定義如下:

        (9)

        3.2 實(shí)驗(yàn)結(jié)果及分析

        以一篇文檔為例,圖1為文檔構(gòu)件查錯糾錯示例,圖2為編號查錯示例。

        表8為文檔構(gòu)件查錯糾錯實(shí)驗(yàn)結(jié)果。除內(nèi)容構(gòu)件誤用錯誤類型糾錯準(zhǔn)確率為90%外,其他6種錯誤類型的糾錯準(zhǔn)確率可以達(dá)到100%。

        表8 文檔構(gòu)件查錯糾錯實(shí)驗(yàn)結(jié)果 %

        表9為文檔構(gòu)件編號查錯實(shí)驗(yàn)結(jié)果。在針對5種錯誤類型的編號查錯中,除標(biāo)題編號順序錯誤的糾錯率為80%外,其他錯誤類型的糾錯準(zhǔn)確率都可以達(dá)到100%。

        表9 文檔構(gòu)件編號查錯實(shí)驗(yàn)結(jié)果 %

        本文方法在各種錯誤類型的查錯中,糾錯準(zhǔn)確率都可以達(dá)到80%以上,但絕大部分召回率偏低。針對召回率偏低的原因進(jìn)行分析可知:首先,學(xué)術(shù)論文格式多樣,可能無法檢查到不在規(guī)則范圍內(nèi)的錯誤;其次,本研究的實(shí)驗(yàn)語料庫是基于文檔結(jié)構(gòu)識別的結(jié)果,文檔結(jié)構(gòu)識別的差錯會影響糾錯的結(jié)果。例如文檔結(jié)構(gòu)識別可能將表題識別成文本段,這將影響后續(xù)對表題的查錯與糾錯,降低召回率。

        4 結(jié)束語

        本文提出了一種文檔構(gòu)件查錯糾錯方法:利用Schema對文檔局部構(gòu)件進(jìn)行語法檢查,根據(jù)得到的錯誤信息,采用統(tǒng)計(jì)與規(guī)則相結(jié)合的方法得出糾錯建議;針對文檔局部構(gòu)件,采用統(tǒng)計(jì)與規(guī)則相結(jié)合的方法進(jìn)行糾錯;針對文檔標(biāo)題、公式以及列表的編號采用規(guī)則的方式進(jìn)行糾錯。該方法在100篇的實(shí)驗(yàn)數(shù)據(jù)集上總體準(zhǔn)確率接近100%,F(xiàn)度量總體可以達(dá)到70%以上。

        本文方法只針對文檔的局部構(gòu)件查錯,針對文檔全局邏輯結(jié)構(gòu)的查錯與糾錯,采用了基于語法的方法,不在本文展開。針對目前本方法存在的召回率較低的問題,將嘗試構(gòu)造更多的規(guī)則應(yīng)用于文檔構(gòu)件的查錯中,例如,針對不同類型的文檔構(gòu)建針對性的糾錯規(guī)則;同時采用更好的文檔結(jié)構(gòu)識別模型。

        猜你喜歡
        文檔構(gòu)件錯誤
        在錯誤中成長
        有人一聲不吭向你扔了個文檔
        建筑構(gòu)件
        建筑構(gòu)件
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        建筑構(gòu)件
        建筑構(gòu)件
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        不犯同樣錯誤
        《錯誤》:怎一個“美”字了得
        短篇小說(2014年11期)2014-02-27 08:32:41
        麻豆成人久久精品二区三区91| 日韩精品中文一区二区三区在线| 欧美日韩在线视频| a级毛片100部免费观看| 蜜桃精品免费久久久久影院| 国产爆乳无码一区二区在线| 国产三级自拍视频在线| 国产老熟女伦老熟妇露脸| 波多野结衣av一区二区全免费观看 | 日韩精品视频免费福利在线观看 | 久久伊人精品色婷婷国产| 国产大屁股喷水视频在线观看| 免费人妻无码不卡中文字幕18禁| 99精品视频免费热播| 久久精品国产亚洲AV高清wy| 国产人妖伦理视频在线观看| 欧美丰满老熟妇aaaa片| 国产精品久久久久久久免费看| 久久精品免费无码区| 一区二区三区在线日本| 中国一级黄色片久久久| 大又大粗又爽又黄少妇毛片| 四虎成人精品无码永久在线| 亚洲AV无码一区二区三区少妇av| 精品成人av人一区二区三区| 日韩网红少妇无码视频香港| 爱情岛永久地址www成人| 免费观看又污又黄的网站| 国产精品国产三级在线高清观看| 国产一区二区在三区在线观看| 三级国产精品久久久99| 久久精品国产视频在热| 精品无码久久久久久久动漫| 久久久精品国产亚洲麻色欲| 亚洲国产人成综合网站| 男女性杂交内射妇女bbwxz| 九月婷婷人人澡人人添人人爽 | аⅴ天堂一区视频在线观看 | 男人添女人囗交做爰视频| 日本护士吞精囗交gif| 欧美成人精品福利在线视频 |