亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙向LSTM網(wǎng)絡(luò)的流式文檔結(jié)構(gòu)識(shí)別

        2020-01-16 07:32:18田英愛
        計(jì)算機(jī)工程 2020年1期
        關(guān)鍵詞:流式文檔標(biāo)簽

        張 真,李 寧,田英愛

        (北京信息科技大學(xué) a.網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室; b.計(jì)算機(jī)學(xué)院,北京 100101)

        0 概述

        流式文檔由若干基本單元構(gòu)成,每個(gè)單元在文章中都具有不同的作用,如標(biāo)題、摘要、表格等。文檔結(jié)構(gòu)識(shí)別就是對(duì)每個(gè)單元對(duì)應(yīng)的邏輯標(biāo)簽進(jìn)行識(shí)別,這是諸多應(yīng)用的基礎(chǔ)。例如,排版格式優(yōu)化任務(wù)以往需要人工處理,費(fèi)時(shí)費(fèi)力,如果計(jì)算機(jī)能夠判斷出每個(gè)單元的邏輯標(biāo)簽,進(jìn)而分析出文檔的邏輯結(jié)構(gòu),便可以自動(dòng)地按照某種規(guī)則對(duì)其進(jìn)行排版,保證文檔排版質(zhì)量并大幅提高效率。此外,文檔結(jié)構(gòu)識(shí)別對(duì)于一些自然語言處理應(yīng)用,如文檔分類、結(jié)構(gòu)化檢索、文檔理解等,也有重要的作用。

        以往的文檔結(jié)構(gòu)識(shí)別主要針對(duì)版式文檔領(lǐng)域,流式文檔結(jié)構(gòu)識(shí)別的相關(guān)研究較少?,F(xiàn)有的流式文檔結(jié)構(gòu)識(shí)別主要應(yīng)用規(guī)則化方法或機(jī)器學(xué)習(xí)方法,識(shí)別效果不夠理想。此外,由于所建立的規(guī)則或方法與文檔類型高度相關(guān),一旦文檔類型改變,需要重新建立規(guī)則或識(shí)別模型,其泛化能力有限。針對(duì)上述問題,本文提出一種基于雙向長(zhǎng)短期時(shí)間記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的結(jié)構(gòu)識(shí)別方法,通過提取內(nèi)容、格式和語義特征,構(gòu)建雙向LSTM神經(jīng)網(wǎng)絡(luò)識(shí)別模型,提高識(shí)別結(jié)果的準(zhǔn)確性。

        1 相關(guān)研究

        目前,國內(nèi)外已有很多針對(duì)固定版式文檔的版面分析方法[1],其目標(biāo)是研究版面各區(qū)域與邏輯標(biāo)簽之間的關(guān)系,其與流式文檔的結(jié)構(gòu)識(shí)別有一定的聯(lián)系。文獻(xiàn)[2-4]從文檔中提取出格式與內(nèi)容特征,形成文檔的特征表示。另有研究發(fā)現(xiàn),在格式與內(nèi)容特征之外,增加文本內(nèi)容的語義特征也能改善文檔結(jié)構(gòu)識(shí)別結(jié)果。例如,文獻(xiàn)[5]利用循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文檔的排版格式、內(nèi)容和語義特征,并用n-gram進(jìn)行表示,文獻(xiàn)[6]使用word2vec模型學(xué)習(xí)文檔的語義特征,通過構(gòu)建前饋神經(jīng)網(wǎng)絡(luò)識(shí)別較短篇幅文檔的邏輯結(jié)構(gòu)。在版面理解方面也已出現(xiàn)一些較成熟的產(chǎn)品,例如方正飛翔軟件[7]通過版式分析,將文檔表示成可擴(kuò)展標(biāo)記語言(XML)形式的流式文檔,進(jìn)而得到與不同模板相對(duì)應(yīng)的排版結(jié)果。然而,流式的XML文檔有可擴(kuò)展、半結(jié)構(gòu)化和自描述的特點(diǎn)[8],而版面分析主要解決規(guī)范出版物的版面區(qū)域標(biāo)注問題,文檔的邏輯結(jié)構(gòu)識(shí)別并非其主要目標(biāo),加之流式文檔的結(jié)構(gòu)遠(yuǎn)比版式文檔復(fù)雜,并且經(jīng)常帶有排版錯(cuò)誤,因此,版面分析方法不能直接應(yīng)用于流式文檔的結(jié)構(gòu)識(shí)別。

        流式文檔的結(jié)構(gòu)識(shí)別方法主要包括基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。在基于規(guī)則的方法中,文獻(xiàn)[9-10]通過比較待測(cè)文檔和標(biāo)準(zhǔn)模板來識(shí)別文檔的邏輯標(biāo)簽,文獻(xiàn)[11-13]利用文檔的排版格式與文字內(nèi)容來匹配預(yù)先確定的規(guī)則,以判斷文檔結(jié)構(gòu)。由于流式文檔的結(jié)構(gòu)通常非常復(fù)雜,因此基于規(guī)則的方法需要構(gòu)造大量的規(guī)則,并且對(duì)于排版不夠規(guī)范的文檔,其容錯(cuò)能力較差?;跈C(jī)器學(xué)習(xí)的方法應(yīng)用學(xué)習(xí)模型構(gòu)造邏輯標(biāo)簽分類器,該方法不需要大量規(guī)則且容錯(cuò)能力較強(qiáng)。例如,文獻(xiàn)[14]利用字體、字號(hào)等8項(xiàng)排版特征,通過支持向量機(jī)(Support Vector Machine,SVM)和隨機(jī)森林構(gòu)造文檔結(jié)構(gòu)識(shí)別模型,文獻(xiàn)[15]在格式特征的基礎(chǔ)上增加了內(nèi)容特征,使用條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)學(xué)習(xí)文檔特征,并構(gòu)造識(shí)別模型。基于機(jī)器學(xué)習(xí)的方法較為靈活,其基礎(chǔ)是特征提取,而現(xiàn)有方法大多僅采用格式和內(nèi)容特征,特征數(shù)量較少,因此識(shí)別準(zhǔn)確率不高。

        如果將流式文檔中的每個(gè)部分看作一個(gè)基本排版單元,將流式文檔的結(jié)構(gòu)看作這些基本單元組成的一個(gè)序列,則文檔結(jié)構(gòu)識(shí)別可看作一個(gè)序列標(biāo)注的問題。然而,現(xiàn)有的機(jī)器學(xué)習(xí)方法很少考慮文檔單元之間的長(zhǎng)距離依賴關(guān)系,對(duì)識(shí)別準(zhǔn)確率造成影響。

        本文采用能夠處理序列數(shù)據(jù)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)構(gòu)建流式文檔結(jié)構(gòu)的識(shí)別模型。由于RNN是一個(gè)隨序列而運(yùn)作的神經(jīng)網(wǎng)絡(luò),因此其能夠很好地處理序列數(shù)據(jù),并從中學(xué)習(xí)有效特征。LSTM作為RNN的一個(gè)變種,有效解決了序列之間的長(zhǎng)期依賴問題。近年來,LSTM得到廣泛應(yīng)用,例如,文獻(xiàn)[16]針對(duì)英文標(biāo)注任務(wù),利用LSTM將文本序列元素與模型輸入相對(duì)應(yīng),并通過隱藏層的記憶模塊學(xué)習(xí)上下文信息,取得了較好的結(jié)果,文獻(xiàn)[17-18]應(yīng)用雙向LSTM網(wǎng)絡(luò)結(jié)構(gòu),從正向和逆向分別學(xué)習(xí)特征,文獻(xiàn)[19]將機(jī)器翻譯看作序列標(biāo)注任務(wù),使用LSTM解碼目標(biāo)語句。本文基于內(nèi)容、格式和語義特征構(gòu)建文檔結(jié)構(gòu)特征,使用雙向LSTM學(xué)習(xí)文檔單元的上下文關(guān)系,以提高對(duì)文檔的結(jié)構(gòu)識(shí)別能力。

        2 基于LSTM的文檔結(jié)構(gòu)識(shí)別方法

        文檔結(jié)構(gòu)識(shí)別的主要目標(biāo)是尋找各個(gè)單元與文檔邏輯標(biāo)簽之間的對(duì)應(yīng)關(guān)系。本文定義邏輯標(biāo)簽集合S={論文名稱,作者姓名,作者單位,中文摘要,中文關(guān)鍵詞,英文摘要,英文關(guān)鍵詞,一級(jí)標(biāo)題,二級(jí)標(biāo)題,三級(jí)標(biāo)題,四級(jí)標(biāo)題,文本段,圖,圖題,表題,表,公式,程序代碼}。

        文檔結(jié)構(gòu)識(shí)別框架包括文檔特征提取和模型構(gòu)造2個(gè)部分,其關(guān)鍵在于,提取的特征能夠反映不同類型文檔單元之間的差異,同時(shí),需要利用文檔單元之間的上下文關(guān)系構(gòu)建文檔結(jié)構(gòu)識(shí)別模型,總體框架如圖1所示??梢钥闯?在特征表示方面,本文將排版格式、文檔內(nèi)容和文本語義特征相結(jié)合作為文檔單元的特征,在識(shí)別模型構(gòu)建方面,本文基于LSTM并充分利用各文檔單元之間的上下文關(guān)系進(jìn)行文檔結(jié)構(gòu)識(shí)別。

        圖1 文檔結(jié)構(gòu)識(shí)別模型總體框架

        Fig.1 General framework of the document structure recognition model

        2.1 文檔結(jié)構(gòu)特征提取

        文檔單元特征選取是識(shí)別文檔單元邏輯標(biāo)簽的關(guān)鍵。為了提高機(jī)器學(xué)習(xí)的效率,本文沒有將排版后的文檔圖像傳輸給模型學(xué)習(xí),而是通過人工選取相關(guān)特征,再利用標(biāo)注后的學(xué)習(xí)樣本訓(xùn)練模型。在選取特征時(shí),本文從不同類型文檔單元間的差異性出發(fā),選取區(qū)分度最高的特征,主要包括格式特征、內(nèi)容特征和語義特征,具體說明如下:

        1)格式特征

        格式特征體現(xiàn)文檔單元在排版格式上的差異,主要包括:

        (1)字號(hào):當(dāng)前單元的字體大小。

        (2)標(biāo)點(diǎn):當(dāng)前單元是否含有標(biāo)點(diǎn)符號(hào)。

        (3)句數(shù):當(dāng)前單元是否為單句。

        (4)字形:當(dāng)前單元是否加粗。

        (5)大綱級(jí)別:當(dāng)前單元的大綱級(jí)別。

        (6)對(duì)齊方式:當(dāng)前單元的對(duì)齊方式。

        (7)Word對(duì)象:當(dāng)前單元是否為“圖”“表”“公式”。

        在以往研究中,一般會(huì)用到字號(hào)、標(biāo)點(diǎn)、句數(shù)、字形和大綱級(jí)別等格式特征,而對(duì)齊方式與Word對(duì)象為本文新引入的特征。由于圖題、表題等文檔單元有特定的居中、左對(duì)齊、兩端對(duì)齊的規(guī)律,而正常排版的圖片、公式以及表格對(duì)象等在Word中有明確的對(duì)象類型,因此引入這些特征能夠提高相關(guān)文檔單元的識(shí)別能力。

        此外,本文在對(duì)一些特征進(jìn)行編碼時(shí),使用了更有效的相對(duì)特征。例如,以往研究在表示字號(hào)時(shí)一般直接將其映射到[0,1]區(qū)間,而本文采用相對(duì)字體大小的概念,即以出現(xiàn)頻率最高的字號(hào)為基礎(chǔ),用字號(hào)的差值表示各文檔單元的字體大小,從而有效地確定標(biāo)題級(jí)別。

        2)內(nèi)容特征

        內(nèi)容特征體現(xiàn)當(dāng)前單元在文本上的差異,主要包括:

        (1)編號(hào):文檔單元首部或者尾部的編號(hào)值。

        (2)關(guān)鍵詞:是否含有“摘要”“圖”“表”等關(guān)鍵詞。

        (3)編號(hào)位置:編號(hào)在尾部還是首部。

        (4)特殊符號(hào):是否含有“@”等特殊符號(hào)。

        以往研究關(guān)注較多的是編號(hào)和關(guān)鍵詞特征,然而,文檔單元的編號(hào)位置和特殊符號(hào)也有重要的作用,例如公式的編號(hào)位置一般居于段尾,郵件地址中通常含有“@”符號(hào)。

        3)語義特征

        文本是構(gòu)成文檔的基本內(nèi)容,文本的語義對(duì)于文檔的邏輯結(jié)構(gòu)判斷能起到輔助作用。通過文本的語義特征不僅可以判斷標(biāo)題和正文之間的關(guān)聯(lián)關(guān)系,還可以判斷文檔的修辭結(jié)構(gòu)。在面向文檔結(jié)構(gòu)識(shí)別的神經(jīng)網(wǎng)絡(luò)中,通常采用詞袋模型將文本內(nèi)容直接輸入到網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí),由于文本內(nèi)容的數(shù)據(jù)量龐大,學(xué)習(xí)文本的規(guī)律性存在一定的困難,并且機(jī)器學(xué)習(xí)的負(fù)擔(dān)較重。文獻(xiàn)[20]提出一種doc2vec方法,將可變長(zhǎng)度的段落文本表示為固定長(zhǎng)度的特征向量,從而有效降低特征維度。該方法在訓(xùn)練過程中,隨機(jī)采樣段落中的上下文詞匯,采用無監(jiān)督算法學(xué)習(xí)可變長(zhǎng)度的段落文本,將長(zhǎng)文本壓縮為固定長(zhǎng)度的向量,并通過上下文關(guān)系捕獲段落的語義信息。本文在文獻(xiàn)[20]的基礎(chǔ)上,用doc2vec對(duì)段落文本進(jìn)行編碼并將其表示為一個(gè)向量,從而對(duì)文檔中的長(zhǎng)文本進(jìn)行概括,并保留其語義信息。

        流式文檔本質(zhì)上是可編輯的XML,Word對(duì)象模型為開發(fā)人員提供了豐富的軟件開發(fā)工具包,非常簡(jiǎn)單易用。本文基于Word對(duì)象模型提取文檔特征,由于流式文檔的格式內(nèi)容并非規(guī)范化的,因此在提取文檔特征時(shí)可能出現(xiàn)以下2種錯(cuò)誤:

        1)文檔單元內(nèi)部的格式不一致,例如,某個(gè)單元中同時(shí)含有8號(hào)字和16號(hào)字,Word對(duì)象模型無法確定字號(hào)特征。針對(duì)該問題,本文選擇文檔單元中占比最大的字號(hào)作為最終特征。

        2)提取的內(nèi)容特征并非當(dāng)前文檔單元實(shí)際所需要的特征。例如,某文檔單元的邏輯標(biāo)簽為正文,但是含有“表”關(guān)鍵詞,會(huì)對(duì)文檔單元識(shí)別結(jié)果產(chǎn)生影響。因此,本文結(jié)合關(guān)鍵詞一般只出現(xiàn)在段首的特點(diǎn),在提取特征的過程中,只在段首位置提取關(guān)鍵詞,盡量減少上述情況的出現(xiàn)。

        圖2以本文輸入特征為例,給出字號(hào)、標(biāo)點(diǎn)、句數(shù)、字形、關(guān)鍵詞、對(duì)齊方式6項(xiàng)特征。其中,字號(hào)特征經(jīng)過標(biāo)準(zhǔn)化處理,圖片沒有字號(hào)因此標(biāo)記為0。標(biāo)點(diǎn)、句數(shù)、字形特征為bool值,例如,標(biāo)簽為“論文名稱”的段落無標(biāo)點(diǎn),句數(shù)為單句,字形加粗,則其標(biāo)點(diǎn)、句數(shù)、字形特征分別為False、False、True,最終將False值設(shè)置為0,True值設(shè)置為1。關(guān)鍵詞與對(duì)齊方式特征屬于離散特征,因此,需對(duì)其進(jìn)行one-hot離散化處理。

        圖2 流式文檔特征提取示例

        2.2 文檔結(jié)構(gòu)識(shí)別模型

        流式文檔結(jié)構(gòu)識(shí)別可以看作是文檔單元上的序列標(biāo)注問題,由此,本文基于LSTM網(wǎng)絡(luò)構(gòu)建結(jié)構(gòu)識(shí)別模型,如圖3所示。在圖3中,網(wǎng)絡(luò)的第1層對(duì)高維的輸入向量進(jìn)行降維,第2層為循環(huán)層,從正向和逆向?qū)W習(xí)文檔中每一段的狀態(tài)向量,最后通過狀態(tài)向量預(yù)測(cè)該段的邏輯標(biāo)簽。

        圖3 基于雙向LSTM神經(jīng)網(wǎng)絡(luò)的文檔結(jié)構(gòu)識(shí)別模型

        Fig.3 Document structure recognition model based on bidirectional LSTM neural network

        LSTM在傳統(tǒng)的RNN模型的基礎(chǔ)上重新設(shè)計(jì)了隱藏層節(jié)點(diǎn)的記憶模塊,引了輸入門it和輸出門ot用于調(diào)節(jié)輸入數(shù)據(jù)的信息和記憶單元的狀態(tài)信息,利用遺忘門ft清理學(xué)習(xí)過程中的無用信息,從而有效利用長(zhǎng)距離的序列信息。此外,通過LSTM的隱藏節(jié)點(diǎn)來發(fā)現(xiàn)各個(gè)段落局部之間的相互關(guān)系。

        (1)

        ft=σ(wf[xt,ht-1])+bf

        (2)

        it=σ(wi[xt,ht-1])+bi

        (3)

        (4)

        (5)

        計(jì)算輸出門的值ot,并根據(jù)ot與ct得到LSTM的輸出及隱藏狀態(tài)ht,具體公式如下:

        ot=σ(wo[xt,ht-1])+bo

        (6)

        ht=ot×tanh(ct)

        (7)

        Pt=Softmax(Wp·ht+bp)

        (8)

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)

        針對(duì)文檔結(jié)構(gòu)識(shí)別,目前還沒有公開的流式文檔語料庫,因此,本文構(gòu)建了一個(gè)由1 365篇學(xué)術(shù)論文、82 763個(gè)文檔段落組成的語料庫。這些文檔來源于學(xué)位論文和多個(gè)學(xué)報(bào),如食品科學(xué)技術(shù)學(xué)報(bào)、北京信息科技大學(xué)學(xué)報(bào)、北京郵電大學(xué)學(xué)報(bào)等,鑒于文檔的保密要求,本文在github上公布了其中68篇數(shù)據(jù)(具體網(wǎng)址為https://github.com/COSLab)。將這些文檔按照4∶1的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,由于存在邏輯標(biāo)簽數(shù)量分布不平衡的問題,簡(jiǎn)單采用精準(zhǔn)率P、召回率R和F值作為評(píng)價(jià)指標(biāo)是不夠的,因此需要同時(shí)采用宏平均和微平均來衡量文檔結(jié)構(gòu)識(shí)別方法的性能。

        3.2 結(jié)果分析

        將文獻(xiàn)[14-15]方法與本文方法進(jìn)行對(duì)比。文獻(xiàn)[14]從流式文檔中提取格式特征,在此基礎(chǔ)上搭建Random Forest、SVM、KNN和NB 4種不同的機(jī)器學(xué)習(xí)模型進(jìn)行文檔結(jié)構(gòu)識(shí)別,本文選擇其中表現(xiàn)最好的Random Forest進(jìn)行對(duì)比實(shí)驗(yàn),在重現(xiàn)其方法時(shí)選擇原文中的特征處理方式,參數(shù)tree的值設(shè)置為其論文中表現(xiàn)最優(yōu)的100。文獻(xiàn)[15]在提取格式特征與內(nèi)容特征的基礎(chǔ)上,使用CRF、MEMM、HMM對(duì)文檔段落進(jìn)行分類,本文同樣選擇其表現(xiàn)最好的CRF進(jìn)行對(duì)比。3種方法的識(shí)別結(jié)果對(duì)比如表1所示,其中F值的最優(yōu)值加粗表示。

        表1 3種方法的識(shí)別效果對(duì)比

        由表1可以得出以下結(jié)論:

        1)本文方法總體上優(yōu)于其他2種方法,在18類邏輯標(biāo)簽識(shí)別的F值中,本文方法對(duì)其中14個(gè)標(biāo)簽取得了最優(yōu)值,F值的宏平均和微平均也優(yōu)于其他2種方法,說明本文方法所提取的特征集合和構(gòu)建的雙向LSTM模型能更好地完成文檔結(jié)構(gòu)識(shí)別任務(wù)。

        2)在程序代碼識(shí)別方面,文獻(xiàn)[14]使用的Random Forest識(shí)別效果較好,比本文方法高0.06。在中文摘要、中文關(guān)鍵詞、公式的識(shí)別方面,文獻(xiàn)[15]的識(shí)別效果最好,其中,中文摘要和中文關(guān)鍵詞識(shí)別的F值比本文方法高0.01,公式識(shí)別的F值比本文方法高0.05。

        3)程序代碼識(shí)別是一個(gè)難點(diǎn),其F值最高僅為0.50,同時(shí),三級(jí)標(biāo)題和公式這2類邏輯標(biāo)簽的識(shí)別性能較差。圖4給出了識(shí)別錯(cuò)誤的樣例,可以看出,96%的公式被誤識(shí)別為圖片和正文,其原因是用戶在編輯流式文檔時(shí),公式常使用圖片形式呈現(xiàn),并且公式可能和正文處在同一段落,難以進(jìn)行區(qū)分。對(duì)于三級(jí)標(biāo)題的錯(cuò)誤識(shí)別,其中70%被誤識(shí)別為二級(jí)標(biāo)題,這是因?yàn)槎?jí)標(biāo)題與三級(jí)標(biāo)題的差異較小,此外,83%的程序代碼被誤識(shí)別為正文與公式,其原因在于程序代碼的數(shù)量較少,而正文的數(shù)量較多,造成數(shù)據(jù)不平衡,并且程序代碼作為單行出現(xiàn)時(shí)與公式較為相似。

        圖4 文檔結(jié)構(gòu)分類錯(cuò)誤情況

        4)相比于不考慮上下文信息的Random Forest,本文方法的識(shí)別準(zhǔn)確率提升較為明顯,在姓名、單位、一級(jí)標(biāo)題、文本段、圖片和表題的識(shí)別任務(wù)上,本文方法的F值都高出0.10以上,對(duì)于一級(jí)標(biāo)題的識(shí)別,本文方法的F值比文獻(xiàn)[14]的Random Forest高出0.22。

        將本文方法與方正飛翔軟件進(jìn)行對(duì)比,隨機(jī)選出15篇論文進(jìn)行識(shí)別,結(jié)果如表2所示??梢钥闯?在18類邏輯標(biāo)簽中,本文方法對(duì)其中15類的識(shí)別效果優(yōu)于方正飛翔,其F值的宏平均與微平均比方正飛翔高0.08。此外,方正飛翔軟件在“圖”“圖題”“表”上的識(shí)別效果較好,但是本文方法在這3類標(biāo)簽類別的識(shí)別結(jié)果上僅比方正飛翔的F值低0.02。

        表2 本文方法與方正飛翔軟件的識(shí)別效果對(duì)比

        表3給出不同輸入特征對(duì)文檔結(jié)構(gòu)識(shí)別效果的影響。可以看到,在文檔結(jié)構(gòu)識(shí)別中,格式和內(nèi)容特征起到主要作用,語義特征起到輔助作用,將三者結(jié)合可以達(dá)到最好的識(shí)別效果。

        表3 不同特征對(duì)識(shí)別結(jié)果的影響

        4 結(jié)束語

        本文針對(duì)流式文檔結(jié)構(gòu)識(shí)別的目標(biāo),結(jié)合流式文檔的特點(diǎn),提出一種基于雙向LSTM網(wǎng)絡(luò)的文檔結(jié)構(gòu)識(shí)別方法。從文檔單元的格式、內(nèi)容與語義方面提取關(guān)鍵特征,將文檔結(jié)構(gòu)識(shí)別看作序列標(biāo)注問題,并使用雙向LSTM網(wǎng)絡(luò)構(gòu)建識(shí)別模型,以充分利用神經(jīng)網(wǎng)絡(luò)的泛化學(xué)習(xí)能力和文檔單元之間的相互關(guān)聯(lián)。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效區(qū)分不同文檔單元的類型,其文檔結(jié)構(gòu)識(shí)別能力優(yōu)于文獻(xiàn)[14-15]的方法,也優(yōu)于方正飛翔軟件。然而,本文方法與文檔排版格式優(yōu)化和文檔理解等的應(yīng)用需求還有一定的差距,下一步考慮對(duì)模型的容錯(cuò)識(shí)別能力進(jìn)行改善,同時(shí)在目前識(shí)別的18類邏輯標(biāo)簽的基礎(chǔ)上,增加頁眉、頁腳、引用、公式符號(hào)和表格單元等標(biāo)簽,以提高文檔結(jié)構(gòu)識(shí)別的準(zhǔn)確性。

        猜你喜歡
        流式文檔標(biāo)簽
        有人一聲不吭向你扔了個(gè)文檔
        輻流式二沉池的結(jié)構(gòu)優(yōu)化研究
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        微球測(cè)速聚類分析的流式液路穩(wěn)定性評(píng)估
        標(biāo)簽化傷害了誰
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        自調(diào)流式噴管型ICD的設(shè)計(jì)與數(shù)值驗(yàn)證
        基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
        中文区中文字幕免费看| 日日骚一区二区三区中文字幕| 中文字幕日韩精品亚洲精品| 日本一二三区在线观看视频| 亚洲av无码精品蜜桃| 欧美成aⅴ人高清免费| av最新版天堂在资源在线| 日本久久久免费观看视频| 中文字幕日韩高清乱码| 一本久道综合色婷婷五月| 黄色视频免费在线观看| 亚洲中文字幕乱码免费| 青青草免费视频一区二区 | 97精品国产一区二区三区| 亚洲国产精品特色大片观看完整版| 久久露脸国产精品WWW| 日本亚洲视频免费在线看| 全黄性性激高免费视频| 欧美真人性做爰一二区| 亚洲女同同性少妇熟女| 东北熟妇露脸25分钟| 香港三级精品三级在线专区| 亚洲中文av一区二区三区| 在线a人片免费观看高清| 国产免费人成视频在线观看 | 午夜男女靠比视频免费| 免费va国产高清大片在线| 欧美激情αv一区二区三区| 国产精品亚洲精品日韩动图| 一区二区三区字幕中文| 色八区人妻在线视频免费| 久久中文字幕日韩精品| 精品女厕偷拍视频一区二区区| 国产特黄级aaaaa片免| 性夜影院爽黄a爽在线看香蕉| 亚洲国产成人AⅤ片在线观看| 韩国免费一级a一片在线| 久久久国产精品123| 精品无码中文字幕在线| 久久久www成人免费无遮挡大片| 日韩女优图播一区二区|