亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PDF 版式特征的文獻(xiàn)篇章結(jié)構(gòu)細(xì)粒度抽取方法研究

        2021-10-17 13:21:08趙婉婧劉敏娟劉洪冰段飛虎

        趙婉婧,劉敏娟*,劉洪冰,王 新,段飛虎

        (1.中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081;3.同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司,北京 100192)

        1 引言

        隨著大數(shù)據(jù)時(shí)代的到來(lái),各學(xué)術(shù)領(lǐng)域的科研人員在面對(duì)海量學(xué)術(shù)資源的同時(shí),也承受著信息泛濫帶來(lái)的困擾。以篇級(jí)文獻(xiàn)為最小單位的信息服務(wù)方式已無(wú)法滿足用戶日益精準(zhǔn)的多粒度信息服務(wù)需求,用戶在信息檢索時(shí)真正需要的是文獻(xiàn)中具有挖掘價(jià)值的 “微信息”“知識(shí)元”等細(xì)粒度[1]片段信息。基于文獻(xiàn)級(jí)粗粒度的知識(shí)組織方式,存在著數(shù)據(jù)加工程度低、語(yǔ)義關(guān)聯(lián)性差等問(wèn)題,而知識(shí)組織的顆粒度直接決定了信息的檢索方式和服務(wù)效果。李偉、馮儒佳等[2,3]提出傳統(tǒng)的科技論文組織方式?jīng)]有實(shí)現(xiàn)對(duì)論文多粒度的組織,大多著眼于篇級(jí)的顯性信息,研究者們?cè)讷@取學(xué)術(shù)信息時(shí)無(wú)法檢索出多粒度的知識(shí),將信息檢索深入到文獻(xiàn)的內(nèi)容層次,向用戶提供細(xì)粒度的信息、精確的知識(shí)是一種必然趨勢(shì)。

        在這一背景和需求下,傳統(tǒng)的科技期刊出版方式開始逐步轉(zhuǎn)型,數(shù)字出版模式應(yīng)運(yùn)而生。科技期刊數(shù)字出版是對(duì)期刊內(nèi)容進(jìn)行數(shù)字化轉(zhuǎn)換,碎片化、結(jié)構(gòu)化存儲(chǔ),建立數(shù)據(jù)庫(kù),通過(guò)二次開發(fā)實(shí)現(xiàn)多平臺(tái)查詢、在線閱讀、傳播,知識(shí)信息高效共享的過(guò)程[4]。目前,國(guó)外期刊媒體的數(shù)字化發(fā)展已經(jīng)度過(guò)了初期載體形式的轉(zhuǎn)變,不僅實(shí)現(xiàn)了信息內(nèi)容在電子終端上的全文顯示,而且實(shí)現(xiàn)了論文標(biāo)題、作者信息、圖表以及參考文獻(xiàn)等的模塊化處理,能夠?qū)⒄撐囊远嗲馈⒍喾绞?、多粒度更加快捷地呈現(xiàn)給讀者,大幅增強(qiáng)了信息傳播的實(shí)效性。相較之下,中國(guó)期刊媒體的數(shù)字化發(fā)展整體相對(duì)滯后,依舊延續(xù)著傳統(tǒng)的編輯出版模式,處于轉(zhuǎn)型過(guò)程,形成了傳統(tǒng)出版與數(shù)字出版并存的局面,在編輯出版的整個(gè)流程體系中還是傳統(tǒng)模式占據(jù)主流[5],但中國(guó)的數(shù)字出版產(chǎn)業(yè)也正處于高速增長(zhǎng)的階段。頗具代表性的有瑪格泰克的XML/RichHTML 加工服務(wù)利用智能算法技術(shù),實(shí)現(xiàn)了全文內(nèi)容生成標(biāo)準(zhǔn)的XML 文件。北大方正書暢系統(tǒng)采用云計(jì)算技術(shù),基于XML 結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn),為出版單位構(gòu)建一個(gè)基于互聯(lián)網(wǎng)環(huán)境的一體化數(shù)字化生產(chǎn)平臺(tái)。雖然發(fā)展勢(shì)頭良好,但由于類型單一、投資規(guī)模限制,仍然有很大一部分傳統(tǒng)出版企業(yè)停留在數(shù)字出版的傳統(tǒng)模式,僅實(shí)現(xiàn)了載體形式的變化,而非產(chǎn)品內(nèi)容結(jié)構(gòu)的變化,沒(méi)有對(duì)資源進(jìn)行結(jié)構(gòu)化處理[6]。

        因此,本文研究的文獻(xiàn)篇章結(jié)構(gòu)細(xì)粒度抽取方法針對(duì)尚未實(shí)現(xiàn)數(shù)字出版的文獻(xiàn)資源以及大量歷史存量資源的結(jié)構(gòu)化處理,具有一定現(xiàn)實(shí)意義和應(yīng)用價(jià)值。本方法也可延伸應(yīng)用到特種文獻(xiàn)[7]、灰色文獻(xiàn)、電子檔案等同樣具有細(xì)粒度抽取和組織需求的其他資源類型。結(jié)構(gòu)化、碎片化后的文獻(xiàn)可以用于各類語(yǔ)料庫(kù)的構(gòu)建,作為知識(shí)計(jì)算與挖掘的細(xì)粒度語(yǔ)料。對(duì)細(xì)粒度信息進(jìn)行組織揭示,突破了傳統(tǒng)基于整篇文獻(xiàn)組織揭示的方法和深度,并按照新的知識(shí)組織體系進(jìn)行重組,滿足用戶多元化利用的需求。

        2 相關(guān)研究

        文獻(xiàn)資源篇章結(jié)構(gòu)的細(xì)粒度抽取[8]是實(shí)現(xiàn)知識(shí)細(xì)粒度組織與檢索發(fā)現(xiàn)的首要前提和關(guān)鍵步驟,因此篇章結(jié)構(gòu)的分析與識(shí)別方法研究應(yīng)得到進(jìn)一步關(guān)注。國(guó)內(nèi)學(xué)者曹樹金等[9]提出由于期刊論文各級(jí)標(biāo)題清晰地反映了論文的研究思路和結(jié)構(gòu),因此利用標(biāo)題標(biāo)識(shí)的節(jié)段單元可以認(rèn)為是有價(jià)值且可操作的細(xì)粒度單元。陸偉等[10]認(rèn)為布局分析是通過(guò)對(duì)原始PDF 文檔轉(zhuǎn)化而來(lái)的圖片進(jìn)行分析,將圖片分割成為具有相同成分的片段。邏輯結(jié)構(gòu)分析是使用位置特征、字體特征、布局特征以及OCR 之后的文字特征判斷出上述片段所屬的類別(標(biāo)題、正文、作者、頁(yè)頭、頁(yè)尾等)。萬(wàn)里鵬[11]對(duì)非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換方法進(jìn)行了比較研究,提出一種非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換模型,從理論和實(shí)踐上基本實(shí)現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換,但支持的文件結(jié)構(gòu)比較單一,不能對(duì)結(jié)構(gòu)復(fù)雜的文件完成數(shù)據(jù)轉(zhuǎn)換。宋艷娟[12]對(duì)基于規(guī)則的信息抽取方法進(jìn)行了研究,實(shí)現(xiàn)了基于XSLT 規(guī)則的HTML 文檔的信息抽取,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于XML 的PDF 文檔信息抽取原型系統(tǒng),但僅是一個(gè)原型系統(tǒng),功能還需進(jìn)一步完善,而且對(duì)抽取對(duì)象進(jìn)行了假設(shè),抽取規(guī)則不具備普適性。

        一些國(guó)外學(xué)者利用機(jī)器學(xué)習(xí)的方法在文本結(jié)構(gòu)化分析與識(shí)別領(lǐng)域開展了相應(yīng)研究,SIMONE 等[13]探討了人工神經(jīng)網(wǎng)絡(luò)在文本圖像分析與識(shí)別(DIAR-Document Image Analysis and Recognition)以及版面布局分析與結(jié)構(gòu)化方面的應(yīng)用。MINH-THANG 等[14]借助學(xué)術(shù)論文豐富的文本特征,使用條件隨機(jī)域模型(CRFConditional Random Field)開發(fā)了一個(gè)發(fā)現(xiàn)工具,顯著提高了分類性能。

        目前,未實(shí)現(xiàn)數(shù)字出版的文獻(xiàn)資源和非結(jié)構(gòu)化的歷史存量資源多以PDF 格式進(jìn)行存儲(chǔ),PDF 文檔內(nèi)容的抽取方式主要有兩種:一種是通過(guò)分析PDF 文檔的格式,直接將其內(nèi)容抽取出來(lái),進(jìn)而獲取需要的信息和數(shù)據(jù);另一種是將PDF 文檔轉(zhuǎn)換成其他文檔格式,通過(guò)間接抽取中間文檔內(nèi)容的方法抽取PDF 文檔中的內(nèi)容[15]。傳統(tǒng)研究大多圍繞第一種直接抽取的方法,基于規(guī)則重點(diǎn)關(guān)注于文獻(xiàn)元數(shù)據(jù)的抽取,并且獲得了較好的效果。然而,針對(duì)篇章形式結(jié)構(gòu)的識(shí)別和抽取,由于學(xué)術(shù)論文的排版過(guò)于復(fù)雜多樣,直接抽取方法多數(shù)情況下的效果并不理想。

        為此,本文研究提出一種基于PDF 版式特征的文獻(xiàn)篇章結(jié)構(gòu)細(xì)粒度抽取方法,并設(shè)計(jì)構(gòu)建一套數(shù)據(jù)處理系統(tǒng),通過(guò)對(duì)文檔的版式特征進(jìn)行分析計(jì)算,根據(jù)加工精確度的需要,采取機(jī)器自動(dòng)或人機(jī)結(jié)合的手段對(duì)PDF 文檔的篇章結(jié)構(gòu)進(jìn)行細(xì)粒度的碎片化處理。該方法具有較強(qiáng)適應(yīng)性,不需提前制定規(guī)則,為實(shí)現(xiàn)文獻(xiàn)資源細(xì)粒度的組織揭示、挖掘計(jì)算奠定基礎(chǔ)。

        3 基于PDF 版式特征的文獻(xiàn)篇章結(jié)構(gòu)細(xì)粒度抽取方法

        3.1 研究思路

        針對(duì)非結(jié)構(gòu)化文檔分析與識(shí)別的關(guān)鍵核心步驟就是對(duì)文檔的版面結(jié)構(gòu)和版式特征進(jìn)行分析,這種版面分析的方式很大程度上提高了對(duì)非結(jié)構(gòu)化文檔的自動(dòng)化識(shí)別效率[16]。

        本文按照文章的邏輯結(jié)構(gòu)與閱讀順序?qū)σ黄狿DF文檔的章、節(jié)、段、圖、表進(jìn)行細(xì)粒度拆分、抽取和重組,并保留上下文順序和層級(jí)關(guān)系。首先利用基于機(jī)器學(xué)習(xí)的版面識(shí)別算法,由系統(tǒng)自動(dòng)抽取文章中各級(jí)章節(jié)標(biāo)題和圖表并預(yù)判層級(jí)關(guān)系,然后根據(jù)章節(jié)標(biāo)題在頁(yè)面的坐標(biāo)定位,將正文內(nèi)容以段落為最小顆粒度自動(dòng)匹配至相應(yīng)位置,最終實(shí)現(xiàn)文檔全文結(jié)構(gòu)的細(xì)粒度識(shí)別、抽取和重組。處理過(guò)程中,可貫穿適度人工干預(yù),確保抽取結(jié)果的精確度,保證經(jīng)碎片化處理的數(shù)據(jù)可投入實(shí)際應(yīng)用。

        3.2 算法流程

        基于機(jī)器學(xué)習(xí)的版面識(shí)別算法是將非結(jié)構(gòu)化的PDF 文檔轉(zhuǎn)換生成為有行文結(jié)構(gòu)的XML 文件的過(guò)程,如圖1 所示,主要分為以下3 個(gè)步驟。

        圖1 基于機(jī)器學(xué)習(xí)的版面識(shí)別算法流程圖Fig.1 Layout identification algorithm flow chart based on machine learning

        (1)將PDF 文檔(a)內(nèi)部的所有文本、圖表的頁(yè)碼位置、字體大?。ㄒ韵袼?cái)?shù)表示)、段間距等信息抽取出來(lái)。然后,按照 《國(guó)家農(nóng)業(yè)圖書館文獻(xiàn)資源碎片化XML 描述標(biāo)準(zhǔn)》 將其統(tǒng)一轉(zhuǎn)換為無(wú)章節(jié)標(biāo)題、正文段落等行文結(jié)構(gòu)的XML 文件(b)。該標(biāo)準(zhǔn)由本單位設(shè)計(jì)制定,遵循XML1.0 標(biāo)準(zhǔn),對(duì)文獻(xiàn)內(nèi)部篇、章、節(jié)、段、圖的版式特征信息進(jìn)行規(guī)范化、數(shù)字化描述,基于此標(biāo)準(zhǔn)描述的文獻(xiàn)信息可以通過(guò)解析轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)以便機(jī)器學(xué)習(xí)和處理。XML 由一個(gè)根節(jié)點(diǎn)book構(gòu)成,book 節(jié)點(diǎn)下包含兩個(gè)子節(jié)點(diǎn),分別是catalogs和parts,catalogs 表示文章的標(biāo)題樹,parts 表示文章的內(nèi)容樹,部分?jǐn)?shù)據(jù)樣例見(jiàn)圖2。

        圖2 含有版式信息的XML 數(shù)據(jù)樣例Fig.2 A sample of XML data with layout information

        (2)針對(duì)XML 文件中所有的文本塊進(jìn)行數(shù)據(jù)分析,將每一篇論文XML 中的標(biāo)題、段落等結(jié)構(gòu)版式信息解析轉(zhuǎn)換為機(jī)器學(xué)習(xí)所需要的特征向量(c)[17],關(guān)于特征向量的選定下文會(huì)進(jìn)行詳細(xì)闡述,根據(jù)機(jī)器學(xué)習(xí)模型和精確度評(píng)估合理選擇特征向量,用以訓(xùn)練隨機(jī)森林模型(d)。

        (3)由步驟(1)轉(zhuǎn)換而來(lái)的XML 文件是沒(méi)有任何分類信息與行文結(jié)構(gòu)的,通過(guò)對(duì)全部PDF 轉(zhuǎn)換生成的XML 文件進(jìn)行分析計(jì)算,得出每個(gè)文本塊的特征向量,將特征向量的計(jì)算結(jié)果輸入到步驟(2)訓(xùn)練完成的模型中,利用模型對(duì)目標(biāo)文檔的全部文本塊進(jìn)行預(yù)測(cè)分類,根據(jù)各個(gè)文本塊的分類重新生成包含章節(jié)標(biāo)題信息、圖表信息及其層級(jí)結(jié)構(gòu)信息的XML 文件(e)。

        為了優(yōu)化機(jī)器學(xué)習(xí)算法的適應(yīng)性,采用Online Learning 的算法理論確保算法精確度,Online Learning能夠根據(jù)線上反饋數(shù)據(jù),快速實(shí)時(shí)調(diào)整模型,反映線上變化,提高線上預(yù)測(cè)的正確率。Online Learning 的主要流程包括:將模型的預(yù)測(cè)結(jié)果通過(guò)可視化界面展示給用戶(f),用戶借助可視化工具對(duì)預(yù)測(cè)結(jié)果進(jìn)行人工干預(yù),系統(tǒng)自動(dòng)收集用戶反饋數(shù)據(jù),加入到訓(xùn)練集中,對(duì)模型進(jìn)行迭代訓(xùn)練,使模型能夠線上自動(dòng)調(diào)整,形成閉環(huán)系統(tǒng),從而達(dá)到不斷提高算法識(shí)別正確率,降低人工干預(yù)的目的。

        3.3 特征向量的選定

        文獻(xiàn)篇章結(jié)構(gòu)的細(xì)粒度抽取本質(zhì)上就是根據(jù)版式特征對(duì)文檔內(nèi)的全部文本塊進(jìn)行自動(dòng)分類賦予標(biāo)簽的過(guò)程,通常學(xué)術(shù)論文PDF 文檔的篇章結(jié)構(gòu)大致可以分為文章標(biāo)題、作者信息、摘要、關(guān)鍵詞、分類號(hào)、各級(jí)章節(jié)標(biāo)題、正文段落、參考文獻(xiàn)以及頁(yè)眉頁(yè)腳等。

        從版式特征角度分析文獻(xiàn)篇章結(jié)構(gòu)可以發(fā)現(xiàn),區(qū)分上述類型的主要依據(jù)就是文本塊的位置、字體、字號(hào)和行距等格式因素。因此,本方法中選定了與文本塊格式相關(guān)的17 個(gè)特征向量(圖3),作為判斷文本塊是否為章節(jié)標(biāo)題的主要依據(jù),表1 為17 個(gè)特征向量的具體表現(xiàn)形式和判斷標(biāo)準(zhǔn)。

        表1 特征向量與特征描述Table 1 Feature vectors and feature descriptions

        圖3 與文本塊格式相關(guān)的17 個(gè)特征向量Fig.3 Seventeen feature vectors associated with the format of text block

        通過(guò)對(duì)步驟(1)中獲取的XML 進(jìn)行分析計(jì)算,得出每個(gè)文本塊(para)的上述17 個(gè)特征向量,將這17 個(gè)特征向量中不是數(shù)字的特征向量用標(biāo)記編碼器將其轉(zhuǎn)換為數(shù)字,不同屬性使用不同標(biāo)記編碼器。如font-style 屬性可以取3 個(gè)不同值,需要建立一個(gè)懂得給這3 個(gè)屬性編碼的標(biāo)記編碼器,從而得出特征向量的數(shù)組x,對(duì)不同的文本塊作相應(yīng)的標(biāo)記,作為機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)。本方法主要獲取文章的章節(jié)標(biāo)題,相應(yīng)標(biāo)記為 “0”代表文本塊為正文,“1”代表文本塊為文章一級(jí)標(biāo)題,“2”代表文本塊為文章二級(jí)標(biāo)題,“3”代表文本塊為文章三級(jí)標(biāo)題,以此類推,從而得出對(duì)應(yīng)的標(biāo)記y。

        經(jīng)實(shí)測(cè),17 個(gè)特征向量對(duì)于模型的訓(xùn)練均有貢獻(xiàn),但重要性有大有小,這些特征差異有助于機(jī)器學(xué)習(xí)對(duì)文本塊分類進(jìn)行正確的推斷和預(yù)測(cè)。17 個(gè)特征向量的權(quán)重主要依賴于標(biāo)注的訓(xùn)練樣本通過(guò)隨機(jī)森林機(jī)器學(xué)習(xí)算法得出,不同訓(xùn)練樣本的17 個(gè)特征向量的權(quán)重不一樣,因此通過(guò)訓(xùn)練不同的模型可以實(shí)現(xiàn)對(duì)版式特征各異的文檔章節(jié)標(biāo)題的識(shí)別與抽取。

        4 實(shí)驗(yàn)與分析

        4.1 數(shù)據(jù)來(lái)源

        為了驗(yàn)證方法的可行性和有效性,我們通過(guò)采集和購(gòu)買手段分別從EIU、SAGE、OECD、IMF、World Bank 等平臺(tái)或出版商獲取到1.6 萬(wàn)學(xué)術(shù)論文、科技報(bào)告的PDF 全文數(shù)據(jù)作為訓(xùn)練集,驗(yàn)證算法的精確度和自動(dòng)碎片化模板的實(shí)際應(yīng)用效果。

        4.2 實(shí)驗(yàn)過(guò)程

        EIU 來(lái)源的PDF 全文版式特征較為獨(dú)特統(tǒng)一,頁(yè)面左側(cè)留白,章節(jié)標(biāo)題多位于留白區(qū)域;SAGE、OECD、IMF、World Bank 來(lái)源的PDF 全文版式特征高度近似,均為常見(jiàn)的通欄或分欄排版,章節(jié)標(biāo)題居左或居中。因此,我們根據(jù)PDF 全文的版式特征將全部樣本大致分為兩類,EIU 來(lái)源的樣本作為EIU 模板的訓(xùn)練集進(jìn)行單獨(dú)訓(xùn)練,SAGE、OECD、IMF、World Bank 來(lái)源的樣本構(gòu)成一個(gè)訓(xùn)練集,用以訓(xùn)練通用模板。

        本算法中隨機(jī)森林采用sklearn 庫(kù)的算法模板進(jìn)行訓(xùn)練。

        可以通過(guò)改變n_estimators 和max_depth 參數(shù)的值,提升分類器的準(zhǔn)確性,這兩個(gè)參數(shù)被稱為超參數(shù)(hyperparameters),分類器的性能由它們決定,根據(jù)實(shí)驗(yàn)樣本測(cè)得n_estimators 取值180、max_depth 取值23能讓分類器的性能達(dá)到理想效果。

        4.3 結(jié)果分析

        由圖4 可以看出,隨著迭代訓(xùn)練次數(shù)和訓(xùn)練樣本數(shù)量的增多,模板的精確度得到有效提升,兩個(gè)模板在實(shí)際應(yīng)用中均效果良好,以節(jié)點(diǎn)為計(jì)算單位(節(jié)點(diǎn)指一個(gè)標(biāo)題、段落或圖表),自動(dòng)抽取的平均正確率可達(dá)到80%以上,圖5、圖6 分別為兩個(gè)模板自動(dòng)抽取的可視化效果。在訓(xùn)練模板前,依據(jù)數(shù)據(jù)來(lái)源或版式特征對(duì)目標(biāo)PDF 做一個(gè)大致的分析和分類,并據(jù)此分別構(gòu)建訓(xùn)練集,分類訓(xùn)練機(jī)器學(xué)習(xí)模板,可以達(dá)到更高的精確度。在訓(xùn)練集構(gòu)建方面,需要注意的是,訓(xùn)練集規(guī)模過(guò)小的情況下極易導(dǎo)致過(guò)擬合現(xiàn)象,但如果選擇較大規(guī)模的訓(xùn)練集,則會(huì)消耗更多的樣本。因此,訓(xùn)練集規(guī)模的投入和選擇也需結(jié)合計(jì)算能力和實(shí)際情況進(jìn)行綜合考慮。

        圖4 模板精度與樣本數(shù)量的關(guān)系Fig.4 Relationship between model accuracy and sample size

        圖5 EIU 模板自動(dòng)抽取效果Fig.5 Result of automatic extraction of the EIU model

        圖6 通用模板自動(dòng)抽取效果Fig.6 Result of automatic extraction of the common model

        4.4 數(shù)據(jù)處理系統(tǒng)

        基于上述研究方法和關(guān)鍵技術(shù),設(shè)計(jì)構(gòu)建了一套數(shù)據(jù)處理系統(tǒng),已投入實(shí)際應(yīng)用,用以輔助開展方法實(shí)效的驗(yàn)證與優(yōu)化,同步推進(jìn)日常的文獻(xiàn)細(xì)粒度抽取相關(guān)業(yè)務(wù),系統(tǒng)運(yùn)行的技術(shù)路線詳見(jiàn)圖7。根據(jù)業(yè)務(wù)流程和功能需求,系統(tǒng)主要包含模板訓(xùn)練與管理模塊、碎片化自動(dòng)抽取模塊以及人工審校與質(zhì)檢模塊[18]等功能模塊,可以實(shí)現(xiàn)對(duì)PDF 文檔所包含的全部章節(jié)、小節(jié)、段落、圖表的結(jié)構(gòu)化處理和重組(圖8),達(dá)到抽取方式自動(dòng)化、處理流程規(guī)范化、業(yè)務(wù)管理智能化的目標(biāo),縮短數(shù)據(jù)處理流程周期,減少人工干預(yù),有效保障文獻(xiàn)細(xì)粒度抽取工作的質(zhì)量和效率。

        圖7 系統(tǒng)運(yùn)行技術(shù)路線Fig.7 Technical route of system operation

        圖8 細(xì)粒度自動(dòng)抽取流程Fig.8 Process of fine-grained automatic extraction

        5 結(jié)語(yǔ)

        基于PDF 版式特征的篇章結(jié)構(gòu)細(xì)粒度抽取,有助于解決基于規(guī)則抽取算法精確度低、適應(yīng)性差的問(wèn)題,對(duì)文獻(xiàn)各級(jí)章節(jié)標(biāo)題的自動(dòng)抽取具有較好的效果。此外,根據(jù)不同業(yè)務(wù)精確度的需求,針對(duì)機(jī)器自動(dòng)抽取的結(jié)果,增設(shè)人工審校環(huán)節(jié),使正確率可以達(dá)到100%,且界面友好易用、操作便捷高效。經(jīng)實(shí)測(cè),審校人員利用校改工具,效率最快可達(dá)到每人每日審校提交8 200 個(gè)節(jié)點(diǎn),約合2 000 頁(yè)文獻(xiàn)內(nèi)容,很好地實(shí)現(xiàn)了機(jī)器自動(dòng)或人機(jī)結(jié)合的多元數(shù)據(jù)處理方式。

        然而,本文研究的方法也存在一定局限性,需要在后續(xù)研究工作中加以完善和提升。目前,關(guān)于自動(dòng)抽取精確度的評(píng)估,僅限于各級(jí)章節(jié)標(biāo)題及其層級(jí)結(jié)構(gòu)的識(shí)別,不包含文中圖片、表格的識(shí)別情況,當(dāng)圖片、表格被誤判為非圖片,且圖片、表格中的文本恰好完全符合章節(jié)標(biāo)題的特征時(shí),則會(huì)直接增加章節(jié)標(biāo)題識(shí)別的錯(cuò)誤率。此外,由于不同來(lái)源的文獻(xiàn)資源其PDF 文檔版式特征過(guò)于復(fù)雜多樣,基于機(jī)器學(xué)習(xí)的版面識(shí)別算法很難以一個(gè)或少量通用模板適用于多源異構(gòu)的海量資源,模板的訓(xùn)練工作無(wú)法達(dá)到一勞永逸的效果。

        針對(duì)上述問(wèn)題,目前較為快速有效的解決方法是利用模板管理工具對(duì)版式相似或來(lái)源相同的資源進(jìn)行機(jī)器學(xué)習(xí)模板的分別訓(xùn)練和對(duì)應(yīng)選用?;诩?xì)粒度抽取質(zhì)量與效率的長(zhǎng)遠(yuǎn)考慮,上述問(wèn)題還需在后續(xù)工作中進(jìn)一步完善和改進(jìn),以不斷提升文獻(xiàn)結(jié)構(gòu)化、細(xì)粒度自動(dòng)識(shí)別與抽取的正確率。

        少妇人妻陈艳和黑人教练| 按摩偷拍一区二区三区| 国产91成人精品高潮综合久久| 成年免费a级毛片免费看| 亚洲老妇色熟女老太| 人妻少妇无码中文幕久久| 少妇高潮呻吟求饶视频网站| 午夜福利理论片在线观看播放 | 在线观看精品视频网站| 四虎永久免费一级毛片| 蜜桃网站在线免费观看视频| 亚州终合人妖一区二区三区| 山外人精品影院| 日本一区二区不卡视频| 人妻少妇精品视频一区二区三区 | 欧美人与动牲交片免费播放| 女人18毛片aa毛片免费| 人妻少妇乱子伦无码视频专区| 日韩成人无码一区二区三区| 亚洲国产精品久久久久婷婷软件| 日本视频在线观看一区二区| 国产成人亚洲综合无码品善网 | 老司机亚洲精品影院| 国产免费专区| 97久久国产精品成人观看| 精品国产精品三级精品av网址| 国产96在线 | 欧美| 久久99精品波多结衣一区| 中文资源在线一区二区三区av| 国产肉体xxxx裸体137大胆| 久久国产精品二区99| 亚洲国产av中文字幕| 老熟女富婆激情刺激对白| 黑人巨大白妞出浆| 成年女人片免费视频播放A| 在线观看日本一区二区 | 国语对白免费观看123 | 神马影院午夜dy888| 蜜臀aⅴ国产精品久久久国产老师 国产精品久久婷婷六月丁香 | 日韩一区二区三区熟女| 日韩精品一区二区午夜成人版|