趙婉婧,劉敏娟*,劉洪冰,王 新,段飛虎
(1.中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081;3.同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司,北京 100192)
隨著大數(shù)據(jù)時(shí)代的到來(lái),各學(xué)術(shù)領(lǐng)域的科研人員在面對(duì)海量學(xué)術(shù)資源的同時(shí),也承受著信息泛濫帶來(lái)的困擾。以篇級(jí)文獻(xiàn)為最小單位的信息服務(wù)方式已無(wú)法滿足用戶日益精準(zhǔn)的多粒度信息服務(wù)需求,用戶在信息檢索時(shí)真正需要的是文獻(xiàn)中具有挖掘價(jià)值的 “微信息”“知識(shí)元”等細(xì)粒度[1]片段信息。基于文獻(xiàn)級(jí)粗粒度的知識(shí)組織方式,存在著數(shù)據(jù)加工程度低、語(yǔ)義關(guān)聯(lián)性差等問(wèn)題,而知識(shí)組織的顆粒度直接決定了信息的檢索方式和服務(wù)效果。李偉、馮儒佳等[2,3]提出傳統(tǒng)的科技論文組織方式?jīng)]有實(shí)現(xiàn)對(duì)論文多粒度的組織,大多著眼于篇級(jí)的顯性信息,研究者們?cè)讷@取學(xué)術(shù)信息時(shí)無(wú)法檢索出多粒度的知識(shí),將信息檢索深入到文獻(xiàn)的內(nèi)容層次,向用戶提供細(xì)粒度的信息、精確的知識(shí)是一種必然趨勢(shì)。
在這一背景和需求下,傳統(tǒng)的科技期刊出版方式開始逐步轉(zhuǎn)型,數(shù)字出版模式應(yīng)運(yùn)而生。科技期刊數(shù)字出版是對(duì)期刊內(nèi)容進(jìn)行數(shù)字化轉(zhuǎn)換,碎片化、結(jié)構(gòu)化存儲(chǔ),建立數(shù)據(jù)庫(kù),通過(guò)二次開發(fā)實(shí)現(xiàn)多平臺(tái)查詢、在線閱讀、傳播,知識(shí)信息高效共享的過(guò)程[4]。目前,國(guó)外期刊媒體的數(shù)字化發(fā)展已經(jīng)度過(guò)了初期載體形式的轉(zhuǎn)變,不僅實(shí)現(xiàn)了信息內(nèi)容在電子終端上的全文顯示,而且實(shí)現(xiàn)了論文標(biāo)題、作者信息、圖表以及參考文獻(xiàn)等的模塊化處理,能夠?qū)⒄撐囊远嗲馈⒍喾绞?、多粒度更加快捷地呈現(xiàn)給讀者,大幅增強(qiáng)了信息傳播的實(shí)效性。相較之下,中國(guó)期刊媒體的數(shù)字化發(fā)展整體相對(duì)滯后,依舊延續(xù)著傳統(tǒng)的編輯出版模式,處于轉(zhuǎn)型過(guò)程,形成了傳統(tǒng)出版與數(shù)字出版并存的局面,在編輯出版的整個(gè)流程體系中還是傳統(tǒng)模式占據(jù)主流[5],但中國(guó)的數(shù)字出版產(chǎn)業(yè)也正處于高速增長(zhǎng)的階段。頗具代表性的有瑪格泰克的XML/RichHTML 加工服務(wù)利用智能算法技術(shù),實(shí)現(xiàn)了全文內(nèi)容生成標(biāo)準(zhǔn)的XML 文件。北大方正書暢系統(tǒng)采用云計(jì)算技術(shù),基于XML 結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn),為出版單位構(gòu)建一個(gè)基于互聯(lián)網(wǎng)環(huán)境的一體化數(shù)字化生產(chǎn)平臺(tái)。雖然發(fā)展勢(shì)頭良好,但由于類型單一、投資規(guī)模限制,仍然有很大一部分傳統(tǒng)出版企業(yè)停留在數(shù)字出版的傳統(tǒng)模式,僅實(shí)現(xiàn)了載體形式的變化,而非產(chǎn)品內(nèi)容結(jié)構(gòu)的變化,沒(méi)有對(duì)資源進(jìn)行結(jié)構(gòu)化處理[6]。
因此,本文研究的文獻(xiàn)篇章結(jié)構(gòu)細(xì)粒度抽取方法針對(duì)尚未實(shí)現(xiàn)數(shù)字出版的文獻(xiàn)資源以及大量歷史存量資源的結(jié)構(gòu)化處理,具有一定現(xiàn)實(shí)意義和應(yīng)用價(jià)值。本方法也可延伸應(yīng)用到特種文獻(xiàn)[7]、灰色文獻(xiàn)、電子檔案等同樣具有細(xì)粒度抽取和組織需求的其他資源類型。結(jié)構(gòu)化、碎片化后的文獻(xiàn)可以用于各類語(yǔ)料庫(kù)的構(gòu)建,作為知識(shí)計(jì)算與挖掘的細(xì)粒度語(yǔ)料。對(duì)細(xì)粒度信息進(jìn)行組織揭示,突破了傳統(tǒng)基于整篇文獻(xiàn)組織揭示的方法和深度,并按照新的知識(shí)組織體系進(jìn)行重組,滿足用戶多元化利用的需求。
文獻(xiàn)資源篇章結(jié)構(gòu)的細(xì)粒度抽取[8]是實(shí)現(xiàn)知識(shí)細(xì)粒度組織與檢索發(fā)現(xiàn)的首要前提和關(guān)鍵步驟,因此篇章結(jié)構(gòu)的分析與識(shí)別方法研究應(yīng)得到進(jìn)一步關(guān)注。國(guó)內(nèi)學(xué)者曹樹金等[9]提出由于期刊論文各級(jí)標(biāo)題清晰地反映了論文的研究思路和結(jié)構(gòu),因此利用標(biāo)題標(biāo)識(shí)的節(jié)段單元可以認(rèn)為是有價(jià)值且可操作的細(xì)粒度單元。陸偉等[10]認(rèn)為布局分析是通過(guò)對(duì)原始PDF 文檔轉(zhuǎn)化而來(lái)的圖片進(jìn)行分析,將圖片分割成為具有相同成分的片段。邏輯結(jié)構(gòu)分析是使用位置特征、字體特征、布局特征以及OCR 之后的文字特征判斷出上述片段所屬的類別(標(biāo)題、正文、作者、頁(yè)頭、頁(yè)尾等)。萬(wàn)里鵬[11]對(duì)非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換方法進(jìn)行了比較研究,提出一種非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換模型,從理論和實(shí)踐上基本實(shí)現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換,但支持的文件結(jié)構(gòu)比較單一,不能對(duì)結(jié)構(gòu)復(fù)雜的文件完成數(shù)據(jù)轉(zhuǎn)換。宋艷娟[12]對(duì)基于規(guī)則的信息抽取方法進(jìn)行了研究,實(shí)現(xiàn)了基于XSLT 規(guī)則的HTML 文檔的信息抽取,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于XML 的PDF 文檔信息抽取原型系統(tǒng),但僅是一個(gè)原型系統(tǒng),功能還需進(jìn)一步完善,而且對(duì)抽取對(duì)象進(jìn)行了假設(shè),抽取規(guī)則不具備普適性。
一些國(guó)外學(xué)者利用機(jī)器學(xué)習(xí)的方法在文本結(jié)構(gòu)化分析與識(shí)別領(lǐng)域開展了相應(yīng)研究,SIMONE 等[13]探討了人工神經(jīng)網(wǎng)絡(luò)在文本圖像分析與識(shí)別(DIAR-Document Image Analysis and Recognition)以及版面布局分析與結(jié)構(gòu)化方面的應(yīng)用。MINH-THANG 等[14]借助學(xué)術(shù)論文豐富的文本特征,使用條件隨機(jī)域模型(CRFConditional Random Field)開發(fā)了一個(gè)發(fā)現(xiàn)工具,顯著提高了分類性能。
目前,未實(shí)現(xiàn)數(shù)字出版的文獻(xiàn)資源和非結(jié)構(gòu)化的歷史存量資源多以PDF 格式進(jìn)行存儲(chǔ),PDF 文檔內(nèi)容的抽取方式主要有兩種:一種是通過(guò)分析PDF 文檔的格式,直接將其內(nèi)容抽取出來(lái),進(jìn)而獲取需要的信息和數(shù)據(jù);另一種是將PDF 文檔轉(zhuǎn)換成其他文檔格式,通過(guò)間接抽取中間文檔內(nèi)容的方法抽取PDF 文檔中的內(nèi)容[15]。傳統(tǒng)研究大多圍繞第一種直接抽取的方法,基于規(guī)則重點(diǎn)關(guān)注于文獻(xiàn)元數(shù)據(jù)的抽取,并且獲得了較好的效果。然而,針對(duì)篇章形式結(jié)構(gòu)的識(shí)別和抽取,由于學(xué)術(shù)論文的排版過(guò)于復(fù)雜多樣,直接抽取方法多數(shù)情況下的效果并不理想。
為此,本文研究提出一種基于PDF 版式特征的文獻(xiàn)篇章結(jié)構(gòu)細(xì)粒度抽取方法,并設(shè)計(jì)構(gòu)建一套數(shù)據(jù)處理系統(tǒng),通過(guò)對(duì)文檔的版式特征進(jìn)行分析計(jì)算,根據(jù)加工精確度的需要,采取機(jī)器自動(dòng)或人機(jī)結(jié)合的手段對(duì)PDF 文檔的篇章結(jié)構(gòu)進(jìn)行細(xì)粒度的碎片化處理。該方法具有較強(qiáng)適應(yīng)性,不需提前制定規(guī)則,為實(shí)現(xiàn)文獻(xiàn)資源細(xì)粒度的組織揭示、挖掘計(jì)算奠定基礎(chǔ)。
針對(duì)非結(jié)構(gòu)化文檔分析與識(shí)別的關(guān)鍵核心步驟就是對(duì)文檔的版面結(jié)構(gòu)和版式特征進(jìn)行分析,這種版面分析的方式很大程度上提高了對(duì)非結(jié)構(gòu)化文檔的自動(dòng)化識(shí)別效率[16]。
本文按照文章的邏輯結(jié)構(gòu)與閱讀順序?qū)σ黄狿DF文檔的章、節(jié)、段、圖、表進(jìn)行細(xì)粒度拆分、抽取和重組,并保留上下文順序和層級(jí)關(guān)系。首先利用基于機(jī)器學(xué)習(xí)的版面識(shí)別算法,由系統(tǒng)自動(dòng)抽取文章中各級(jí)章節(jié)標(biāo)題和圖表并預(yù)判層級(jí)關(guān)系,然后根據(jù)章節(jié)標(biāo)題在頁(yè)面的坐標(biāo)定位,將正文內(nèi)容以段落為最小顆粒度自動(dòng)匹配至相應(yīng)位置,最終實(shí)現(xiàn)文檔全文結(jié)構(gòu)的細(xì)粒度識(shí)別、抽取和重組。處理過(guò)程中,可貫穿適度人工干預(yù),確保抽取結(jié)果的精確度,保證經(jīng)碎片化處理的數(shù)據(jù)可投入實(shí)際應(yīng)用。
基于機(jī)器學(xué)習(xí)的版面識(shí)別算法是將非結(jié)構(gòu)化的PDF 文檔轉(zhuǎn)換生成為有行文結(jié)構(gòu)的XML 文件的過(guò)程,如圖1 所示,主要分為以下3 個(gè)步驟。
圖1 基于機(jī)器學(xué)習(xí)的版面識(shí)別算法流程圖Fig.1 Layout identification algorithm flow chart based on machine learning
(1)將PDF 文檔(a)內(nèi)部的所有文本、圖表的頁(yè)碼位置、字體大?。ㄒ韵袼?cái)?shù)表示)、段間距等信息抽取出來(lái)。然后,按照 《國(guó)家農(nóng)業(yè)圖書館文獻(xiàn)資源碎片化XML 描述標(biāo)準(zhǔn)》 將其統(tǒng)一轉(zhuǎn)換為無(wú)章節(jié)標(biāo)題、正文段落等行文結(jié)構(gòu)的XML 文件(b)。該標(biāo)準(zhǔn)由本單位設(shè)計(jì)制定,遵循XML1.0 標(biāo)準(zhǔn),對(duì)文獻(xiàn)內(nèi)部篇、章、節(jié)、段、圖的版式特征信息進(jìn)行規(guī)范化、數(shù)字化描述,基于此標(biāo)準(zhǔn)描述的文獻(xiàn)信息可以通過(guò)解析轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)以便機(jī)器學(xué)習(xí)和處理。XML 由一個(gè)根節(jié)點(diǎn)book構(gòu)成,book 節(jié)點(diǎn)下包含兩個(gè)子節(jié)點(diǎn),分別是catalogs和parts,catalogs 表示文章的標(biāo)題樹,parts 表示文章的內(nèi)容樹,部分?jǐn)?shù)據(jù)樣例見(jiàn)圖2。
圖2 含有版式信息的XML 數(shù)據(jù)樣例Fig.2 A sample of XML data with layout information
(2)針對(duì)XML 文件中所有的文本塊進(jìn)行數(shù)據(jù)分析,將每一篇論文XML 中的標(biāo)題、段落等結(jié)構(gòu)版式信息解析轉(zhuǎn)換為機(jī)器學(xué)習(xí)所需要的特征向量(c)[17],關(guān)于特征向量的選定下文會(huì)進(jìn)行詳細(xì)闡述,根據(jù)機(jī)器學(xué)習(xí)模型和精確度評(píng)估合理選擇特征向量,用以訓(xùn)練隨機(jī)森林模型(d)。
(3)由步驟(1)轉(zhuǎn)換而來(lái)的XML 文件是沒(méi)有任何分類信息與行文結(jié)構(gòu)的,通過(guò)對(duì)全部PDF 轉(zhuǎn)換生成的XML 文件進(jìn)行分析計(jì)算,得出每個(gè)文本塊的特征向量,將特征向量的計(jì)算結(jié)果輸入到步驟(2)訓(xùn)練完成的模型中,利用模型對(duì)目標(biāo)文檔的全部文本塊進(jìn)行預(yù)測(cè)分類,根據(jù)各個(gè)文本塊的分類重新生成包含章節(jié)標(biāo)題信息、圖表信息及其層級(jí)結(jié)構(gòu)信息的XML 文件(e)。
為了優(yōu)化機(jī)器學(xué)習(xí)算法的適應(yīng)性,采用Online Learning 的算法理論確保算法精確度,Online Learning能夠根據(jù)線上反饋數(shù)據(jù),快速實(shí)時(shí)調(diào)整模型,反映線上變化,提高線上預(yù)測(cè)的正確率。Online Learning 的主要流程包括:將模型的預(yù)測(cè)結(jié)果通過(guò)可視化界面展示給用戶(f),用戶借助可視化工具對(duì)預(yù)測(cè)結(jié)果進(jìn)行人工干預(yù),系統(tǒng)自動(dòng)收集用戶反饋數(shù)據(jù),加入到訓(xùn)練集中,對(duì)模型進(jìn)行迭代訓(xùn)練,使模型能夠線上自動(dòng)調(diào)整,形成閉環(huán)系統(tǒng),從而達(dá)到不斷提高算法識(shí)別正確率,降低人工干預(yù)的目的。
文獻(xiàn)篇章結(jié)構(gòu)的細(xì)粒度抽取本質(zhì)上就是根據(jù)版式特征對(duì)文檔內(nèi)的全部文本塊進(jìn)行自動(dòng)分類賦予標(biāo)簽的過(guò)程,通常學(xué)術(shù)論文PDF 文檔的篇章結(jié)構(gòu)大致可以分為文章標(biāo)題、作者信息、摘要、關(guān)鍵詞、分類號(hào)、各級(jí)章節(jié)標(biāo)題、正文段落、參考文獻(xiàn)以及頁(yè)眉頁(yè)腳等。
從版式特征角度分析文獻(xiàn)篇章結(jié)構(gòu)可以發(fā)現(xiàn),區(qū)分上述類型的主要依據(jù)就是文本塊的位置、字體、字號(hào)和行距等格式因素。因此,本方法中選定了與文本塊格式相關(guān)的17 個(gè)特征向量(圖3),作為判斷文本塊是否為章節(jié)標(biāo)題的主要依據(jù),表1 為17 個(gè)特征向量的具體表現(xiàn)形式和判斷標(biāo)準(zhǔn)。
表1 特征向量與特征描述Table 1 Feature vectors and feature descriptions
圖3 與文本塊格式相關(guān)的17 個(gè)特征向量Fig.3 Seventeen feature vectors associated with the format of text block
通過(guò)對(duì)步驟(1)中獲取的XML 進(jìn)行分析計(jì)算,得出每個(gè)文本塊(para)的上述17 個(gè)特征向量,將這17 個(gè)特征向量中不是數(shù)字的特征向量用標(biāo)記編碼器將其轉(zhuǎn)換為數(shù)字,不同屬性使用不同標(biāo)記編碼器。如font-style 屬性可以取3 個(gè)不同值,需要建立一個(gè)懂得給這3 個(gè)屬性編碼的標(biāo)記編碼器,從而得出特征向量的數(shù)組x,對(duì)不同的文本塊作相應(yīng)的標(biāo)記,作為機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)。本方法主要獲取文章的章節(jié)標(biāo)題,相應(yīng)標(biāo)記為 “0”代表文本塊為正文,“1”代表文本塊為文章一級(jí)標(biāo)題,“2”代表文本塊為文章二級(jí)標(biāo)題,“3”代表文本塊為文章三級(jí)標(biāo)題,以此類推,從而得出對(duì)應(yīng)的標(biāo)記y。
經(jīng)實(shí)測(cè),17 個(gè)特征向量對(duì)于模型的訓(xùn)練均有貢獻(xiàn),但重要性有大有小,這些特征差異有助于機(jī)器學(xué)習(xí)對(duì)文本塊分類進(jìn)行正確的推斷和預(yù)測(cè)。17 個(gè)特征向量的權(quán)重主要依賴于標(biāo)注的訓(xùn)練樣本通過(guò)隨機(jī)森林機(jī)器學(xué)習(xí)算法得出,不同訓(xùn)練樣本的17 個(gè)特征向量的權(quán)重不一樣,因此通過(guò)訓(xùn)練不同的模型可以實(shí)現(xiàn)對(duì)版式特征各異的文檔章節(jié)標(biāo)題的識(shí)別與抽取。
為了驗(yàn)證方法的可行性和有效性,我們通過(guò)采集和購(gòu)買手段分別從EIU、SAGE、OECD、IMF、World Bank 等平臺(tái)或出版商獲取到1.6 萬(wàn)學(xué)術(shù)論文、科技報(bào)告的PDF 全文數(shù)據(jù)作為訓(xùn)練集,驗(yàn)證算法的精確度和自動(dòng)碎片化模板的實(shí)際應(yīng)用效果。
EIU 來(lái)源的PDF 全文版式特征較為獨(dú)特統(tǒng)一,頁(yè)面左側(cè)留白,章節(jié)標(biāo)題多位于留白區(qū)域;SAGE、OECD、IMF、World Bank 來(lái)源的PDF 全文版式特征高度近似,均為常見(jiàn)的通欄或分欄排版,章節(jié)標(biāo)題居左或居中。因此,我們根據(jù)PDF 全文的版式特征將全部樣本大致分為兩類,EIU 來(lái)源的樣本作為EIU 模板的訓(xùn)練集進(jìn)行單獨(dú)訓(xùn)練,SAGE、OECD、IMF、World Bank 來(lái)源的樣本構(gòu)成一個(gè)訓(xùn)練集,用以訓(xùn)練通用模板。
本算法中隨機(jī)森林采用sklearn 庫(kù)的算法模板進(jìn)行訓(xùn)練。
可以通過(guò)改變n_estimators 和max_depth 參數(shù)的值,提升分類器的準(zhǔn)確性,這兩個(gè)參數(shù)被稱為超參數(shù)(hyperparameters),分類器的性能由它們決定,根據(jù)實(shí)驗(yàn)樣本測(cè)得n_estimators 取值180、max_depth 取值23能讓分類器的性能達(dá)到理想效果。
由圖4 可以看出,隨著迭代訓(xùn)練次數(shù)和訓(xùn)練樣本數(shù)量的增多,模板的精確度得到有效提升,兩個(gè)模板在實(shí)際應(yīng)用中均效果良好,以節(jié)點(diǎn)為計(jì)算單位(節(jié)點(diǎn)指一個(gè)標(biāo)題、段落或圖表),自動(dòng)抽取的平均正確率可達(dá)到80%以上,圖5、圖6 分別為兩個(gè)模板自動(dòng)抽取的可視化效果。在訓(xùn)練模板前,依據(jù)數(shù)據(jù)來(lái)源或版式特征對(duì)目標(biāo)PDF 做一個(gè)大致的分析和分類,并據(jù)此分別構(gòu)建訓(xùn)練集,分類訓(xùn)練機(jī)器學(xué)習(xí)模板,可以達(dá)到更高的精確度。在訓(xùn)練集構(gòu)建方面,需要注意的是,訓(xùn)練集規(guī)模過(guò)小的情況下極易導(dǎo)致過(guò)擬合現(xiàn)象,但如果選擇較大規(guī)模的訓(xùn)練集,則會(huì)消耗更多的樣本。因此,訓(xùn)練集規(guī)模的投入和選擇也需結(jié)合計(jì)算能力和實(shí)際情況進(jìn)行綜合考慮。
圖4 模板精度與樣本數(shù)量的關(guān)系Fig.4 Relationship between model accuracy and sample size
圖5 EIU 模板自動(dòng)抽取效果Fig.5 Result of automatic extraction of the EIU model
圖6 通用模板自動(dòng)抽取效果Fig.6 Result of automatic extraction of the common model
基于上述研究方法和關(guān)鍵技術(shù),設(shè)計(jì)構(gòu)建了一套數(shù)據(jù)處理系統(tǒng),已投入實(shí)際應(yīng)用,用以輔助開展方法實(shí)效的驗(yàn)證與優(yōu)化,同步推進(jìn)日常的文獻(xiàn)細(xì)粒度抽取相關(guān)業(yè)務(wù),系統(tǒng)運(yùn)行的技術(shù)路線詳見(jiàn)圖7。根據(jù)業(yè)務(wù)流程和功能需求,系統(tǒng)主要包含模板訓(xùn)練與管理模塊、碎片化自動(dòng)抽取模塊以及人工審校與質(zhì)檢模塊[18]等功能模塊,可以實(shí)現(xiàn)對(duì)PDF 文檔所包含的全部章節(jié)、小節(jié)、段落、圖表的結(jié)構(gòu)化處理和重組(圖8),達(dá)到抽取方式自動(dòng)化、處理流程規(guī)范化、業(yè)務(wù)管理智能化的目標(biāo),縮短數(shù)據(jù)處理流程周期,減少人工干預(yù),有效保障文獻(xiàn)細(xì)粒度抽取工作的質(zhì)量和效率。
圖7 系統(tǒng)運(yùn)行技術(shù)路線Fig.7 Technical route of system operation
圖8 細(xì)粒度自動(dòng)抽取流程Fig.8 Process of fine-grained automatic extraction
基于PDF 版式特征的篇章結(jié)構(gòu)細(xì)粒度抽取,有助于解決基于規(guī)則抽取算法精確度低、適應(yīng)性差的問(wèn)題,對(duì)文獻(xiàn)各級(jí)章節(jié)標(biāo)題的自動(dòng)抽取具有較好的效果。此外,根據(jù)不同業(yè)務(wù)精確度的需求,針對(duì)機(jī)器自動(dòng)抽取的結(jié)果,增設(shè)人工審校環(huán)節(jié),使正確率可以達(dá)到100%,且界面友好易用、操作便捷高效。經(jīng)實(shí)測(cè),審校人員利用校改工具,效率最快可達(dá)到每人每日審校提交8 200 個(gè)節(jié)點(diǎn),約合2 000 頁(yè)文獻(xiàn)內(nèi)容,很好地實(shí)現(xiàn)了機(jī)器自動(dòng)或人機(jī)結(jié)合的多元數(shù)據(jù)處理方式。
然而,本文研究的方法也存在一定局限性,需要在后續(xù)研究工作中加以完善和提升。目前,關(guān)于自動(dòng)抽取精確度的評(píng)估,僅限于各級(jí)章節(jié)標(biāo)題及其層級(jí)結(jié)構(gòu)的識(shí)別,不包含文中圖片、表格的識(shí)別情況,當(dāng)圖片、表格被誤判為非圖片,且圖片、表格中的文本恰好完全符合章節(jié)標(biāo)題的特征時(shí),則會(huì)直接增加章節(jié)標(biāo)題識(shí)別的錯(cuò)誤率。此外,由于不同來(lái)源的文獻(xiàn)資源其PDF 文檔版式特征過(guò)于復(fù)雜多樣,基于機(jī)器學(xué)習(xí)的版面識(shí)別算法很難以一個(gè)或少量通用模板適用于多源異構(gòu)的海量資源,模板的訓(xùn)練工作無(wú)法達(dá)到一勞永逸的效果。
針對(duì)上述問(wèn)題,目前較為快速有效的解決方法是利用模板管理工具對(duì)版式相似或來(lái)源相同的資源進(jìn)行機(jī)器學(xué)習(xí)模板的分別訓(xùn)練和對(duì)應(yīng)選用?;诩?xì)粒度抽取質(zhì)量與效率的長(zhǎng)遠(yuǎn)考慮,上述問(wèn)題還需在后續(xù)工作中進(jìn)一步完善和改進(jìn),以不斷提升文獻(xiàn)結(jié)構(gòu)化、細(xì)粒度自動(dòng)識(shí)別與抽取的正確率。
農(nóng)業(yè)圖書情報(bào)學(xué)刊2021年9期