科技文獻(xiàn)中學(xué)術(shù)圖表標(biāo)注研究進(jìn)展

2021-04-02 12:08:33丁培葉蘭

現(xiàn)代情報(bào) 2021年4期

丁培葉蘭

收稿日期：2020-10-10

基金項(xiàng)目：廣東省哲學(xué)社會(huì)科學(xué)規(guī)劃學(xué)科共建項(xiàng)目“支持深度知識(shí)發(fā)現(xiàn)的文內(nèi)數(shù)據(jù)與文獻(xiàn)關(guān)聯(lián)研究”（項(xiàng)目編號(hào)：GD18XTS07）;教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目“基于成熟度視角的高校圖書(shū)館科學(xué)數(shù)據(jù)管理服務(wù)能力評(píng)價(jià)研究”（項(xiàng)目編號(hào)：19YJC870028）;國(guó)家社會(huì)科學(xué)基金項(xiàng)目“科技論文全景式摘要知識(shí)圖譜構(gòu)建與應(yīng)用研究”（項(xiàng)目編號(hào)：19BTQ61）。

作者簡(jiǎn)介：丁培（1987-），男，館員，博士研究生，研究方向：知識(shí)組織，科學(xué)數(shù)據(jù)管理。

通訊作者：葉蘭（1983-），女，副研究館員，碩士，研究方向：數(shù)字圖書(shū)館，科學(xué)數(shù)據(jù)管理。

摘要：[目的/意義]科研用戶需要學(xué)術(shù)圖表助力精準(zhǔn)知識(shí)發(fā)現(xiàn)服務(wù)。圖表標(biāo)注是學(xué)術(shù)圖表融入學(xué)術(shù)知識(shí)發(fā)現(xiàn)體系需要解決的核心問(wèn)題。[方法/過(guò)程]定義學(xué)術(shù)圖表標(biāo)注范疇，以歷史研究為脈絡(luò)，梳理學(xué)術(shù)圖表發(fā)現(xiàn)研究及實(shí)踐發(fā)展階段，重點(diǎn)研究圖表標(biāo)注的兩個(gè)核心問(wèn)題：圖表標(biāo)注組織和圖表標(biāo)注實(shí)現(xiàn)。[結(jié)果/結(jié)論]總結(jié)現(xiàn)存研究問(wèn)題，指出基于本體的學(xué)術(shù)圖表自動(dòng)語(yǔ)義標(biāo)注是支撐未來(lái)大規(guī)模學(xué)術(shù)圖表精準(zhǔn)語(yǔ)義發(fā)現(xiàn)的圖表標(biāo)注形態(tài)。未來(lái)還需要在學(xué)術(shù)圖表本體構(gòu)建、學(xué)術(shù)圖表異構(gòu)信息抽取等方面深入開(kāi)展研究。

關(guān)鍵詞：科技文獻(xiàn);學(xué)術(shù)圖表;圖表標(biāo)注;知識(shí)組織;信息抽取;語(yǔ)義標(biāo)注

DOI：10.3969/j.issn.1008-0821.2021.04.017

〔中圖分類號(hào)〕G254〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821（2021）04-0165-13

Research Progress of Academic Figures and

Tables Annotation in Scientific Literature

Ding PeiYe Lan*

（Library，Shenzhen University，Shenzhen 518060，China）

Abstract：[Purpose/Significance]Researchers need academic figures and tables to facilitate precise knowledge discovery services.Academic figures and tables annotation is a core problem to be solved when academic figures and tables are integrated into academic knowledge service system.[Method/Process]The authors define scope of academic figures and tables annotation.Taking the historical research as the context，the paper sorted out the development stage of academic figures and tables discovery in research and practical dimension，and then focued on the two core issues of academic figures and tables annotation：annotations organizational structure and annotating implementation.[Result/Conclusion]On the basis of summarizing the existing research problems，the paper pointed out that ontology-based automatic semantic annotation of academic figures and tables was the form of academic figures and tables annotation supporting the accurate semantic discovery of large-scale academic figures and tables in the future.In next，further research should be carried out in academic figures and tables ontology construction and heterogeneous information extraction of academic figures and tables.

Key words：scientific literature;academic figures and tables;academic figures and tables annotation;knowledge organization;information extraction;semantic annotation

學(xué)術(shù)圖表大量存在于科技文獻(xiàn)中。相關(guān)研究統(tǒng)計(jì)發(fā)現(xiàn)，學(xué)術(shù)圖表正成為STEM期刊論文標(biāo)配內(nèi)容[1-2]。學(xué)術(shù)圖表是一系列、多步驟科學(xué)研究過(guò)程的最終產(chǎn)物。它被作者用于體現(xiàn)不同的用途，如多維指標(biāo)對(duì)比（表），復(fù)雜對(duì)象論證（復(fù)合圖），特殊對(duì)象展示（DNA圖），直觀實(shí)驗(yàn)展示（照片、成像圖），對(duì)比/趨勢(shì)/統(tǒng)計(jì)數(shù)據(jù)分析等，助力讀者直觀理解論文，提供比正常摘要更多的信息內(nèi)容。通常STEM論文中，重要的科學(xué)研究結(jié)果需要借助圖表解釋說(shuō)明;另一方面，讀者通過(guò)閱讀查看文獻(xiàn)內(nèi)學(xué)術(shù)圖表評(píng)估文檔的相關(guān)性，并借助圖表信息來(lái)提高檢索效率。同時(shí)，相當(dāng)部分的學(xué)術(shù)圖表和學(xué)術(shù)研究中產(chǎn)生的科學(xué)數(shù)據(jù)同源，甚至是科學(xué)數(shù)據(jù)精華所在，因而學(xué)術(shù)圖表成為科技文獻(xiàn)和科學(xué)數(shù)據(jù)間關(guān)聯(lián)的紐帶?？傊?，提供給定信息快速發(fā)現(xiàn)相關(guān)學(xué)術(shù)圖表成為科研發(fā)現(xiàn)中越來(lái)越重要的需求。

學(xué)術(shù)圖表具有表現(xiàn)類型多樣化、信息內(nèi)容高度濃縮、與科學(xué)文獻(xiàn)內(nèi)容高度相關(guān)的特征。類型多樣化帶來(lái)圖表識(shí)別挑戰(zhàn)，信息內(nèi)容高度濃縮需要構(gòu)建有效的模型來(lái)幫助知識(shí)呈現(xiàn)，而與科學(xué)文獻(xiàn)內(nèi)容高度相關(guān)則帶來(lái)異構(gòu)內(nèi)容融合發(fā)現(xiàn)及建立文本內(nèi)容與圖表間關(guān)系的問(wèn)題。這些致使學(xué)術(shù)圖表檢索發(fā)現(xiàn)難以融入當(dāng)前學(xué)術(shù)知識(shí)發(fā)現(xiàn)體系。

未來(lái)學(xué)術(shù)知識(shí)服務(wù)體系需要細(xì)粒度知識(shí)組織、基于語(yǔ)義的知識(shí)關(guān)聯(lián)、面向全資源類型的知識(shí)發(fā)現(xiàn)以及有效支持智能問(wèn)答、意圖精準(zhǔn)刻畫(huà)的認(rèn)知計(jì)算。學(xué)術(shù)圖表作為重要的學(xué)術(shù)知識(shí)表現(xiàn)對(duì)象，要融入未來(lái)學(xué)術(shù)知識(shí)服務(wù)體系，則需要解決學(xué)術(shù)圖表標(biāo)注這一關(guān)鍵瓶頸問(wèn)題。

1學(xué)術(shù)圖表標(biāo)注

“標(biāo)注”一詞的含義很多，如標(biāo)注是對(duì)文本特定部分所添加的形式注釋[3]，又如附加數(shù)據(jù)到其他類型的數(shù)據(jù)[4]，筆者認(rèn)為標(biāo)注是為數(shù)字對(duì)象（包括文本對(duì)象和非文本對(duì)象）添加注釋數(shù)據(jù)，這些注釋或是自身內(nèi)容語(yǔ)義深度挖掘，或是系統(tǒng)化組織，或是與其他對(duì)象關(guān)聯(lián)，其目的是增強(qiáng)人或機(jī)器對(duì)數(shù)字對(duì)象理解。學(xué)術(shù)圖表標(biāo)注指為科技文獻(xiàn)中的學(xué)術(shù)圖表添加形式化或形式化語(yǔ)義注釋內(nèi)容的過(guò)程及結(jié)果，其目的是理解學(xué)術(shù)圖表，發(fā)現(xiàn)學(xué)術(shù)圖表。

根據(jù)形式不同，標(biāo)注可分為非形式化標(biāo)注（如手寫(xiě)筆記）、形式化標(biāo)注及語(yǔ)義標(biāo)注3種。形式化標(biāo)注和語(yǔ)義標(biāo)注按照一定的信息組織模式，均可用于機(jī)器理解，其中元數(shù)據(jù)組織標(biāo)注作為一類形式化標(biāo)注，已廣泛應(yīng)用于計(jì)算機(jī)信息處理和信息資源發(fā)現(xiàn)過(guò)程中。形式化標(biāo)注解決簡(jiǎn)單的圖表語(yǔ)義描述問(wèn)題，但其靈活性同時(shí)產(chǎn)生“信息孤島”，因此無(wú)法解決資源集合之間的相互關(guān)系問(wèn)題，這需要語(yǔ)義標(biāo)注的幫助。

語(yǔ)義標(biāo)注是指為信息資源增加形式化、語(yǔ)義注釋，其形式化語(yǔ)義內(nèi)容來(lái)源于本體（此處本體涵蓋領(lǐng)域敘詞表等語(yǔ)義組織體系），為信息資源提供標(biāo)準(zhǔn)化、形式化、抽象化的描述，也稱之為基于本體的語(yǔ)義標(biāo)注。語(yǔ)義標(biāo)注既是表示本體知識(shí)轉(zhuǎn)化為語(yǔ)義注釋的過(guò)程（包括信息抽取和實(shí)例標(biāo)注），也是上述過(guò)程產(chǎn)生的語(yǔ)義注釋數(shù)據(jù)。通過(guò)語(yǔ)義形式化描述，它能幫助解決不同資源集合因不同描述產(chǎn)生的難以關(guān)聯(lián)問(wèn)題，同時(shí)它將信息資源所隱藏的語(yǔ)義知識(shí)顯現(xiàn)地揭示出來(lái)，使這些內(nèi)容更加容易被發(fā)現(xiàn)、關(guān)注及應(yīng)用。學(xué)術(shù)圖表的語(yǔ)義標(biāo)注是指基于本體對(duì)科技文獻(xiàn)中圖表信息內(nèi)容實(shí)施語(yǔ)義組織、揭示語(yǔ)義關(guān)聯(lián)，形成語(yǔ)義標(biāo)注內(nèi)容。

2學(xué)術(shù)圖表發(fā)現(xiàn)歷史

早在20世紀(jì)末數(shù)字圖書(shū)館興起之時(shí)，Bishop A P研究者就嘗試通過(guò)搜索特定期刊文章組成部分（圖、表格標(biāo)題以及表格文字）來(lái)支持檢索科技期刊文章[5]。Futrelle R P發(fā)現(xiàn)在生物學(xué)領(lǐng)域中將近50%的論文文本內(nèi)容與圖形相關(guān)[6]。Stelmaszewska H等研究計(jì)算機(jī)科學(xué)家閱讀文章行為及需求時(shí)發(fā)現(xiàn)，用戶閱讀文章時(shí)會(huì)重點(diǎn)查看圖、表、公式等非文本內(nèi)容，以此快速評(píng)估論文是否符合自身需求[7]。CSA通過(guò)期刊論文組件索引及檢索系統(tǒng)用戶需求的調(diào)查發(fā)現(xiàn)，在檢索系統(tǒng)內(nèi)搜索表格、圖形、圖表和地圖對(duì)研究、教學(xué)均非常重要，期刊文章中包含的表格及圖像能使判斷文章的相關(guān)性變得更加容易。此外需求分析還發(fā)現(xiàn)用戶要求在支持圖表檢索的系統(tǒng)應(yīng)具有高精準(zhǔn)度、靈活的檢索頁(yè)面、支持聯(lián)邦檢索、提供無(wú)縫的論文獲取、提供用于處理符號(hào)和支持符號(hào)檢索的標(biāo)準(zhǔn)化解決方案等功能[8]。

學(xué)術(shù)圖表的文本及視覺(jué)異物特征致使學(xué)術(shù)圖表的發(fā)現(xiàn)研究演進(jìn)分化成兩條研究路徑。路徑一以學(xué)術(shù)圖表所涉及的文本信息為語(yǔ)義來(lái)源，通過(guò)信息抽取、知識(shí)組織將來(lái)源信息轉(zhuǎn)換為形式化標(biāo)注內(nèi)容，進(jìn)而實(shí)施圖表發(fā)現(xiàn)。路徑二以學(xué)術(shù)圖表自身的特征內(nèi)容（既包括圖像視覺(jué)特征，也包括圖表內(nèi)文本特征）為語(yǔ)義來(lái)源，借助信息抽取和視覺(jué)識(shí)別等技術(shù)，并通過(guò)知識(shí)組織將來(lái)源信息轉(zhuǎn)換為形式化標(biāo)注或語(yǔ)義標(biāo)注內(nèi)容來(lái)實(shí)現(xiàn)圖表發(fā)現(xiàn)。表1對(duì)部分學(xué)術(shù)圖表發(fā)現(xiàn)研究進(jìn)行了對(duì)比。

歷經(jīng)數(shù)十年的發(fā)展，學(xué)術(shù)圖表發(fā)現(xiàn)經(jīng)歷了三方面的轉(zhuǎn)變，分別是發(fā)現(xiàn)對(duì)象從單一表或圖轉(zhuǎn)向綜合性的圖表，語(yǔ)義來(lái)源從簡(jiǎn)單的標(biāo)題等內(nèi)容擴(kuò)展到多模態(tài)信息復(fù)合，檢索支持從單一的關(guān)鍵詞檢索到關(guān)鍵詞檢索復(fù)合圖表分類及關(guān)聯(lián)發(fā)現(xiàn)。從發(fā)展歷史看，學(xué)術(shù)圖表發(fā)現(xiàn)總體經(jīng)歷三階段的發(fā)展變化。

第一階段的發(fā)現(xiàn)研究主要關(guān)注于單一圖或單一表的發(fā)現(xiàn)，語(yǔ)義來(lái)源較為簡(jiǎn)單，如標(biāo)題、表?xiàng)l目、圖特征等，通過(guò)元數(shù)據(jù)方式組織所抽取信息，并提供基于關(guān)鍵詞的檢索發(fā)現(xiàn)。第二階段的發(fā)現(xiàn)研究將學(xué)術(shù)圖表作為統(tǒng)一發(fā)現(xiàn)對(duì)象，語(yǔ)義來(lái)源擴(kuò)展到圖表上下文，圖表所在論文的元數(shù)據(jù)信息。此階段以元數(shù)據(jù)組織方式為主，配合以關(guān)鍵詞檢索。第三階段嘗試融合路徑一和路徑二，將學(xué)術(shù)圖表的文本特征、視覺(jué)特征、外部關(guān)聯(lián)信息綜合為語(yǔ)義信息來(lái)源，借助信息抽取、視覺(jué)識(shí)別、機(jī)器學(xué)習(xí)等技術(shù)，基于元數(shù)據(jù)、圖表分類等組織方式形成形式化標(biāo)注，并提供關(guān)鍵詞、簡(jiǎn)單分類、主題語(yǔ)義等多維的圖表發(fā)現(xiàn)方式。

通過(guò)歷史研究發(fā)現(xiàn)，無(wú)論哪個(gè)階段，學(xué)術(shù)圖表發(fā)現(xiàn)需要借助標(biāo)注實(shí)現(xiàn)，而標(biāo)注需要解決兩個(gè)核心問(wèn)題：圖表標(biāo)注組織和圖表標(biāo)注實(shí)現(xiàn)。前者為學(xué)術(shù)圖表標(biāo)注提供結(jié)構(gòu)化、形式化內(nèi)容組織框架，幫助人和機(jī)器理解圖表的語(yǔ)義，后者通過(guò)技術(shù)建立學(xué)術(shù)圖表語(yǔ)義來(lái)源信息和組織模型間關(guān)聯(lián)，并轉(zhuǎn)換為結(jié)構(gòu)化標(biāo)注內(nèi)容。

3學(xué)術(shù)圖表標(biāo)注組織

學(xué)術(shù)圖表發(fā)現(xiàn)過(guò)程需要將圖表涉及的將雜亂無(wú)序的語(yǔ)義信息來(lái)源內(nèi)容轉(zhuǎn)化為有序、結(jié)構(gòu)化的形式標(biāo)注內(nèi)容，這一過(guò)程需要標(biāo)注組織框架的幫助?，F(xiàn)有學(xué)術(shù)圖表標(biāo)注組織框架涉及元數(shù)據(jù)組織、圖表分類組織及本體組織3種方式。

3.1元數(shù)據(jù)

元數(shù)據(jù)通過(guò)結(jié)構(gòu)化描述，對(duì)具體的情境進(jìn)行定制化的解釋，實(shí)現(xiàn)對(duì)資源的組織、發(fā)現(xiàn)、互操作、歸檔和保藏等?；谄浔磉_(dá)的多樣化、靈活、門檻低的優(yōu)勢(shì)，元數(shù)據(jù)是最早應(yīng)用于學(xué)術(shù)圖表標(biāo)注的信息組織方式，也是實(shí)踐中應(yīng)用最多的方式。

TableSeer[13]將學(xué)術(shù)表格信息組織為表格環(huán)境元數(shù)據(jù)（如文檔類型，表格所在文檔頁(yè)碼，文檔標(biāo)題等）、表格框架元數(shù)據(jù)（記錄表格四周是否有框）、表格附屬元數(shù)據(jù)（表格標(biāo)題、腳注、參考文獻(xiàn)）、表格布局元數(shù)據(jù)（如表寬、表長(zhǎng)、行數(shù)、列數(shù)、分割線等）、表格內(nèi)容元數(shù)據(jù)（表格中的值）、表格內(nèi)容類型元數(shù)據(jù)（數(shù)值或非數(shù)值）等五類元數(shù)據(jù)。

CSA[14]通過(guò)深度索引技術(shù)，抽取文獻(xiàn)中的表格、圖片等數(shù)據(jù)，人工標(biāo)引其元數(shù)據(jù)。標(biāo)引的元數(shù)據(jù)框架包括圖表標(biāo)題、圖表類別、DOI、地理術(shù)語(yǔ)、文獻(xiàn)作者、文獻(xiàn)標(biāo)題、文獻(xiàn)摘要、期刊名稱、文獻(xiàn)主題等。

PMC[18]同樣基于元數(shù)據(jù)方式對(duì)論文中的學(xué)術(shù)圖進(jìn)行增強(qiáng)表示，其學(xué)術(shù)圖的元數(shù)據(jù)包括圖標(biāo)題、圖注、圖所在文章DOI、文章出版時(shí)間、同文圖片等。

CNKI[19]單獨(dú)抽取科技文獻(xiàn)中的學(xué)術(shù)圖片，使用15個(gè)元數(shù)據(jù)項(xiàng)描述圖片信息，包括圖片ID、圖片標(biāo)題、圖片說(shuō)明、圖片關(guān)鍵詞、圖詞、分類、圖片尺寸、圖片大小、圖片清晰度、圖片頁(yè)碼、圖片地址、同文圖片、語(yǔ)義相關(guān)圖片、讀者推薦圖片。

Open-i[22]是NIH開(kāi)發(fā)的科研圖片數(shù)據(jù)庫(kù)，綜合來(lái)自Pubmed Central、Medpix、USC Orthopedic Surgical Anatomy、Images from the History of Medicine（NLM）、Indiana U.Chest X-rays等來(lái)源的科研圖片，其中Pubmed Central集合均是科技論文中的學(xué)術(shù)圖。其元數(shù)據(jù)組織內(nèi)容包括圖片標(biāo)題、圖片注釋、圖片上下文提及文本、圖片分類、論文標(biāo)題、論文摘要、所屬機(jī)構(gòu)、期刊名稱、MESH主題擴(kuò)展等。

3.2圖表分類組織

圖表分類組織針對(duì)圖表視覺(jué)特征，從圖表類型上組織學(xué)術(shù)圖表信息。早在20世紀(jì)80年代，遙感領(lǐng)域[25]以及醫(yī)學(xué)領(lǐng)域[26]就研究各自領(lǐng)域中的學(xué)術(shù)圖像分類。圖表分類組織依賴計(jì)算機(jī)視覺(jué)識(shí)別和機(jī)器學(xué)習(xí)技術(shù)，而組織體系尚無(wú)通用性的標(biāo)準(zhǔn)，研究人員基于任務(wù)需求、領(lǐng)域特征、分類算法建立不同的圖表分類組織模型。表2列舉部分研究使用的圖像分類組織模型等信息。

3.3本體組織

本體是一種形式化組織方式，通過(guò)賦予異構(gòu)數(shù)據(jù)以統(tǒng)一的語(yǔ)義信息，使得機(jī)器能夠理解信息并自動(dòng)處理信息之間的語(yǔ)義聯(lián)系，從而提高異構(gòu)數(shù)據(jù)之間的互操作性。

學(xué)術(shù)圖表作為文獻(xiàn)的重要組成部分，較早出現(xiàn)于文獻(xiàn)組織本體中。DoCo[32]、Discourse Elements Ontology（DEO）[33]等文獻(xiàn)本體將學(xué)術(shù)圖表作為單獨(dú)類目描述。學(xué)術(shù)圖表類目?jī)H描述圖表標(biāo)題、注釋（Lable、表格框Box）等內(nèi)容?？茖W(xué)論文功能單元本體[34]嘗試組織學(xué)術(shù)圖表上下文內(nèi)容，將其組織數(shù)據(jù)分析、數(shù)據(jù)描述內(nèi)容，并匹配學(xué)術(shù)圖表的知識(shí)類型屬性（如確定性程度、情感傾向、來(lái)源），但未進(jìn)一步細(xì)粒度分解學(xué)術(shù)圖表內(nèi)容。

學(xué)術(shù)表格有固有組織特性（橫縱坐標(biāo)分明），因而部分研究者采用自定義本體或者領(lǐng)域本體來(lái)對(duì)其進(jìn)行語(yǔ)義組織。Madin J等構(gòu)建了可擴(kuò)展的觀測(cè)本體（Extensible Observation Ontology，OBOE），該本體由觀測(cè)、度量、實(shí)體、特征和度量標(biāo)準(zhǔn)5個(gè)核心概念構(gòu)成，不僅可以描述每項(xiàng)觀測(cè)變量的上下文環(huán)境以及觀測(cè)值之間的相互關(guān)系，還支持魯棒性的單位描述和換算以及領(lǐng)域詞匯擴(kuò)展[35]。開(kāi)放城市數(shù)據(jù)平臺(tái)利用城市數(shù)據(jù)模型本體（City Data Model Ontology）將不同來(lái)源的數(shù)據(jù)轉(zhuǎn)換為RDF數(shù)據(jù)，轉(zhuǎn)換時(shí)根據(jù)一維表數(shù)據(jù)的特點(diǎn)（每一行對(duì)應(yīng)一個(gè)城市和每一列對(duì)應(yīng)一個(gè)統(tǒng)計(jì)指標(biāo)），將每一行的數(shù)據(jù)映射到CityDataContext類的一個(gè)實(shí)例，每一列映射到一個(gè)屬性[36]。

領(lǐng)域敘詞表利用“用、代、屬、分、參、族”等關(guān)系對(duì)領(lǐng)域知識(shí)實(shí)施形式化組織，可看作一類簡(jiǎn)單的領(lǐng)域知識(shí)本體。部分研究人員嘗試?yán)脵C(jī)器視覺(jué)識(shí)別、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)算法等技術(shù)，結(jié)合領(lǐng)域敘詞表對(duì)學(xué)術(shù)圖表實(shí)施語(yǔ)義標(biāo)注。結(jié)構(gòu)化文本圖片發(fā)現(xiàn)系統(tǒng)（Structured Literature Image Finder System，SLIF）最早嘗試?yán)脭⒃~表語(yǔ)義組織圖表。它關(guān)注生物文獻(xiàn)中的顯微鏡成像圖，通過(guò)機(jī)器視覺(jué)識(shí)別的方法來(lái)發(fā)現(xiàn)成像圖中的基因、蛋白質(zhì)概念[11]。Human Brain Project（HBP）將大腦成像圖片的特定區(qū)域和受控詞表中的概念關(guān)聯(lián)[37]。EMAP（The Edinburgh Mouse Atlas Project）利用解剖學(xué)詞表概念對(duì)老鼠胚胎的3D圖片和2D組織切面進(jìn)行標(biāo)注[38]。

筆者早期研究學(xué)術(shù)圖表的專門本體組織，將學(xué)術(shù)圖表的視覺(jué)信息、內(nèi)外文本信息、學(xué)術(shù)圖表的外部關(guān)聯(lián)信息作為增強(qiáng)信息來(lái)源，梳理異構(gòu)信息間語(yǔ)義關(guān)系，基于Protégé工具構(gòu)建簡(jiǎn)單文內(nèi)數(shù)據(jù)本體框架[39]。后續(xù)基于語(yǔ)義標(biāo)注任務(wù)構(gòu)建水稻領(lǐng)域的學(xué)術(shù)圖表知識(shí)庫(kù)，并將其應(yīng)用于學(xué)術(shù)圖表發(fā)現(xiàn)任務(wù)中。

3.4知識(shí)圖譜

知識(shí)圖譜（Knowledge Graph）是近年以來(lái)的熱點(diǎn)，它是一種知識(shí)表示方式。學(xué)界對(duì)于知識(shí)圖譜并沒(méi)有明確的定義。有研究者認(rèn)為知識(shí)圖譜是一個(gè)知識(shí)庫(kù)，如Rospocher M等認(rèn)為知識(shí)圖譜是從結(jié)構(gòu)化知識(shí)庫(kù)或百科知識(shí)中抽取實(shí)體組成的事實(shí)知識(shí)庫(kù)[40]。部分研究者認(rèn)為知識(shí)圖譜是基于圖的知識(shí)表示方式，如阮彤等定義知識(shí)圖譜是模式圖、數(shù)據(jù)圖及兩者關(guān)系組成的圖[41]。還有研究者把知識(shí)圖譜認(rèn)為是一個(gè)本體，如認(rèn)為知識(shí)圖譜是由實(shí)體、實(shí)體類型、屬性及關(guān)系構(gòu)成的大型網(wǎng)狀網(wǎng)絡(luò)[42]。Paulheim H等認(rèn)為圖譜包括實(shí)例A-box和模式T-box，其中A-box數(shù)據(jù)量遠(yuǎn)大于T-box[43]。

本研究認(rèn)為知識(shí)圖譜是包含大量實(shí)體、關(guān)系、屬性的結(jié)構(gòu)化知識(shí)系統(tǒng)[44]，它既包括模式層面的本體組織，也包括數(shù)據(jù)層的語(yǔ)義標(biāo)注知識(shí)庫(kù)。簡(jiǎn)而言之，知識(shí)圖譜包括本體和本體約束的實(shí)例內(nèi)容（可稱為知識(shí)庫(kù)），本體為圖譜提供抽象表達(dá)，知識(shí)庫(kù)是本體的實(shí)例化?；谥R(shí)范圍，圖譜分為通用知識(shí)圖譜和行業(yè)知識(shí)圖譜兩大類[45]。通用知識(shí)圖譜如普林斯頓大學(xué)的Wordnet、谷歌的Freebase、維基百科的Dbpedia、微軟的Concept Graph等。行業(yè)知識(shí)圖譜如地理領(lǐng)域的Geonames、生物領(lǐng)域的UniprotKB、腦科學(xué)領(lǐng)域的Linked Brain Data知識(shí)庫(kù)、旅游領(lǐng)域的中國(guó)旅游景點(diǎn)知識(shí)圖譜等。學(xué)術(shù)資源領(lǐng)域也有知識(shí)圖譜應(yīng)用，如微軟學(xué)術(shù)知識(shí)圖譜（MAKG）[46]、Springer Nature SciGraph[47]、學(xué)者網(wǎng)知識(shí)圖譜[48]、TechKG科技知識(shí)圖譜[49]等。目前暫未發(fā)現(xiàn)面向?qū)W術(shù)圖表知識(shí)組織的知識(shí)圖譜。

圖表標(biāo)注實(shí)現(xiàn)的2個(gè)重點(diǎn)問(wèn)題分別是學(xué)術(shù)圖表語(yǔ)義來(lái)源信息如何獲得，如何將無(wú)序的來(lái)源信息轉(zhuǎn)換為結(jié)構(gòu)化語(yǔ)義內(nèi)容，簡(jiǎn)單而言，即信息抽取和實(shí)例標(biāo)注。

4.1圖表信息抽取

信息抽取的覆蓋面及精準(zhǔn)度直接影響到學(xué)術(shù)圖表標(biāo)注的范圍和效果。學(xué)術(shù)圖表語(yǔ)義來(lái)源信息構(gòu)成較為復(fù)雜，包括3個(gè)方面內(nèi)容。第一方面內(nèi)容來(lái)自圖表本身，如圖表類型、圖表內(nèi)文本及數(shù)據(jù)（數(shù)據(jù)點(diǎn)、坐標(biāo)軸、圖例、圖內(nèi)對(duì)象）等;第二方面是圖表內(nèi)容信息，包括圖表標(biāo)題、圖表注釋、圖表上下文等;第三部分是圖表擴(kuò)展信息，此部分信息能夠擴(kuò)展圖表發(fā)現(xiàn)范圍，發(fā)現(xiàn)更多隱性關(guān)聯(lián)。包括論文信息、數(shù)據(jù)信息等。不同研究者基于不同來(lái)源信息對(duì)圖表實(shí)施信息抽取任務(wù)，具體而言可分為學(xué)術(shù)圖表自身信息抽取、學(xué)術(shù)圖表內(nèi)容信息抽取、學(xué)術(shù)圖表擴(kuò)展信息抽取。

4.1.1學(xué)術(shù)圖表自身信息抽取

學(xué)術(shù)圖表自身具有視覺(jué)信息和文本信息共存的特性。視覺(jué)信息一方面可用于增強(qiáng)表示為學(xué)術(shù)圖表類型;另一方面部分類型圖像視覺(jué)信息可以用于實(shí)體或概念標(biāo)注（如成像圖、蛋白質(zhì)序列圖）。文本信息（如坐標(biāo)軸、圖例、圖內(nèi)注釋等）則用于細(xì)粒度的知識(shí)描述。

1）圖像視覺(jué)信息抽取

視覺(jué)信息的抽取和標(biāo)注通常結(jié)合在一起。抽取視覺(jué)信息標(biāo)注圖表類型在3.2部分已有闡述。部分研究者針對(duì)照片、醫(yī)學(xué)圖像、成像圖等類型學(xué)術(shù)圖像，基于底層視覺(jué)信息，將視覺(jué)特征和文本特征共同考慮，利用視覺(jué)單詞或者領(lǐng)域術(shù)語(yǔ)來(lái)對(duì)圖像進(jìn)行標(biāo)注。Shamna P等將視覺(jué)信息位置信息補(bǔ)充到主題模型算法LDA中來(lái)抽取圖像視覺(jué)單詞，提高醫(yī)學(xué)成像圖的檢索精準(zhǔn)度[50]。Kurtz C等基于圖像的顏色、位置、邊緣等特征，使用支持向量機(jī)（SVM）和Riesz小波自動(dòng)學(xué)習(xí)方法，從醫(yī)學(xué)本體中自動(dòng)注釋放射圖片[51]。深度卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模視覺(jué)對(duì)象識(shí)別任務(wù)中獲得了廣泛的普及，尤其是在通用圖像檢索和醫(yī)學(xué)圖像檢索任務(wù)的多模（文本特征、圖像特征）特征學(xué)習(xí)上表現(xiàn)優(yōu)異[52-54]。

2）圖像文本信息抽取

圖像文本信息抽取可歸納為4個(gè)步驟。

第一步是文本檢測(cè)，測(cè)定圖像中文本存在。蔣夢(mèng)迪等總結(jié)現(xiàn)存6種文本區(qū)域檢測(cè)算法：基于邊緣、基于紋理、基于連通分量、基于筆畫(huà)、基于深度學(xué)習(xí)和其他算法[55]。

第二步是文本定位，確定圖像中文本位置并且生成文本邊界框。顏色、邊、紋理特征及文本特征是文本定位常規(guī)使用的特征，點(diǎn)、區(qū)域、角色外觀等特征也被部分研究者關(guān)注和探索[56-57]。

第三步是文本分割階段，從圖像背景中分割文本，提取字符塊精確輪廓[58]。鑒于學(xué)術(shù)圖像分辨率偏低的特點(diǎn)，此過(guò)程容易產(chǎn)生噪音，需要進(jìn)行文本圖像增強(qiáng)。

第四步是使用光學(xué)字符識(shí)別OCR技術(shù)將提取的文本圖像轉(zhuǎn)換成純文本。

3）圖像數(shù)值信息抽取

對(duì)于統(tǒng)計(jì)類型圖像，研究者不僅研究文本抽取，還研究圖內(nèi)數(shù)據(jù)提取。學(xué)術(shù)圖像的數(shù)據(jù)提取可以分解為多個(gè)任務(wù)。在經(jīng)過(guò)文本檢測(cè)和識(shí)別步驟獲得坐標(biāo)軸標(biāo)簽、圖例、數(shù)據(jù)點(diǎn)值后，需要建立數(shù)據(jù)標(biāo)簽和數(shù)據(jù)內(nèi)容之間的對(duì)應(yīng)關(guān)系。已有學(xué)者研究不同類型圖表的數(shù)據(jù)內(nèi)容提取，并嘗試開(kāi)發(fā)相應(yīng)的數(shù)據(jù)提取工具。數(shù)據(jù)提取工具對(duì)比如表3所示。

4）表格文本信息抽取

表格中文本抽取分兩類方式。一類是將表格轉(zhuǎn)換為圖片格式，基于圖像文本抽取步驟實(shí)施;一類是基于表格特征抽取表格文本。

表格特征指表頭、數(shù)據(jù)區(qū)的布局、文本特征，當(dāng)前基于表格特征抽取文本內(nèi)容又分為：

1）基于布局和樣式特征的自動(dòng)抽?。簩⒈砀穹譃椴煌愋偷牟季?，采用貝葉斯分類算法或者樹(shù)形遍歷算法，基于單詞間距、空格位置、文字大小、文字粗細(xì)、文字位置、縮進(jìn)等特征，對(duì)表格的標(biāo)題、表頭、數(shù)據(jù)區(qū)域做區(qū)分[64-65]。

2）半監(jiān)督學(xué)習(xí)的抽取：通過(guò)人工干預(yù)，確定表格的部分特征，利用機(jī)器分類算法來(lái)幫助識(shí)別表頭、數(shù)據(jù)區(qū)域。如Nagy G等早期使用半自動(dòng)的方式，借助WNT、TAT、VeriClick工具來(lái)協(xié)助表格結(jié)構(gòu)內(nèi)容的理解[66]。

4.1.2學(xué)術(shù)圖表內(nèi)容信息抽取

學(xué)術(shù)圖表的文本型信息包括圖表標(biāo)題、注釋、上下文（論文正文中提及圖表的段落）。學(xué)術(shù)圖表的文本信息抽取的難點(diǎn)在于需要保證盡可能找到圖表所涉及的文本內(nèi)容，同時(shí)盡量少引入無(wú)關(guān)的文本信息。

早期研究關(guān)注圖表標(biāo)題的抽取。例如ACM檢索系統(tǒng)[67]，MARIE項(xiàng)目[68]。隨著對(duì)圖表精確檢索需求顯化，與此同時(shí)自然語(yǔ)言處理技術(shù)取得突破進(jìn)展，研究人員更關(guān)注正文中圖表提及文本內(nèi)容的抽取。Demnerfushman D等強(qiáng)調(diào)分析與圖像關(guān)聯(lián)文本以理解圖像，并抽取醫(yī)學(xué)圖像的標(biāo)題及論文中討論部分的圖表提及文本來(lái)增強(qiáng)醫(yī)學(xué)圖像的圖像注釋及檢索[69]。圖形摘要系統(tǒng)FigSum嘗試從醫(yī)學(xué)文獻(xiàn)中抽取出圖形的結(jié)構(gòu)性文本摘要，并將文本分類為簡(jiǎn)介、方法、結(jié)果和討論[70]。

現(xiàn)有研究提出了幾種圖表上下文抽取的方法，分別是：

1）明確提示法：基于標(biāo)示性文字來(lái)識(shí)別明確引用圖表的句子或者段落，例如借助Fig、Table等關(guān)鍵詞，識(shí)別圖表所引用的句子或者段落。

2）基于信息檢索的方法：以圖表標(biāo)題、圖例信息、參考語(yǔ)句或段落（明確引用的語(yǔ)句）為基準(zhǔn)，基于主題相關(guān)性來(lái)查找與圖表標(biāo)題最相似的句子來(lái)查找與圖表關(guān)聯(lián)的語(yǔ)句。

3）基于位置的抽取方法：以明確引用語(yǔ)句為參考語(yǔ)句，抽取與參考語(yǔ)句間距離為N句的內(nèi)容。

Balaji P R等在生物學(xué)領(lǐng)域的圖像文本標(biāo)注實(shí)驗(yàn)中對(duì)比不同方法，發(fā)現(xiàn)明確提示法在精準(zhǔn)度上獲得最好表現(xiàn)，而基于信息檢索的方法在召回率上表現(xiàn)最佳，而混合兩者方法則在F值上表現(xiàn)最佳[71]。

4.1.3學(xué)術(shù)圖表外部關(guān)聯(lián)信息抽取

學(xué)術(shù)圖表外部關(guān)聯(lián)信息主要是指論文中的與圖表發(fā)現(xiàn)相關(guān)但并非對(duì)圖表進(jìn)行直接描述的內(nèi)容，如論文信息（論文標(biāo)題、論文作者、作者機(jī)構(gòu)、論文引用、論文關(guān)鍵詞等），數(shù)據(jù)信息（如補(bǔ)充數(shù)據(jù)標(biāo)題、補(bǔ)充數(shù)據(jù)描述）和圖表引用信息（圖表引用文獻(xiàn)、圖表引用數(shù)據(jù)）等。

針對(duì)論文信息抽取，薛歡歡[72]總結(jié)論文信息抽取3種方式，并指出基于規(guī)則的論文信息抽取方法準(zhǔn)確度高但可擴(kuò)展性差，基于模板的論文信息抽取方法下效率高但受制于模板構(gòu)建，基于機(jī)器學(xué)習(xí)的論文信息抽取方法靈活性、魯棒性最佳，但需要構(gòu)建訓(xùn)練語(yǔ)料。李朝光等利用正則表達(dá)式直接從PDF文檔中抽取首頁(yè)元數(shù)據(jù)，包括標(biāo)題、作者、摘要和關(guān)鍵字[73]。更多的研究者利用工具將PDF轉(zhuǎn)換為XML格式文檔，基于XML規(guī)則來(lái)抽取論文信息，抽取信息有標(biāo)題、作者名、地址、電子郵箱、摘要、關(guān)鍵字、引文[74-75]。Day M Y等采用模板匹配方法，設(shè)計(jì)層次化知識(shí)描述框架的InfoMap抽取論文中的引文元數(shù)據(jù)[76]。黃澤武也基于模板的方法識(shí)別與抽取標(biāo)題、作者、摘要、參考文獻(xiàn)等信息[77]。機(jī)器學(xué)習(xí)的興起為論文信息抽取帶來(lái)新格局，研究者們采用包括SVM[78]、條件隨機(jī)場(chǎng)[79]、隱馬爾可夫模型[80]、深度神經(jīng)網(wǎng)絡(luò)[81]等分類算法，通過(guò)訓(xùn)練語(yǔ)料并建立樣本的輸入與輸出之間的關(guān)系來(lái)預(yù)測(cè)論文信息所屬分類。

數(shù)據(jù)信息主要指論文中補(bǔ)充數(shù)據(jù)材料信息。由于現(xiàn)有科技文獻(xiàn)中補(bǔ)充數(shù)據(jù)并非必須字段，且不同數(shù)據(jù)庫(kù)平臺(tái)對(duì)補(bǔ)充數(shù)據(jù)表示不一，因而尚未有人專門研究補(bǔ)充數(shù)據(jù)信息抽取。Kafkas S等挖掘Europe PMC FTP上41萬(wàn)篇XML格式論文，通過(guò)元素和數(shù)據(jù)庫(kù)登錄號(hào)等方式篩選，發(fā)現(xiàn)16.8%的文章包含可轉(zhuǎn)換格式的補(bǔ)充數(shù)據(jù)[82]。Li J等[83]、Zhao M N等[84]均基于XML全文分析模式對(duì)文章中引用科學(xué)數(shù)據(jù)情況實(shí)施統(tǒng)計(jì)，但未針對(duì)補(bǔ)充材料項(xiàng)實(shí)施抽取。

盡管尚未有專門針對(duì)圖表引用信息的抽取研究，但此任務(wù)與文本中引文發(fā)現(xiàn)和抽取類似。多數(shù)學(xué)者關(guān)注引文數(shù)據(jù)的抽取，如Cortez E等從已經(jīng)存在的領(lǐng)域訓(xùn)練集元數(shù)據(jù)中自動(dòng)生成模板，從而實(shí)現(xiàn)無(wú)監(jiān)督的引文元數(shù)據(jù)抽取[85]，Peng F C等基于條件隨機(jī)場(chǎng)算法從Cora數(shù)據(jù)集中抽取引文元數(shù)據(jù)取得不錯(cuò)效果[86]。部分學(xué)者對(duì)引文發(fā)現(xiàn)進(jìn)行研究，如高良才等通過(guò)構(gòu)建融合序號(hào)規(guī)則、內(nèi)容規(guī)則、標(biāo)點(diǎn)符號(hào)規(guī)則的特征集合從文本中發(fā)現(xiàn)、分割及標(biāo)注引文信息[87]。還有學(xué)者研究引文上下文的抽取，如He Q等采用語(yǔ)言模型來(lái)定位引文內(nèi)容，并采用了文獻(xiàn)不同部分的上下文相似度以及給定的引文內(nèi)容聚類及概率模型的主題相關(guān)性來(lái)計(jì)算引文相關(guān)度值[88]。

4.2圖表實(shí)例標(biāo)注

圖表實(shí)例標(biāo)注是建立圖表標(biāo)注組織模型和圖表語(yǔ)義信息內(nèi)容關(guān)聯(lián)，產(chǎn)生標(biāo)注數(shù)據(jù)的過(guò)程。其中圖表標(biāo)注組織模型為實(shí)例標(biāo)注提供語(yǔ)義描述框架。不同組織模型產(chǎn)生不同的圖表標(biāo)注數(shù)據(jù)。學(xué)術(shù)圖表元數(shù)據(jù)標(biāo)注采用元數(shù)據(jù)組織模型描述學(xué)術(shù)圖表的語(yǔ)義信息來(lái)源，以形式化標(biāo)注方式展示于HTML或XML頁(yè)面中，例如CNKI學(xué)術(shù)圖片知識(shí)庫(kù)中的圖片條目。學(xué)術(shù)圖表分類標(biāo)注是將圖表視覺(jué)信息標(biāo)注為人和機(jī)器可讀的文本型形式化標(biāo)注內(nèi)容，例如ReVision工具產(chǎn)生的圖類型標(biāo)注結(jié)果。學(xué)術(shù)圖表語(yǔ)義標(biāo)注以本體為組織模型，通過(guò)語(yǔ)義標(biāo)注產(chǎn)生形式化語(yǔ)義標(biāo)注內(nèi)容，最終以XML、RDF、關(guān)聯(lián)數(shù)據(jù)等方式呈現(xiàn)。

元數(shù)據(jù)標(biāo)注是目前主流的學(xué)術(shù)圖表標(biāo)注方式。上文研究提到的CSA llustrata、Open-i、TableSeer、CNKI圖片檢索等均實(shí)踐了元數(shù)據(jù)標(biāo)注方式。圖表分類標(biāo)注通常會(huì)和元數(shù)據(jù)方式結(jié)合，共同展示于圖表發(fā)現(xiàn)平臺(tái)中，例如CNKI圖片檢索提供學(xué)術(shù)圖像分類的元數(shù)據(jù)標(biāo)注。語(yǔ)義標(biāo)注方面，現(xiàn)有研究多數(shù)以領(lǐng)域敘詞表或者領(lǐng)域本體為語(yǔ)義組織框架對(duì)學(xué)術(shù)圖表進(jìn)行語(yǔ)義標(biāo)注。

從實(shí)現(xiàn)方式看，圖表實(shí)例標(biāo)注可分為人工標(biāo)注和自動(dòng)標(biāo)注兩大類型。學(xué)術(shù)圖像的實(shí)例標(biāo)注多采用人工標(biāo)注方式。例如CSA llustrata[21]、Human Brain Project（HBP）[37]、EMAP（The Edinburgh Mouse Atlas Project）[38]。自動(dòng)實(shí)例標(biāo)注在學(xué)術(shù)表格中實(shí)踐較多。例如SemAnn利用PDF文檔解析工具PDF.js和自定義抽取算法將PDF文檔中人工選中的表格轉(zhuǎn)換為CSV格式，然后利用CSV-To-RDF轉(zhuǎn)換工具結(jié)合嵌入本體（如DBpedia、FOAF或自定義）實(shí)現(xiàn)對(duì)抽取出來(lái)的表格數(shù)據(jù)進(jìn)行自動(dòng)的語(yǔ)義標(biāo)注[89]。Cao H等通過(guò)構(gòu)建觀測(cè)事件模型，借助本體工具，利用規(guī)范化的觀測(cè)術(shù)語(yǔ)、實(shí)體對(duì)象，將觀測(cè)數(shù)據(jù)表格轉(zhuǎn)化為可理解的事件，進(jìn)行自動(dòng)語(yǔ)義標(biāo)注[90]。Berkley C等對(duì)生態(tài)學(xué)領(lǐng)域用EML描述的一維表數(shù)據(jù)進(jìn)行語(yǔ)義描述，采用的方法是首先采用OBOE本體描述數(shù)據(jù)的結(jié)構(gòu)（即區(qū)分觀測(cè)、度量、上下文和實(shí)體并識(shí)別它們之間的關(guān)系），然后識(shí)別每個(gè)度量的特性、標(biāo)準(zhǔn)、度量值和條件，最后進(jìn)行領(lǐng)域本體擴(kuò)展[91]。

5學(xué)術(shù)圖表標(biāo)注的未來(lái)研究展望

學(xué)術(shù)圖表是一個(gè)復(fù)雜的數(shù)字對(duì)象，其兼具視覺(jué)及文本兩方面特征，同時(shí)與科技文獻(xiàn)、科學(xué)數(shù)據(jù)存在緊密關(guān)聯(lián)。未來(lái)圖表發(fā)現(xiàn)需要融入支持全類型資源發(fā)現(xiàn)、支持語(yǔ)義關(guān)聯(lián)、支持細(xì)粒度精準(zhǔn)知識(shí)發(fā)現(xiàn)的學(xué)術(shù)知識(shí)服務(wù)體系，圖表標(biāo)注作為圖表發(fā)現(xiàn)的基礎(chǔ)，需要采用支持上述需求的圖表標(biāo)注組織框架，并需要在面向海量圖表資源的自動(dòng)圖表標(biāo)注實(shí)現(xiàn)方面有所突破。

5.1構(gòu)建支持全類型資源發(fā)現(xiàn)、語(yǔ)義關(guān)聯(lián)、細(xì)粒度精準(zhǔn)知識(shí)發(fā)現(xiàn)學(xué)術(shù)圖表本體

圖表標(biāo)注組織框架方面，現(xiàn)有3種圖表組織模式各有所長(zhǎng)，適用于不同階段、不同需求的圖表發(fā)現(xiàn)任務(wù)中。元數(shù)據(jù)組織表達(dá)多樣化、靈活、門檻低，但不同領(lǐng)域元數(shù)據(jù)模型造成的“信息孤島”阻礙了知識(shí)融合和交互。圖像分類組織方式解決學(xué)術(shù)圖表視覺(jué)特征語(yǔ)義表示的問(wèn)題，但無(wú)法凸顯學(xué)術(shù)圖表的綜合知識(shí)內(nèi)容。本體組織以一種明確、形式化的方式表示信息資源，統(tǒng)一語(yǔ)義信息，但目前圖表的本體組織依托于其他學(xué)術(shù)知識(shí)本體或領(lǐng)域敘詞表知識(shí)組織，描述粒度粗，或僅表示領(lǐng)域知識(shí)，或未建立圖表與其他類型學(xué)術(shù)資源語(yǔ)義關(guān)聯(lián)，難以滿足支持全類型資源發(fā)現(xiàn)、語(yǔ)義關(guān)聯(lián)、細(xì)粒度知識(shí)組織、精準(zhǔn)知識(shí)發(fā)現(xiàn)需要。

從組織方式看，本體有支持跨學(xué)科形式化表達(dá)、支持細(xì)粒度語(yǔ)義關(guān)系擴(kuò)展及支持語(yǔ)義推理等優(yōu)勢(shì)。本體結(jié)合知識(shí)圖譜等技術(shù)應(yīng)用，可形成結(jié)構(gòu)化、語(yǔ)義化、富關(guān)聯(lián)、可發(fā)現(xiàn)、可應(yīng)用的知識(shí)庫(kù)。故而本文以為基于本體對(duì)學(xué)術(shù)圖表實(shí)施語(yǔ)義組織更適應(yīng)未來(lái)發(fā)展趨勢(shì)。

一方面，可結(jié)合自上而下及自下而上的方式探索構(gòu)建內(nèi)容完整、關(guān)系清晰、知識(shí)可擴(kuò)展、動(dòng)態(tài)進(jìn)化、機(jī)器可理解的學(xué)術(shù)圖表本體。通過(guò)解構(gòu)學(xué)術(shù)圖表的形式結(jié)構(gòu)（圖表本身、圖表內(nèi)容、圖表關(guān)聯(lián)信息），按照?qǐng)D表語(yǔ)義邏輯重新構(gòu)造為圖表類型、圖表論證對(duì)象、圖表論證維度、圖表論證實(shí)驗(yàn)內(nèi)容（如實(shí)驗(yàn)背景、實(shí)驗(yàn)?zāi)康?、?shí)驗(yàn)方法、實(shí)驗(yàn)結(jié)果、實(shí)驗(yàn)結(jié)論）、圖表論證關(guān)鍵特征（如對(duì)比、觀察、流程、分布等）、圖表外延內(nèi)容（如同文圖表、同證圖表、同項(xiàng)目圖表、同作者圖表、同被引圖表、同數(shù)據(jù)來(lái)源圖表、同主題圖表、引用文獻(xiàn)、引用數(shù)據(jù)等）等內(nèi)容，根據(jù)圖表語(yǔ)用邏輯，描繪學(xué)術(shù)圖表本體應(yīng)用于圖表發(fā)現(xiàn)場(chǎng)景，定義核心概念、關(guān)系、屬性，形成學(xué)術(shù)圖表本體，豐富本體實(shí)例，在領(lǐng)域?qū)W術(shù)圖表語(yǔ)義標(biāo)注實(shí)踐中應(yīng)用本體，構(gòu)建可用于圖表發(fā)現(xiàn)的學(xué)術(shù)圖表領(lǐng)域知識(shí)庫(kù)，并基于本體的標(biāo)注任務(wù)中對(duì)本體不斷進(jìn)化;另一方面，可以采取自下而上的知識(shí)圖譜構(gòu)架模式，抽取圖表的實(shí)體、關(guān)系、屬性，對(duì)異構(gòu)數(shù)據(jù)進(jìn)行實(shí)體消歧、實(shí)體共指消解、實(shí)體鏈接、關(guān)系融合等步驟，最后通過(guò)知識(shí)推理、邏輯公理總結(jié)形成學(xué)術(shù)圖表本體。

5.2深入研究面向海量圖表資源的自動(dòng)圖表語(yǔ)義標(biāo)注實(shí)現(xiàn)

海量學(xué)術(shù)圖表資源標(biāo)注需要自動(dòng)技術(shù)的支持。這包含圖表信息自動(dòng)抽取和基于本體的自動(dòng)標(biāo)注。

圖表信息抽取是圖表標(biāo)注的內(nèi)容基礎(chǔ)，需要從工程化、自動(dòng)化實(shí)現(xiàn)方面深化研究。PDF格式文檔中的圖表信息抽取要解決圖表的識(shí)別與提取的問(wèn)題。將文檔轉(zhuǎn)換為圖片，基于圖像識(shí)別的位圖分割技術(shù)、區(qū)域分類或連接組件等技術(shù)方法可解決部分類型學(xué)術(shù)圖像和表格識(shí)別及提取問(wèn)題，可以在新的神經(jīng)網(wǎng)絡(luò)算法支持下研究不同類型圖像識(shí)別的特征。

圖表自身信息抽取的4個(gè)子任務(wù)中，圖像中文本抽取、表格內(nèi)文本信息抽取兩個(gè)任務(wù)的技術(shù)相對(duì)更加成熟，自動(dòng)抽取準(zhǔn)確度較高。而另外兩個(gè)任務(wù)則還有較大的發(fā)展空間。

在圖像視覺(jué)信息抽取及標(biāo)注任務(wù)方面，目前未有工具實(shí)現(xiàn)所有類型圖表的分類標(biāo)注，并且部分類型圖像的分類準(zhǔn)確度不足以用于大規(guī)模應(yīng)用。因而在圖表類型覆蓋以及分類精準(zhǔn)度等方面還需深入研究。鑒于圖表類型在不同領(lǐng)域分類和分布不一，可結(jié)合圖表展示的視覺(jué)特征和圖表論證的內(nèi)容特征，形成特定領(lǐng)域的圖表分類，再?gòu)念I(lǐng)域分類中歸納出部分通用圖表分類，并基于機(jī)器學(xué)習(xí)算法提取相關(guān)特征。此外，圖像分類中要關(guān)注復(fù)合圖識(shí)別和子圖分類問(wèn)題。可從基于復(fù)合圖文本特征、復(fù)合圖視覺(jué)特征、混合特征等角度來(lái)研究復(fù)合圖識(shí)別。復(fù)合圖的子圖識(shí)別是多標(biāo)簽的分類任務(wù)，可從復(fù)合圖分割并分類或多標(biāo)簽學(xué)習(xí)方法的角度識(shí)別子圖類型。分類精準(zhǔn)度方面，新的卷積神經(jīng)網(wǎng)絡(luò)算法相比傳統(tǒng)基于圖像低層特征的算法而言，可以獲得更高的分類精準(zhǔn)度，其可擴(kuò)展性和穩(wěn)定性都優(yōu)于傳統(tǒng)的分類算法。可以將圖像底層特征和圖表文本特征（如圖像的標(biāo)題及圖注文本等）結(jié)合，基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法提升圖表類型分類精準(zhǔn)度。

學(xué)術(shù)圖像中數(shù)值信息抽取是一個(gè)具有挑戰(zhàn)性的任務(wù)，已有研究多數(shù)針對(duì)折線圖、條形圖、散點(diǎn)圖、餅圖等圖像，其他圖像類型（如直方圖、氣泡圖、箱形圖、雷達(dá)圖、面積圖）的數(shù)據(jù)抽取精準(zhǔn)度較低，需要基于這些圖形特征研究其數(shù)值信息的自動(dòng)提取。此外，上述圖像數(shù)值抽取工具以半自動(dòng)方式為主，需要人工輸入或者確定圖像的坐標(biāo)軸信息（如起點(diǎn)、終點(diǎn)、截距等），應(yīng)進(jìn)一步結(jié)合圖像視覺(jué)識(shí)別技術(shù)，研究圖像內(nèi)數(shù)值信息的全自動(dòng)抽取。

圖表內(nèi)容信息抽取技術(shù)相對(duì)成熟，在以下3個(gè)方面需要繼續(xù)研究。圖表標(biāo)題和圖表本身匹配是重要的研究問(wèn)題。自動(dòng)抽取PDF格式論文內(nèi)圖表標(biāo)題時(shí)需要基于不同的圖表—標(biāo)題布局（如1-to-1、N-to-N、N-to-M）確定對(duì)應(yīng)關(guān)系。注釋內(nèi)容抽取，需要關(guān)注學(xué)術(shù)復(fù)合圖中子圖標(biāo)題和子圖注釋抽取問(wèn)題，可總結(jié)和構(gòu)建相關(guān)規(guī)則幫助抽取。重點(diǎn)關(guān)注圖表上下文提及內(nèi)容自動(dòng)抽取的準(zhǔn)確率及召回率，深入研究圖表所在篇章位置和抽取模式的關(guān)系。

當(dāng)下，論文中的補(bǔ)充數(shù)據(jù)信息抽取和論文文本中的圖表引用信息抽取暫且空白，可借鑒現(xiàn)有論文元數(shù)據(jù)抽取及論文引文抽取的思路，通過(guò)構(gòu)建抽取規(guī)則、定義抽取模式或基于文本特征的機(jī)器學(xué)習(xí)方法來(lái)實(shí)現(xiàn)論文內(nèi)數(shù)據(jù)信息自動(dòng)抽取和圖表引用信息自動(dòng)抽取。

基于本體的自動(dòng)標(biāo)注是建立抽取內(nèi)容和學(xué)術(shù)圖表本體間關(guān)聯(lián)的過(guò)程。自動(dòng)語(yǔ)義標(biāo)注過(guò)程需要綜合圖表不同特征及本體中的概念、屬性、關(guān)系定義實(shí)施不同的語(yǔ)義實(shí)例標(biāo)注方式。例如圖表標(biāo)題、主題、圖表實(shí)驗(yàn)信息等內(nèi)容的自動(dòng)語(yǔ)義標(biāo)注可基于文本特征或利用規(guī)則或借助機(jī)器學(xué)習(xí)分類算法來(lái)獲得，而圖表類型的語(yǔ)義標(biāo)注要融合視覺(jué)特征及文本特征來(lái)實(shí)現(xiàn)。

6結(jié)語(yǔ)

基于本體的學(xué)術(shù)圖表自動(dòng)語(yǔ)義標(biāo)注是支撐未來(lái)大規(guī)模學(xué)術(shù)圖表精準(zhǔn)語(yǔ)義發(fā)現(xiàn)的圖表標(biāo)注形態(tài)。它通過(guò)學(xué)術(shù)圖表本體對(duì)科技文獻(xiàn)中圖表信息內(nèi)容實(shí)施多角度、深度語(yǔ)義組織，揭示學(xué)術(shù)圖表—論文—人—機(jī)構(gòu)—項(xiàng)目—基金—補(bǔ)充材料等科學(xué)實(shí)體間語(yǔ)義關(guān)聯(lián)，借助自動(dòng)信息抽取、自動(dòng)語(yǔ)義標(biāo)注等技術(shù)支持，最終形成支撐圖表內(nèi)容精準(zhǔn)發(fā)現(xiàn)，異構(gòu)科學(xué)實(shí)體的統(tǒng)一發(fā)現(xiàn)的語(yǔ)義標(biāo)注內(nèi)容。現(xiàn)有研究和技術(shù)為基于本體的學(xué)術(shù)圖表自動(dòng)語(yǔ)義標(biāo)注創(chuàng)造部分條件，未來(lái)還需要在學(xué)術(shù)圖表本體構(gòu)建、學(xué)術(shù)圖表異構(gòu)信息抽取等方面深入開(kāi)展研究。

參考文獻(xiàn)

[1]Siegel N，Lourie N，Power R，et al.Extracting Scientific Figures with Distantly Supervised Neural Networks[C]//ACM IEEE Joint Conference on Digital Libraries，2018：223-232.

[2]Lee P S，West J D，Howe B，et al.Viziometrics：Analyzing Visual Information in the Scientific Literature[J].IEEE Transactions on Big Data，2018，4（1）：117-129.

[3]米楊.基于頂級(jí)本體整合的醫(yī)學(xué)領(lǐng)域語(yǔ)義標(biāo)注研究[D].長(zhǎng)春：吉林大學(xué)，2012.

[4]于曉繁.基于本體和元數(shù)據(jù)的語(yǔ)義標(biāo)注平臺(tái)模型與系統(tǒng)架構(gòu)研究[D].淄博：山東理工大學(xué)，2012.

[5]Bishop A P.Document Structure and Digital Libraries：How Researchers Mobilize Information in Journal Articles[J].Information Processing and Management，1999，35（3）：255-279.

[6]Futrelle R P.Handling Figures in Document Summarization[C]//Proceedings of the ACL-04 Workshop：Text Summarization Branches Out，2004：61-65.

[7]Stelmaszewska H，Blandford A.From Physical to Digital：A Case Study of Computer Scientists Behaviour in Physical Libraries[J].International Journal on Digital Libraries，2004，4（2）：82-92.

[8]Sandusky R J，Tenopir C，Casado M M.Figure and Table Retrieval from Scholarly Journal Articles：User Needs for Teaching and Research[J].Proceedings of the American Society for Information Science and Technology，2007，44（1）：1-13.

[9]Pyreddy P，Croft W B.TINTIN：A System for Retrieval in Text Tables[C]//ACM International Conference on Digital Libraries，1997：193-200.

[10]Futrelle R P.Summarization of Diagrams in Documents[J].Advances in Automated Text Summarization，1999：403-421.

[11]Murphy R F，Velliste M，Yao J，et al.Searching Online Journals for Fluorescence Microscope Images Depicting Protein Subcellular Location Patterns[C]//Bioinformatics and Bioengineering，2001：119-128.

[12]Wang Y，Hu J.A Machine Learning Based Approach for Table Detection on the Web[C]//The Web Conference，2002：242-250.

[13]Liu Y，Bai K，Mitra P，et al.TableSeer：Automatic Table Metadata Extraction and Searching in Digital Libraries[C]//ACM/IEEE Joint Conference on Digital Libraries，2007：91-100.

[14]Carol T，Robert J S，Margaret C.The Value of CSA Deep Indexing for Researchers（Executive Summary）[EB/OL].https：//trace.tennessee.edu/cgi/viewcontent.cgi？article=1001&context=utk_infosciepubs，2020-08-31.

[15]Hearst M A，Divoli A，Guturu H，et al.BioText Search Engine：Beyond Abstract Search[J].Bioinformatics，2007;23（16）：2196-2197.

[16]Ahmed A，Arnold A，Coelho L P，et al.Invited Paper：Structured Literature Image Finder：Parsing Text and Figures in Biomedical Literature[J].Journal of Web Semantics，2010，8（2）：151-154.

[17]Charbonnier J，Sohmen L，Rothman J，et al.NOA：A Search Engine for Reusable Scientific Images Beyond the Life Sciences[C]//European Conference on Information Retrieval，2018：797-800.

[18]PMC[EB/OL].https：//www.ncbi.nlm.nih.gov/pmc/，2020-08-31.

[19]CNKI學(xué)術(shù)知識(shí)圖片庫(kù)[EB/OL].http：//image.cnki.net/Default.aspx，2020-08-31.

[20]Kim D，Ramesh B P，Yu H，et al.Automatic Figure Classification in Bioscience Literature[J].Journal of Biomedical Informatics，2011，44（5）：848-858.

[21]Simpson M S，Demner-fushman D，Antani S K，et al.Multimodal Biomedical Image Indexing and Retrieval Using Descriptive Text and Global Feature Mapping[J].Information Retrieval，2014，17（3）：229-264.

[22]Open-i[EB/OL].https：//openi.nlm.nih.gov/，2020-08-31.

[23]Ramesh B P，Sethi R J，Yu H，et al.Figure-associated Text Summarization and Evaluation[J].Plos One，2015，10（2）.

[24]Siegel N，Horvitz Z，Levin R，et al.FigureSeer：Parsing Result-Figures in Research Papers[C]//European Conference on Computer Vision，2016：664-680.

[25]王一達(dá)，沈熙玲，謝炯.遙感圖像分類方法綜述[J].遙感信息，2006，（5）：67-71.

[26]李莉，木拉提·哈米提.醫(yī)學(xué)影像數(shù)據(jù)分類方法研究綜述[J].中國(guó)醫(yī)學(xué)物理學(xué)雜志，2011，28（6）：3007-3011.

[27]Savva M，Kong N，Chhajta A，et al.ReVision：Automated Classification，Analysis and Redesign of Chart Images[C]//User Interface Software and Technology，2011：393-402.

[28]Prasad V S，Siddiquie B，Golbeck J，et al.Classifying Computer Generated Charts[C]//Content Based Multimedia Indexing，2007：85-92.

[29]Huang W，Zong S，Tan C L，et al.Chart Image Classification Using Multiple-Instance Learning[C]//Workshop on Applications of Computer Vision，2007：27-27.

[30]Tang B，Liu X，Lei J，et al.DeepChart：Combining Deep Convolutional Networks and Deep Belief Networks in Chart Classification[J].Signal Processing，2016：156-161.

[31]Kim D，Ramesh B P，Yu H，et al.Automatic Figure Classification in Bioscience Literature[J].Journal of Biomedical Informatics，2011，44（5）：848-858.

[32]Constantin A，Peroni S，Pettifer S，et al.The Document Components Ontology（DoCO）[J].Semantic Web，2016，7（2）：167-181.

[33]The Discourse Elements Ontology（DEO）[EB/OL].https：//sparontologies.github.io/deo/current/deo.html，2020-05-02.

[34]王曉光，李夢(mèng)琳，宋寧遠(yuǎn).科學(xué)論文功能單元本體設(shè)計(jì)與標(biāo)引應(yīng)用實(shí)驗(yàn)[J].中國(guó)圖書(shū)館學(xué)報(bào)，2018，（4）：73-88.

[35]Madin J，Bowers S，Schildhauer M，et al.An Ontology for Describing and Synthesizing Ecological Observation Data[J].Ecological Informatics，2007，（2）：279-296.

[36]Bischof S，Martin C，Polleres A，et al.Collecting，Integrating，Enriching and Republishing Open City Data as Linked Data[C]//International Conference on the Semantic Web-ISWC 2015.Berlin：Springer，2015：58-75.

[37]Gertz M，Sattler K U，Gorin F，et al.Annotating Scientific Images：A Concept-based Approach[C]//Scientific and Statistical Database Management，IEEE，2002：59-68.

[38]EMAGE.Data Annotation Methods[EB/OL].http：//www.emouseatlas.org/emage/about/data_annotation_methods.html#auto_eurexpress，2015-11-02.

[39]丁培.科學(xué)論文內(nèi)的科學(xué)數(shù)據(jù)組織和發(fā)現(xiàn)研究[J].現(xiàn)代情報(bào)，2020，40（2）：34-43.

[40]Rospocher M，Erp M V，Vossen P，et al.Building Event-Centric Knowledge Graphs from News[J].Web Semantic：Science，Service and Agent on the World Wide Web，2016：132-151.

[41]阮彤，王夢(mèng)婕，王昊奮，等.垂直知識(shí)圖譜的構(gòu)建與應(yīng)用研究[J].知識(shí)管理論壇，2016，（3）：226-234.

[42]Kroetsch M，Weikum G.Journal of Web Semantics：Special Issue on Knowledge Graphs[EB/OL].http：//www.websemanticsjournal.org/2019/05/cfp-jws-special-issue-on-language.html，2020-11-16.

[43]Paulheim H，Cimiano P.Knowledge Graph Refinement：A Survey of Approaches and Evaluation Methods[J].Semantic Web，2017，8（3）：489-508.

[44]Su Y，Zhang C，Li J，et al.Cross-Lingual Entity Query from Large-Scale Knowledge Graphs[C]//APWeb 2015 Workshops，2015：139-150.

[45]白林林.基于知識(shí)圖譜的領(lǐng)域知識(shí)結(jié)構(gòu)構(gòu)建方法研究[D].北京：中國(guó)科學(xué)院大學(xué)，2019.

[46]Microsoft Academic Knowledge Graph[EB/OL].http：//ma-graph.org/，2020-11-10.

[47]SN SciGraph[EB/OL].https：//www.springernature.com/gp/researchers/scigraph，2020-11-10.

[48]SCHOLAT學(xué)者網(wǎng)[EB/OL].http：//www.scholat.com/，2020-11-10.

[49]東北大學(xué)-知識(shí)圖譜研究組[EB/OL].http：//www.techkg.cn/，2020-11-10.

[50]Shamna P，Govindan V K，Nazeer K A，et al.Content Based Medical Image Retrieval Using Topic and Location Model[J].Journal of Biomedical Informatics，2019.

[51]Kurtz C，Depeursinge A，Napel S，et al.On Combining Image-based and Ontological Semantic Dissimilarities for Medical Image Retrieval Applications[J].Medical Image Analysis，2014，18（7）：1082-1100.

[52]Frome A，Corrado G S，Shlens J，et al.DeViSE：A Deep Visual-Semantic Embedding Model[C]//Neural Information Processing Systems，2013：2121-2129.

[53]Weston J，Bengio S，Usunier N，et al.Large Scale Image Annotation：Learning to Rank with Joint Word-image Embeddings[C]//European Conference on Machine Learning，2010，81（1）：21-35.

[54]Pereira J C，Vasconcelos N.Cross-modal Domain Adaptation for Text-based Regularization of Image Semantics in Image Retrieval Systems[J].Computer Vision and Image Understanding，2014：123-135.

[55]蔣夢(mèng)迪，程江華，陳明輝，等.視頻和圖像文本提取方法綜述[J].計(jì)算機(jī)科學(xué)，2017，（2）：8-18.

[56]Bschen F，Scherp A.A Comparison of Approaches for Automated Text Extraction from Scholarly Figures[C]//Conference on Multimedia Modeling，2017：15-27.

[57]Ye Q，Doermann D.Text Detection and Recognition in Imagery：A Survey[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2015，37（7）：1480-1500.

[58]De S，Stanley R J，Cheng B，et al.Automated Text Detection and Recognition in Annotated Biomedical Publication Images[J].International Journal of Healthcare Information Systems and Informatics，2014，9（2）：34-63.

[59]Jung D，Kim W，Song H，et al.ChartSense：Interactive Data Extraction from Chart Images[C]//Human Factors in Computing Systems，2017：6706-6717.

[60]Ankit Rohatgi.WebPlotDigitizer[EB/OL].https：//automeris.io/WebPlotDigitizer，2020-09-02.

[61]Méndez G G，Nacenta M A，Vandenheste S，et al.iVoLVER：Interactive Visual Language for Visualization Extraction and Reconstruction[C]//Human Factors in Computing Systems，2016：4073-4085.

[62]DataThief III[EB/OL].https：//www.datathief.org/，2020-09-02.

[63]Gross A，Schirm S，Scholz M，et al.Ycasd-A Tool for Capturing and Scaling Data from Graphical Representations[J].BMC Bioinformatics，2014，15（1）：219-219.

[64]Nagy G.Learning the Characteristics of Critical Cells from Web Tables[C]//International Conference on Pattern Recognition，2012：1554-1557.

[65]Seth S C，Nagy G.Segmenting Tables via Indexing of Value Cells by Table Headers[C]//International Conference on Document Analysis and Recognition，2013：887-891.

[66]Nagy G，Tamhankar M.VeriClick：An Efficient Tool for Table Format Verification[C]//Document Recognition and Retrieval，2012.

[67]Guglielmo E J，Rowe N C.Natural-language Retrieval of Images Based on Descriptive Captions[J].ACM Transactions on Information Systems，1996，14（3）：237-267.

[68]Rowe N C.Precise and Efficient Retrieval of Captioned Images：The MARIE Project[J].Library Trends，1999，48（2）：475-495.

[69]Demner-fushman D，Antani S，Simpson M S，et al.Annotation and Retrieval of Clinically Relevant Images[J].International Journal of Medical Informatics，2009，78（12）：59-67.

[70]Agarwal S，Yu H.FigSum：Automatically Generating Structured Text Summaries for Figures in Biomedical Literature[C]//American Medical Informatics Association Annual Symposium，2009：6-10.

[71]Balaji P R，Sethi R J，Hong Y，et al.Figure-associated Text Summarization and Evaluation[J].Plos One，2015，10（2）.

[72]薛歡歡.基于條件隨機(jī)場(chǎng)的中文期刊論文信息識(shí)別與抽取[D].北京：中國(guó)農(nóng)業(yè)科學(xué)院，2019.

[73]李朝光，張銘，鄧志鴻，等.論文元數(shù)據(jù)信息的自動(dòng)抽取[J].計(jì)算機(jī)工程與應(yīng)用，2002，38（21）：189-191.

[74]Constantin A，Pettifer S，Voronkov A，et al.PDFX：Fully-automated PDF-to-XML Conversion of Scientific Literature[C]//Document Engineering，2013：177-180.

[75]陳俊林，張文德.基于XSLT的PDF論文元數(shù)據(jù)的優(yōu)化抽取[J].現(xiàn)代圖書(shū)情報(bào)技術(shù)，2007，（2）：18-23.

[76]Day M Y，Tsai R T H，Sung C L，et al.Reference Metadata Extraction Using a Hierarchical Knowledge Representation Framework[J].Decision Support Systems，2007，43（1）：152-167.

[77]黃澤武.基于語(yǔ)義的科技文獻(xiàn)共享平臺(tái)的信息抽取系統(tǒng)[D].武漢：華中科技大學(xué)，2007.

[78]Kovacevic A，Ivanovic D，Milosavljevic B，et al.Automatic Extraction of Metadata from Scientific Publications for CRIS Systems[J].Program：Electronic Library and Information Systems，2011，45（4）：376-396.

[79]Lopez P.GROBID：Combining Automatic Bibliographic Data Recognition and Term Extraction for Scholarship Publications[C]//European Conference on Research and Advanced Technology for Digital Libraries，2009：473-474.

[80]Cui B，Chen X.An Improved Hidden Markov Model for Literature Metadata Extraction[C]//International Conference on Intelligent Computing，2010：205-212.

[81]Liu R，Gao L，An D，et al.Automatic Document Metadata Extraction Based on Deep Networks[C]//Natural Language Processing and Chinese Computing，2018：305-317.

[82]Kafkas S，Kim J H，Pi X，et al.Database Citation in Supplementary Data Linked to Europe PubMed Central Full Text Biomedical Articles[J].Journal of Biomedical Semantics，2015，6（1）.

[83]Li J，Zheng S，Kang H，et al.Identifying Scientific Project-generated Data Citation from Full-text Articles An Investigation of TCGA Data Citation[J].Journal of Data and Information Science，2016，（2）：32-44.

[84]Zhao M N，Yan E，Li K.Data Set Mentions and Citations：A Content Analysis of Full-text Publication[J].Journal of the Association for Information Science & Technology，2017，69（1）：32-46.

[85]Cortez E，Silva A S D，Mesquita F，et al.FLUX-CiM：Flexible Unsupervised Extraction of Citation Metadata[C]//Proceedings of the 7th ACM/IEEE-CS Joint Conference on Digital Libraries，ACM，2007：215-224.

[86]Peng F C，McCallum A.Accurate Information Extraction from Research Papers Using Conditional Random Fields[C]//Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics，Association for Computational Linguistics，2004：329-336.

[87]高良才，湯幟，陶欣，等.一種自動(dòng)發(fā)現(xiàn)、分割與標(biāo)注引文元數(shù)據(jù)的方法[J].北京大學(xué)學(xué)報(bào)：自然科學(xué)版，2010，46（6）：893-900.

[88]He Q，Kifer D，Pei J，et al.Citation Recommendation Without Author Supervision[C]//Proceedings of the Fourth ACM International Conference on Web Search and Data Mining，ACM，2011：755-764.

[89]Takis J，Islam A Q M，Lange C，et al.Crowdsourced Semantic Annotation of Scientific Publications and Tabular Data in PDF[C]//Proceedings of the 11th International Conference on Semantic Systems.ACM，2015：1-8.

[90]Cao H，Bowers S，Schildhauer M P.Approaches for Semantically Annotating and Discovering Scientific Observational Data[C]//Database and Expert Systems Applications.Springer Berlin Heidelberg，2011：526-541.

[91]Berkley C，Bowers S，Jones M B，et al.Improving Data Discovery for Metadata Repositories Through Semantic Search[C]//International Conference on Complex，Intelligent and Software Intensive Systems.Fukuoka：IEEE，2009：1152-1159.

（責(zé)任編輯：孫國(guó)雷）

現(xiàn)代情報(bào)2021年4期

現(xiàn)代情報(bào)的其它文章: 文獻(xiàn)計(jì)量學(xué)的積淀和發(fā)展; 美國(guó)NSF項(xiàng)目機(jī)構(gòu)間科研合作關(guān)系與發(fā)展態(tài)勢(shì)研究; 中文學(xué)術(shù)論文的Altmetrics指標(biāo)研究; 基于神經(jīng)網(wǎng)絡(luò)的非線性學(xué)術(shù)評(píng)價(jià)指標(biāo)模擬權(quán)重研究; 中美省州級(jí)政務(wù)服務(wù)站內(nèi)搜索引擎功能對(duì)比研究; 開(kāi)放數(shù)據(jù)生態(tài)系統(tǒng)中利益相關(guān)者之間的互動(dòng)關(guān)系

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

科技文獻(xiàn)中學(xué)術(shù)圖表標(biāo)注研究進(jìn)展