亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        非結(jié)構(gòu)化參考文獻(xiàn)提取與管理方案研究

        2016-05-14 21:31:20司遠(yuǎn)肖毅
        軟件導(dǎo)刊 2016年5期
        關(guān)鍵詞:結(jié)構(gòu)化參考文獻(xiàn)數(shù)字化

        司遠(yuǎn) 肖毅

        摘要:隨著信息技術(shù)的發(fā)展,出版行業(yè)逐漸將采集、編輯等流程轉(zhuǎn)移到計(jì)算機(jī)上進(jìn)行,實(shí)現(xiàn)從傳統(tǒng)出版到數(shù)字出版的轉(zhuǎn)型。圖書出版物中參考文獻(xiàn)具有重要意義。現(xiàn)有參考文獻(xiàn)管理工具在運(yùn)行時(shí),大多要求在圖書編撰的起始階段介入,并需要用戶自行從外部獲取結(jié)構(gòu)化的參考文獻(xiàn)信息。在數(shù)字出版系統(tǒng)中,圖書內(nèi)容由投約稿作者提供,具有大量非結(jié)構(gòu)化文本,難以進(jìn)行管理。針對(duì)這一問(wèn)題,研究了GB/T 7714-2005文后參考文獻(xiàn)著錄規(guī)則,運(yùn)用正則表達(dá)式匹配等技術(shù)手段,提供了一種非結(jié)構(gòu)化文本中參考文獻(xiàn)的提取和管理方案。

        關(guān)鍵詞:數(shù)字出版;非結(jié)構(gòu)化;GB/T 7714-2005;正則表達(dá)式;參考文獻(xiàn)

        DOIDOI:10.11907/rjdk.161079

        中圖分類號(hào):TP319

        文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2016)005-0137-03

        1 數(shù)字出版概述

        隨著激光照排技術(shù)的普及和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,出版行業(yè)產(chǎn)生了深刻變革,數(shù)字出版受到行業(yè)和學(xué)術(shù)界的廣泛關(guān)注。

        20世紀(jì)70年代以來(lái),王選院士主持的方正激光照排系統(tǒng)迅速產(chǎn)業(yè)化并被市場(chǎng)廣泛接受,出版行業(yè)中錄入、排版、校對(duì)、印刷等主要流程開始向數(shù)字化轉(zhuǎn)變。隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),出版行業(yè)在數(shù)字技術(shù)的應(yīng)用上不斷嘗試,出現(xiàn)了電子出版、互聯(lián)網(wǎng)出版、泛媒體出版、跨媒體出版、全媒體出版、復(fù)合出版等多種出版形式。然而,上述概念局限于數(shù)字技術(shù)在特定出版流程或介質(zhì)上的應(yīng)用,不能在全局層面上描述層出不窮的數(shù)字媒體。自2005年起,我國(guó)出版界提出了數(shù)字出版概念,涵蓋了近年來(lái)新出現(xiàn)的數(shù)字媒體,受到業(yè)內(nèi)的廣泛認(rèn)同。這一概念的提出,體現(xiàn)出業(yè)界對(duì)應(yīng)用數(shù)字技術(shù)后出現(xiàn)的一系列新型出版形態(tài)的認(rèn)識(shí)越來(lái)越深入,在技術(shù)層面概括了新出版形態(tài)的本質(zhì)特征。與傳統(tǒng)出版相比,數(shù)字出版技術(shù)的優(yōu)勢(shì)體現(xiàn)在:傳播速度快、范圍廣、形式多樣;出版內(nèi)容時(shí)效性強(qiáng);信息交流更加具有互動(dòng)性;提供個(gè)性化服務(wù);支持海量存儲(chǔ);內(nèi)容便于檢索和二次加工;制作和發(fā)行成本較低。

        近年來(lái),我國(guó)的數(shù)字出版產(chǎn)業(yè)所占比重越來(lái)越高,數(shù)字出版高速增長(zhǎng)。在數(shù)字出版快速發(fā)展的同時(shí),我們還要清醒認(rèn)識(shí)到其中存在的問(wèn)題:大多數(shù)數(shù)字出版產(chǎn)業(yè)的數(shù)字化仍處于較低水平,單純將紙質(zhì)內(nèi)容通過(guò)技術(shù)手段轉(zhuǎn)化為數(shù)字內(nèi)容,產(chǎn)品內(nèi)容結(jié)構(gòu)仍然沿用傳統(tǒng)出版模式,沒(méi)有對(duì)數(shù)字內(nèi)容資源進(jìn)行結(jié)構(gòu)化、知識(shí)化處理,無(wú)法使產(chǎn)品增值,受限于出版類型和投資規(guī)模的約束,還沒(méi)有出現(xiàn)類似Elsevier和Springer的大型國(guó)際化數(shù)字出版企業(yè)。據(jù)統(tǒng)計(jì),全國(guó)584家出版社中,256家推出了數(shù)字出版的相關(guān)產(chǎn)品,但只有102家建立了專業(yè)的數(shù)字出版機(jī)構(gòu)[1]。

        2 內(nèi)容結(jié)構(gòu)化與數(shù)字出版

        結(jié)構(gòu)化是出版行業(yè)數(shù)字化的核心,數(shù)字化標(biāo)準(zhǔn)通過(guò)語(yǔ)義標(biāo)簽,以標(biāo)題、目錄、正文等文章結(jié)構(gòu)和詞語(yǔ)為基本單元,對(duì)出版內(nèi)容進(jìn)行結(jié)構(gòu)化處理,內(nèi)容結(jié)構(gòu)化的程度直接影響數(shù)字化水平。出版行業(yè)的數(shù)字化,不只是內(nèi)容的數(shù)字化,更重要的是實(shí)現(xiàn)編輯出版體系的數(shù)字化。數(shù)字編輯出版系統(tǒng)打破了傳統(tǒng)出版模式中時(shí)間和空間的限制,投稿、審稿和編輯可以隨時(shí)隨地進(jìn)行,提高了審稿效率,簡(jiǎn)化了編輯環(huán)節(jié),提升了編輯工作的價(jià)值,在工作效率和質(zhì)量上遠(yuǎn)超傳統(tǒng)出版模式[2]。結(jié)構(gòu)化是建立數(shù)字化編輯系統(tǒng)的基礎(chǔ)和前提,在出版行業(yè)的數(shù)字化過(guò)程中具有重要地位,美國(guó)物理學(xué)會(huì)、BMC出版社和PLOS ONE期刊等行業(yè)先行者已開始構(gòu)建出版內(nèi)容存儲(chǔ)的XML結(jié)構(gòu)化規(guī)范。

        我國(guó)出版行業(yè)應(yīng)用的結(jié)構(gòu)化數(shù)字編輯系統(tǒng)包括:北大方正書暢系統(tǒng)、瑪格泰克稿件處理系統(tǒng)和查爾斯沃思XML排版軟件等。北大方正書暢系統(tǒng)將科技期刊的采編系統(tǒng)與排版、發(fā)布系統(tǒng)集成,提供面向科技期刊的數(shù)字化生產(chǎn)流程,編、排、發(fā)一體化的同步出版解決方案。該方案通過(guò)流程化系統(tǒng),貫穿期刊稿件的采編與排版環(huán)節(jié),在滿足傳統(tǒng)紙質(zhì)出版的要求下,可以同步產(chǎn)生包含稿件元數(shù)據(jù)標(biāo)引信息的XML結(jié)構(gòu)化數(shù)據(jù),為網(wǎng)刊發(fā)布提供數(shù)據(jù)支撐,給科技期刊用戶帶來(lái)更大的附加價(jià)值。瑪格泰克稿件處理系統(tǒng)為出版行業(yè)提供了整體的數(shù)字出版解決方案,可自動(dòng)提取出版內(nèi)容中的元數(shù)據(jù)和擴(kuò)展數(shù)據(jù),支持方正書版文件、Word文件和Latex文件等。查爾斯沃斯將出版內(nèi)容統(tǒng)一轉(zhuǎn)化為XML格式文件并進(jìn)行結(jié)構(gòu)化排版,生成XML、HTML、PDF和圖片等形式的排版結(jié)果文件,能適應(yīng)多種傳播媒介。

        上述幾種數(shù)字編輯系統(tǒng)均包含業(yè)務(wù)流程再造[3]環(huán)節(jié):在出版流程中,為滿足互聯(lián)網(wǎng)和移動(dòng)設(shè)備用戶的需要,內(nèi)容生產(chǎn)、加工、發(fā)布等環(huán)節(jié)需要進(jìn)行再造,從生產(chǎn)源頭對(duì)出版內(nèi)容進(jìn)行結(jié)構(gòu)化和元數(shù)據(jù)標(biāo)引,實(shí)現(xiàn)動(dòng)態(tài)出版。只有結(jié)構(gòu)化的內(nèi)容,才能被數(shù)字出版系統(tǒng)導(dǎo)入并提取知識(shí)。受益于良好的設(shè)計(jì),方正書版文件和Latex文件本身已具有較高的結(jié)構(gòu)化程度,然而在數(shù)字出版領(lǐng)域中,Word仍然是作者投稿時(shí)使用的主流文件格式。在2003及之前的版本中,Word文件實(shí)質(zhì)上是一種二進(jìn)制文件,通過(guò)文件首部偏移地址為0x00的文件信息塊對(duì)全文進(jìn)行索引。在2007和更高的版本中,微軟采用了OOXML(Office Open XML)標(biāo)準(zhǔn),這是一種基于XML的文件格式。OOXML標(biāo)準(zhǔn)Word文檔包含一簇互相關(guān)聯(lián)的XML文件,使用XML元素存儲(chǔ)文件內(nèi)容、樣式、應(yīng)用程序數(shù)據(jù)和元數(shù)據(jù)等文檔組成部件。

        如表1所示,OOXML標(biāo)準(zhǔn)Word文檔主要組成部件包括注釋、文檔設(shè)置、腳注尾注、字體、頁(yè)眉頁(yè)腳、正文、編號(hào)和樣式等。文本內(nèi)容全部存儲(chǔ)在正文部件中,其它部件主要用于樣式控制。

        OOXML標(biāo)準(zhǔn)Word文檔正文部分XML文件的典型結(jié)構(gòu)如下:從正文-章節(jié)-段落-句子-文本逐漸細(xì)化,元素代表正文部分全文,被元素劃分為兩個(gè)章節(jié),元素表示段落,第一章節(jié)只包含一個(gè)段落,元素是段落的組成部分,可近似理解為句子,存儲(chǔ)文本內(nèi)容,一個(gè)元素可包含多個(gè)元素。OOXML標(biāo)準(zhǔn)定義的正文部分,注重在語(yǔ)法方面的結(jié)構(gòu)化,在語(yǔ)義層次上可視為非結(jié)構(gòu)化文本。例如,論文中包含中英文標(biāo)題、關(guān)鍵詞、摘要、參考文獻(xiàn)等具有重要價(jià)值的元數(shù)據(jù),Word文檔不能直觀表示。

        為滿足業(yè)務(wù)流程再造環(huán)節(jié)中的結(jié)構(gòu)化需求,本文提出了一種針對(duì)Word非結(jié)構(gòu)化文本的參考文獻(xiàn)提取和管理方案,運(yùn)用正則表達(dá)式技術(shù),自動(dòng)識(shí)別文獻(xiàn)中的參考文獻(xiàn)管理?xiàng)l目并提供管理功能。

        3 非結(jié)構(gòu)化參考文獻(xiàn)提取與管理方案

        3.1 GB/T 7714參考文獻(xiàn)標(biāo)準(zhǔn)

        GB/T 7714《文后參考文獻(xiàn)著錄規(guī)則》是一項(xiàng)國(guó)家標(biāo)準(zhǔn),用于指導(dǎo)著者和編輯編撰文后參考文獻(xiàn)。GB/T 7714采用ISO 690《文獻(xiàn)工作文后參考文獻(xiàn) 內(nèi)容、形式與結(jié)構(gòu)》和ISO 690-2《信息與文獻(xiàn) 參考文獻(xiàn) 第2部分:電子文獻(xiàn)部分》兩項(xiàng)國(guó)際標(biāo)準(zhǔn)[4]。

        常見參考文獻(xiàn)格式包括期刊、圖書、會(huì)議論文和專利等:

        (1) 期刊:[序號(hào)]作者.題名[J].刊名,出版年,卷(期):頁(yè)碼。

        (2)圖書:[序號(hào)]作者.書名[M].其他責(zé)任者(選擇項(xiàng)).版本(第1 版不著錄).出版地:出版者,出版年:頁(yè)碼(選擇項(xiàng))。

        (3)會(huì)議論文:[序號(hào)]作者.題名[C].會(huì)議名稱,會(huì)址,會(huì)議年份。

        (4)專利:[序號(hào)]專利申請(qǐng)者或所有者.專利題名:專利國(guó)別,專利號(hào)[P].公告或公開日期。

        文獻(xiàn)類型和標(biāo)志代碼位于方括號(hào)中,為各類參考文獻(xiàn)共有,用于表明參考文獻(xiàn)類型,如表2所示。在方正智能非結(jié)構(gòu)化參考文獻(xiàn)提取與管理方案中,考慮到標(biāo)志代碼的普遍性和唯一性,將標(biāo)志代碼作為提取文獻(xiàn)條目時(shí)的正則匹配條件。

        3.2 方案核心類視圖

        方正智能非結(jié)構(gòu)化參考文獻(xiàn)提取與管理方案采用Word插件機(jī)制開發(fā),可按需安裝或卸載。方案由5個(gè)核心類組成:①Plugin,包含Word插件所需的通用組件;②ReferenceManagementPaneCtrl,用于顯示參考文獻(xiàn)并提供文獻(xiàn)管理功能,屬于核心交互界面;③ReferenceSetting,允許用戶自行設(shè)置提取解析參考文獻(xiàn)時(shí)的規(guī)則;④ReferenceManagement,參考文獻(xiàn)提取、解析和管理功能的底層實(shí)現(xiàn)類,被ReferenceManagementPaneCtrl調(diào)用;⑤ReferenceExtension,存儲(chǔ)設(shè)置參數(shù)和用于解析參考文獻(xiàn)的正則表達(dá)式。如圖1所示。

        3.3 參考文獻(xiàn)提取與解析流程

        底層實(shí)現(xiàn)類ReferenceManagement工作流程如圖2所示:①以段落為單位遍歷當(dāng)前文檔,使用正則匹配技術(shù)獲取參考文獻(xiàn)文本;②進(jìn)行文本預(yù)處理,去除空格并修正全半角格式,提高文獻(xiàn)解析準(zhǔn)確率;③通過(guò)文獻(xiàn)類型和標(biāo)志代碼進(jìn)行文獻(xiàn)分類;④通用解析流程,用于識(shí)別各種類型參考文獻(xiàn)中的公共部分,如作者、出版時(shí)間、標(biāo)題等;⑤專用解析流程,根據(jù)文獻(xiàn)分類執(zhí)行專用解析操作,例如GB/T 7715標(biāo)準(zhǔn)中,只有連續(xù)出版物具有年-卷-期屬性。

        3.4 獨(dú)有功能

        方正智能非結(jié)構(gòu)化參考文獻(xiàn)提取與管理方案從數(shù)字編輯系統(tǒng)實(shí)際環(huán)境出發(fā),結(jié)合編輯人員需求進(jìn)行設(shè)計(jì)與開發(fā)。相對(duì)于Endnote、NoteExpress、cnki E-learning等同類型參考文獻(xiàn)管理工具,提供以下獨(dú)有功能:

        (1)全文文獻(xiàn)提取和列表顯示。方案允許用戶在當(dāng)前文檔動(dòng)態(tài)添加文獻(xiàn),通過(guò)圖3所示的刷新按鈕實(shí)時(shí)獲取全文中包含的所有參考文獻(xiàn)條目,并將文獻(xiàn)的編號(hào)、作者、標(biāo)題等重要屬性直觀顯示在列表中。

        (2)引用遍歷。選中列表中的參考文獻(xiàn)條目后,通過(guò)上一個(gè)、下一個(gè)按鈕可遍歷查看正文中的參考文獻(xiàn)引用,結(jié)合設(shè)置還可規(guī)定只遍歷正文或上標(biāo)格式的引用。引用遍歷功能允許用戶根據(jù)語(yǔ)義環(huán)境判斷參考文獻(xiàn)引用是否正確,發(fā)現(xiàn)因編號(hào)混亂等人為因素導(dǎo)致的文獻(xiàn)引用異常。

        (3)引用檢查。我國(guó)出版物通常約定,參考文獻(xiàn)應(yīng)按照文中引用最早出現(xiàn)的順序編號(hào)。圖書等出版物內(nèi)容繁多,參考文獻(xiàn)的編號(hào)難以確定,引用檢查功能將參考文獻(xiàn)按照首次出現(xiàn)的地點(diǎn)排序,通過(guò)對(duì)比編號(hào)與順序的對(duì)應(yīng)關(guān)系,更容易檢查出文獻(xiàn)編號(hào)問(wèn)題。

        方案還提供了互聯(lián)網(wǎng)查詢接口,可自動(dòng)將提取到的信息在百度學(xué)術(shù)等專業(yè)網(wǎng)站檢索,為用戶提供可靠依據(jù)。樣式檢查功能可自動(dòng)糾正標(biāo)點(diǎn)、全半角等格式問(wèn)題,使參考文獻(xiàn)更加美觀準(zhǔn)確。通過(guò)設(shè)置,還支持MLA、APA等多種參考文獻(xiàn)格式。

        4 結(jié)語(yǔ)

        方正智能非結(jié)構(gòu)化參考文獻(xiàn)提取與管理方案在出版物撰寫完成后介入,在非結(jié)構(gòu)化的Word文檔中提取參考文獻(xiàn)信息,并解析為作者、標(biāo)題、出版時(shí)間等結(jié)構(gòu)化數(shù)據(jù)。有利于出版行業(yè)海量存量數(shù)據(jù)的結(jié)構(gòu)化,為數(shù)字編輯系統(tǒng)的推廣和出版行業(yè)的數(shù)字化轉(zhuǎn)型提供了良好基礎(chǔ)。方案所特有的動(dòng)態(tài)文獻(xiàn)提取、實(shí)時(shí)顯示、引用遍歷和引用檢查功能,可有效降低編輯人員的工作量,節(jié)省時(shí)間成本,提高工作效率。

        參考文獻(xiàn):

        [1]白杰,楊愛(ài)臣.XML結(jié)構(gòu)化數(shù)字出版的特點(diǎn)與流程[J].出版廣角,2015(5):152-156.

        [2]陸晟.數(shù)字出版技術(shù)與編輯出版工作的數(shù)字化[J].出版廣角,2014(2):137-137.

        [3]吟春.新技術(shù)助力出版創(chuàng)新———訪北京北大方正電子有限公司數(shù)字出版業(yè)務(wù)部總經(jīng)理劉長(zhǎng)明[J].中國(guó)編輯,2011(4):13-18.

        [4]中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局,中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì).GB/ T 7714—2005 文后參考文獻(xiàn)著錄規(guī)則[M].北京:中國(guó)標(biāo)準(zhǔn)出版社,2005.

        (責(zé)任編輯:杜能鋼)

        猜你喜歡
        結(jié)構(gòu)化參考文獻(xiàn)數(shù)字化
        家紡業(yè)亟待數(shù)字化賦能
        促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        The Dual Emerson: Poetical Writing and Philosophical Thinking*
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        高中數(shù)學(xué)“一對(duì)一”數(shù)字化學(xué)習(xí)實(shí)踐探索
        高中數(shù)學(xué)“一對(duì)一”數(shù)字化學(xué)習(xí)實(shí)踐探索
        Study on the physiological function and application of γ—aminobutyric acid and its receptors
        東方教育(2016年4期)2016-12-14 13:52:48
        數(shù)字化制勝
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        The Review of the Studies of Trilingual Education in inghai
        国产在线精品福利大全| 国产免费一区二区三区免费视频| 男男受被攻做哭娇喘声视频| 五月婷婷激情小说| 日韩一二三四区免费观看| 国产精品无套一区二区久久| 色妞色视频一区二区三区四区| 欧美一片二片午夜福利在线快| 久久青青草视频免费观看| 亚洲精品第四页中文字幕| 又嫩又硬又黄又爽的视频| 少妇太爽了在线观看| 久久HEZYO色综合| 亚洲激情综合中文字幕| 无码人妻少妇久久中文字幕蜜桃| 亚洲国产精品尤物yw在线观看| 女同另类激情在线三区| 国产一区二区三区啊啊| 亚洲av永久无码精品网站在线观看| 国产激情视频白浆免费| 国产毛片一区二区日韩| 蜜桃视频网站在线观看一区| 久久久久波多野结衣高潮| 中年人妻丰满AV无码久久不卡| 男女后入式在线观看视频| 久久国产成人精品av| 毛片在线播放a| 国产爆乳美女娇喘呻吟久久| 亚洲av色图一区二区三区| 高清不卡一区二区三区| 91久久精品无码人妻系列| 国产av麻豆精品第一页| 亚洲无线一二三四区手机| 少妇极品熟妇人妻无码| 精品国产一区二区三区久久狼| 中文字幕人妻饥渴浪妇| 国产农村乱子伦精品视频| 亚洲欧美日韩国产综合专区| 少妇又紧又爽丰满在线视频| 国产人与zoxxxx另类| 亚洲熟妇网|