司遠(yuǎn) 肖毅
摘要:隨著信息技術(shù)的發(fā)展,出版行業(yè)逐漸將采集、編輯等流程轉(zhuǎn)移到計(jì)算機(jī)上進(jìn)行,實(shí)現(xiàn)從傳統(tǒng)出版到數(shù)字出版的轉(zhuǎn)型。圖書出版物中參考文獻(xiàn)具有重要意義。現(xiàn)有參考文獻(xiàn)管理工具在運(yùn)行時(shí),大多要求在圖書編撰的起始階段介入,并需要用戶自行從外部獲取結(jié)構(gòu)化的參考文獻(xiàn)信息。在數(shù)字出版系統(tǒng)中,圖書內(nèi)容由投約稿作者提供,具有大量非結(jié)構(gòu)化文本,難以進(jìn)行管理。針對(duì)這一問(wèn)題,研究了GB/T 7714-2005文后參考文獻(xiàn)著錄規(guī)則,運(yùn)用正則表達(dá)式匹配等技術(shù)手段,提供了一種非結(jié)構(gòu)化文本中參考文獻(xiàn)的提取和管理方案。
關(guān)鍵詞:數(shù)字出版;非結(jié)構(gòu)化;GB/T 7714-2005;正則表達(dá)式;參考文獻(xiàn)
DOIDOI:10.11907/rjdk.161079
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2016)005-0137-03
1 數(shù)字出版概述
隨著激光照排技術(shù)的普及和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,出版行業(yè)產(chǎn)生了深刻變革,數(shù)字出版受到行業(yè)和學(xué)術(shù)界的廣泛關(guān)注。
20世紀(jì)70年代以來(lái),王選院士主持的方正激光照排系統(tǒng)迅速產(chǎn)業(yè)化并被市場(chǎng)廣泛接受,出版行業(yè)中錄入、排版、校對(duì)、印刷等主要流程開始向數(shù)字化轉(zhuǎn)變。隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),出版行業(yè)在數(shù)字技術(shù)的應(yīng)用上不斷嘗試,出現(xiàn)了電子出版、互聯(lián)網(wǎng)出版、泛媒體出版、跨媒體出版、全媒體出版、復(fù)合出版等多種出版形式。然而,上述概念局限于數(shù)字技術(shù)在特定出版流程或介質(zhì)上的應(yīng)用,不能在全局層面上描述層出不窮的數(shù)字媒體。自2005年起,我國(guó)出版界提出了數(shù)字出版概念,涵蓋了近年來(lái)新出現(xiàn)的數(shù)字媒體,受到業(yè)內(nèi)的廣泛認(rèn)同。這一概念的提出,體現(xiàn)出業(yè)界對(duì)應(yīng)用數(shù)字技術(shù)后出現(xiàn)的一系列新型出版形態(tài)的認(rèn)識(shí)越來(lái)越深入,在技術(shù)層面概括了新出版形態(tài)的本質(zhì)特征。與傳統(tǒng)出版相比,數(shù)字出版技術(shù)的優(yōu)勢(shì)體現(xiàn)在:傳播速度快、范圍廣、形式多樣;出版內(nèi)容時(shí)效性強(qiáng);信息交流更加具有互動(dòng)性;提供個(gè)性化服務(wù);支持海量存儲(chǔ);內(nèi)容便于檢索和二次加工;制作和發(fā)行成本較低。
近年來(lái),我國(guó)的數(shù)字出版產(chǎn)業(yè)所占比重越來(lái)越高,數(shù)字出版高速增長(zhǎng)。在數(shù)字出版快速發(fā)展的同時(shí),我們還要清醒認(rèn)識(shí)到其中存在的問(wèn)題:大多數(shù)數(shù)字出版產(chǎn)業(yè)的數(shù)字化仍處于較低水平,單純將紙質(zhì)內(nèi)容通過(guò)技術(shù)手段轉(zhuǎn)化為數(shù)字內(nèi)容,產(chǎn)品內(nèi)容結(jié)構(gòu)仍然沿用傳統(tǒng)出版模式,沒(méi)有對(duì)數(shù)字內(nèi)容資源進(jìn)行結(jié)構(gòu)化、知識(shí)化處理,無(wú)法使產(chǎn)品增值,受限于出版類型和投資規(guī)模的約束,還沒(méi)有出現(xiàn)類似Elsevier和Springer的大型國(guó)際化數(shù)字出版企業(yè)。據(jù)統(tǒng)計(jì),全國(guó)584家出版社中,256家推出了數(shù)字出版的相關(guān)產(chǎn)品,但只有102家建立了專業(yè)的數(shù)字出版機(jī)構(gòu)[1]。
2 內(nèi)容結(jié)構(gòu)化與數(shù)字出版
結(jié)構(gòu)化是出版行業(yè)數(shù)字化的核心,數(shù)字化標(biāo)準(zhǔn)通過(guò)語(yǔ)義標(biāo)簽,以標(biāo)題、目錄、正文等文章結(jié)構(gòu)和詞語(yǔ)為基本單元,對(duì)出版內(nèi)容進(jìn)行結(jié)構(gòu)化處理,內(nèi)容結(jié)構(gòu)化的程度直接影響數(shù)字化水平。出版行業(yè)的數(shù)字化,不只是內(nèi)容的數(shù)字化,更重要的是實(shí)現(xiàn)編輯出版體系的數(shù)字化。數(shù)字編輯出版系統(tǒng)打破了傳統(tǒng)出版模式中時(shí)間和空間的限制,投稿、審稿和編輯可以隨時(shí)隨地進(jìn)行,提高了審稿效率,簡(jiǎn)化了編輯環(huán)節(jié),提升了編輯工作的價(jià)值,在工作效率和質(zhì)量上遠(yuǎn)超傳統(tǒng)出版模式[2]。結(jié)構(gòu)化是建立數(shù)字化編輯系統(tǒng)的基礎(chǔ)和前提,在出版行業(yè)的數(shù)字化過(guò)程中具有重要地位,美國(guó)物理學(xué)會(huì)、BMC出版社和PLOS ONE期刊等行業(yè)先行者已開始構(gòu)建出版內(nèi)容存儲(chǔ)的XML結(jié)構(gòu)化規(guī)范。
我國(guó)出版行業(yè)應(yīng)用的結(jié)構(gòu)化數(shù)字編輯系統(tǒng)包括:北大方正書暢系統(tǒng)、瑪格泰克稿件處理系統(tǒng)和查爾斯沃思XML排版軟件等。北大方正書暢系統(tǒng)將科技期刊的采編系統(tǒng)與排版、發(fā)布系統(tǒng)集成,提供面向科技期刊的數(shù)字化生產(chǎn)流程,編、排、發(fā)一體化的同步出版解決方案。該方案通過(guò)流程化系統(tǒng),貫穿期刊稿件的采編與排版環(huán)節(jié),在滿足傳統(tǒng)紙質(zhì)出版的要求下,可以同步產(chǎn)生包含稿件元數(shù)據(jù)標(biāo)引信息的XML結(jié)構(gòu)化數(shù)據(jù),為網(wǎng)刊發(fā)布提供數(shù)據(jù)支撐,給科技期刊用戶帶來(lái)更大的附加價(jià)值。瑪格泰克稿件處理系統(tǒng)為出版行業(yè)提供了整體的數(shù)字出版解決方案,可自動(dòng)提取出版內(nèi)容中的元數(shù)據(jù)和擴(kuò)展數(shù)據(jù),支持方正書版文件、Word文件和Latex文件等。查爾斯沃斯將出版內(nèi)容統(tǒng)一轉(zhuǎn)化為XML格式文件并進(jìn)行結(jié)構(gòu)化排版,生成XML、HTML、PDF和圖片等形式的排版結(jié)果文件,能適應(yīng)多種傳播媒介。
上述幾種數(shù)字編輯系統(tǒng)均包含業(yè)務(wù)流程再造[3]環(huán)節(jié):在出版流程中,為滿足互聯(lián)網(wǎng)和移動(dòng)設(shè)備用戶的需要,內(nèi)容生產(chǎn)、加工、發(fā)布等環(huán)節(jié)需要進(jìn)行再造,從生產(chǎn)源頭對(duì)出版內(nèi)容進(jìn)行結(jié)構(gòu)化和元數(shù)據(jù)標(biāo)引,實(shí)現(xiàn)動(dòng)態(tài)出版。只有結(jié)構(gòu)化的內(nèi)容,才能被數(shù)字出版系統(tǒng)導(dǎo)入并提取知識(shí)。受益于良好的設(shè)計(jì),方正書版文件和Latex文件本身已具有較高的結(jié)構(gòu)化程度,然而在數(shù)字出版領(lǐng)域中,Word仍然是作者投稿時(shí)使用的主流文件格式。在2003及之前的版本中,Word文件實(shí)質(zhì)上是一種二進(jìn)制文件,通過(guò)文件首部偏移地址為0x00的文件信息塊對(duì)全文進(jìn)行索引。在2007和更高的版本中,微軟采用了OOXML(Office Open XML)標(biāo)準(zhǔn),這是一種基于XML的文件格式。OOXML標(biāo)準(zhǔn)Word文檔包含一簇互相關(guān)聯(lián)的XML文件,使用XML元素存儲(chǔ)文件內(nèi)容、樣式、應(yīng)用程序數(shù)據(jù)和元數(shù)據(jù)等文檔組成部件。
如表1所示,OOXML標(biāo)準(zhǔn)Word文檔主要組成部件包括注釋、文檔設(shè)置、腳注尾注、字體、頁(yè)眉頁(yè)腳、正文、編號(hào)和樣式等。文本內(nèi)容全部存儲(chǔ)在正文部件中,其它部件主要用于樣式控制。
OOXML標(biāo)準(zhǔn)Word文檔正文部分XML文件的典型結(jié)構(gòu)如下:從正文-章節(jié)-段落-句子-文本逐漸細(xì)化,
為滿足業(yè)務(wù)流程再造環(huán)節(jié)中的結(jié)構(gòu)化需求,本文提出了一種針對(duì)Word非結(jié)構(gòu)化文本的參考文獻(xiàn)提取和管理方案,運(yùn)用正則表達(dá)式技術(shù),自動(dòng)識(shí)別文獻(xiàn)中的參考文獻(xiàn)管理?xiàng)l目并提供管理功能。
3 非結(jié)構(gòu)化參考文獻(xiàn)提取與管理方案
3.1 GB/T 7714參考文獻(xiàn)標(biāo)準(zhǔn)
GB/T 7714《文后參考文獻(xiàn)著錄規(guī)則》是一項(xiàng)國(guó)家標(biāo)準(zhǔn),用于指導(dǎo)著者和編輯編撰文后參考文獻(xiàn)。GB/T 7714采用ISO 690《文獻(xiàn)工作文后參考文獻(xiàn) 內(nèi)容、形式與結(jié)構(gòu)》和ISO 690-2《信息與文獻(xiàn) 參考文獻(xiàn) 第2部分:電子文獻(xiàn)部分》兩項(xiàng)國(guó)際標(biāo)準(zhǔn)[4]。
常見參考文獻(xiàn)格式包括期刊、圖書、會(huì)議論文和專利等:
(1) 期刊:[序號(hào)]作者.題名[J].刊名,出版年,卷(期):頁(yè)碼。
(2)圖書:[序號(hào)]作者.書名[M].其他責(zé)任者(選擇項(xiàng)).版本(第1 版不著錄).出版地:出版者,出版年:頁(yè)碼(選擇項(xiàng))。
(3)會(huì)議論文:[序號(hào)]作者.題名[C].會(huì)議名稱,會(huì)址,會(huì)議年份。
(4)專利:[序號(hào)]專利申請(qǐng)者或所有者.專利題名:專利國(guó)別,專利號(hào)[P].公告或公開日期。
文獻(xiàn)類型和標(biāo)志代碼位于方括號(hào)中,為各類參考文獻(xiàn)共有,用于表明參考文獻(xiàn)類型,如表2所示。在方正智能非結(jié)構(gòu)化參考文獻(xiàn)提取與管理方案中,考慮到標(biāo)志代碼的普遍性和唯一性,將標(biāo)志代碼作為提取文獻(xiàn)條目時(shí)的正則匹配條件。
3.2 方案核心類視圖
方正智能非結(jié)構(gòu)化參考文獻(xiàn)提取與管理方案采用Word插件機(jī)制開發(fā),可按需安裝或卸載。方案由5個(gè)核心類組成:①Plugin,包含Word插件所需的通用組件;②ReferenceManagementPaneCtrl,用于顯示參考文獻(xiàn)并提供文獻(xiàn)管理功能,屬于核心交互界面;③ReferenceSetting,允許用戶自行設(shè)置提取解析參考文獻(xiàn)時(shí)的規(guī)則;④ReferenceManagement,參考文獻(xiàn)提取、解析和管理功能的底層實(shí)現(xiàn)類,被ReferenceManagementPaneCtrl調(diào)用;⑤ReferenceExtension,存儲(chǔ)設(shè)置參數(shù)和用于解析參考文獻(xiàn)的正則表達(dá)式。如圖1所示。
3.3 參考文獻(xiàn)提取與解析流程
底層實(shí)現(xiàn)類ReferenceManagement工作流程如圖2所示:①以段落為單位遍歷當(dāng)前文檔,使用正則匹配技術(shù)獲取參考文獻(xiàn)文本;②進(jìn)行文本預(yù)處理,去除空格并修正全半角格式,提高文獻(xiàn)解析準(zhǔn)確率;③通過(guò)文獻(xiàn)類型和標(biāo)志代碼進(jìn)行文獻(xiàn)分類;④通用解析流程,用于識(shí)別各種類型參考文獻(xiàn)中的公共部分,如作者、出版時(shí)間、標(biāo)題等;⑤專用解析流程,根據(jù)文獻(xiàn)分類執(zhí)行專用解析操作,例如GB/T 7715標(biāo)準(zhǔn)中,只有連續(xù)出版物具有年-卷-期屬性。
3.4 獨(dú)有功能
方正智能非結(jié)構(gòu)化參考文獻(xiàn)提取與管理方案從數(shù)字編輯系統(tǒng)實(shí)際環(huán)境出發(fā),結(jié)合編輯人員需求進(jìn)行設(shè)計(jì)與開發(fā)。相對(duì)于Endnote、NoteExpress、cnki E-learning等同類型參考文獻(xiàn)管理工具,提供以下獨(dú)有功能:
(1)全文文獻(xiàn)提取和列表顯示。方案允許用戶在當(dāng)前文檔動(dòng)態(tài)添加文獻(xiàn),通過(guò)圖3所示的刷新按鈕實(shí)時(shí)獲取全文中包含的所有參考文獻(xiàn)條目,并將文獻(xiàn)的編號(hào)、作者、標(biāo)題等重要屬性直觀顯示在列表中。
(2)引用遍歷。選中列表中的參考文獻(xiàn)條目后,通過(guò)上一個(gè)、下一個(gè)按鈕可遍歷查看正文中的參考文獻(xiàn)引用,結(jié)合設(shè)置還可規(guī)定只遍歷正文或上標(biāo)格式的引用。引用遍歷功能允許用戶根據(jù)語(yǔ)義環(huán)境判斷參考文獻(xiàn)引用是否正確,發(fā)現(xiàn)因編號(hào)混亂等人為因素導(dǎo)致的文獻(xiàn)引用異常。
(3)引用檢查。我國(guó)出版物通常約定,參考文獻(xiàn)應(yīng)按照文中引用最早出現(xiàn)的順序編號(hào)。圖書等出版物內(nèi)容繁多,參考文獻(xiàn)的編號(hào)難以確定,引用檢查功能將參考文獻(xiàn)按照首次出現(xiàn)的地點(diǎn)排序,通過(guò)對(duì)比編號(hào)與順序的對(duì)應(yīng)關(guān)系,更容易檢查出文獻(xiàn)編號(hào)問(wèn)題。
方案還提供了互聯(lián)網(wǎng)查詢接口,可自動(dòng)將提取到的信息在百度學(xué)術(shù)等專業(yè)網(wǎng)站檢索,為用戶提供可靠依據(jù)。樣式檢查功能可自動(dòng)糾正標(biāo)點(diǎn)、全半角等格式問(wèn)題,使參考文獻(xiàn)更加美觀準(zhǔn)確。通過(guò)設(shè)置,還支持MLA、APA等多種參考文獻(xiàn)格式。
4 結(jié)語(yǔ)
方正智能非結(jié)構(gòu)化參考文獻(xiàn)提取與管理方案在出版物撰寫完成后介入,在非結(jié)構(gòu)化的Word文檔中提取參考文獻(xiàn)信息,并解析為作者、標(biāo)題、出版時(shí)間等結(jié)構(gòu)化數(shù)據(jù)。有利于出版行業(yè)海量存量數(shù)據(jù)的結(jié)構(gòu)化,為數(shù)字編輯系統(tǒng)的推廣和出版行業(yè)的數(shù)字化轉(zhuǎn)型提供了良好基礎(chǔ)。方案所特有的動(dòng)態(tài)文獻(xiàn)提取、實(shí)時(shí)顯示、引用遍歷和引用檢查功能,可有效降低編輯人員的工作量,節(jié)省時(shí)間成本,提高工作效率。
參考文獻(xiàn):
[1]白杰,楊愛(ài)臣.XML結(jié)構(gòu)化數(shù)字出版的特點(diǎn)與流程[J].出版廣角,2015(5):152-156.
[2]陸晟.數(shù)字出版技術(shù)與編輯出版工作的數(shù)字化[J].出版廣角,2014(2):137-137.
[3]吟春.新技術(shù)助力出版創(chuàng)新———訪北京北大方正電子有限公司數(shù)字出版業(yè)務(wù)部總經(jīng)理劉長(zhǎng)明[J].中國(guó)編輯,2011(4):13-18.
[4]中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局,中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì).GB/ T 7714—2005 文后參考文獻(xiàn)著錄規(guī)則[M].北京:中國(guó)標(biāo)準(zhǔn)出版社,2005.
(責(zé)任編輯:杜能鋼)