孫慧云
(山東省圖書館,山東濟南 250100)
古籍是記錄中華民族文明的重要載體。2013年12月30日下午,習近平總書記在主持中共中央政治局就提高國家文化軟實力研究進行的第十二次集體學習時強調(diào)“要系統(tǒng)梳理傳統(tǒng)文化資源,讓書寫在古籍里的文字都活起來”[1]。古籍原版書由于年代久遠,紙張老化,不能隨意翻動,增加了讀者閱讀古籍原版的難度。要解決藏與用的問題,古籍數(shù)字化是必經(jīng)之路。2007年1月國務(wù)院辦公廳出臺的《國務(wù)院辦公廳關(guān)于進一步加強古籍保護工作的意見》文件中第三條第五項指出“制訂古籍數(shù)字化標準,規(guī)范古籍數(shù)字化工作,建立古籍數(shù)字資源庫”[2]。圖書館是重要的古籍收藏單位,有必要去研究古籍數(shù)字化技術(shù),了解古籍數(shù)字化發(fā)展進程,剖析古籍數(shù)字化技術(shù)難點。當前的期刊論文主要從古籍數(shù)字化的標準、現(xiàn)狀、問題和對策等宏觀層面展開討論,專門針對技術(shù)細節(jié)論述得較少且不夠系統(tǒng)。實際上古籍數(shù)字化是對技術(shù)依賴非常強的一個工程,而專利文獻能夠快速反應(yīng)該技術(shù)領(lǐng)域的最新進展,便于挖掘技術(shù)細節(jié)。通過專利分析能梳理該領(lǐng)域的技術(shù)要點、專利申請人和專利申請公司,以便于圖書館對該技術(shù)的引用、探討和突破。
本文使用工具為IPTECH專利分析平臺,該平臺由臺灣連穎科技股份有限公司開發(fā),該公司長年來致力于產(chǎn)品研發(fā),追求技術(shù)領(lǐng)先性、質(zhì)量穩(wěn)定性,堪稱同行業(yè)中最具產(chǎn)品創(chuàng)新的公司[3]。IPTECH是該公司一款能實現(xiàn)全功能專利檢索與專利分析,具有完整性、程序性專利檢索分析功能設(shè)計的優(yōu)質(zhì)專利分析平臺[4]。在瀏覽器上輸入IPTECH的網(wǎng)址http://iptech.cc,輸入用戶名和密碼進入檢索界面。檢索范圍:CN(中國),TW(臺灣),HK(香港),MO(澳門);專利類型:發(fā)明專利;專利狀態(tài):公開;一般檢索:關(guān)鍵詞組合(關(guān)鍵詞、名稱、摘要、說明)古籍,分類號:主IPC G06,日期截至到2017年7月16日。生成的檢索式為:TACD:(古籍) AND MIPC:(G06)。經(jīng)檢索得到168份專利文獻,經(jīng)查看都符合檢索要求,都納入分析范圍。
通過IPTECH專利分析平臺,利用專利分析方法對我國古籍數(shù)字化技術(shù)專利文獻進行定量分析和內(nèi)容分析。定量分析主要從專利公開數(shù)量與階段劃分、主要申請人、主要專利分類號(IPC)等角度分析。從古籍數(shù)字化主要技術(shù)要點的角度進行了內(nèi)容分析,總結(jié)我國古籍數(shù)字化技術(shù)演進的三個階段。
古籍數(shù)字化技術(shù)在1990年即有專利申請活動,至2017年7月共有168件專利,詳見圖1。依據(jù)專利申請數(shù)量隨時間消長劃分了目前古籍數(shù)字化技術(shù)專利公開的兩個階段。
萌芽期大約從1990年到2011年,這一時期專利件數(shù)均在10件以下,1991年、1993年至1995年、1998年專利件數(shù)均為0件,2007年專利數(shù)量為9件,中間幾年申請數(shù)量有所起伏。2007年專利數(shù)量激增與2007年1月國務(wù)院辦公廳出臺的《國務(wù)院辦公廳關(guān)于進一步加強古籍保護工作的意見》[2]文件有一定的關(guān)系。
圖1 年度公開專利數(shù)量趨勢圖
成長期大約從2012年至今,專利數(shù)量從2012年的10件上升為2016年的25件,相對于2012年以前的年申請量增加了至少2倍,2017年截止到檢索時間2017年7月16日共14件。申請數(shù)量一直在增加,還沒有到達穩(wěn)定高峰期的趨勢,隨著諸多古籍數(shù)據(jù)庫的問世,預(yù)計專利數(shù)量會越來越多。
根據(jù)專利申請數(shù)量選出主要申請人,主要申請人能反映出掌握該領(lǐng)域技術(shù)的人或公司。根據(jù)專利檢索結(jié)果,計算出共99名專利申請人,168件專利。按照布拉德福定律,將所有專利按照主申請人分為3個區(qū)(核心區(qū)、相關(guān)區(qū)、離散去),使每個區(qū)的專利數(shù)量大致相等,得到表1。從表1中可以看出,當每區(qū)專利數(shù)量大致相等時,相應(yīng)的主申請人人數(shù)之和呈等比關(guān)系,其布拉德福系數(shù)為2.78和2.60,平均值為2.69。按照布拉德福定律應(yīng)選擇9位申請人公開的56件專利為專利文獻核心分布區(qū)域。由于第8名到11名均有4件專利,筆者選取專利件數(shù)前11名主要申請人、64件專利為主要分析對象。這11名主要申請人各自的專利件數(shù)、發(fā)明人數(shù)、相對研發(fā)能力等情況,詳見表2。這11名主要申請人有北大方正集團有限公司、成都數(shù)聯(lián)銘品科技有限公司、北京信息科技大學、北京北大方正電子有限公司、中國藏學研究中心北京藏醫(yī)院、王宏源、浙江大學、天津賽因哲信息技術(shù)有限公司、朱信、楊春華、龔學勝。北大方正集團有限公司和成都數(shù)聯(lián)銘品科技有限公司占據(jù)鰲頭,應(yīng)該重點關(guān)注。北大方正集團參與發(fā)明人數(shù)最多,活動年限也最長,可以推測該公司在該領(lǐng)域有較強的競爭力,相對研發(fā)能力也最強。相比之下,成都數(shù)聯(lián)銘品科技有限公司也有9件專利,但是投入人數(shù)少,平均專利年限也短,說明該公司人均研發(fā)能力較強。
表1 布拉德福定律分布表(n=3)
表2 主要申請人研發(fā)能力分析數(shù)據(jù)表
從這168件專利總體樣本來看,古籍數(shù)字化技術(shù)主要集中在3個方面。第一是文字輸入,對應(yīng)IPC類目G06F/003中,具體到三級分類,G06F/003/023類目下專利數(shù)量最多,有45家公司申請了該類專利,占比26.8%。實現(xiàn)文字輸入是古籍數(shù)字化的基礎(chǔ)工作,只有實現(xiàn)了古籍的文字輸入才能開展文本編輯、檢索、文本挖掘等功能。目前還沒有完整的古文字庫,因此文本輸入方法的相關(guān)專利數(shù)量最多。第二方面是信息檢索,對應(yīng)IPC類目G06F/017中,具體到三級分類,G06F/017/30類目下專利數(shù)量最多,有31家公司申請了該類專利,占比18.5%。能通過古籍數(shù)據(jù)庫進行文本檢索是實現(xiàn)古籍數(shù)字化的主要目的,這樣就可以節(jié)約讀者時間,將最全面最準確的資料呈現(xiàn)在讀者面前。這依賴于信息組織策略的好壞、檢索算法的優(yōu)劣,因此信息檢索方面的專利也較多。第三方面是圖像識別,對應(yīng)IPC類目G06K/009中,該類目共有29件專利,占比17.3%。圖像識別是能夠?qū)⒐偶畧D像中的文字識別成可編輯的文字,受圖像質(zhì)量、圖像與字庫匹配算法等因素影響,對該技術(shù)的探討也不斷出現(xiàn)。
對古籍數(shù)字化主要技術(shù)要點內(nèi)容進行分析,能夠細化技術(shù)要點,找準切入點。本部分根據(jù)主IPC分類號的劃分,相關(guān)研究成果以及筆者系統(tǒng)開發(fā)實踐經(jīng)驗總結(jié)得出古籍數(shù)字化主要技術(shù)要點及其內(nèi)容如下:
(1)古籍文字輸入
古籍中的字不同于現(xiàn)在的印刷體,有手寫的,刻的,有鉛印的,大小不一,形態(tài)各異。就字的種類來說有繁體字、異體字、通假字等。除了常見漢字外,還有甲骨文和地方特色文字,如藏文、納西東巴文、楚雄彝文、江永女書等。古籍中的文字講究行氣,好的作品同樣也是一部書法作品,即使是同一個字,也有不同的表現(xiàn)形式。要把古籍里的文字數(shù)字化,一個重要的原則就是版面還原,也就是將古籍里的文字輸入成可編輯的文字,這就要克服諸多困難。在古籍文字處理方面,楊春華2012年10月公開了一種以國家規(guī)范部件為部件基礎(chǔ)的部件碼輸入法(專利號為CN102707809),龔學勝2004年4月公開了一種華文文字龔碼統(tǒng)一方案及內(nèi)碼完整規(guī)范轉(zhuǎn)換方法(專利號為CN1490711),朱信2017年3月公開了一種多重復(fù)字字庫兼容通用字庫方案(專利號為CN106547728),王宏源2007年8月公開了一種使用適合于古籍文字的Unicode(統(tǒng)一碼)四字節(jié)編碼漢字超大字符集及其輸入法進行家譜數(shù)字化數(shù)據(jù)加工的方法(專利號為CN101025760),北京北大方正電子有限公司2015年4月公開了一種字庫更新方法和裝置(專利號為CN104516899),北京信息科技大學2015年8月公開了一種基于圖形拓撲特征進行識別的納西東巴象形文字輸入方法(專利號為CN104866117)。
(2)圖象處理和文字識別
借助國家重大文化工程之一的中華古籍保護計劃政策,部分古籍經(jīng)過掃描以圖像的形式保存。但是沒有文本化,不利于檢索,增加了使用的困難。古籍圖像處理和文本識別是古籍數(shù)字化的一大難點。目前,主要采取OCR的方式進行文字識別,這依賴于古籍文字字庫的構(gòu)建,才能提高識別率。成都數(shù)聯(lián)銘品科技有限公司2016年6月公開了一種基于卷積及遞歸神經(jīng)網(wǎng)絡(luò)的復(fù)雜光學文字序列識別系統(tǒng)(專利號為CN105678292),2015年10月公開了一種基于深度學習的復(fù)雜文字識別方法(專利號為CN104966097)。北大方正集團有限公司2014年11月公開了一種電子文檔識別方法及裝置(專利號為CN104166849),根據(jù)各文檔特征值進行單層電子文檔、雙層電子文檔或多層電子文檔的分類處理。北京信息科技大學2007年5月公開了一種東巴文的圖像文本識別方法(專利號為CN104794455)。王宏源2007年12月公開了一種古籍文檔檢索系統(tǒng)中檢索詞在古籍快照圖片上進行高亮標識的方法(專利號為CN101093545)。
(3)古籍排版
古籍有天頭、地腳、邊欄、界行、魚尾、書口等特殊版式,文字編排上有雙行小字,還有印章等?;诎婷孢€原的原則,古籍排版增加了不少困難。朱信主要擅長文字處理和排版,主要專利有2017年3月公開了一種臺式機書法字庫排版屏顯技術(shù)(專利號為CN106528503),2015年4月公開了一種中文豎排古籍和書法文字制作系統(tǒng)(專利號為CN104484314)。北大方正集團有限公司2013年6月公開了一種排版處理的方法及設(shè)備(專利號為CN103136183),能實現(xiàn)古籍中版面內(nèi)的多行或多段內(nèi)容作為一個整體進行整體居中排版處理,該公司2013年10月還公開了一種流式排版頁碼的方法和裝置(專利號為CN103377182),能滿足古籍排版的現(xiàn)代排版新要求。
(4)知識關(guān)聯(lián)和文本挖掘
不論是古籍還是普通圖書,都承載了相當豐富和復(fù)雜的知識,各知識單元都是相互關(guān)聯(lián)的,要在浩瀚的知識海洋中梳理出讀者所需知識,離不開知識關(guān)聯(lián)與文本挖掘技術(shù)的支撐。古籍中的人物、時間、地名和事件等各個要素從不同維度構(gòu)成一個知識網(wǎng)絡(luò)。讀者可以按照人物的線索找出該人物的生平事跡、交友關(guān)系、相關(guān)作品,也可以按照地名梳理出該地點的歷史事件、行政區(qū)劃、同鄉(xiāng)歷史名人等。天津賽因哲信息技術(shù)有限公司2017年2月公開了一種基于進化算法的古籍專有名詞聚類方法(專利號為CN106446040),2017年3月公開了一種基于知識發(fā)現(xiàn)技術(shù)的古籍文獻管理系統(tǒng)及方法(專利號為CN106503247)。王宏源2008年2月公開了一種支持四字節(jié)的典籍數(shù)據(jù)庫與歷史地理信息系統(tǒng)關(guān)聯(lián)的方法(專利號為CN101122905)。浙江大學2015年12月公開了一種數(shù)字資源關(guān)聯(lián)管理的方法及系統(tǒng)(專利號為CN105159904)。
(5)信息檢索
實現(xiàn)古籍數(shù)字化的主要目的是方便檢索,降低人工翻閱資料的資源成本和時間成本。衡量數(shù)字資源檢索效率的指標有查全率、查準率、漏檢率、誤檢率和檢索速度等。檢索分為精準檢索和模糊檢索,字符匹配分為前方一致、完全匹配等。要保證信息檢索效率和質(zhì)量,離不開良好的信息組織,離不開知識單元的劃分和關(guān)聯(lián)。王宏源在2006年7月公開了一種含有四字節(jié)編碼字符的桌面文本管理檢索系統(tǒng)(專利號為CN1804837),浙江大學2007年2月公開了一種用于門戶網(wǎng)站上對多種資源倉庫統(tǒng)一并行檢索的方法(專利號為CN1920817)。復(fù)旦大學和上海金鑫計算機系統(tǒng)工程有限公司2002年2月共同公開了一種中文古籍數(shù)字化及內(nèi)容檢索自動化方法和系統(tǒng)(專利號為CN1336604)。
(6)系統(tǒng)構(gòu)建
古籍數(shù)字化成果將以系統(tǒng)的形式展示,系統(tǒng)構(gòu)建從需求分析、概要設(shè)計、詳細設(shè)計再到編碼實現(xiàn)和調(diào)試,貫穿古籍數(shù)字化的整個過程。整個系統(tǒng)將古籍數(shù)字化中的信息組織和管理起來,達到便于使用的目的。系統(tǒng)構(gòu)建具體來說包括前端的入口管理模塊、古籍書目數(shù)據(jù)模塊、古籍全文數(shù)據(jù)模塊、數(shù)據(jù)關(guān)聯(lián)模塊、檢索模塊、統(tǒng)計模塊和后臺的管理模塊、校對模塊、發(fā)布模塊等。中國藏學研究中心北京藏醫(yī)院2012年9月公開了一種藏醫(yī)藥古籍整理信息化平臺構(gòu)建方案(專利號為CN102682338)。北京信息科技大學2016年10月公開了一種東巴經(jīng)典古籍數(shù)字化釋讀庫的建立方法(專利號為CN106021354),2016年9月公開了一種東巴經(jīng)典古籍傳承體系數(shù)字化國際共享平臺的構(gòu)建方案(專利號為CN105975597)。王宏源2007年8月還公開了一種家譜數(shù)字化方法(專利號為CN101025760)。
古籍數(shù)字化工作以古籍圖像處理和文字識別為基礎(chǔ),依賴于強大的古文字庫,實現(xiàn)圖像上的文字能夠被精準識別和錄入。再按照版面還原的原則,進行古籍排版,實現(xiàn)數(shù)據(jù)化到數(shù)字化,使圖像上的文字能被編輯。為了實現(xiàn)高效檢索,還需要將文本信息進行合理組織,建立知識關(guān)聯(lián)和索引,為實現(xiàn)古籍智能化奠定基礎(chǔ)。知識關(guān)聯(lián)是為了更好的檢索,檢索要建立在系統(tǒng)基礎(chǔ)之上。利用系統(tǒng)平臺管理古籍數(shù)字化信息,管理用戶信息,管理日志,不斷優(yōu)化系統(tǒng)性能。以上幾個古籍數(shù)字化關(guān)鍵技術(shù)都有實現(xiàn)前提和環(huán)境,但又相互依賴,各技術(shù)要點之間關(guān)系如圖2所示。只有突破技術(shù)藩籬,打通各個關(guān)節(jié),密切銜接才能構(gòu)建一個理想、高效、智能的古籍數(shù)字化系統(tǒng),能成為古籍研究者的科研利器,也方便廣大讀者閱讀古籍。
圖2 主要技術(shù)點關(guān)聯(lián)關(guān)系圖
古籍數(shù)字化是為了解決古籍藏于用的矛盾。利用古籍數(shù)字化技術(shù)將稀有的珍貴古籍加工成數(shù)字化產(chǎn)品,通過互聯(lián)網(wǎng)快速呈現(xiàn)給廣大讀者。為了使讀者不僅能看到古籍,而且能在海量古籍資源中檢索到自己需要的內(nèi)容,需要提高古籍數(shù)字化加工深度。按照古籍數(shù)字化加工層次將古籍數(shù)字化技術(shù)分為以下三個階段:
第一階段:古籍數(shù)據(jù)化。這一階段特點是古籍以圖像的形式呈現(xiàn),實現(xiàn)了從紙本到數(shù)據(jù)的轉(zhuǎn)換,為以后古籍數(shù)字化的進一步挖掘打下了堅實的基礎(chǔ),也為古籍保護工作做出了重大貢獻。讀者可以通過閱讀古籍圖像來閱讀古籍,但是不能對古籍圖像中的內(nèi)容進行編輯,不能實現(xiàn)文字檢索,可以通過對圖像的人工標引,實現(xiàn)圖像檢索,例如王宏源2007年12月公開了一種古籍文檔檢索系統(tǒng)中檢索詞在古籍快照圖片上進行高亮標識的方法(專利號為CN101093545)。
第二階段:古籍數(shù)字化。這一階段特點是古籍以文本的形式呈現(xiàn),古籍內(nèi)容可編輯,依賴的技術(shù)是圖像的文本識別。這一階段的主要難點在于古文字庫的構(gòu)建和古文字的識別。普通圖書的圖像識別一般是基于OCR技術(shù),其匹配字庫是現(xiàn)代漢語字庫。而古文字編碼和字庫則與普通圖書有很大的差異,目前普遍采用的是統(tǒng)一碼(Unicode)四字節(jié)編碼方式,但是不能完全囊括浩瀚的古文字。上文對四字節(jié)編碼和文字識別技術(shù)專利都有介紹。
第三階段:古籍智能化。這一階段特點是古籍在能夠?qū)崿F(xiàn)圖文對照的基礎(chǔ)上,將相關(guān)文本信息進行關(guān)聯(lián),便于文本挖掘,可以呈現(xiàn)人物、時間、地點等組合信息。比如,以人物為主要檢索點,將與該人物有關(guān)的作品、人際關(guān)系網(wǎng)、人物事跡以時空為維度可視化地展示出來。傳統(tǒng)的古籍開發(fā)與應(yīng)用模式已難以適應(yīng)人文學科研究的需要,人文學科研究者期待一個技術(shù)邏輯和人文邏輯相耦合的數(shù)字人文研究范式的出現(xiàn)[5]。古籍經(jīng)過智能化這種深層次加工,才是能夠成為古籍整理研究者的工具,大大提高古籍研究的進展速度和深度。范佳在《“數(shù)字人文”內(nèi)涵與古籍數(shù)字化的深度開發(fā)》一文中在四方面介紹了數(shù)字人文實踐與古籍數(shù)字化的作為:基于文本挖掘技術(shù)的古籍深度分析、基于GIS技術(shù)的古籍數(shù)字化地圖資源共享平臺、基于文本可視化的古籍數(shù)字化知識建構(gòu)、基于語料庫的電子化古籍研究和古籍整理[6],這些都是古籍智能化加工的范疇。雖然文中主要闡述的是一種理念,未見付諸于實踐,但對于專利技術(shù)研發(fā)提供了重要指導(dǎo)。
中國古籍浩如煙海,借助國家古籍保護政策的出臺,古籍數(shù)字化技術(shù)取得了持續(xù)性進展。古籍數(shù)字化在發(fā)展過程中經(jīng)歷了從以古籍圖像為代表的古籍數(shù)據(jù)化、以文本識別為代表的古籍數(shù)字化、以文本挖掘為代表的古籍智能化三個階段,這個發(fā)展歷程是一個艱難的探索過程。古籍數(shù)字化技術(shù)專利從1990年至今年度申請量越來越多,該技術(shù)正處于技術(shù)成長期,值得持續(xù)關(guān)注。古籍數(shù)字化主要技術(shù)點在于古籍文字輸入、圖象處理和文字識別、古籍排版、知識關(guān)聯(lián)和文本挖掘、信息檢索、系統(tǒng)構(gòu)建六個方面。
在以上古籍數(shù)字化技術(shù)專利中,圖書館雖沒有申請該領(lǐng)域?qū)@?,但是可以引用相關(guān)專利技術(shù),提高古籍數(shù)字化效率,加快古籍數(shù)字化進程,讓保存在書庫里的古籍通過互聯(lián)網(wǎng)呈現(xiàn)到廣大讀者面前。
〔1〕 王安寧.習近平主持政治局集體學習:增強做中國人骨氣底氣[EB/OL].[2017-08-14].http://www.chinanews.com/gn/2013/12-31/5685623.shtml
〔2〕 中國古籍保護網(wǎng).國務(wù)院辦公廳關(guān)于進一步加強古籍保護工作的意見(2007)[EB/OL].[2017-08-14].http://www.nlc.cn/pcab/ztzl/gjbhzcfg/gfxwj/201511/t20151104_107985.html
〔3〕 連穎科技.公司簡介[EB/OL].[2017-08-09].http://www.ltc.tw/Pages/about-company.html
〔4〕 連穎科技.IPTECH全方位智權(quán)應(yīng)用平臺[EB/OL].[2017-08-09].http://www.ltc.tw/Pages/products-iptech.html
〔5〕 歐陽劍.面向數(shù)字人文研究的大規(guī)模古籍文本可視化分析與挖掘[J].中國圖書館學報,2016(2):66-80
〔6〕 范佳.“數(shù)字人文”內(nèi)涵與古籍數(shù)字化的深度開發(fā)[J].圖書館學研究,2013(3):29-32