涂佳琪,楊新涯,王彥力
數(shù)據(jù)庫是數(shù)字圖書館的文獻資源基礎(chǔ),數(shù)據(jù)庫的歷史就是另外一個角度的數(shù)字圖書館發(fā)展歷史。CNKI(China National Knowledge Infrastructure,中國知識基礎(chǔ)設(shè)施)工程是以實現(xiàn)全社會知識資源傳播共享與增值利用為目標的信息化建設(shè)項目,其服務網(wǎng)站——中國知網(wǎng)是全球最大的中文知識門戶,由《中國學術(shù)期刊(光盤版)》電子雜志社有限公司、同方知網(wǎng)(北京)技術(shù)有限公司、同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司等單位聯(lián)合運營,是在《中國學術(shù)期刊(光盤版)》《中國期刊網(wǎng)》基礎(chǔ)上發(fā)展起來的中外文大型知識資源總庫,是我國數(shù)字圖書館建設(shè)的重要參與者和見證者,甚至有學者認為《中國學術(shù)期刊(光盤版)》的發(fā)布是我國進入數(shù)字圖書館時代的標志和里程碑①。
目前研究數(shù)字圖書館歷史的文獻主要集中在兩方面:一是數(shù)字圖書館系統(tǒng)的歷史演變,如莫少強總結(jié)1980-2012年廣東省立中山圖書館自動化建設(shè)的6個時期[1];許天才等梳理重慶大學圖書館從自動化管理系統(tǒng)到智慧圖書館系統(tǒng)研發(fā)過程中的成功案例、困難與挑戰(zhàn)[2]。二是圖書館發(fā)展歷程中某項技術(shù)的應用史,如劉慧云等認為縮微技術(shù)是文獻資源長期保存的重要技術(shù)和手段,并梳理縮微技術(shù)在圖書館的實踐歷程,指出數(shù)字縮微是縮微技術(shù)的發(fā)展方向[3]。
我國數(shù)據(jù)庫建設(shè)始于20世紀80年代,90年代后期才逐漸商品化和產(chǎn)業(yè)化,因此研究數(shù)據(jù)庫歷史的文獻較少,大多將數(shù)據(jù)庫作為樣本來源進行計量分析[4],或?qū)Ρ确治龆鄠€數(shù)據(jù)庫的期刊重復率、更新速度、檢索功能等內(nèi)容[5],再或是研究數(shù)據(jù)庫某一優(yōu)勢或特色[6-8]。對于CNKI的研究僅包括它對某一行業(yè)或領(lǐng)域的影響,如薛培榮等從CNKI的資源基礎(chǔ)、服務領(lǐng)域、產(chǎn)業(yè)模式、國際競爭與合作等方面論述其對科技信息服務的影響[9],王青梳理了1996-2000年CNKI對圖書館帶來的影響和變化[10]。有3篇文獻著重研究CNKI發(fā)展歷史,其中李柯回顧了1995-1999年CNKI的發(fā)展歷程以及取得的社會經(jīng)濟效益[11];朱素蘭等回顧1995-2004年CNKI的發(fā)展歷程,總結(jié)其發(fā)展經(jīng)驗,展望了全文數(shù)據(jù)庫檢索系統(tǒng)的發(fā)展方向[12];趙蓉英等認為1995-2004年CNKI經(jīng)歷了光盤版、網(wǎng)絡版和知識服務平臺3個時代,梳理各時代重要事件和主要成就,指出CNKI對促進我國知識信息服務產(chǎn)業(yè)發(fā)展發(fā)揮著重要作用[13]??傊?,對CNKI發(fā)展的研究主要集中在2006年之前,2006年后13年間鮮有學者研究其歷史發(fā)展,而這一時期CNKI正處于高速發(fā)展階段,值得關(guān)注和重點研究。
CNKI歷經(jīng)數(shù)字圖書館的興起與繁榮,推動了我國圖書館事業(yè)發(fā)展,因此CNKI發(fā)展歷史是我國數(shù)字圖書館史和圖書館技術(shù)史不可缺失的部分。為研究CNKI的發(fā)展歷史,筆者2018年12月4日前往CNKI總部采訪并參觀多條生產(chǎn)線,詳細了解CNKI產(chǎn)品、技術(shù)及其在出版模式上的創(chuàng)新等。同時,筆者就CNKI發(fā)展脈絡、核心技術(shù)、自主研發(fā)產(chǎn)品和未來發(fā)展分別采訪CNKI常務副總經(jīng)理張宏偉,副總經(jīng)理張振海、劉學東、張義民等親歷者。為保證資料的客觀性,同時調(diào)研了長期接觸數(shù)據(jù)庫采購的館員、使用且持續(xù)關(guān)注數(shù)據(jù)庫發(fā)展的學者,了解其對CNKI等數(shù)據(jù)庫商的發(fā)展和看法。在整個研究過程中,筆者深感CNKI在整個發(fā)展進程中,一直努力堅持自主創(chuàng)新,從底層數(shù)據(jù)庫到全文搜索技術(shù),從最初的光盤到完整的互聯(lián)網(wǎng)服務體系,從單一的面向圖書館服務到產(chǎn)業(yè)鏈的整合,使自主創(chuàng)新成為CNKI發(fā)展的最大特色。2019年5月,美國商務部工業(yè)和安全局宣布把華為公司列入“實體名單”,包括安卓操作系統(tǒng)在內(nèi)的多個核心技術(shù)受到封鎖。我國只有且必須自主開發(fā)核心信息技術(shù)體系,這折射出知識服務領(lǐng)域的科技創(chuàng)新自主性的重要價值。在這樣的背景下,研究并總結(jié)CNKI等以自主創(chuàng)新為特色的數(shù)據(jù)庫商的發(fā)展過程與經(jīng)驗,就顯得尤為重要。
截至2018年12月,CNKI累計整合國內(nèi)外期刊文獻總量達2億多篇、題錄3億多條、統(tǒng)計數(shù)據(jù)2.6億條、知識條目10億條、圖片5000萬張,日更新數(shù)據(jù)達24萬條,在全球53個國家和地區(qū)擁有2.7萬多個機構(gòu)用戶、1.2億個人用戶,網(wǎng)站日訪問量1600余萬人次,年下載量23.3億篇次,已成為最大的中文數(shù)據(jù)庫服務商。
通過分析公開文獻和訪談資料,筆者將CNKI的發(fā)展過程分為5個階段:(1)創(chuàng)業(yè)期?!吨袊鴮W術(shù)期刊(光盤版)》發(fā)布,開創(chuàng)中國數(shù)字出版先河,推動我國文獻資源數(shù)字化和網(wǎng)絡化進程,在我國數(shù)字圖書館發(fā)展過程中具有劃時代意義。(2)戰(zhàn)略形成與規(guī)模初具期?!吨袊诳W(wǎng)》開通,推動學術(shù)期刊進入全文網(wǎng)絡檢索時代,推動圖書館資源數(shù)字化建設(shè)。(3)規(guī)模化與標準化建設(shè)期。《中國知識資源總庫》問世,整合資源規(guī)模化,進一步豐富館藏,制定數(shù)字化出版標準,推動國內(nèi)數(shù)字資源標準化建設(shè)。(4)內(nèi)容生產(chǎn)與規(guī)模多元化期。重視國際合作,實現(xiàn)知識信息資源的社會化共享與國際化傳播。(5)總體架構(gòu)實現(xiàn)期。推進知識管理與服務,實現(xiàn)移動知識服務,提升圖書館對終端讀者的精準服務能力,推動了圖書館由數(shù)字化走向智慧化的進程。
圖1 中國知網(wǎng)CNKI的發(fā)展脈絡圖
20世紀90年代初期,計算機和計算機技術(shù)普及,行業(yè)內(nèi)開始嘗試用光盤存儲資源進行檢索。1992年我國第一張CD多媒體光盤由北京金盤有限電子公司出版[14],CD光盤的出現(xiàn)為圖書館資料提供了新的存儲介質(zhì),使信息資源數(shù)字集成、整合與傳播成為可能。1993年中國科技情報研究所重慶分所實現(xiàn)文獻題錄檢索[15]。盡管這些技術(shù)逐步發(fā)展,但是未解決一、二次文獻資源的關(guān)聯(lián)問題,學者使用光盤檢索后仍需通過紙本資源獲取一次文獻。
1.1.1 靈感萌發(fā),從題錄摘要到全文
1995年初CNKI創(chuàng)始人、北京清華信息系統(tǒng)工程公司總經(jīng)理王明亮通過分析《中國婦女》全文光盤的數(shù)據(jù)格式受到啟發(fā),提出“版面顯示+全文檢索技術(shù),可形成供全文檢索、原版瀏覽,且數(shù)據(jù)量小、便于CD存儲和窄帶傳輸,并可長期保存和二次開發(fā)的實用化電子文檔數(shù)據(jù)庫系統(tǒng)”,并憑借科研、教學、學習經(jīng)驗,以及對光盤、學術(shù)期刊出版、印刷等行業(yè)的了解,提出《中國學術(shù)期刊(光盤版)》(CAJ-CD)項目的經(jīng)營方案,于1995年8月被列為清華大學科研和產(chǎn)業(yè)化開發(fā)項目[10]。
1.1.2 CAJ-CD誕生,開創(chuàng)數(shù)字出版先河
1996年1月,北京清華信息系統(tǒng)工程公司(以下簡稱“清華信息公司”)將光盤存儲技術(shù)與現(xiàn)代信息檢索技術(shù)結(jié)合,不僅維持收錄紙本期刊的原貌,實現(xiàn)文獻檢索從題錄摘要向期刊全文轉(zhuǎn)變,而且基本實現(xiàn)與紙本期刊同步出版。經(jīng)過與期刊界、學術(shù)界展開廣泛合作,創(chuàng)辦了“國內(nèi)外首個大規(guī)模集成學術(shù)期刊并與其同步出版的電子期刊——CAJ-CD”。經(jīng)新聞出版總署批準,1996年12月24日,CAJ-CD首次以電子書號方式正式出版我國自1994年以來2000多種學術(shù)期刊全文[10];1997年9月,CAJ-CD獲準出版中國大陸首批8個連續(xù)型電子出版物,標志著我國第一個以電子期刊方式按月連續(xù)出版的大型集成化學術(shù)期刊現(xiàn)刊原版全文數(shù)據(jù)庫誕生[16]。
CAJ-CD作為我國自主研發(fā)的“首個原版顯示+全文檢索的全文數(shù)據(jù)庫管理系統(tǒng)”,從功能設(shè)計到技術(shù)方案均達到“國際領(lǐng)先水平”,得到中宣部出版局、新聞出版總署、教育部等的指導和支持,獲得1998年教育部科技進步三等獎。
為了擴大CAJ-CD的影響,1997年3月31日至4月11日,清華信息公司先后在國內(nèi)建立300多家檢索咨詢站[17],向國內(nèi)外廣大用戶提供全文檢索服務,迅速占領(lǐng)國內(nèi)圖書情報市場。1998年7月,在“1998年美國圖書館協(xié)會年會”上,CAJ-CD受到各國圖書館代表的強烈關(guān)注,迅速在海外著名公共圖書館、重點大學圖書館等設(shè)立中國學術(shù)期刊文獻檢索站[11],中國學術(shù)文獻資源開始走向世界。
CAJ-CD解決了圖書館館舍緊張的問題,滿足了圖情單位“以有限經(jīng)費采集盡可能多的文獻”的需求,豐富了館藏資源,成為中國圖書館進入數(shù)字圖書館時代的重要標志。CAJ-CD作為中國第一個全文數(shù)據(jù)庫,創(chuàng)辦伊始即在國家版權(quán)局版權(quán)司的指導下,創(chuàng)建通過學術(shù)期刊編輯部解決文獻著作權(quán)的使用授權(quán)模式,與每一個編輯部簽訂授權(quán)協(xié)議,這對我國數(shù)字出版產(chǎn)業(yè)與數(shù)字圖書館的發(fā)展具有重要意義和示范作用。
1995年我國互聯(lián)網(wǎng)接入美國64K專線,開始向社會提供互聯(lián)網(wǎng)接入服務,各單位亦紛紛組建局域網(wǎng)。隨后網(wǎng)易、搜狐、新浪等門戶網(wǎng)站相繼成立[18],加速了互聯(lián)網(wǎng)的普及與滲透,人們使用互聯(lián)網(wǎng)的頻率與日俱增,因此CNKI開始向互聯(lián)網(wǎng)轉(zhuǎn)型。
1.2.1 CJN開通,從光盤檢索到網(wǎng)絡檢索
1999年6月18日,在整合CAJ-CD數(shù)字資源的基礎(chǔ)上,CNKI開通“中國期刊網(wǎng)”(www.chinajournal.net.cn,簡稱CJN),以全文形式開展網(wǎng)絡期刊資源服務,初步實現(xiàn)了全文檢索從光盤到網(wǎng)絡的轉(zhuǎn)變,文獻檢索進入全文網(wǎng)絡檢索時代。此外,為方便檢索,打破時間、網(wǎng)絡出口帶寬和上網(wǎng)通訊費的限制,CNKI將全國360多家單機、局域網(wǎng)光盤檢索系統(tǒng)升級為鏡像站點,便于保存數(shù)字館藏,集中管理內(nèi)網(wǎng)服務[19]。
CJN匯聚我國中英文學術(shù)期刊精華,向國內(nèi)外廣大用戶提供檢索咨詢等信息網(wǎng)絡服務,提高了圖書館閱覽服務質(zhì)量和參考咨詢服務水平。
1.2.2 《中國知識資源總庫》起步,逐步建設(shè)系列知識倉庫
1999年CJN開通之際,即制定了全面打通知識生產(chǎn)、傳播、擴散與利用全過程,建設(shè)中國知識基礎(chǔ)設(shè)施的戰(zhàn)略目標。2002年底,CNKI已經(jīng)整合4000多種重要學術(shù)期刊,建成國內(nèi)首個高質(zhì)量學術(shù)期刊全文檢索與評價數(shù)據(jù)庫《中國期刊全文數(shù)據(jù)庫》。以此為基礎(chǔ),建設(shè)了優(yōu)秀博碩士學位論文、報紙、會議論文、科學文獻、專利、圖書等一系列數(shù)據(jù)庫[12],其中的文獻題錄免費向全社會提供服務。CNKI還陸續(xù)建成醫(yī)院、企業(yè)管理等多領(lǐng)域?qū)I(yè)知識倉庫,為《中國知識資源總庫》的建設(shè)奠定了基礎(chǔ)。
CNKI相當于一個專業(yè)文獻的數(shù)字圖書館,圖書館引進CNKI不僅可以滿足讀者檢索和閱覽需求,還可以利用光盤或網(wǎng)絡向單位內(nèi)部和社會提供咨詢等服務。CNKI通過檢索咨詢站和鏡像站點,迅速在全國圖書情報界建立起完善的知識服務網(wǎng)絡,在一定程度上促進了這個時期圖書館電子閱覽室的建設(shè),也加快了圖書館資源數(shù)字化進程。
早在20世紀60年代,袁翰青便指出對文獻中新發(fā)現(xiàn)的知識進行組織,可以深化到文獻中的數(shù)據(jù)、公式、事實、結(jié)論等細粒度的“知識元”[20]。21世紀初期,圖書館界開始關(guān)注知識服務,而知識元是數(shù)字圖書館知識構(gòu)建的基礎(chǔ)。
1.3.1 CNKI問世,實現(xiàn)知識檢索細粒度
CNKI一直致力于知識元的構(gòu)建,2003年《中國期刊網(wǎng)》正式更名為中國知網(wǎng)(www.cnki.net),《中國知識資源總庫》建設(shè)工程初具規(guī)模。CNKI依據(jù)嚴格的標準數(shù)字化加工流程,整合文獻數(shù)據(jù)庫、專業(yè)知識倉庫、知識元庫,并以知識元庫和引文鏈接等方式組成知識網(wǎng)絡系統(tǒng)。到2010年,CNKI建成“概念、原理、方法”“圖形圖像”“科學數(shù)據(jù)”“社會經(jīng)濟統(tǒng)計數(shù)據(jù)”“社會發(fā)展事件事實”等知識元數(shù)據(jù)庫,以及涵蓋各學科300萬詞條的概念關(guān)系詞典,并以此為基礎(chǔ)發(fā)布全球首個知識元搜索系統(tǒng),實現(xiàn)了學術(shù)資源深度聚合和知識的細粒度檢索。
1.3.2 深度整合,開發(fā)數(shù)據(jù)庫系列產(chǎn)品
2004年CNKI開始整合百科全書、詞典和專科辭典等資源,出版了我國首個《工具書數(shù)據(jù)庫》,并將其中的概念、圖片、數(shù)字和圖表等進行詳細標引,為讀者提供增值服務[21]。2006年10月,CNKI又根據(jù)讀者層次和產(chǎn)品用途將《中國期刊全文數(shù)據(jù)庫》分為學術(shù)、高教等9種期刊數(shù)據(jù)庫產(chǎn)品,并以網(wǎng)絡出版方式經(jīng)營。除收錄學術(shù)期刊外,CNKI還收錄了黨建期刊、政報公報等8種非學術(shù)期刊文獻,并建立對應數(shù)據(jù)庫。2008年CNKI首次發(fā)布能源電力、黨政、法律等20多個企業(yè)知識倉庫。
1.3.3 建成中國學術(shù)期刊的權(quán)威性文獻檢索工具和網(wǎng)絡出版平臺
2006年《中國知識資源總庫》被確定為學術(shù)期刊的權(quán)威性文獻檢索工具。這不僅標志著CNKI進入規(guī)?;l(fā)展階段,也意味著我國學術(shù)期刊數(shù)字化、網(wǎng)絡化建設(shè)的目標基本實現(xiàn),具有自主知識產(chǎn)權(quán)的文獻檢索、知識挖掘、文獻評價研究等系統(tǒng)和數(shù)字化學習與研究平臺達到領(lǐng)先水平[22]。
1.3.4 網(wǎng)絡出版物產(chǎn)品進入標準化時代
隨著出版社數(shù)字化意識的覺醒,大量數(shù)字出版產(chǎn)品問世[7]。為實現(xiàn)資源開發(fā)系統(tǒng)化、標準化,規(guī)范數(shù)字產(chǎn)品的出版,CNKI于1998年7月啟動中國學術(shù)電子期刊標準化數(shù)據(jù)庫系統(tǒng)工程[23],并在2005年參照相關(guān)技術(shù)標準和傳統(tǒng)出版物的產(chǎn)品標準,制定了國際國內(nèi)首部公開發(fā)表的連續(xù)型電子與網(wǎng)絡出版物產(chǎn)品標準——《CNKI系列數(shù)據(jù)庫產(chǎn)品與技術(shù)服務標準》,從全文數(shù)據(jù)庫基本屬性、產(chǎn)品用途、內(nèi)容、結(jié)構(gòu)、功能與性能6個方面規(guī)范出版產(chǎn)品、確保產(chǎn)品質(zhì)量[24],體現(xiàn)了文獻數(shù)據(jù)的規(guī)范化和標準化,為圖書館數(shù)字資源建設(shè)質(zhì)量保駕護航,為知識信息的傳播和利用打下良好基礎(chǔ),象征著網(wǎng)絡出版物產(chǎn)品進入標準化時代。
計算機和互聯(lián)網(wǎng)的普及、國際交流增強,使得讀者對于國外資源的使用需求逐步提升。讀者開始質(zhì)疑圖書館參考咨詢服務的內(nèi)容和形式,圖書館亦開始重新審視自身在數(shù)字環(huán)境中的價值和地位,并重視國外學術(shù)資源的采購,通過大規(guī)模應用新技術(shù)和新理念以滿足讀者訴求。
1.4.1 重視信息服務國際合作
CNKI不僅注重國內(nèi)信息資源開發(fā),也重視與國外大型出版商建立聯(lián)系。根據(jù)國內(nèi)用戶需要篩選和統(tǒng)一引進海外文獻資源,利用自身平臺和服務體系在網(wǎng)上代理發(fā)行國外數(shù)據(jù)庫。2008年CNKI與德國Springer出版集團合作,將雙方數(shù)據(jù)庫整合并在CNKI知識服務平臺發(fā)布,開啟國際合作新紀元[25]。隨后英國Taylor&Francis出版社、劍橋大學出版社,美國大英百科全書出版集團、ProQuest信息公司等國外出版機構(gòu)紛紛與CNKI簽約,整合雙方資源。CNKI此舉方便了我國廣大用戶以最低的成本和便捷的方式利用國外數(shù)據(jù)庫。與此同時,CNKI積極響應政府“走出去”戰(zhàn)略,注重學術(shù)期刊、產(chǎn)品市場推廣國際化。2010年,CNKI開始建設(shè)中國學術(shù)文獻全球營銷網(wǎng)絡平臺,在美國、德國等地建成8個境外鏡像網(wǎng)站[26],我國學術(shù)成果、產(chǎn)品開始逐步走向境外知名大學、研究機構(gòu)、政府等單位。一系列國際合作表明,CNKI數(shù)字資源整合出版與服務模式受到了國際同行的認同,而CNKI遍及世界各地的用戶也意味著我國知識信息資源實現(xiàn)了互聯(lián)網(wǎng)條件下的國際化傳播。
1.4.2 開拓科技信息服務新領(lǐng)域
2008年蘋果公司推出iPhone后,智能手機、移動終端層出不窮,社會進入移動互聯(lián)網(wǎng)時代。移動互聯(lián)網(wǎng)帶來的時間碎片利用是社會和圖書館界共同思考的問題。為提高服務的針對性和個性化,精準把握讀者訴求,CNKI面向用戶開展各種增值知識服務,如科技查新、參考咨詢、定題服務、知識比較與評價、知識推送。
在大數(shù)據(jù)時代,海量數(shù)據(jù)的產(chǎn)生、采集、存儲、智能化、可視化呈現(xiàn)以及大數(shù)據(jù)技術(shù)的廣泛應用,給數(shù)據(jù)庫行業(yè)、圖書館界帶來巨大的發(fā)展機遇和挑戰(zhàn),雙方開始意識到知識服務的重要性,推出相應的知識獲取、知識管理等服務。
1.5.1 借助優(yōu)勢,推進知識管理與服務
2013年CNKI重構(gòu)工程技術(shù)與產(chǎn)業(yè)體系,突破復雜數(shù)據(jù)自動加工、大數(shù)據(jù)分析、隱性知識顯性化等重要環(huán)節(jié)關(guān)鍵技術(shù),打造了120多個行業(yè)平臺,確立了數(shù)字出版、知識管理、知識服務、信息化教育四大主營產(chǎn)業(yè)方向,大力推進面向創(chuàng)新和創(chuàng)新人才培養(yǎng)的精準知識服務。憑借其在知識管理和知識服務領(lǐng)域多年的研究和實踐,針對用戶科研創(chuàng)新和技術(shù)創(chuàng)新過程,2015年CNKI推出基于大數(shù)據(jù)研究范式的機構(gòu)知識管理系統(tǒng)(Organization Knowledge Manage System,OKMS),該系統(tǒng)融合機構(gòu)內(nèi)外大數(shù)據(jù)知識資源,提供集知識管理、大數(shù)據(jù)分析、協(xié)同研究、協(xié)同創(chuàng)新、項目管理、人才體系構(gòu)建、科研評價與成果轉(zhuǎn)化于一體的知識創(chuàng)新服務支撐平臺。2016年,CNKI基于XML碎片化、增強出版、知識重組、知識網(wǎng)絡構(gòu)建等技術(shù),推出CNKI研究型協(xié)同學習平臺(簡稱“研學平臺”),提供“閱讀、思考、表達、寫作”四位一體的深度閱讀學習平臺,服務于個人探究式學習平臺、知識體系構(gòu)建,以及創(chuàng)新人才培養(yǎng)。
1.5.2 面向需求,實現(xiàn)移動知識服務
2014年CNKI打造了移動知識服務平臺《全球?qū)W術(shù)快報》,收錄了中國90%以上的知識資源、2億多篇外文文獻,具備一站式中英文檢索、個性化定制、精準推送、熱點追蹤和流式閱讀等功能,為用戶創(chuàng)造了一個移動的科研創(chuàng)新環(huán)境,使其成為真正的“口袋圖書館”“口袋研學系統(tǒng)”。這個時期,CNKI一方面把各領(lǐng)域事實信息整合起來,使內(nèi)容資源日益完備,另一方面用人工智能對文獻內(nèi)容與形式屬性進行精確的多維度標引,使文獻檢索結(jié)果盡可能精準和完整,情報分析盡可能全面和系統(tǒng)。知識管理平臺、移動服務平臺與協(xié)同服務平臺,分別對應知識獲取、知識組織與知識創(chuàng)新3個層次的服務,提升了圖書館對終端讀者的精準服務能力。
從CAJ-CD立項開始,CNKI就一直堅持自主研發(fā)的戰(zhàn)略,這成為CNKI發(fā)展進程的一大特點。由于多年來堅持不懈地加強技術(shù)研發(fā)投入,實現(xiàn)多項技術(shù)突破,取得大量的技術(shù)成果,僅2009-2018年間,CNKI獲得專利達200多項。
1995年CNKI自主研究中文信息處理,并成功自主研發(fā)中文全文檢索技術(shù)、中英文混合全文檢索技術(shù),解決用戶對文獻信息和知識獲取全面性和準確性的需求。
2002年開始,CNKI嘗試把散落的知識通過微觀水平上的聯(lián)系組建“知識網(wǎng)絡”,并把關(guān)聯(lián)的知識網(wǎng)絡節(jié)點稱為知網(wǎng)節(jié)。CNKI在此基礎(chǔ)上自主研發(fā)出其核心檢索技術(shù)——知網(wǎng)節(jié)技術(shù),構(gòu)建了文獻知識網(wǎng)絡,揭示文獻之間的多種邏輯關(guān)系;同時為用戶提供了集文獻信息加工、標引、分類發(fā)布于一體的文獻自動化管理TPI系統(tǒng)。
2004年,CNKI研發(fā)了以自然語言分析技術(shù)為核心的技術(shù)體系,并發(fā)布我國第一套醫(yī)學專業(yè)主題詞、分類號一體化標引和智能檢索系統(tǒng)。
2006年,基于CNKI知識元抽取和挖掘技術(shù),發(fā)布CNKI概念、術(shù)語、方法、數(shù)值、公式、圖形、表格等知識元搜索工具及翻譯助手。
2008年,CNKI研制成功基于語義的自適應多階數(shù)字指紋特征檢測技術(shù),并發(fā)布“學術(shù)不端文獻檢測系統(tǒng)”。
2009年,CNKI研制成功基于讀者學習需求驅(qū)動的智能推薦技術(shù),并發(fā)布“研究型個人數(shù)字圖書館”和面向創(chuàng)新的“數(shù)字化學習和研究平臺”。
2010年,CNKI制定資源國家化戰(zhàn)略,提出“深化整合中外資源,服務高端科技創(chuàng)新”,研發(fā)了外文本體詞庫、相關(guān)文獻關(guān)聯(lián)技術(shù)、內(nèi)容深度挖掘系統(tǒng)等。自主開發(fā)NXD(Native XML Database)數(shù)據(jù)庫,全面開展資源的XML化加工,為知識元的動態(tài)重組出版提供資源和技術(shù)支持。
2011年,CNKI啟動知識服務戰(zhàn)略,提出決策知識結(jié)構(gòu)5W2H(What、Why、When、Who、Where、How、How About),開發(fā)文獻碎片化、數(shù)據(jù)XML化、NXD數(shù)據(jù)庫與動態(tài)重組、文獻與段落主題標引、5W2H標引、智能問答技術(shù)等,為用戶提供知識服務和移動化服務。
2012年,CNKI研制成功云出版技術(shù),發(fā)布書報刊全流程數(shù)字化“騰云數(shù)字出版平臺”,推出增強出版、數(shù)據(jù)出版等多種新型出版形態(tài),打通了知識生產(chǎn)、傳播全流程。
2015年,CNKI研制成功基于XML的融媒體協(xié)同編撰技術(shù),并推出基于大數(shù)據(jù)研究范式的機構(gòu)知識管理與協(xié)同創(chuàng)新平臺。
2017年,CNKI突破檢索領(lǐng)域“檢全率”和“檢準率”不能兼顧、“時間排序”和“主題排序”無法二維兼容的技術(shù)難題,實現(xiàn)主題相關(guān)條件下按時間排序。
2018年,CNKI研制成功基于世界知識大數(shù)據(jù)的知識圖譜智能構(gòu)建技術(shù),發(fā)布“政產(chǎn)學研大數(shù)據(jù)融合應用平臺”。
綜上所述,CNKI核心技術(shù)按照技術(shù)類型可分為7類,具體見表1。這些核心技術(shù)中以智能標引與文獻檢索技術(shù)、知識元自動抽取技術(shù)、XML碎片化技術(shù)、基于深度學習的超大字符OCR技術(shù)和語義相似性檢測技術(shù)為重中之重。
表1 中國知網(wǎng)CNKI核心技術(shù)一覽
XML碎片化技術(shù)能把文獻中具有獨立意義的段落分解出來,除獨立檢索外,還可通過“知網(wǎng)節(jié)”關(guān)聯(lián)構(gòu)成碎片化內(nèi)容的知識網(wǎng)絡,形成比“文獻知網(wǎng)節(jié)”內(nèi)容更深、使用更為方便的探究式學習工具。知識元自動抽取技術(shù)則是在XML碎片化的基礎(chǔ)上,從海量文章中抽取概念、原理、公式和圖形等知識元,加以清洗、規(guī)范和組織,分類建成各種專業(yè)知識庫。CNKI在這兩種技術(shù)基礎(chǔ)上構(gòu)建了XML碎片化加工系統(tǒng),縮短了資源的結(jié)構(gòu)化加工時間,可以同時標引整刊數(shù)據(jù)和篇名、作者、關(guān)鍵詞、摘要等篇源數(shù)據(jù),也能從全文中一次性提取章節(jié)、段落以及表格公式,工作人員只需對標引結(jié)果進行校對即可。經(jīng)測試,一本期刊只需20多秒即可完成內(nèi)容提取,自動標引正確率達到96.5%。該系統(tǒng)在第六屆中國數(shù)字出版博覽會上獲得“數(shù)字出版創(chuàng)新技術(shù)獎”,目前《圖片知識數(shù)據(jù)庫》《統(tǒng)計年鑒數(shù)據(jù)庫》都是基于此技術(shù)開發(fā)。此外,CNKI進一步開發(fā)了知識圖譜智能構(gòu)建技術(shù),該技術(shù)獲得2019年中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會領(lǐng)先科技成果“優(yōu)秀項目獎”,已應用于貴州省“一云一網(wǎng)一平臺”。
基于深度學習的超大字符集OCR技術(shù)采用深度學習等人工智能技術(shù),針對包括中文簡體、繁體、古籍中大量的異體字、少數(shù)民族文字在內(nèi)的超大字符集,實現(xiàn)高精度的智能OCR,漢字識別準確率可以達到99.95%。采用此技術(shù)識別后,其內(nèi)容無需再進行編改,利用率大幅提高。
語義相似性檢測技術(shù)是通過計算機自動查找相似文檔,發(fā)現(xiàn)剽竊行為。其原理是通過計算可疑文檔與參照文檔之間的相似程度來判斷可疑文檔是否存在抄襲,通過構(gòu)建語義網(wǎng)絡,在語義空間里計算語義距離來衡量相似度,以判斷論文是否重復。
多年來,CNKI依托文獻加工自動化技術(shù)和中文全文檢索技術(shù)等核心技術(shù),形成了完整的技術(shù)體系和研發(fā)體系,不僅為公司產(chǎn)品和服務提供支持,還為包括科研領(lǐng)域在內(nèi)的各行業(yè)提供了信息化的技術(shù)、產(chǎn)品和服務,為圖書館知識基礎(chǔ)設(shè)施提供了強有力的技術(shù)支持,加快了圖書館信息化的進程,提升了文獻信息化和知識化水平,促使圖書館從傳統(tǒng)以藏書為主的信息機構(gòu)轉(zhuǎn)變?yōu)檫m應社會發(fā)展需要的知識服務機構(gòu)。
2007年前后,國際許多著名期刊幾乎消滅了出版時滯[15]。盡管我國互聯(lián)網(wǎng)期刊出版產(chǎn)業(yè)發(fā)展增速較快,但大部分仍停留在紙刊數(shù)字化后再上網(wǎng)的模式,增加了出版時滯,大大影響了科研成果的首創(chuàng)價值和利用價值,降低了科研人員、期刊的創(chuàng)新競爭力、影響力和國際競爭力。
CNKI一直致力于期刊出版模式革新。1998年6月創(chuàng)辦我國第一個電子期刊出版機構(gòu)——《中國學術(shù)期刊(光盤版)》電子雜志社[10],創(chuàng)立了學術(shù)期刊全文數(shù)字出版運營模式,成為世界上第一個與紙本期刊同步出版的數(shù)據(jù)庫電子期刊。1999年CNKI自主研發(fā)了第一代網(wǎng)絡出版技術(shù)KNS系統(tǒng),發(fā)布了學術(shù)期刊“采編發(fā)網(wǎng)絡平臺”1.0、學術(shù)研究平臺1.0,利用網(wǎng)絡打通了我國知識生產(chǎn)、傳播、擴散、利用的各個環(huán)節(jié)。
為縮短并最終消滅出版時滯,提高我國科研成果的首創(chuàng)價值,推動學術(shù)期刊出版數(shù)字化轉(zhuǎn)型,CNKI建成“學術(shù)期刊、會議論文優(yōu)先數(shù)字出版平臺”(2008年)、“中國知網(wǎng)學術(shù)期刊優(yōu)先數(shù)字化出版平臺”(2010年)、“騰云期刊協(xié)同采編系統(tǒng)”(2012年)、“騰云期刊數(shù)字復合出版系統(tǒng)”(2012年)、“騰云全媒體數(shù)字復合系統(tǒng)”(2012 年)。
鑒于學術(shù)不端現(xiàn)象愈演愈烈,2006年9月14日,科學技術(shù)部審議通過《國家科技計劃實施中科研不端行為處理辦法(試行)》[27]。2008年,CNKI啟動“科技期刊學術(shù)不端文獻檢測系統(tǒng)(AMLC)”和“社科期刊學術(shù)不端文獻檢測系統(tǒng)(SMLC)”的研發(fā)。2008年12月,學術(shù)不端監(jiān)測系統(tǒng)正式上線,達到大規(guī)模實用化的成熟程度,系統(tǒng)采用自適應多階段數(shù)字指紋特征對PDF、CAJ、DOC、TXT等格式文件及其壓縮包進行檢測,以《中國知識資源總庫》和Springer、Taylor&Francis期刊數(shù)據(jù)庫、互聯(lián)網(wǎng)資源、優(yōu)先出版文獻庫、互聯(lián)網(wǎng)文檔等資源作為對比庫,依托文獻和圖表相似性開展重復率表征和檢測,具備文獻檢測、黑名單管理、問題文獻管理、檢測報告自動生成、原文在線檢測比對等多項功能,僅需幾秒鐘就可以完成一篇學術(shù)論文的檢測工作。
期刊編輯部使用學術(shù)不端檢測系統(tǒng)可快速檢測編輯部來稿和已發(fā)表的論文是否存在學術(shù)不端問題。不僅如此,學術(shù)不端檢測系統(tǒng)還在學位論文管理、科研項目立項驗收、職稱評審等方面充當重要角色,能有效提高學術(shù)出版的文獻質(zhì)量和科研隊伍的基本素質(zhì),促進學風建設(shè)。
2017年10月16日,CNKI聯(lián)合436家學術(shù)期刊編輯部發(fā)布“學術(shù)論文錄用定稿網(wǎng)絡首發(fā)聯(lián)合公告”,啟動網(wǎng)絡首發(fā)模式,將已經(jīng)同行評議審定、編輯部錄用的文章先在學術(shù)期刊平臺上第一次發(fā)表,再進行紙版印刷,進一步提高了我國學術(shù)科研成果的發(fā)表時效。2017年7月11日,《中國學術(shù)期刊(網(wǎng)絡版)》出版?zhèn)鞑テ脚_(CAJ-NP)發(fā)布,打通了編輯出版、作者服務、網(wǎng)絡傳播、讀者應用的全流程,實現(xiàn)了知識生產(chǎn)、管理、傳播、擴散、利用的各環(huán)節(jié)與過程全覆蓋。網(wǎng)絡首發(fā)能加速科研成果的生產(chǎn)力轉(zhuǎn)化;對于保障作者首發(fā)和原創(chuàng)權(quán)益,提高科技期刊的品牌價值和學術(shù)影響力具有重要意義[27]。這一系列平臺和系統(tǒng),不僅打通了期刊出版的上下游,優(yōu)化數(shù)字化出版流程,提高了期刊出版的時效性和影響力,而且意味著我國初步實現(xiàn)期刊由傳統(tǒng)印刷模式向數(shù)字化模式轉(zhuǎn)型,對于推動我國數(shù)字圖書館進程具有重要作用。
4.1.1 堅持自主研發(fā)核心技術(shù),符合國家戰(zhàn)略
CNKI始終堅持自主研發(fā)核心技術(shù),一方面能確保技術(shù)的可控性,及時提升技術(shù)能力和水平,更快、更好地滿足用戶迅速增長的功能、性能需求,提高產(chǎn)品服務質(zhì)量和用戶滿意度,保證公司長遠發(fā)展;另一方面能保持我國數(shù)字出版與信息服務產(chǎn)業(yè)的獨立性和國際先進性,符合國家發(fā)展戰(zhàn)略。
4.1.2 對圖書館資源數(shù)字化貢獻巨大,推動圖書館地位變化
CNKI不斷提升對讀者的精準服務能力,促進圖書館從知識獲取、知識組織與知識創(chuàng)新三個層次為讀者提供服務。早期CNKI順應了文獻資源數(shù)字化的發(fā)展趨勢,不僅豐富了館藏資源,解決了館舍緊張的問題,提高了圖書館服務質(zhì)量和參考咨詢服務水平,而且其期刊統(tǒng)計評價功能為圖書館采購印本期刊提供了依據(jù),使有限的購書經(jīng)費發(fā)揮最大作用。后期CNKI通過出版平臺與圖書館的深度融合,把圖書館從傳統(tǒng)角色定位發(fā)展成適應社會發(fā)展需要的知識服務機構(gòu),不斷推動圖書館地位的變化。
4.1.3 革新數(shù)字出版模式,加速科研成果傳播
CNKI關(guān)注期刊出版模式的變革與技術(shù)進步,打通了期刊出版“采編發(fā)”全流程,推動我國期刊由傳統(tǒng)印刷模式向數(shù)字化模式轉(zhuǎn)型;注重學風建設(shè),研發(fā)學術(shù)不端檢測系統(tǒng),確保學術(shù)成果質(zhì)量。率先提出優(yōu)先出版、網(wǎng)絡首發(fā)等出版方式,不僅加速科研成果向現(xiàn)實生產(chǎn)力的轉(zhuǎn)化,而且有利于保障作者首發(fā)和原創(chuàng)的權(quán)益,提高期刊的品牌價值和學術(shù)影響力。
4.1.4 推動知識生產(chǎn)與傳播的上下游產(chǎn)業(yè)鏈融合發(fā)展
從服務科研、服務讀者、服務創(chuàng)新的意義上講,出版與圖書館的目標是一致的,利益是相關(guān)的,是唇齒相依、生死與共的關(guān)系。CNKI努力破解數(shù)字出版產(chǎn)業(yè)化發(fā)展難題,積極探索符合我國國情的數(shù)字出版與數(shù)字圖書館融合發(fā)展產(chǎn)業(yè)運營模式,為從根本上解決數(shù)字出版與傳統(tǒng)出版、數(shù)字出版與數(shù)字圖書館在生與死、價值與價格等方面的矛盾開辟了新的發(fā)展途徑。
4.1.5 堅持依法合理解決版權(quán)問題,構(gòu)建健康的產(chǎn)業(yè)發(fā)展生態(tài)
從1995年創(chuàng)辦伊始,CNKI即以高度負責的態(tài)度認真解決版權(quán)問題,不惜成本與全國數(shù)以萬計的各類機構(gòu)和組織簽訂合作協(xié)議,并通過這些機構(gòu)取得作者授權(quán),每年結(jié)算和支付著作權(quán)使用費,并免費提供個人使用的檢索卡。這在當時環(huán)境下十分難能可貴。此后20多年CNKI始終堅持此項版權(quán)策略,對構(gòu)建我國數(shù)字出版與數(shù)字圖書館的良好產(chǎn)業(yè)生態(tài)、保證上下游健康可持續(xù)共同發(fā)展起到了極為重要的作用。
文獻數(shù)據(jù)庫作為新生事物給圖書情報界帶來眾多便利的同時,其發(fā)展和服務模式也存在一些弊端。CNKI作為文獻數(shù)據(jù)庫行業(yè)中的翹楚,在發(fā)展過程中也需要不斷完善,解決存在的問題。必須指出的是,科學合理的定價、上下游利益的平衡、對作者的良好服務、著作權(quán)使用行為的規(guī)范與法規(guī)等是整個數(shù)據(jù)庫產(chǎn)業(yè)鏈各環(huán)節(jié)都需要從根本上解決的問題,也是政府需要高度重視和盡快出臺相關(guān)政策法規(guī)的全局性大事。
4.2.1 完善價格體系,方便圖書館精準選購
CNKI擁有豐富的學術(shù)資源,其檢索、排序、知識關(guān)聯(lián)等研究學習功能優(yōu)于同類產(chǎn)品,因此深受讀者的喜愛。經(jīng)調(diào)研,其在國內(nèi)外知識資源的深度挖掘、廣度整合、高度凝聚以及知識管理與服務系統(tǒng)研發(fā)、運維方面持續(xù)不斷的高投入,是造成其比國內(nèi)同類數(shù)據(jù)庫價格更高的主要原因。2016年3月北京大學圖書館宣布即將停用CNKI,稱“由于數(shù)據(jù)庫上漲價過高,圖書館目前正在全力與對方進行2016年的續(xù)訂判斷”;2016年4月有報道稱“CNKI學術(shù)期刊數(shù)據(jù)庫價格漲幅每年都在10%以上……”[28]。同方知網(wǎng)副總經(jīng)理單清龍對筆者表示,經(jīng)核實CNKI學術(shù)期刊數(shù)據(jù)庫2012-2016年價格平均增幅為6.8%,媒體報道提及的用戶是誤將購買新產(chǎn)品的費用,計算到續(xù)訂數(shù)據(jù)庫價格之內(nèi)。雖然個別報道缺乏深入調(diào)查或以一概全,有些用戶單純以文獻量衡量價格等,但其價格的確給一些圖書館造成較大負擔,一直受到圖書館詬病。因此,如何結(jié)合圖書館當前情況、地域差別等,制定科學的價格體系是CNKI必須解決的問題,比如以單刊選購的模式使圖書館選購更精準,或區(qū)分文獻量、適當考慮GDP上漲等因素制定價格等。
4.2.2 上下游利益和各自發(fā)展要求還不夠平衡
CNKI作為出版產(chǎn)業(yè)與圖書情報業(yè)的橋梁和紐帶,應合理平衡上下游利益和各自發(fā)展要求,致力于打通知識生產(chǎn)、傳播、應用全過程。毋庸置疑,紙質(zhì)出版的大幅下滑源于數(shù)字出版的發(fā)展。拋開功能不說,數(shù)據(jù)庫的價格遠遠低于相應紙質(zhì)出版物的總價,這是我國學術(shù)期刊數(shù)據(jù)庫與期刊出版產(chǎn)業(yè)經(jīng)營相脫離、圖書館紙刊與期刊數(shù)據(jù)庫采購預算機制相脫離造成的消極后果,使整個產(chǎn)業(yè)鏈存在不可持續(xù)發(fā)展風險。CNKI作為供需兩側(cè)的紐帶,應積極推動出版?zhèn)鞑ス┙o側(cè)、圖書情報需求側(cè)的結(jié)構(gòu)化調(diào)整,科學建立平衡上下游的商業(yè)模式與運營模式,保證我國知識傳播服務業(yè)的健康穩(wěn)定發(fā)展。
4.2.3 在兼顧各方效益的同時加強對作者的服務
在知識資源采集方面,CNKI通過銷售收入分成、保底分成、約定稿酬等著作權(quán)使用費制度收錄知識資源,通過出版單位、學位授予單位等取得作者授權(quán)和支付作者稿酬。這種模式始于CNKI創(chuàng)辦的1995年,是解決海量數(shù)據(jù)庫和建設(shè)國家戰(zhàn)略性知識資源體系的可行與合法之策。目前CNKI每年支付的著作權(quán)使用費已超過總收入的30%,但相對于出版者提供的海量文獻而言,數(shù)字出版給予原出版者的版權(quán)回報顯然不足以支持出版者以市場主體地位生存和發(fā)展,各編輯部在實際履約過程中也存在各種問題和困難。盡管CNKI做了各種努力,包括為期刊免費提供文獻服務;為作者提供檢索卡;投入大量研發(fā)力量開發(fā)采編發(fā)系統(tǒng),為期刊轉(zhuǎn)型升級、提高出版質(zhì)量和作者創(chuàng)作投稿提供服務等,絕大多數(shù)以傳播科研成果、提升學術(shù)影響力為目的的學術(shù)文獻作者對此給予了理解和認可,但少數(shù)作者與CNKI就稿酬問題仍存在爭議。近10年來,就這個問題被作者起訴的案件有10余起[29]。尤其是2019年2月翟天臨學術(shù)不端事件成為輿論焦點后,CNKI也成為社會熱點,一些人借此機會討論CNKI支付給著作權(quán)人的稿酬問題[30]。筆者認為,雖然CNKI與期刊編輯部制定了由編輯部向作者支付稿酬的制度,但應對執(zhí)行情況進行嚴格監(jiān)督,徹底規(guī)范期刊的作者稿酬制度,消除由此造成的不良影響,并進一步加強對作者的相關(guān)服務,更全面地支持作者學術(shù)創(chuàng)新國際競爭能力的提高。
CNKI自1995年成立以來始終秉承“為提升我國創(chuàng)新能力與文化軟實力服務”的宗旨,致力于國內(nèi)外優(yōu)質(zhì)出版知識資源的開發(fā)利用與傳播,堅持大數(shù)據(jù)與互聯(lián)網(wǎng)條件下的知識生產(chǎn)、傳播與利用模式創(chuàng)新,致力于海內(nèi)外期刊、博碩論文、報紙、會議論文、圖書、年鑒、統(tǒng)計數(shù)據(jù)等文化、教育文獻資源的集成化數(shù)字出版、傳播與內(nèi)容增值服務及相關(guān)軟件技術(shù)開發(fā)。多年來,研發(fā)了基于內(nèi)容的智能碎片化、XML智能標引、協(xié)同技術(shù)、語義分析、圖像處理及檢索、數(shù)據(jù)挖掘、人工智能等自主知識產(chǎn)權(quán)核心技術(shù),逐步發(fā)展成為我國數(shù)字出版、知識服務、信息化教育服務領(lǐng)域的領(lǐng)軍企業(yè),以實際行動逐步推動我國數(shù)字圖書館事業(yè)進程。面對激烈的國際競爭,CNKI自主研發(fā)的核心技術(shù)對于推動我國自主的科技創(chuàng)新具有重要意義,特別是網(wǎng)絡首發(fā)模式對于加快創(chuàng)新科技成果轉(zhuǎn)化作用凸顯,將有效提高我國的科技競爭力和國際地位。盡管中國知網(wǎng)在發(fā)展過程中出現(xiàn)了各種歷史遺留或新形勢催生的問題,但其對圖書館、出版行業(yè)的積極影響卻不可磨滅。未來在服務創(chuàng)新和學習創(chuàng)新的目標下,學術(shù)文獻出版、傳播與利用各方共同努力、協(xié)同運行,一定能構(gòu)建更科學、更具活力的合作共贏機制,更好地推動我國圖書館事業(yè)的發(fā)展。
注釋
①2017年12月12日,重慶大學圖書館館長楊新涯在西南大學舉行的“川渝情報研究會”上所作題為《大學圖書館新趨勢》的報告中指出,《中國學術(shù)期刊(光盤版)》的發(fā)布是我國進入數(shù)字圖書館時代的標志和里程碑。