張瑞紅,劉永革
(安陽(yáng)師范學(xué)院 甲骨文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,河南 安陽(yáng) 455000)
甲骨檔案是目前我國(guó)可見(jiàn)的最古老的檔案實(shí)物,是鐫刻于龜甲與獸骨上,記錄殷商和西周早期上至國(guó)家政事、農(nóng)事、征伐,下至王室祭祀、狩獵、巡游、疾病、生育等重要事宜的檔案(1)王永:《論甲骨檔案的學(xué)術(shù)價(jià)值——紀(jì)念甲骨檔案發(fā)現(xiàn)一百周年》,《浙江檔案》1999第3期。;所記錄文字——甲骨文,也是目前我國(guó)發(fā)現(xiàn)的最早的成系統(tǒng)的文字。研究甲骨文是挖掘甲骨檔案,近距離觀察殷商和西周早期社會(huì),了解中國(guó)上古史和早期國(guó)家社會(huì)形態(tài)的重要前提。2014年5月30日,習(xí)近平總書(shū)記在北京視察工作中指出:“中國(guó)字是中國(guó)文化傳承的標(biāo)志,殷墟甲骨文距離現(xiàn)在3000多年,3000多年來(lái)漢字結(jié)構(gòu)沒(méi)有變,這種傳承是真正的中華基因。”(2)《習(xí)近平看望少年兒童:精忠報(bào)國(guó)是一生的目標(biāo)》,http://www. xinhuanet.com// politics/ 2014-05/30/ c_11109 43512.htm,2014-5-30。2016年5月17日習(xí)近平總書(shū)記在哲學(xué)社會(huì)科學(xué)工作座談會(huì)上的重要講話明確指出:“要重視發(fā)展具有重要文化價(jià)值和傳承意義的‘絕學(xué)’、冷門(mén)學(xué)科,如甲骨文等古文字研究等,要重視這些學(xué)科,確保有人做、有傳承?!?3)《習(xí)近平在哲學(xué)社會(huì)科學(xué)工作座談會(huì)上的講話》,http://politics. people.com.cn/n1/2016/0518/ c1024-28361421-4.html,2016-5-19。2017年甲骨文入選《世界記憶名錄》。2019年11月1日孫春蘭副總理在人民大會(huì)堂主持召開(kāi)“紀(jì)念甲骨文發(fā)現(xiàn)120周年座談會(huì)”,習(xí)近平總書(shū)記發(fā)來(lái)紀(jì)念甲骨文發(fā)現(xiàn)和研究120周年的賀信,談到:“殷墟甲骨文的重大發(fā)現(xiàn)在中華文明乃至人類(lèi)文明發(fā)展史上具有劃時(shí)代的意義。甲骨文是迄今為止中國(guó)發(fā)現(xiàn)的年代最早的成熟文字系統(tǒng),是漢字的源頭和中華優(yōu)秀傳統(tǒng)文化的根脈,值得倍加珍視,更好傳承發(fā)展?!?4)《習(xí)近平致甲骨文發(fā)現(xiàn)和研究120周年的賀信》,http://www.xinhuanet.com/politics/leaders/2019-11/02/ c_1125184398.htm,2019-11-2。給甲骨文研究者極大的鼓勵(lì)與鞭策,甲骨文等古文字研究必將進(jìn)入一個(gè)嶄新的發(fā)展階段,讓‘絕學(xué)’、冷門(mén)學(xué)科蘊(yùn)含的中華優(yōu)秀傳統(tǒng)文化得以更好地傳承和發(fā)展。
為了發(fā)揮甲骨文對(duì)中華優(yōu)秀傳統(tǒng)文化的傳承作用,響應(yīng)中央要求,2016年全國(guó)哲學(xué)社會(huì)科學(xué)規(guī)劃辦公室啟動(dòng)“大數(shù)據(jù)、云平臺(tái)支持下的甲骨文字考釋研究”國(guó)家社科基金重大委托項(xiàng)目,共有9個(gè)子課題獲批立項(xiàng),我校獲批3項(xiàng),筆者所在團(tuán)隊(duì)承擔(dān)了“甲骨文大數(shù)據(jù)云平臺(tái)技術(shù)研究”子課題,該課題預(yù)期目標(biāo)是“三庫(kù)一平臺(tái)”,即建成一個(gè)集甲骨文字形庫(kù)、甲骨著錄庫(kù)(含甲骨綴合庫(kù))、甲骨文獻(xiàn)庫(kù)為一體的數(shù)字化服務(wù)平臺(tái),為甲骨學(xué)專(zhuān)家研究殷商史、考釋甲骨文字、開(kāi)展甲骨綴合等提供快捷、全面的數(shù)字化資源服務(wù),為全面深化甲骨文研究提供信息技術(shù)支持,對(duì)構(gòu)建中國(guó)上古史、文化遺產(chǎn)保護(hù)、文化傳承等具有尤為重要的學(xué)術(shù)價(jià)值和社會(huì)意義。
1.甲骨文研究高度依賴(lài)資源占有量,共享卷帙浩繁的甲骨文資料尤為必要
從1899年王懿榮辨識(shí)出商代晚期龜甲獸骨上的文字開(kāi)始,對(duì)甲骨文的研究成為一些學(xué)者一生孜孜不倦的追求,在甲骨文材料收集、整理、刊布方面付出巨大心血,為研究甲骨學(xué)奠定了堅(jiān)實(shí)的基礎(chǔ)。如今,經(jīng)過(guò)幾代甲骨學(xué)人的不懈努力,甲骨文研究已經(jīng)成為一門(mén)具有嚴(yán)密規(guī)律、有豐富研究資料和多方面研究課題的舉世矚目的國(guó)際性顯學(xué)——甲骨學(xué)。(5)宋鎮(zhèn)豪:《歲末年初對(duì)甲骨學(xué)的思考和期待》,http://cass.cssn.cn/xuebuweiyuan/201812/t20181228_4802379. html,2018-12-28。但是甲骨學(xué)的研究特別是甲骨文字的釋讀不是孤立地以甲骨片上的文字為對(duì)象,而是與古文字學(xué)、考古學(xué)、歷史學(xué)、古代科學(xué)史、歷史文獻(xiàn)學(xué)、人類(lèi)學(xué)等其他相關(guān)學(xué)科緊密聯(lián)系的,(6)江銘虎:《自然語(yǔ)言處理》,高等教育出版社,2006年。甲骨文的研究高度依賴(lài)專(zhuān)家知識(shí),成為一名甲骨文專(zhuān)家可能要付出畢生精力,培養(yǎng)一名甲骨文專(zhuān)家難度可想而知。不說(shuō)甲骨學(xué)專(zhuān)家隱性知識(shí)傳承的難度有多大,僅獲取甲骨學(xué)專(zhuān)家多年研究積累、使用的資料難度就很大。而且甲骨學(xué)研究還是冷門(mén)學(xué)科,除了各大數(shù)據(jù)庫(kù)收錄的文獻(xiàn),早期的研究成果大多分散地收藏在不同的甲骨學(xué)者手中,或者分散地珍藏在不同的圖書(shū)館,特別是一些早期的研究專(zhuān)書(shū)、論文獲取難度和成本很大,所以傳統(tǒng)的資料獲取方式嚴(yán)重地阻礙了甲骨文初學(xué)者的進(jìn)展,對(duì)甲骨學(xué)人才的培養(yǎng)也極為不利,共享甲骨文專(zhuān)家卷帙浩繁的資料尤為必要。
2.甲骨學(xué)深入研究面臨重重困難,借助信息技術(shù)改善傳統(tǒng)研究方式勢(shì)在必行
經(jīng)過(guò)幾代歷史學(xué)家、考古學(xué)家、甲骨學(xué)者的不懈努力,甲骨文研究已經(jīng)取得的豐碩的成果,大大地加深了我們對(duì)殷商和西周早期社會(huì)的認(rèn)識(shí)。但是全面深化研究面臨著許多難題,如甲骨文考釋?zhuān)瑩?jù)統(tǒng)計(jì)目前大約發(fā)現(xiàn)5000多個(gè)甲骨文字,已釋讀的只有約1500字,釋讀新的甲骨文字需要大量的線索,但是出土的約16萬(wàn)片甲骨片分散地收藏在國(guó)內(nèi)外不同的地方;(7)葛亮:《一百二十年來(lái)甲骨文材料的初步統(tǒng)計(jì)》,《漢語(yǔ)漢字研究》2019年第4期。一些早期研究甲骨文的珍貴文獻(xiàn)資料分散在不同的甲骨文專(zhuān)家手中,幾代學(xué)者通過(guò)墨拓、摹繪、照相、文字?jǐn)⑹龅染幾募坠俏闹浀纫慌ぞ邥?shū),購(gòu)買(mǎi)成本昂貴、翻閱不太方便,考釋新字的難度極大。另外已經(jīng)發(fā)表的甲骨片中95%的是碎片,只有將來(lái)源于同一片的甲骨碎片綴合在一起,才能為考釋提供更為完整的信息。甲骨文研究必須依賴(lài)大量的文獻(xiàn)資料,殷墟發(fā)掘90多年也出土了浩如煙海的相關(guān)資料,僅依賴(lài)少數(shù)專(zhuān)家的知識(shí)積累和大腦記憶,在海量的資料中尋找綴合、考釋線索,收效甚微,傳統(tǒng)的研究方法迫切需要借助信息技術(shù)進(jìn)行改善;利用現(xiàn)代信息技術(shù)、人工智能技術(shù)改變傳統(tǒng)研究方式勢(shì)在必行。
因此,為了貫徹習(xí)近平總書(shū)記的講話精神,順應(yīng)文化傳承的新時(shí)代要求,確保甲骨文等古文字研究有人做、有傳承;為了共享卷帙浩繁的甲骨文資料,為后來(lái)研究者提供豐富的資源;為了深挖甲骨文文獻(xiàn)資源的價(jià)值,為甲骨文考釋、綴合提供支持,永久保存甲骨文寶藏,建設(shè)甲骨文文獻(xiàn)數(shù)字化平臺(tái)十分必要。
1.甲骨文文獻(xiàn)資源數(shù)字化平臺(tái)建設(shè)的宗旨
甲骨文文獻(xiàn)資源數(shù)字化平臺(tái)由中國(guó)社會(huì)科學(xué)院學(xué)部委員,中國(guó)社會(huì)科學(xué)院甲骨學(xué)殷商史研究中心主任宋鎮(zhèn)豪先生指導(dǎo)建設(shè),長(zhǎng)期與國(guó)內(nèi)、臺(tái)灣地區(qū)、海外的甲骨文研究領(lǐng)域的知名專(zhuān)家保持聯(lián)絡(luò)與交流,與國(guó)內(nèi)外從事文字計(jì)算研究的科研院所合作,確保甲骨文文獻(xiàn)資源平臺(tái)建設(shè)的權(quán)威性。建設(shè)的宗旨是不遺漏每一部著錄,不錯(cuò)過(guò)每一片甲骨,竭盡全力收集每一部專(zhuān)書(shū)、每一篇文獻(xiàn),以期建成資料最齊全的數(shù)字化平臺(tái);收集甲骨文發(fā)現(xiàn)120年來(lái)所有出版著錄,目前已收集整理甲骨文著錄246部,含大批海外出版著錄、孤本絕本,同時(shí)收集研究文獻(xiàn)29708篇(含專(zhuān)書(shū)282部)。以期建成形式最多樣、內(nèi)容最豐富的資源服務(wù)平臺(tái),甲骨統(tǒng)領(lǐng)、著錄為綱,著錄不僅有拓片、摹本、照片,后期還要加入3D圖像;對(duì)每部著錄中的甲骨片進(jìn)行裁剪、分類(lèi)、存儲(chǔ)和管理,對(duì)甲骨片上的每一個(gè)字進(jìn)行截取,做到清楚每一片甲骨的身世,精細(xì)到每一片甲骨上的字,建立甲骨片、著錄關(guān)聯(lián)信息,建立甲骨文字、文獻(xiàn)關(guān)聯(lián)信息,為后期實(shí)現(xiàn)人工智能技術(shù)輔助甲骨文研究提供智能化知識(shí)服務(wù)奠定基礎(chǔ)。
2.甲骨文文獻(xiàn)資源數(shù)字化平臺(tái)——三庫(kù)一平臺(tái)
(1)甲骨文字形庫(kù)
甲骨文數(shù)字化的首要任務(wù)是建立甲骨文字形庫(kù),這是實(shí)現(xiàn)甲骨文字在計(jì)算機(jī)中編輯、輸入的基礎(chǔ),但是甲骨文字不像現(xiàn)在的漢字具有統(tǒng)一的標(biāo)準(zhǔn)規(guī)范,尤為復(fù)雜,如異體字、合體字較多,還有約三分之二未識(shí)字,所以甲骨學(xué)者對(duì)甲骨文字形的認(rèn)同也存在差異。(8)栗青生、吳琴霞、楊玉星:《甲骨文字形動(dòng)態(tài)描述庫(kù)及其字形生成技術(shù)研究》,《北京大學(xué)學(xué)報(bào)(自然科學(xué)版)》2013年第1期。影響較大的是香港中文大學(xué)沈建華等確定的包括異體字在內(nèi)的六千多個(gè)甲骨文字形。(9)沈建華、曹錦炎:《新編甲骨文字形總表》,香港中文大學(xué)出版社,2001年。以沈建華的甲骨文字形為參考,結(jié)合前人研究成果,在甲骨文專(zhuān)家指導(dǎo)下,收集整理已發(fā)現(xiàn)的全部甲骨文字(包括異形體)。團(tuán)隊(duì)中既懂甲骨文又會(huì)甲骨文書(shū)法的專(zhuān)業(yè)人士,參考原片逐字核對(duì)校驗(yàn),修改誤摹、誤收、重收及衍生字頭與字形,合理調(diào)整部首與歸部,正確處理異形字的分列與歸并,形成一份綜合各家之長(zhǎng)又有所修訂與補(bǔ)正的獨(dú)立的甲骨文字形表,用毛筆書(shū)寫(xiě)了甲骨文字形,包括172個(gè)部首和4049個(gè)甲骨文單字,具體見(jiàn)圖1:甲骨字形庫(kù),提供了輸入單字、拼音和句子三種檢索方式。在甲骨字形庫(kù)的基礎(chǔ)上,研制了在線手寫(xiě)甲骨文輸入法、筆畫(huà)輸入法、拼音輸入法、部首輸入法等,以滿(mǎn)足各類(lèi)用戶(hù)的甲骨文獻(xiàn)編輯、輸入和信息檢索的要求。
圖1 甲骨文字形庫(kù)
(2)甲骨著錄庫(kù)(含甲骨綴合庫(kù))
①甲骨著錄庫(kù)
甲骨著錄是甲骨學(xué)者在搜集、整理甲骨片的過(guò)程中,采用墨拓(拓片)、摹繪(摹本)、照相、文字?jǐn)⑹龅确绞剑瑢⒓坠俏目陀^地復(fù)原后刊布出來(lái),并記錄有甲骨形狀、卜甲與卜骨上的卜兆和鉆鑿、甲骨上雕刻的花紋等信息的資料。(10)顧紹通:《甲骨文數(shù)字化處理研究述評(píng)》,《西華大學(xué)學(xué)報(bào)(自然科學(xué)版)》2010年第5期。1903年劉鶚從搜集到的甲骨片中精選墨拓了1058片,以石印出版的《鐵云藏龜》是我國(guó)甲骨學(xué)史上的第一部著錄書(shū),使甲骨文由只供少數(shù)學(xué)者在書(shū)齋里觀賞的古董,變?yōu)榭梢匝芯康恼滟F史料,是甲骨文領(lǐng)域?qū)<覍W(xué)者開(kāi)展研究的第一手資料。1978至1982年中華書(shū)局出版的《甲骨文合集》就是一部甲骨著錄的集大成,共13冊(cè),選錄了甲骨發(fā)現(xiàn)后80年的已著錄和未著錄的殷墟出土的甲骨拓本﹑照片和摹本﹐共41956片。(11)西沐、柳學(xué)智:《關(guān)于甲骨文價(jià)值認(rèn)知的分析——紀(jì)念甲骨文發(fā)現(xiàn)111周年(1899-2010)》,《中國(guó)美術(shù)》2011年第3期。一部《甲骨文合集》就如此之巨,更何況120年來(lái),先后出土了約16萬(wàn)片,甲骨學(xué)者還在不斷地整理刊布甲骨著錄,傳統(tǒng)的方式讓甲骨學(xué)研究不僅是一項(xiàng)智力活動(dòng)還是一項(xiàng)體力活動(dòng),而且費(fèi)用開(kāi)支巨大。甲骨著錄數(shù)字化將為甲骨文研究提供極大的便利,并可節(jié)約大量的費(fèi)用和資源。
甲骨著錄庫(kù)計(jì)劃收錄甲骨著錄246部,一期整理46部,利用高清掃描儀對(duì)紙質(zhì)出版的著錄進(jìn)行掃描。除了對(duì)甲骨文著錄書(shū)進(jìn)行信息標(biāo)注外,由于著錄中的每片甲骨都有自身獨(dú)有的信息,如卜辭、鉆鑿、兆紋、載體等,所以將著錄中的每片甲骨裁剪下來(lái),提取著錄文獻(xiàn)中每片甲骨的信息,如出土地、館藏地、著拓號(hào)、選定號(hào)、原骨拓藏,館藏編號(hào),記錄載體(龜甲、獸骨)、記錄形式(拓片、摹本、照相)、分期情況、分組情況、著錄情況、原文、釋文等。(12)熊晶、焦清局、史小松:《甲骨文著錄綜合信息化系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)》,《信息技術(shù)與信息化》2018年第10期。每部甲骨著錄中的每片甲骨都根據(jù)其提供的編號(hào)或者制定編號(hào)規(guī)則命名后,上傳至數(shù)字化平臺(tái)的著錄庫(kù)中保存,一期的46部,共收錄112517片甲骨信息,具體見(jiàn)圖2:甲骨著錄庫(kù)。甲骨著錄庫(kù)可以通過(guò)甲骨片號(hào)、釋文、館藏編號(hào)、記錄形式、出處等條件單獨(dú)或者組合檢索,放大每張著錄圖片可以清晰看到甲骨上的文字。
圖2 甲骨著錄庫(kù)
②甲骨綴合庫(kù)
在甲骨文科學(xué)發(fā)掘前,大多甲骨是農(nóng)民耕田或盜掘所得,加之甲骨承載著文字、占卜、工藝技術(shù)等大量信息,并在地下埋藏三千多年,十分脆弱易碎,所以大多是碎片,已經(jīng)發(fā)表的甲骨片約95%是碎片,將殘存的甲骨進(jìn)行綴合是除了發(fā)掘甲骨之外,獲得甲骨新材料的重要途徑,故甲骨綴合堪稱(chēng)“再發(fā)掘”。王國(guó)維是最早進(jìn)行甲骨綴合的學(xué)者,通過(guò)綴合修正了《史記·殷本紀(jì)》中商王世系,就是典型例證。(13)王大德:《王國(guó)維與殷墟甲骨檔案》,《檔案學(xué)通訊》1993年第5期。以黃天樹(shù)、林宏明為代表的學(xué)者在甲骨綴合方面成績(jī)斐然,甲骨綴合成為甲骨學(xué)研究中成果最為豐碩的一個(gè)領(lǐng)域。除了甲骨收藏者外,學(xué)者綴合甲骨大多情況下利用拓片,有些學(xué)者利用摹本也可做綴合,但是依靠學(xué)者記憶在約16萬(wàn)甲骨中尋找綴合的線索,猶如大海撈針,有時(shí)發(fā)現(xiàn)線索完成了綴合,很有可能其他學(xué)者已經(jīng)綴合過(guò)了,重復(fù)勞動(dòng)浪費(fèi)學(xué)者時(shí)間精力而且工作量巨大。
甲骨綴合庫(kù)存儲(chǔ)了學(xué)者們已經(jīng)綴合過(guò)的甲骨信息,包括甲骨主片號(hào)與可以進(jìn)行綴合的甲骨號(hào)碼等信息,具體見(jiàn)圖3 :甲骨綴合庫(kù)。甲骨學(xué)者可以檢索、查詢(xún)到已經(jīng)綴合的甲骨信息,防止重復(fù)勞動(dòng)。同時(shí),也為甲骨學(xué)者開(kāi)展考釋等研究提供了重要的盡可能完整的參考材料。每一片新綴合的甲骨,無(wú)論是否有新字或者重要內(nèi)容出現(xiàn),都是有意義的。
圖3 甲骨綴合庫(kù)
(3)甲骨文文獻(xiàn)庫(kù)
甲骨文本身是一種文獻(xiàn),但是這里的甲骨文獻(xiàn)不是指考古意義上的出土文獻(xiàn),而是甲骨文發(fā)現(xiàn)120年來(lái),甲骨學(xué)者研究甲骨文的論文、專(zhuān)書(shū),著錄除外。雖然我國(guó)知網(wǎng)、萬(wàn)方、維普、超星等各大數(shù)據(jù)庫(kù)都收錄了與甲骨文研究相關(guān)的論文、專(zhuān)書(shū),但是由于各大文獻(xiàn)數(shù)據(jù)庫(kù)建設(shè)的時(shí)間遠(yuǎn)晚于甲骨文發(fā)現(xiàn)后學(xué)者研究的時(shí)間,所以很多早期的研究成果大多未收錄,如早期甲骨四堂的論文獲取難度大,建設(shè)甲骨文獻(xiàn)數(shù)據(jù)庫(kù),實(shí)現(xiàn)甲骨文研究資料的數(shù)字化,一直是甲骨學(xué)者的愿望。但是早期甲骨文獻(xiàn)資源的特點(diǎn),如手寫(xiě)體、繁體字、豎排且有時(shí)又會(huì)出現(xiàn)雙排并列的不規(guī)則排版、未識(shí)字圖片嵌入、未識(shí)字不同部首拼合而成等,還有一些早期的專(zhuān)書(shū)很難獲得,購(gòu)買(mǎi)的時(shí)間、經(jīng)濟(jì)成本都很高,很多問(wèn)題使得甲骨文獻(xiàn)庫(kù)的建設(shè)困難重重。
中國(guó)社會(huì)科學(xué)院學(xué)部委員、甲骨學(xué)殷商史研究中心主任宋鎮(zhèn)豪先生是甲骨文研究領(lǐng)域的領(lǐng)軍人物,主編了《甲骨文獻(xiàn)集成》(40冊(cè))和《百年甲骨學(xué)論著目》,收集整理了大量的甲骨文研究文獻(xiàn),將大量資料提供給我們。利用高清掃描儀將早期沒(méi)有被各大數(shù)據(jù)庫(kù)收錄的論文、專(zhuān)書(shū)進(jìn)行掃描,對(duì)圖像進(jìn)行合并。根據(jù)甲骨文文獻(xiàn)資源特點(diǎn),設(shè)計(jì)數(shù)據(jù)庫(kù)類(lèi)型,依據(jù)應(yīng)用方式定制論文和專(zhuān)書(shū)數(shù)據(jù)庫(kù)的元數(shù)據(jù),并確定數(shù)據(jù)加工的標(biāo)準(zhǔn)和規(guī)范,制定出XML Schema;根據(jù)制定的數(shù)字資源庫(kù)元數(shù)據(jù)和Schema標(biāo)準(zhǔn),對(duì)收集整理的甲骨文文獻(xiàn)資源進(jìn)行數(shù)字化加工,并根據(jù)元數(shù)據(jù)規(guī)范標(biāo)引各個(gè)數(shù)據(jù)項(xiàng)和結(jié)構(gòu)化拆分,一期完成了29426篇文獻(xiàn)和282部專(zhuān)書(shū)的數(shù)字化加工和元數(shù)據(jù)標(biāo)引,上傳至數(shù)字化平臺(tái)的文獻(xiàn)庫(kù)中保存,具體見(jiàn)圖4:甲骨文文獻(xiàn)庫(kù)。甲骨文文獻(xiàn)庫(kù)提供題名、作者、關(guān)鍵詞、摘要等多種檢索途徑,可在線瀏覽和下載。而且,如果甲骨文研究領(lǐng)域的學(xué)者有我們庫(kù)中未收錄的文獻(xiàn),可以自行上傳,經(jīng)過(guò)管理員審核后可以入庫(kù),為不斷豐富該庫(kù)資源提供了途徑。
圖4 甲骨文文獻(xiàn)庫(kù)
(4)面向服務(wù)的甲骨文文獻(xiàn)資源數(shù)字化平臺(tái)
甲骨文文獻(xiàn)資源數(shù)字化平臺(tái)是一個(gè)集甲骨文字形庫(kù)、著錄庫(kù)(含綴合庫(kù))、文獻(xiàn)庫(kù)為一體的全面、權(quán)威的甲骨學(xué)研究資料獲取平臺(tái),已經(jīng)具備甲骨文手寫(xiě)輸入、部首輸入、拼音輸入、著錄檢索、已綴合甲骨查詢(xún)、文獻(xiàn)查詢(xún)等功能,對(duì)各類(lèi)甲骨文研究資源進(jìn)行統(tǒng)一建設(shè)、發(fā)布、管理和維護(hù),具體見(jiàn)圖5:甲骨文文獻(xiàn)資源數(shù)字化平臺(tái)——殷契文淵,一期工程完成后,該平臺(tái)已在2019年10月18日“紀(jì)念甲骨文發(fā)現(xiàn)120周年國(guó)際學(xué)術(shù)研討會(huì)”上,面向全世界發(fā)布,用戶(hù)注冊(cè)后可免費(fèi)使用平臺(tái)上所有資源,網(wǎng)址為http://jgw.aynu. edu. cn/ajaxpage/ home2.0/index.html。在一定程度上破解了以往甲骨文研究資料獲取難的問(wèn)題,為甲骨學(xué)領(lǐng)域的專(zhuān)家學(xué)者以及普通用戶(hù)提供了前所未有的便利。面向未來(lái),在知識(shí)層面,從著錄上裁剪的每片甲骨,碎片化的標(biāo)注;從每片甲骨上截取的每個(gè)甲骨字,形成研究的數(shù)據(jù)集,精細(xì)到了字;收集到的每篇文獻(xiàn)依據(jù)元數(shù)據(jù)規(guī)范標(biāo)引,形成碎片化的XML文檔,為建立甲骨片、著錄關(guān)聯(lián)信息,建立甲骨文字、文獻(xiàn)關(guān)聯(lián)信息打下了堅(jiān)實(shí)的基礎(chǔ),讓借助現(xiàn)代信息技術(shù)為甲骨文專(zhuān)家提供更全面、更智能的圖像檢索、語(yǔ)義檢索、個(gè)性化推送等知識(shí)服務(wù)成為可能。
圖5 甲骨文文獻(xiàn)資源數(shù)字化平臺(tái)——殷契文淵
目前,二期工程正在進(jìn)行,甲骨文字形庫(kù)將繼續(xù)整理、補(bǔ)充新近出版的甲骨著錄中的“新見(jiàn)字”,設(shè)計(jì)甲骨文Unicode編碼,爭(zhēng)取成為行業(yè)標(biāo)準(zhǔn),積極參與甲骨文GB或Unicode標(biāo)準(zhǔn)的制定;甲骨著錄庫(kù)將完成解放前38部著錄入庫(kù)工作,還要采集補(bǔ)充3D圖像數(shù)據(jù);甲骨綴合將利用甲骨著錄庫(kù)中的圖片,應(yīng)用數(shù)字圖像邊緣檢測(cè)方法等對(duì)甲骨碎片進(jìn)行拼接,綴合甲骨或者提供更多綴合線索;甲骨文文獻(xiàn)庫(kù)將繼續(xù)收集臺(tái)灣、日本等甲骨文學(xué)者的研究成果;結(jié)合甲骨文字庫(kù),應(yīng)用文檔分析技術(shù)、光學(xué)字符識(shí)別技術(shù)對(duì)著錄、甲骨文獻(xiàn)中的甲骨字進(jìn)行識(shí)別,建立三庫(kù)關(guān)聯(lián)信息,提供智能化知識(shí)服務(wù)。為利用人工智能、深度學(xué)習(xí)等先進(jìn)的信息技術(shù),開(kāi)展甲骨文字形分析、甲骨文字檢測(cè)、甲骨文識(shí)別、甲骨文語(yǔ)言計(jì)算和知識(shí)推理等研究,輔助甲骨文考釋和綴合提供數(shù)據(jù)支撐。面向未來(lái),雖然實(shí)現(xiàn)完全意義上智能化知識(shí)服務(wù)還有一定距離,但是在國(guó)內(nèi)外甲骨文專(zhuān)家學(xué)者和國(guó)內(nèi)外從事文字計(jì)算研究的科研院所的幫助下,在國(guó)家促進(jìn)中華優(yōu)秀傳統(tǒng)文化傳承和發(fā)展,提升中華民族文化自信和文化軟實(shí)力戰(zhàn)略支持下,該平臺(tái)的建設(shè)一定可以取得豐碩成果,更好地服務(wù)甲骨學(xué)研究。