張攀峰 張彥斌
摘 要:傳統(tǒng)紙質(zhì)書法古籍作品在保護(hù)、傳承方面存在諸多不便,很難滿足書法愛好者個(gè)性化閱讀需求,因此古籍?dāng)?shù)字化非常必要。古籍?dāng)?shù)字化研究?jī)?nèi)容已經(jīng)從載體轉(zhuǎn)換、存儲(chǔ)技術(shù)升級(jí)發(fā)展到基于個(gè)性化需求的檢索。設(shè)計(jì)一套基于JPEG2000的圖像內(nèi)容檢索技術(shù),并應(yīng)用于米芾書法資源數(shù)字化。具體步驟包括:以宋代書法家米芾現(xiàn)存最經(jīng)典的書法作品為藍(lán)本,采用JPEG2000格式進(jìn)行圖像數(shù)據(jù)庫(kù)存儲(chǔ),并將與其相關(guān)的索引資料進(jìn)行匹配并保存于資料數(shù)據(jù)庫(kù)中,將每幅書法作品相關(guān)解釋性文字信息存儲(chǔ)于文字?jǐn)?shù)據(jù)庫(kù)中,用戶可以檢索米芾書法中任意一種字體,既可以對(duì)某一作品進(jìn)行搜索,也可以對(duì)整個(gè)數(shù)據(jù)庫(kù)進(jìn)行搜索,實(shí)現(xiàn)個(gè)性化檢索。實(shí)踐證明,利用該系統(tǒng)可對(duì)掃描作品數(shù)據(jù)庫(kù)所有文字進(jìn)行對(duì)應(yīng)檢索工作。
關(guān)鍵詞:JPEG2000格式;圖像檢索技術(shù);古籍?dāng)?shù)字化;米芾書法
DOI:10. 11907/rjdk. 191124
中圖分類號(hào):TP319文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-7800(2019)004-0115-04
0 引言
隨著數(shù)字化時(shí)代的到來(lái),電腦、手機(jī)和移動(dòng)互聯(lián)網(wǎng)設(shè)備在日常生活中日益普及,數(shù)字化技術(shù)對(duì)傳統(tǒng)書法古籍也產(chǎn)生了重大影響[1]:利用現(xiàn)代技術(shù)手段,對(duì)書法古籍進(jìn)行有效整理和挖掘,發(fā)揮其對(duì)現(xiàn)代社會(huì)發(fā)展有益的部分;同時(shí)用戶查閱古籍的方式發(fā)生了改變,用戶可以使用移動(dòng)硬盤或存儲(chǔ)器隨時(shí)隨地查閱互聯(lián)網(wǎng)資源[2]。正如學(xué)者所言:“中文古籍?dāng)?shù)字化所使用的知識(shí)和技術(shù)方法不同于傳統(tǒng)的古籍整理所積累的經(jīng)驗(yàn)和方法。它是使用計(jì)算機(jī)、語(yǔ)言學(xué)、學(xué)術(shù)等現(xiàn)代科學(xué)知識(shí)和技術(shù)?!睂?duì)于古籍的屬性處理不應(yīng)僅局限于文本本身(包括圖像),而對(duì)于古籍的“聲、色、味、觸覺”等方面恰恰是古籍?dāng)?shù)字化目前瓶頸和不足之處[3]。
古籍?dāng)?shù)字化是傳統(tǒng)與現(xiàn)代、古籍特點(diǎn)與數(shù)字技術(shù)特點(diǎn)的結(jié)合[4]。最初古籍?dāng)?shù)據(jù)庫(kù)檢索技術(shù)主要應(yīng)用于書目數(shù)據(jù)庫(kù),方便讀者建立館藏古籍書目檢索;而后發(fā)展至全文數(shù)據(jù)庫(kù),將古籍資源全文錄入并轉(zhuǎn)化為電子本,可提供一種以字符為主要處理對(duì)象的查詢手段。圖像版利用掃描技術(shù)將古籍以圖像方式存入光盤,技術(shù)簡(jiǎn)單,容易保存古籍全貌[5]。古籍原始面貌可為研究者提供豐富的有用信息,但是傳統(tǒng)古籍圖版數(shù)據(jù)庫(kù)不能滿足書法研究者高級(jí)個(gè)性化需求,圖片放大后會(huì)失真,不能更好地查看書法細(xì)節(jié),無(wú)法同時(shí)檢索同一個(gè)文字的不同寫法。JPEG2000圖像文件可以在保證圖像質(zhì)量前提下提供更高的壓縮比,對(duì)用戶感興趣區(qū)域進(jìn)行壓縮保存,同時(shí)保證放大后的高清晰度。因此,本文利用JPEG2000圖像基于內(nèi)容檢索的優(yōu)勢(shì),選取古代書法家米芾的書法作品全集作為藍(lán)本,將米芾的書法進(jìn)行整理歸檔,制作米芾書法檢索系統(tǒng)。用戶可以通過(guò)該系統(tǒng)進(jìn)行碑帖原圖檢索與文字個(gè)別化檢索,更加全面了解、研究米芾書法的特點(diǎn)。
1 圖像檢索技術(shù)發(fā)展現(xiàn)狀
1.1 數(shù)字存儲(chǔ)技術(shù)
數(shù)字存儲(chǔ)技術(shù)飛速發(fā)展,使許多事物數(shù)字化成為可能 [6]。目前世界各國(guó)都在積極建設(shè)數(shù)字圖書館,數(shù)字圖書館的內(nèi)容不僅包含紙質(zhì)圖書,還包含許多具有民族特色的、以書畫、歌曲、文物等為載體的物質(zhì)或非物質(zhì)人類文化。書法作品是我國(guó)民族文化最具代表性的部分,不僅記錄歷史文化、歷史事件、歷史環(huán)境、歷史人物情感及互相交往狀況,而且書法本身是一種擁有兩千多年歷史的藝術(shù)。將歷代書法書籍?dāng)?shù)字化圖像存于磁盤庫(kù)中,使書法作品擁有數(shù)字備份,從而可更好地傳承民族文化。但如何管理書法作品圖像,并提供方便、準(zhǔn)確的書法檢索服務(wù)成為難題。
數(shù)字化存儲(chǔ)技術(shù)主要集中于存儲(chǔ)介質(zhì)與存儲(chǔ)格式的選擇。目前古籍?dāng)?shù)字化產(chǎn)品存儲(chǔ)格式主要有文本文件格式、數(shù)據(jù)庫(kù)格式、電子書格式、超文本格式、圖片格式、多媒體格式、數(shù)字化古籍格式[7]。書法字檢索主要基于圖像檢索,傳統(tǒng)圖像信息檢索方法常使用文字標(biāo)識(shí)符,先對(duì)所有圖像進(jìn)行文字標(biāo)注,再使用數(shù)據(jù)庫(kù)技術(shù)與文本信息檢索技術(shù)搜索圖像。該方法的優(yōu)點(diǎn)在于檢索操作簡(jiǎn)單、速度快,但存在工作量大等缺點(diǎn)。近年來(lái)隨著技術(shù)發(fā)展,基于內(nèi)容的圖像檢索成為研究熱點(diǎn),目前多數(shù)基于內(nèi)容的圖像檢索技術(shù)主要是針對(duì)非壓縮格式的原始點(diǎn)陣數(shù)據(jù)進(jìn)行的。但在實(shí)踐中,由于原始圖像數(shù)據(jù)量較大,大部分圖像均經(jīng)過(guò)壓縮處理。對(duì)于壓縮格式圖像,一般需先進(jìn)行解壓操作,造成大量時(shí)耗。通過(guò)挖掘圖像壓縮時(shí)的中間結(jié)果或最終碼流包含的信息,力爭(zhēng)在不解碼或部分解碼的情況下提取圖像內(nèi)容特征,并進(jìn)行相應(yīng)圖像處理以縮短檢索時(shí)間,提高檢索效率。
JPEG2000是為了彌補(bǔ)JPEG的不足而提出的新一代靜止圖像壓縮國(guó)際標(biāo)準(zhǔn)。JPEG 2000與傳統(tǒng) JPEG 最大區(qū)別在于其放棄了 JPEG 采用的以離散馀弦轉(zhuǎn)換(Discrete Cosine Transform)為主的區(qū)塊編碼方式,改用以小波轉(zhuǎn)換(Wavelet transform)為主的多解析編碼方式。小波轉(zhuǎn)換的主要目的是將影像頻率成分抽取出來(lái)。因此JPEG 2000不僅在性能上超越JPEG,而且增加和增強(qiáng)了可縮放性與可編輯性的特性。在高壓縮比有損壓縮的情況下,JPEG 2000的一個(gè)顯著優(yōu)點(diǎn)是沒有JPEG壓縮中的馬賽克失真問(wèn)題,所以在高清顯示重要圖片時(shí)具有獨(dú)特優(yōu)勢(shì)。
1.2 古籍?dāng)?shù)字化存在的問(wèn)題
書法古籍作品存世不多,且不容易保存和廣泛傳播,因此書法古籍?dāng)?shù)字化工作非常有意義。以米芾書法為例:米芾作為宋代行書四大家之一,其書法對(duì)后世影響深遠(yuǎn),具有很高的學(xué)習(xí)、研究與欣賞價(jià)值。因此,將米芾書法進(jìn)行整理歸納,制作成米芾書法光盤,可以使后人以更便捷的方式深入、全面地學(xué)習(xí)、研究米芾書法特點(diǎn),多角度欣賞米芾書法藝術(shù)。傳統(tǒng)書法數(shù)字化技術(shù)不能滿足用戶高清晰度觀賞字體細(xì)節(jié)和個(gè)別化檢索的需求。古籍?dāng)?shù)字化在不損傷古籍原件的同時(shí)給古籍閱讀和利用帶來(lái)了革命性改變,既不直接接觸古籍,讀者也可以檢索、瀏覽、閱讀利用古籍,挖掘古籍信息資源 [8]。本研究采用JPEG2000圖像檢索技術(shù)在中國(guó)傳統(tǒng)書法教學(xué)與研究中的應(yīng)用作出積極探索,促進(jìn)了信息技術(shù)與書法課程整合,使書法學(xué)習(xí)不僅局限于對(duì)字帖的簡(jiǎn)單臨摹。
古籍信息采集方法主要分為兩類:①通過(guò)掃描或拍照等方式存儲(chǔ)古籍整體圖像信息;②對(duì)古籍版本進(jìn)行文獻(xiàn)歸納統(tǒng)計(jì) [9]。但是對(duì)于古籍作品原有整體圖像信息進(jìn)行采集、加工、保存、傳播,已經(jīng)不能滿足專業(yè)用戶在高清放大基礎(chǔ)上查看細(xì)節(jié)筆畫的需求,其次用戶無(wú)法對(duì)比查看同一文字的不同書寫。日本在書法文化保護(hù)和傳承方面做得非常好,相關(guān)研究者在原有圖像壓縮技術(shù)的基礎(chǔ)上,采用基于內(nèi)容檢索的圖像壓縮算法,對(duì)書法進(jìn)行高清晰度掃描,從而對(duì)每一個(gè)文字進(jìn)行定位編碼,進(jìn)行精確的數(shù)字化處理,為書法個(gè)性化檢索提供了基礎(chǔ)數(shù)據(jù)。本文將米芾現(xiàn)今存世的所有書法作品轉(zhuǎn)化為300dpi的JPEG2000格式的圖片存儲(chǔ)于圖片數(shù)據(jù)庫(kù)中,并附上相關(guān)資料及所有文字信息。用戶可檢索米芾書法中任何一個(gè)字體,既可以對(duì)某一作品進(jìn)行搜索,也可以對(duì)整個(gè)數(shù)據(jù)庫(kù)進(jìn)行搜索。搜索完畢后,可以點(diǎn)擊檢索結(jié)果再跳轉(zhuǎn)至所搜內(nèi)容。根據(jù)當(dāng)前畫面大小以最為合適的尺寸顯示圖像。
書法作品精確檢索的基礎(chǔ)是建立大批數(shù)據(jù)庫(kù),需要大量人工和前期投入,書法作品初期采集工作量龐大,且比較枯燥、單調(diào),但是對(duì)于構(gòu)建書法作品數(shù)字庫(kù)的基礎(chǔ)數(shù)據(jù)采集工作必不可少。構(gòu)建米芾書法光盤系統(tǒng)主要包括數(shù)據(jù)層、邏輯層和表示層等。其中數(shù)據(jù)層主要包括用于存放掃描書法原件的圖片數(shù)據(jù)庫(kù)、用于存放資料相關(guān)信息的資料數(shù)據(jù)庫(kù)以及用于記錄書法作品中每個(gè)文字信息的文字?jǐn)?shù)據(jù)庫(kù)。邏輯層主要處理系統(tǒng)邏輯關(guān)系,用于連接數(shù)據(jù)層和表示層。表示層主要處理數(shù)據(jù)顯示問(wèn)題。
在現(xiàn)實(shí)生活中使用的大部分圖像都經(jīng)過(guò)高壓縮處理,而相關(guān)數(shù)據(jù)壓縮算法無(wú)法滿足特殊領(lǐng)域的需求。因此,如何在保持?jǐn)?shù)據(jù)原始清晰度的基礎(chǔ)上進(jìn)行圖像保存是目前圖像數(shù)據(jù)壓縮面臨的難題。原始基于問(wèn)題的圖像處理以及現(xiàn)在流行的基于無(wú)壓縮圖像內(nèi)容的圖像處理技術(shù)無(wú)法滿足日常應(yīng)用,所以JPEG2000壓縮域圖像檢索技術(shù)的研究將對(duì)圖像檢索技術(shù)應(yīng)用產(chǎn)生積極意義。
2 米芾書法古籍資源數(shù)字化過(guò)程設(shè)計(jì)
2.1 基于內(nèi)容檢索的古籍?dāng)?shù)字化基本原理
隨著多媒體技術(shù)的不斷發(fā)展,產(chǎn)生了巨大的多媒體信息庫(kù)資源,使用戶接觸到豐富的多媒體信息,因此用戶需要更快捷、準(zhǔn)確的多媒體檢索技術(shù),滿足其個(gè)性化需求?;趦?nèi)容的圖像檢索(CBIR)技術(shù)通過(guò)分析圖像內(nèi)容,建立特征索引并存儲(chǔ)在特征庫(kù)中,用戶在查詢時(shí),只需描述相關(guān)圖像需求,即可在大量圖像庫(kù)中快速找到想要的圖像 [10]。本文主要關(guān)注基于內(nèi)容的多媒體檢索技術(shù)在基于內(nèi)容的靜態(tài)圖像檢索中的應(yīng)用?;趦?nèi)容的檢索突破了傳統(tǒng)基于文本檢索技術(shù)的局限,直接對(duì)圖像等多媒體內(nèi)容進(jìn)行分析,提取并利用關(guān)鍵特征建立索引進(jìn)行檢索。將傳統(tǒng)數(shù)字化JPG格式的碑帖放大后會(huì)失真,書法愛好者不能很好地欣賞書法大家筆韻風(fēng)格,對(duì)感興趣的文字內(nèi)容也無(wú)法快速檢索,使其欣賞書法作品的需求難以充分滿足。本文主要采用JPEG2000圖像編碼技術(shù)解決該問(wèn)題,JPEG2000是JPEG的升級(jí)版,其壓縮率比JPEG高約30%,同時(shí)支持有損和無(wú)損壓縮。JPEG2000格式一個(gè)極其重要的特征在于可實(shí)現(xiàn)漸進(jìn)傳輸,即先傳輸圖像輪廓,然后逐步傳輸數(shù)據(jù),不斷提高圖像質(zhì)量,使圖像由朦朧變化至清晰。它是一個(gè)對(duì)圖像檢索友好的編碼標(biāo)準(zhǔn),有利于對(duì)圖像進(jìn)行快速、有效的檢索,因此JPEG2000圖像可滿足書法愛好者查看書法細(xì)節(jié)和進(jìn)行個(gè)性化檢索的需求。
基于內(nèi)容的圖像檢索系統(tǒng)一般包括圖像檢索模塊、查詢模塊、對(duì)象庫(kù)與特征庫(kù)、知識(shí)庫(kù)等,系統(tǒng)主要可分為圖像庫(kù)檢索模塊與圖像庫(kù)建庫(kù)模塊兩部分。建庫(kù)模塊主要用來(lái)建立與維護(hù)整個(gè)圖像庫(kù)圖像抽取特定特征生成相應(yīng)的特征矢量,其與圖像一起存入圖像庫(kù),從而形成基于內(nèi)容的圖像數(shù)據(jù)庫(kù) [11]。對(duì)書法字的檢索本質(zhì)上是一種基于內(nèi)容的圖像檢索,書法字形狀是書法字的關(guān)鍵特征[12]。本研究系統(tǒng)核心是基于JPEG2000的圖像檢索系統(tǒng)。該系統(tǒng)主要包含3個(gè)數(shù)據(jù)庫(kù):圖片數(shù)據(jù)庫(kù)、資料數(shù)據(jù)庫(kù)、文字?jǐn)?shù)據(jù)庫(kù)。圖片數(shù)據(jù)庫(kù)主要用于存放書法原件的掃描圖片,資料數(shù)據(jù)庫(kù)用于存放相關(guān)資料信息,文字?jǐn)?shù)據(jù)庫(kù)主要用于記錄書法作品各個(gè)文字的信息,系統(tǒng)以3個(gè)數(shù)據(jù)庫(kù)為基礎(chǔ),構(gòu)建可從圖片中檢索出相應(yīng)文字的書法檢索系統(tǒng),其中文字?jǐn)?shù)據(jù)庫(kù)及檢索方法的設(shè)計(jì)是系統(tǒng)重難點(diǎn)。為提高光盤檢索效率,需先對(duì)作品圖片進(jìn)行預(yù)處理,將書法作品中每個(gè)文字的信息提取后存儲(chǔ)于文字?jǐn)?shù)據(jù)庫(kù)。當(dāng)進(jìn)行數(shù)據(jù)檢索時(shí),采用相應(yīng)數(shù)據(jù)庫(kù)檢索技術(shù),檢索出需要的文字信息。系統(tǒng)既可以針對(duì)某一作品進(jìn)行文字檢索,也可以針對(duì)全庫(kù)進(jìn)行檢索。
2.2 古籍資源數(shù)字化一般流程
古籍文獻(xiàn)數(shù)字化指通過(guò)信息技術(shù)對(duì)古籍文獻(xiàn)進(jìn)行加工,使其成為可重復(fù)利用的數(shù)據(jù)資源。古籍紙質(zhì)載體轉(zhuǎn)換為數(shù)據(jù)載體后,古籍?dāng)?shù)據(jù)被賦予復(fù)制、傳播屬性。通過(guò)建模采集、分析等方式將古籍文獻(xiàn)數(shù)字化資源建成數(shù)據(jù)庫(kù),既能保護(hù)珍貴的古籍,又能擴(kuò)大其實(shí)用性,方便大眾使用[13]。古籍資源數(shù)字化一般流程包括:數(shù)字采集、數(shù)字存儲(chǔ)、數(shù)字處理、數(shù)字展示、數(shù)字傳播、數(shù)字解讀等環(huán)節(jié)。將書法古籍作品通過(guò)數(shù)字轉(zhuǎn)換、數(shù)字再現(xiàn)復(fù)原成可共享、可再生的數(shù)字形態(tài),并以新的視角加以解讀,以新的方式進(jìn)行保存,根據(jù)新的需求加以利用。
基于內(nèi)容的數(shù)字資源檢索體系一般包括:數(shù)據(jù)庫(kù)特征子系統(tǒng)提取與數(shù)據(jù)庫(kù)子系統(tǒng)查詢,其中數(shù)據(jù)庫(kù)特征子系統(tǒng)由媒體庫(kù)與特征庫(kù)組成,采集書法原始媒體數(shù)據(jù)之后根據(jù)特征進(jìn)行提取,再將目標(biāo)識(shí)別錄入媒體庫(kù)中進(jìn)行編碼,用戶可通過(guò)查詢界面,利用系統(tǒng)檢索引擎與索引過(guò)濾功能在知識(shí)庫(kù)中進(jìn)行內(nèi)容檢索和知識(shí)呈現(xiàn)。
2.3 米芾書法古籍檢索系統(tǒng)功能實(shí)現(xiàn)
一般古籍文本的數(shù)字化是通過(guò)人工錄入古籍文字或光學(xué)字符識(shí)別(OCR)的方式進(jìn)行數(shù)據(jù)庫(kù)輸入,從而形成文獻(xiàn)。用戶可閱讀、定位檢索該類數(shù)字古籍文獻(xiàn),雖然古籍?dāng)?shù)據(jù)資源具有一定的檢索性,但是對(duì)于古籍原貌的客觀表現(xiàn)不夠完善[13]。本文將米芾書法作品分為卷冊(cè)、碑銘及拓本三大類,原版古籍作品量大、書目紛雜,如何在保持作品原貌基礎(chǔ)上進(jìn)行個(gè)性化檢索,是本文研究重點(diǎn),其核心是構(gòu)建基于JPEG2000的圖像檢索系統(tǒng)。該系統(tǒng)主要包含3個(gè)數(shù)據(jù)庫(kù):圖片數(shù)據(jù)庫(kù)、資料數(shù)據(jù)庫(kù)、文字?jǐn)?shù)據(jù)庫(kù)。系統(tǒng)以3個(gè)數(shù)據(jù)庫(kù)為基礎(chǔ)構(gòu)造書法檢索系統(tǒng),使相應(yīng)文字可從圖片中檢索出來(lái)。為提高使用光盤的檢索效率,需要先對(duì)作品圖片進(jìn)行預(yù)處理,提取書法作品文字信息后存儲(chǔ)于文字?jǐn)?shù)據(jù)庫(kù)中,再采用相應(yīng)數(shù)據(jù)庫(kù)檢索技術(shù)檢索出需要的文字信息,實(shí)現(xiàn)單一作品文字檢索和全庫(kù)檢索。
2.3.1 基于內(nèi)容檢索的新模型創(chuàng)建
數(shù)字化古籍按載體形式可分磁盤資源和網(wǎng)絡(luò)資源兩大類。磁盤版古籍資源一般有3種類型:①圖像版,即將古籍直接以圖像格式掃描存儲(chǔ);②全文版,即存儲(chǔ)的不是古籍圖像,而是數(shù)字化古籍文本,以便全文檢索與查找;③圖文版,即在古籍書頁(yè)圖像存儲(chǔ)基礎(chǔ)上,將書中具有檢索意義的內(nèi)容數(shù)字化,為用戶提供多種檢索功能[14]。本文主要采用第3種方法為用戶提供更高質(zhì)量的檢索服務(wù)。以米芾書齋“寶晉齋”為名設(shè)計(jì)可視化檢索系統(tǒng)平臺(tái),搜集、整理米芾書法法書(米芾書法作品原件)、法帖(米芾書法作品裝裱成冊(cè)的刻帖)、碑刻(米芾書法碑刻拓片)等作品珍本。首先將原始書法作品由專業(yè)人員高清晰度掃描為JPEG2000圖片格式(掃描精度300dpi),形成圖片數(shù)據(jù)庫(kù);其次,將每幅書法作品進(jìn)行編號(hào),包括卷號(hào)、碑帖名字、碑帖說(shuō)明、頁(yè)碼、碑帖尺寸等信息,形成資料數(shù)據(jù)庫(kù);最后由技術(shù)人員對(duì)書法作品的每一個(gè)文字進(jìn)行切割、編碼,記錄每個(gè)文字的大小及在圖片中的位置信息,形成文字?jǐn)?shù)據(jù)庫(kù)。通過(guò)3個(gè)主要數(shù)據(jù)庫(kù)建立相關(guān)索引機(jī)制,用戶可以通過(guò)作品檢索模式快速查看感興趣的書法作品,也可以通過(guò)文字檢索模式,快速查找某一個(gè)文字在不同碑帖中的不同寫法,以上是傳統(tǒng)方法不能實(shí)現(xiàn)的功能。本文在原有內(nèi)容檢索模式基礎(chǔ)上進(jìn)行模式創(chuàng)新與改進(jìn),模型結(jié)構(gòu)如圖1所示。
2.3.2 書法圖像數(shù)據(jù)采集與圖片數(shù)據(jù)庫(kù)建立
古籍?dāng)?shù)字化主要是利用微縮攝影、拍照或掃描技術(shù)采集古籍原始圖像,建立影像數(shù)據(jù)庫(kù)或進(jìn)行影印出版,以及在此基礎(chǔ)上通過(guò)文字自動(dòng)識(shí)別(OCR)或人工錄入等方式進(jìn)行元數(shù)據(jù)著錄,從而生成基礎(chǔ)的文本數(shù)據(jù)庫(kù)或進(jìn)行文字出版[15]。書法鑒賞已經(jīng)從紙張方式延伸到數(shù)字方式,通??蓪ㄗ髌讽?yè)面切分成單字,建立書法單字庫(kù),用戶可從中選擇單字進(jìn)行分類欣賞、比較研究等[16]。本文將原始米芾書法資料數(shù)據(jù)進(jìn)行編號(hào),錄入數(shù)據(jù)庫(kù)系統(tǒng)。分別按照原資料名稱(卷號(hào))、原資料尺寸、合成后文件名、掃描分辨率、色彩模式、合成圖像橫縱向個(gè)數(shù)、掃描文件名,掃描人員,掃描日期等分類并建立初始資料數(shù)據(jù)庫(kù)。其中分辨率300dpi,色彩模式RGB,圖像保存格式TIF。合成圖像橫縱向個(gè)數(shù)指圖像從單張到合成時(shí)縱向和橫向的個(gè)數(shù)。錄入書法碑帖卷號(hào)、圖版題名、頁(yè)數(shù)、原始尺寸等。原始數(shù)據(jù)采集數(shù)據(jù)量大,工作繁瑣,但是它是數(shù)據(jù)入庫(kù)的基礎(chǔ)環(huán)節(jié),也是后續(xù)進(jìn)行數(shù)據(jù)特征提取、建立數(shù)據(jù)圖片子庫(kù)的基礎(chǔ)。
2.3.3 書法資料數(shù)據(jù)庫(kù)整理與入庫(kù)
古籍?dāng)?shù)字化需要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以實(shí)現(xiàn)數(shù)據(jù)交流、共享。古籍?dāng)?shù)字化元數(shù)據(jù)包括書法古籍版本信息、收藏信息、作者信息、作品信息等[17]。在書法圖像數(shù)據(jù)采集完畢之后,還需錄入每幅書法碑帖原版文字說(shuō)明,以便后期制作時(shí)進(jìn)行匹配信息顯示,如將以書法卷號(hào)、圖版題名、圖版文字說(shuō)明、頁(yè)碼、圖版大小等信息一一錄入數(shù)據(jù)表格中,這些信息是后續(xù)文字資料庫(kù)的基礎(chǔ)數(shù)據(jù)。
2.3.4 書法古籍檢索平臺(tái)原型設(shè)計(jì)
中華古籍資源庫(kù)以國(guó)家圖書館藏善本古籍為主體,依托全國(guó)圖書館文獻(xiàn)微縮復(fù)制中心,采用模轉(zhuǎn)數(shù)技術(shù)將善本古籍縮微膠片轉(zhuǎn)換為高清數(shù)字化影像資源。其中中華古籍資源庫(kù)設(shè)置了3種檢索途徑,即題名、善本書號(hào)和責(zé)任者,簡(jiǎn)繁體通用 [18]。本文米芾書法作品檢索系統(tǒng)以米芾書齋“寶晉齋”為主界面,為用戶提供2種模式:瀏覽模式和搜索模式。第一種模式將米芾法帖、碑刻以作品名和作品略圖等方式進(jìn)行展示,右側(cè)配有圖版說(shuō)明和釋文,下方提供文字檢索功能;第二種模式提供類似百度的檢索框界面,用戶輸入書法作品中的關(guān)鍵詞后,可檢索出作品相關(guān)信息,點(diǎn)擊后可進(jìn)行作品細(xì)節(jié)瀏覽。在作品檢索模式中,作品可以進(jìn)行放大、縮小、移動(dòng)查看;在文字檢索模式中,可查找不同作品中相同文字的不同書寫效果。
2.3.5 書法古籍檢索系統(tǒng)界面設(shè)計(jì)
古籍?dāng)?shù)字化為中華文化傳承與發(fā)揚(yáng)帶來(lái)巨大積極影響的同時(shí),也產(chǎn)生了一些問(wèn)題,例如:降低了讀者閱讀紙質(zhì)古籍的樂趣,缺少閱讀情境性[19]。因此本系統(tǒng)在界面設(shè)計(jì)時(shí)采用米芾書齋“寶晉齋”為界面主風(fēng)格,家具均為宋代代表性桌椅、書齋、瓶飾等,界面采用隱形熱點(diǎn)交互設(shè)計(jì),文案上的硯臺(tái)和書畫即為進(jìn)入兩種不同瀏覽模式的熱區(qū),瀏覽方式也采用古軸書畫徐徐展開的方式。整體界面古樸典雅,使瀏覽者可靜心體會(huì)書法家當(dāng)時(shí)的環(huán)境和心境。
3 結(jié)語(yǔ)
基于內(nèi)容的檢索技術(shù)是多媒體技術(shù)研究熱點(diǎn),并逐漸在多個(gè)領(lǐng)域得到了廣泛應(yīng)用。隨著超大型多媒體信息資源庫(kù)的產(chǎn)生,用戶對(duì)信息檢索的要求越來(lái)越高,單純基于關(guān)鍵詞的檢索已經(jīng)不能滿足用戶檢索需求,基于個(gè)性化需求的檢索技術(shù)成為研究重點(diǎn)。隨著教育大數(shù)據(jù)的迅猛發(fā)展,多媒體檢索技術(shù)勢(shì)必與用戶個(gè)性化需求相匹配,如何為用戶(研究者)推送符合其個(gè)性需求的學(xué)習(xí)資源,如何將學(xué)習(xí)資源以個(gè)性化的形式呈現(xiàn),如何將現(xiàn)代媒體手段與中國(guó)傳統(tǒng)文化相結(jié)合,孕育出新型媒體形式,將中國(guó)傳統(tǒng)文化發(fā)揚(yáng)光大,是今后研究方向與目標(biāo)。同時(shí),利用書法古籍?dāng)?shù)字化可以有效減少紙質(zhì)古籍流通量,降低由于人為使用造成的古籍文獻(xiàn)資料損傷率,有效保護(hù)歷經(jīng)歲月滄桑的古籍文本,還可通過(guò)數(shù)字化技術(shù)保存古籍真實(shí)原貌 [20]。
參考文獻(xiàn):
[1] 向彬,南彬. 數(shù)字化時(shí)代的書法教育與文化傳承[EB/OL]. https://news.artron.net/20180820/n1019749.html.
[2] 劉偉紅. 中文古籍?dāng)?shù)字化的現(xiàn)狀與意義[J]. 圖書與情報(bào),2009(4):134-135.
[3] 劉明華,趙天一. 古籍?dāng)?shù)字化背景下的技術(shù)與學(xué)養(yǎng)[EB/OL].? http://www.guoxue.com/?p=14527.
[4] 姜春鈺. 論古籍?dāng)?shù)字化對(duì)古籍文獻(xiàn) “藏用矛盾”的影響[J]. 內(nèi)蒙古科技與經(jīng)濟(jì),2017(11):145-146.
[5] 陳陽(yáng). 中文古籍?dāng)?shù)字化的成果與存在問(wèn)題[EB/OL]. http://blog.sina.com.cn/s/blog_8f298e570101igsn.html.
[6] 王春賀. 個(gè)性化推薦技術(shù)研究及其在數(shù)字圖書館中應(yīng)用[D]. 杭州:浙江大學(xué),2007.
[7] 郭偉玲,戴艷清. 論古籍?dāng)?shù)字化的檢索問(wèn)題[J]. 圖書館理論與實(shí)踐,2011(10):13-15.
[8] 石光蓮,鄭偉偉. 中國(guó)古籍文獻(xiàn)數(shù)字化研究綜述[J]. 重慶圖情研究,2014(3):49-51.
[9] 劉冬雪. 古籍?dāng)?shù)字化信息采集技術(shù)研究——以文物保護(hù)為視角[D]. 北京: 北京印刷學(xué)院 ,2017.
[10] 肖丹卉. 基于內(nèi)容的圖像檢索技術(shù)在外觀設(shè)計(jì)專利檢索系統(tǒng)中的應(yīng)用[J]. 數(shù)字化用戶,2017(5):12-14.
[11] 陳仕先,尹丹. 基于內(nèi)容的圖像檢索關(guān)鍵技術(shù)[J]. 內(nèi)江科技,2011(4):103-104.
[12] 章夏芬. 自適應(yīng)書法字圖像匹配和檢索[J]. 浙江大學(xué)學(xué)報(bào):工學(xué)版,2016(4):134-135.
[13] 楊凡. 大數(shù)據(jù)框架下古籍?dāng)?shù)字化發(fā)展趨勢(shì)研究[J]. 圖書館學(xué)刊,2017(9):74-76.
[14] 魏芳. 古籍?dāng)?shù)字化技術(shù)發(fā)展的幾點(diǎn)建議[J]. 絲綢之路,2012(22):101-102.
[15] 郭靜. 淺述古籍出版項(xiàng)目數(shù)字化標(biāo)準(zhǔn)和操作規(guī)范[J]. 古籍?dāng)?shù)字化推廣,2018(11):17-21.
[16] 石雷等. 基于輪廓擬合的新風(fēng)格書法字合成[J]. 計(jì)算機(jī)應(yīng)用與軟件,2017(6):134-135.
[17] 胡紅. 古籍?dāng)?shù)字化的現(xiàn)狀及建議[J]. 重慶圖情研究,2014(3):57-60.
[18] 劉明. 善本古籍?dāng)?shù)字化實(shí)踐的意義和啟示范[J]. 古籍整理出版情況簡(jiǎn)報(bào),2017(2-3):47-49.
[19] 曹天曉. 新技術(shù)下古籍?dāng)?shù)字化分類及意義探究[J]. 圖書館研究與工作,2017(9): 37-38.
[20] 萬(wàn)晶晶. 淺論古籍?dāng)?shù)字化優(yōu)點(diǎn)[J]. 青年文學(xué)家,2016(92):194.
(責(zé)任編輯:江 艷)