張 娜 陜西電子信息職業(yè)技術(shù)學院 710032
?
古籍編纂錄入系統(tǒng)的分析與研究
張 娜 陜西電子信息職業(yè)技術(shù)學院 710032
【文章摘要】
隨著計算機技術(shù)的廣泛普及和應用,加強古籍編纂錄入系統(tǒng)的數(shù)字化建設成為古代文獻研究的熱點,也是現(xiàn)如今古籍編纂錄入系統(tǒng)發(fā)展的必然要求。在搜集現(xiàn)有研究資料和應用成果的基礎上,本文試從古籍編纂錄入系統(tǒng)的研究與分析角度出發(fā),有針對性地指出當前古籍編纂錄入系統(tǒng)中存在的問題與缺陷,并在基礎上提出改善建議,希望能對今后古籍編纂錄入系統(tǒng)的完善以及古籍研究提供借鑒與幫助。
【關鍵詞】
估計編纂;錄入系統(tǒng);分析研究
中華文化源遠流長、博大精深,歷經(jīng)幾千年的時間檢驗而傳承不斷,更是在人類歷史文化的發(fā)展中留下了浩如煙海的古籍,記載了華夏民族曾經(jīng)的歷史與輝煌?,F(xiàn)如今,這些古籍成為考量和探索古代文化的重要載體和工具,是先輩留給我們的珍貴文化遺產(chǎn)。如何深入高效的對其進行研究以繼承古代文化遺產(chǎn)并加以創(chuàng)新,成為華夏兒女共有的責任和義務。本文試從古籍編纂錄入系統(tǒng)的研究與分析出發(fā),闡述當下社會環(huán)境下古籍研究的瓶頸與困難,希望能進一步促進古籍編纂錄入系統(tǒng)的完善。
1.1古籍編纂的概念
古籍的編撰指根據(jù)相關的主題來編輯古籍文獻。古籍編纂在我國具有非常久遠的歷史,早在我國西漢時期,劉歆的《七略》便體現(xiàn)出了古籍編纂的思想,至現(xiàn)在為止國內(nèi)各圖書館關于古籍的藏書目錄及種種聯(lián)合目錄已不可勝數(shù),極大的便利了人們關于古籍的檢索與查找。同時,隨著古籍編纂方法的提升和完善,在一定程度上也為我國古籍文獻的研究提供了便利性。
1.2錄入系統(tǒng)的演進及發(fā)展
古籍錄入系統(tǒng)隨著計算機技術(shù)的不斷提高,從原來的手工錄入逐漸演變?yōu)楝F(xiàn)今的自動錄入。傳統(tǒng)的手工錄入是指依靠人力通過輸入法在計算機系統(tǒng)上進行輸入,將所需要的古籍內(nèi)容輸入的計算機中,這種方法需要花費大量的人力和時間,而且準確度無法保障,而現(xiàn)今的自動錄入是指通過光學字符識別技術(shù)(通過圖像掃描、預處理、版面分析等程序辨別紙張上的文字并將其轉(zhuǎn)變?yōu)榭稍谟嬎銠C上進行編輯的文字)來代替人力進行古籍文字到計算機的輸入過程,極大程度上降低了估計錄入的成本并提高了錄入效率。
2.1古籍自動編纂
傳統(tǒng)的古籍編纂方法繁瑣且效率低下,無法適應現(xiàn)今社會對于古籍文獻的需求,因此在計算機技術(shù)日益完善和成熟的今天,利用其進行古籍編纂的自動化已是大勢所趨。古籍自動編纂一般需要經(jīng)過確定編纂主題、文檔分析、文檔編纂等步驟。以農(nóng)業(yè)古籍自動編纂為例,通過單詞出現(xiàn)的頻率或計算緊湊度和深度值的方法,確定編纂主題從而實現(xiàn)農(nóng)業(yè)古籍的自動編纂。目前古籍自動編纂的研究尚處于起步階段,仍然還有許多的技術(shù)難題需要留待后來人攻克。
2.2古籍自動錄入
古籍自動錄入技術(shù)主要通過光學字符識別技術(shù)來完成,大致需要經(jīng)過圖像掃描、預處理、版面分析、文字區(qū)域提取、文字識別、后處理等步驟。古籍自動錄入主要體現(xiàn)在古籍的數(shù)字化工作當中。迄今為止,古籍自動錄入技術(shù)應用較為成熟的軟件是“數(shù)碼翰林”,已成功制作了《四庫全書》和《四部叢刊》的電子圖書,且保留了古籍的原版。隨著古籍自動錄入系統(tǒng)的的不斷完善,古籍檢索系統(tǒng)也大量涌現(xiàn),例如各大院校圖書館的電子圖書檢索系統(tǒng),同古籍自動錄入技術(shù)呈現(xiàn)出互為促進的效果。
3.1文字錄入識別能力較弱
古籍編纂錄入系統(tǒng)盡管已經(jīng)取得豐富的成果也進行了相應的完善,但數(shù)字化的自動錄入系統(tǒng)仍然依賴于圖像文字的識別技術(shù),在面對字型較為復雜或相似字較多的情況下易出現(xiàn)識別率較低的情況,影響古籍自動錄入的精準度。
3.2計算機系統(tǒng)缺少古籍生僻字字庫
先進的計算機系統(tǒng)字庫存儲的大多是日常使用較為頻繁的常見字,在生僻字字庫方面尚不完善,存在較大的問題。而古籍文字生僻字的部分在文字占比中較大,因而給古籍編纂錄入系統(tǒng)帶來的較大的挑戰(zhàn)。除此之外,由于古籍文字理解難度較大加之計算機系統(tǒng)中關于古籍的語法較少,也容易失去精準度。
3.3古籍掃描等設備的精準度不高
古籍編纂錄入系統(tǒng)的數(shù)字化建設很大程度上依賴于古籍掃描等設備的水平,但受科學技術(shù)條件水平的限制,光學字符識別設備的水平還存在很大的不足,無法達到古籍文獻研究的高精準度要求,經(jīng)常會出現(xiàn)由于古籍文字不清晰或掃描儀器質(zhì)量問題而產(chǎn)生識別錯誤,導致古籍編纂錄入系統(tǒng)失去效應。
4.1提升關鍵字檢索和數(shù)字化整理能力
鑒于目前古籍數(shù)據(jù)庫檢索系統(tǒng)的檢索效率不高等現(xiàn)象,應邀請關于古籍文獻研究方面的專家學者對古籍編纂錄入系統(tǒng)提出自己的改善建議和要求,并依據(jù)其觀點開發(fā)相應的輔助軟件來提升古籍編纂錄入系統(tǒng)的關鍵字檢索能力和數(shù)字化整理能力,從而完成古籍編纂錄入系統(tǒng)的改進。
4.2完善古籍字庫的儲備
開發(fā)相應的文字軟件彌補現(xiàn)今計算機系統(tǒng)生僻字字庫不足的缺陷,從而完善古籍字庫的儲備,為古籍自動編纂錄入系統(tǒng)的精準度奠定文字基礎。除此之外,還應添加關于古籍語法方面的分析軟件,使得計算機系統(tǒng)能更好地識別提取關鍵詞,完成古籍自動編纂。
4.3提升古籍錄入系統(tǒng)硬件設備水平
在當前科學技術(shù)發(fā)展的水平上,盡量完善古籍錄入系統(tǒng)硬件的設備水平,降低其誤差率。同時,在光學字符識別技術(shù)的過程中,提供相應的軟件良好運行環(huán)境等輔助手段,側(cè)面提升古籍文字錄入的準確度。
古籍編纂錄入系統(tǒng)的研究雖然已經(jīng)取得了豐富的研究成果,但其數(shù)字化建設方面整體仍處于初步探索階段,缺乏實用性強、通用性強的研究成果,因此需要更多的專家學者投入到古籍編纂錄入系統(tǒng)的研究當中,尤其需要計算機技術(shù)方面的人才與古籍文獻研究方面的學者的通力合作。在此基礎上,隨著關于古籍編纂錄入系統(tǒng)研究人才的不斷涌現(xiàn),相信古籍編纂的數(shù)字化建設愿景必將得以實現(xiàn)。
【參考文獻】
[1]吳家駒.中文古籍數(shù)字化的進展與主要成果述評[J].南京師范大學文學院學報,2004(3):178-183.
[2]陳立新.古籍數(shù)字化的進展與問題[J].上海高校圖書情報工作研究,2003(2):36-38.
[3]喬紅霞.關于古籍全文數(shù)據(jù)庫建設工作的思考[J].河南圖書館學刊,2001(4):58-60.