馮中華 王利賢
南京水利科學(xué)研究院科技信息研究中心
本文通過對館藏科研報告進(jìn)行數(shù)字化掃描的實踐,對掃描過程中面臨或存在的一些問題,經(jīng)過分析,提出解決這些問題的對策,為相關(guān)單位在數(shù)字化過程中解決類似問題提供參考,從而提高館藏資源數(shù)字化建設(shè)的進(jìn)程。
科研報告的管理在于更好地發(fā)揮作用,在網(wǎng)絡(luò)環(huán)境下,科研人員更希望通過網(wǎng)絡(luò)直接閱讀相關(guān)的科研報告。為此,必須加快科研報告的數(shù)字化建設(shè)以滿足在網(wǎng)絡(luò)條件下科研人員對科研報告查閱的需求,從而實現(xiàn)科研報告的共享,促進(jìn)科研人員開展創(chuàng)新性的科研工作??蒲袌蟾鏀?shù)字化建設(shè)包括多個環(huán)節(jié),數(shù)字化掃描就是其中的首要環(huán)節(jié)、關(guān)鍵環(huán)節(jié),掃描產(chǎn)品的好壞直接影響整個數(shù)字化建設(shè)的質(zhì)量。本文通過對一個歷史悠久、館藏專業(yè)資源豐富的科研型專業(yè)圖書館在科研報告數(shù)字化掃描工作中面臨或存在的問題進(jìn)行分析,提出合理的、可行的解決方法,為類似科研型機(jī)構(gòu)圖書館的數(shù)字化掃描提供借鑒,從而提高數(shù)字化掃描的質(zhì)量與效率。
館藏科研報告由于歷史悠久,情況不一。一些報告紙張發(fā)黃變脆,一些報告內(nèi)容字跡變淡、插圖不清;一些報告紙張材質(zhì)復(fù)雜多樣,有復(fù)印紙、稿紙、機(jī)打紙、銅版紙、圖紙和相紙等,一些報告紙張大小也不統(tǒng)一,這些情況都給掃描帶來了問題,只有理清掃描中可能出現(xiàn)的問題,才有助于提高掃描的質(zhì)量和效率。
館藏科研報告掃描是專業(yè)圖書館數(shù)字化建設(shè)過程中的關(guān)鍵環(huán)節(jié),而很多專業(yè)圖書館的管理人員對具體的掃描工作還是比較陌生的,特別是遇到一些特殊情況更是無從下手,多數(shù)人對掃描儀的設(shè)置、功能不勝了解,對掃描軟件更是顯得陌生,這將會影響具體的掃描工作。
館藏科研報告掃描必須要有相應(yīng)的基礎(chǔ)設(shè)施,目前,多數(shù)專業(yè)型圖書館軟、硬件基礎(chǔ)設(shè)施配備并不齊全。在掃描管理軟件方面也是參差不齊,功能不統(tǒng)一,由于需求不同,軟件在規(guī)范性、開放性、共享性方面較差,導(dǎo)致軟件的使用層次不一。在硬件方面,一般的掃描儀大多是適合A4 以下的紙張,對于超過A4 紙張的頁面就無能為力,這樣就會造成掃描內(nèi)容不完整。由于基礎(chǔ)設(shè)施的配置與維修需要相當(dāng)?shù)慕?jīng)費投入,在軟、硬件基礎(chǔ)設(shè)施不能滿足掃描要求的情況,需要找出應(yīng)對措施。
館藏科研成果報告在掃描時,多數(shù)需要拆裝后掃描,最后再重新裝訂。在這個過程中,經(jīng)常會發(fā)生掃描件順序錯亂、頁面顛倒,導(dǎo)致掃描件與原件不符;同時,在原件重新裝訂恢復(fù)過程中也會出現(xiàn)類似情況,有的還會出現(xiàn)紙張破損,這些問題都需要有相應(yīng)的解決辦法。
在掃描過程時,一些頁面漏掃、一些頁面重復(fù)掃的現(xiàn)象時有發(fā)生;在掃描同一篇報告時,有的頁面清晰度不同,有的頁面有插圖,有的頁面文字偏小,由于參數(shù)設(shè)置不變,導(dǎo)致掃描件內(nèi)容參差不齊,雖然在掃描前會根據(jù)一些規(guī)范文件提出相應(yīng)要求,但不同的人理解、執(zhí)行上差異較大,導(dǎo)致掃描件質(zhì)量各不相同;掃描后對原件的恢復(fù)沒有按照相應(yīng)的流程進(jìn)行處理,導(dǎo)致恢復(fù)的原件也是千差萬別,有的導(dǎo)致對原件造成損害。
在掃描中,一般有黑白二值、灰度、彩色等三種色彩模式,對待不同的頁面需要選擇不同的色彩模式,這個問題將影響掃描件的清晰度、存儲大小和OCR 識別利用;分辨率參數(shù)大小設(shè)置問題,也將影響掃描件的清晰度、存儲大小和OCR 識別利用;掃描件的最終存儲格式選擇問題,對數(shù)字化管理系統(tǒng)的存儲和網(wǎng)絡(luò)利用會產(chǎn)生不小的影響。
對專業(yè)圖書館來說,為了適應(yīng)當(dāng)前網(wǎng)絡(luò)技術(shù)和滿足用戶迫切需求,需要盡快將一些具有特色和利用價值較高的資源進(jìn)行數(shù)字化掃描,不然面臨成本問題。第一,需要掃描資源的選擇,將會影響數(shù)字化建設(shè)的經(jīng)濟(jì)成本;第二,掃描設(shè)施的購置和維護(hù)、管理系統(tǒng)軟硬件配置等,也會增加數(shù)字化建設(shè)的經(jīng)濟(jì)成本;第三,掃描人員的工資成本,也是數(shù)字化建設(shè)的經(jīng)濟(jì)成本之一;第四,由于人員熟練程度、設(shè)施性能高低、管理平臺建設(shè)規(guī)劃等等,是數(shù)字化建設(shè)必須考慮的時間成本問題。
多數(shù)科研報告涉及技術(shù)、成果等需要保密的信息,所以科研報告的數(shù)字化工作一般不實行外包,但大量的科研報告進(jìn)行數(shù)字化掃描,需要投入大量的人力。但一般專業(yè)圖書館管理人員本身相對較少,因此,需要快速、高效、高質(zhì)量的完成報告的掃描工作,必須對管理人員進(jìn)行專項培訓(xùn),提高員工素質(zhì),從而彌補(bǔ)人員不足、操作不熟練等問題。比如,可以舉辦掃描儀使用方法與技巧培訓(xùn),掃描軟件使用方法與技巧培訓(xùn),掃描規(guī)范性流程培訓(xùn)等。
軟、硬件基礎(chǔ)設(shè)施是專業(yè)圖書館數(shù)字化建設(shè)不可缺少的基本條件,是館藏特色資源開發(fā)利用的基礎(chǔ)。先進(jìn)齊全的軟、硬件基礎(chǔ)設(shè)施在很大程度上能夠提高掃描的效率和質(zhì)量。由于各專業(yè)圖書館在經(jīng)費投入中都明顯不足,因此,在制定館藏特色資源數(shù)字化掃描方案中應(yīng)考慮到其所需的軟、硬件掃描設(shè)備的適用性、兼容性、通用性問題,避免各自為政的情況,提升基礎(chǔ)條件。
在硬件方面,可以考慮配備穩(wěn)定性好、性價比高的計算機(jī)、掃描儀等成套設(shè)備,從而滿足掃描大數(shù)據(jù)的穩(wěn)定快速處理、掃描文件的高清晰度的要求,經(jīng)費允許,可以考慮配置掃描A3 頁面以下的掃描儀,如果原件頁面再大,可以采用分塊掃描,然后再利用photoshop 圖像處理軟件進(jìn)行拼接;軟件方面,如果經(jīng)費允許,可以投入一定的經(jīng)費,開發(fā)一套功能完備的掃描管理軟件,在經(jīng)費緊張的情況下,也可以使用一些普通的掃描軟件和管理軟件完成掃描數(shù)據(jù)的處理等工作??傊挥熊?、硬件基礎(chǔ)設(shè)施同時具備,才能滿足館藏特色資源數(shù)字化建設(shè)的基本要求。
在掃描時,出現(xiàn)漏掃、重復(fù)掃描的主要原因:一是沒有相應(yīng)的規(guī)范和流程;二是報告整理不規(guī)范;三是工作人員工作粗心。掃描后原件的恢復(fù)不好,出現(xiàn)頁面倒置、頁碼錯亂,甚至出現(xiàn)原件損害。因此,必須對掃描全過程進(jìn)行規(guī)范化管理,在各個階段制定相應(yīng)的規(guī)范流程。
掃描前,做好需要掃描報告的清單,然后按照清單做好整理工作,出庫掃描原件需管理人員和掃描人員雙方查驗、簽字確認(rèn)。掃描中,需要統(tǒng)一掃描標(biāo)準(zhǔn),包含清晰度要求、歪斜誤差控制數(shù)、掃描文件命名規(guī)則、文件存儲格式等;在掃描過程中,需要翻動紙張時,不要用力過度,注意保護(hù)脆弱紙張;為了確保質(zhì)量,必須指定質(zhì)量校核員,校核掃描圖像的清晰度、完整性、歪斜度等。掃描后,需要按報告原順序進(jìn)行恢復(fù),確保頁碼不亂、頁面不顛倒、紙張不破損等,從而保證原件恢復(fù)效果,原件返還入庫需要管理人員與掃描人員雙方查驗、簽字確認(rèn)。各階段按規(guī)范的流程進(jìn)行管理,不僅能提高掃描的質(zhì)量,還能避免返工現(xiàn)象,提高掃描進(jìn)度。
在掃描中,針對不同的報告需要采用不同的色彩模式、分辨率和存儲格式,保證不同紙質(zhì)報告掃描后的圖像在清晰度與存儲大小達(dá)到最佳平衡點,既能夠清晰完整地保持圖像,又有利于節(jié)省存儲空間,方便掃描資源的網(wǎng)絡(luò)傳輸、存儲、共享和使用。經(jīng)過大量成果報告掃描的實踐,為紙質(zhì)成果報告掃描的參數(shù)設(shè)置提出以下建議。
1.無底色、白底黑字、對比度較高、文字較大的文字型頁面,采用黑白模式,分辨率設(shè)置為150dpi;
2.無底色、白底黑字、對比度一般、文字較小的文字型頁面,采用黑白模式,分辨率設(shè)置為300dpi;
3.無底色、白底黑字、對比度較差的文字型頁面,采用灰度模式,分辨率設(shè)置為200dpi;
4.單一底色、文字色彩單一的文字型頁面,采用灰度模式,分辨率設(shè)置為300dpi;
5.文字為彩色、文字密集或手寫、文字太小、底色發(fā)黃且年代久遠(yuǎn)等文字型文件以及照片等采用彩色模式,分辨率設(shè)置為300dpi。
如果原件本身就不清晰,比較模糊,這種情況就要在亮度、對比度、分辨率等方面加以協(xié)調(diào)處理了。
在存儲格式方面,需要考慮可用性(包括OCR 識別)、國際通用性、網(wǎng)絡(luò)傳輸速度等多個方面,我們根據(jù)各種文本格式、圖像格式進(jìn)行比較,最終采用pdf 雙層格式。這種格式是一種獨立文檔,可以很好地保持檔案的原貌,可以通過識別利用,而且網(wǎng)絡(luò)傳輸速度快,可以邊下載邊閱讀,已經(jīng)成為全世界電子文檔分發(fā)公開的實際標(biāo)準(zhǔn)。針對紙張大小不一的情況,我們將A4 及以下的頁面全都按A4 頁面存儲,大于A4 的頁面保持不變,保證掃描成果質(zhì)量和讀者順暢閱讀。
首先,在前期準(zhǔn)備工作,將需要數(shù)字化掃描報告的清單應(yīng)盡量做到精細(xì)化。館藏報告量大,數(shù)字化掃描工作要采取逐步推進(jìn)、有的放矢、部分優(yōu)先的原則,在有限的資金和時間投入下,優(yōu)先掃描利用頻率高、保存價值高、損毀度高的報告,對于那些利用頻率低、保存價值低、不太重要的報告可以延后掃描,這樣不僅可以減少大量的人力和財力投入,還可以有效地節(jié)省時間,提高掃描的效率,加快數(shù)字化進(jìn)程。其次,在采購中盡量選擇性價比高、保養(yǎng)成本低的掃描設(shè)備;在軟件方面,盡量選擇成熟、價格低、通用性好的管理軟件,不必追求功能多、價格高、不通用的軟件;在設(shè)備使用中,要求員工一定按正確的操作規(guī)程使用,降低設(shè)備的維修率,提高設(shè)備的使用壽命,從而節(jié)省成本。最后,要節(jié)省成本,還需從人的素質(zhì)提高入手,在真正開始掃描之前,做好掃描人員的培訓(xùn)工作尤其重要,掃描人員掌握了熟練的技能,既可以提高掃描成果的質(zhì)量,又可以節(jié)省時間成本,從而加快掃描進(jìn)度。