深入推進(jìn)檔案資源體系建設(shè),加快檔案資源數(shù)字轉(zhuǎn)型,建立以檔案數(shù)字資源為主導(dǎo)的檔案資源體系,是“十四五”期間全國檔案事業(yè)發(fā)展的主要任務(wù)之一。對于全國縣級以上綜合檔案館來說,大力推進(jìn)增量檔案的電子化,繼續(xù)做好存量檔案的數(shù)字化工作,最終實現(xiàn)“應(yīng)數(shù)字化檔案數(shù)字化率達(dá)到80% ”的目標(biāo),將是今后一個時期內(nèi)非常艱巨的一項工作。因此,從微觀的角度深度解析紙質(zhì)檔案的數(shù)字化,不僅對于掌握檔案信息化關(guān)鍵核心技術(shù),實現(xiàn)檔案信息技術(shù)創(chuàng)新發(fā)展具有重要的理論意義,而且對于高標(biāo)準(zhǔn)、高質(zhì)量做好當(dāng)前的檔案數(shù)字化工作具有重要的現(xiàn)實意義。
一、紙質(zhì)檔案的數(shù)字化轉(zhuǎn)換過程
紙質(zhì)檔案的數(shù)字化轉(zhuǎn)換過程是利用掃描儀等設(shè)備對紙質(zhì)檔案進(jìn)行圖像掃描,轉(zhuǎn)化為存儲在磁帶、磁盤、光盤等介質(zhì)上的數(shù)字圖像的過程。平板掃描儀是最常用的紙質(zhì)檔案數(shù)字化加工設(shè)備。進(jìn)行檔案數(shù)字化掃描時,將紙質(zhì)檔案放置于平板掃描儀的平臺玻璃板(稿臺)上,蓋好掃描儀蓋板,按下掃描鍵,掃描儀控制器發(fā)出掃描指令,開始對紙質(zhì)檔案進(jìn)行掃描。
掃描儀光源(冷陰極輝光放電管)發(fā)出的光線照射平臺玻璃板(稿臺)上紙質(zhì)檔案。此時,大部分光線會被反射,少部分光線被吸收,還有極少一部分光線可能發(fā)生透射。其中,發(fā)生反射的光線再經(jīng)過反光組鏡的反射照射到平板掃描儀的線陣電荷耦合器件(CCD,Charge-CoupledDevice的縮寫)上。CCD在光線的照射下生成大小不同的電壓信號,此時的電信號是模擬信號,無法被計算機(jī)直接識別和處理。接下來經(jīng)過模數(shù)轉(zhuǎn)換器(ADC)進(jìn)行信號的采樣、編碼等一系列轉(zhuǎn)換,將掃描檔案獲取的模擬電信號轉(zhuǎn)換成數(shù)字信號。
與此同時,步進(jìn)電機(jī)控制器PWM(脈寬調(diào)制)技術(shù)控制步進(jìn)電機(jī)轉(zhuǎn)動從而帶動驅(qū)動皮帶,驅(qū)動皮帶驅(qū)動掃描儀的光源和線陣CCD一起沿垂直于線陣CCD方向的傳動導(dǎo)軌上作線性運動,每運動一個增量,對檔案進(jìn)行一行掃描。隨著步進(jìn)電機(jī)的轉(zhuǎn)動,完成對整個檔案幅面的掃描,從而獲取該頁檔案的掃描數(shù)據(jù)。假設(shè)對1頁A4幅面的檔案進(jìn)行掃描,掃描分辨率設(shè)置為 300dpi ,色彩模式選用8位256級灰度。掃描后得到的檔案圖像數(shù)據(jù)可達(dá) 210÷25.4×300)×(297÷25.4×300) I ÷ 。以上數(shù)據(jù)中還不包括文件存儲格式中增加的大量標(biāo)記所占用的存儲空間。如果采用24位、48位的色彩模式,那么數(shù)據(jù)量將分別增加3倍、6倍,達(dá)到24.90MB、49.80MB。這是僅對1頁A4幅面大小的檔案進(jìn)行掃描而獲取的數(shù)據(jù)量??紤]到存儲成本、傳輸及利用等因素,特別是在以前存儲介質(zhì)價格昂貴、網(wǎng)絡(luò)傳輸速率低的時候就顯得特別不經(jīng)濟(jì),因此通常不直接存儲、傳輸和利用這些數(shù)據(jù),而是對這些數(shù)據(jù)進(jìn)行壓縮處理,從而大幅減小圖像文件占用的存儲空間。目前常用有JPEG壓縮算法,根據(jù)不同的需要設(shè)置不同的壓縮比,可以將上述數(shù)據(jù)壓縮至幾百KB至1MB左右再進(jìn)行存儲。
二、紙質(zhì)檔案數(shù)字化的關(guān)鍵技術(shù)
在紙質(zhì)檔案的數(shù)字化過程中,用到三個非常核心或關(guān)鍵的技術(shù):一是掃描儀如何將紙質(zhì)檔案轉(zhuǎn)化為數(shù)字信號即圖像數(shù)據(jù),二是如何實現(xiàn)紙質(zhì)檔案的彩色掃描,三是紙質(zhì)檔案數(shù)字化掃描的數(shù)據(jù)如何存儲。
(一)CCD工作原理
CCD是美國貝爾實驗室在1970年前后發(fā)明的一種半導(dǎo)體器件。MOS(金屬一氧化物一半導(dǎo)體場效應(yīng)晶體管,簡稱金氧半場效晶體管)電容器是構(gòu)成CCD的基本單元,利用光電效應(yīng)實現(xiàn)由光信號到電信號的轉(zhuǎn)換5。以P型硅為例來說明,MOS電容器是在同一P型硅襯底(半導(dǎo)體)上通過氧化在表面形成 絕緣層,然后在
層上沉積金屬電極(MOS電容的柵極),各柵級之間互相絕緣且相隔極小的距離。掃描儀的線陣CCD上均勻密集地排列著數(shù)千個MOS電容器,其表面的半導(dǎo)體是一個光敏元件,通常是一個光電二極管。1個MOS電容器構(gòu)成1個像素點,而單位長度內(nèi)CCD上包含的MOS電容器數(shù)量越多,其所能提供的掃描分辨率也就越高,掃描獲取的檔案圖像也就更清楚。CCD既是掃描儀的核心部件,也是實現(xiàn)檔案數(shù)字化轉(zhuǎn)換的關(guān)鍵。
1.光電轉(zhuǎn)換
光電轉(zhuǎn)換是CCD工作的第一步,其工作原理是半導(dǎo)體的內(nèi)光電效應(yīng),也就是光生伏特效應(yīng)。當(dāng)掃描儀照射紙質(zhì)檔案的光線反射在CDD的半導(dǎo)體上時,光子的能量被半導(dǎo)體吸收,MOS電容器金屬柵極附近的半導(dǎo)體內(nèi)會激勵產(chǎn)生電荷(電子一空穴對)。人射半導(dǎo)體的光線越強,激勵出的電子一空穴對越多;電子一空穴對越多,電信號就越強,越容易被記錄或存儲,掃描檔案圖像的細(xì)節(jié)就更豐富、更接近原件。通過光電轉(zhuǎn)換的方式,把照射在MOS電容器半導(dǎo)體上的光強弱轉(zhuǎn)化成了電荷數(shù)量的多少,實現(xiàn)了光信號到電荷的轉(zhuǎn)換。
2.電荷的儲存
電荷的儲存原理是利用電子可以被高電勢所吸引的性質(zhì)。P型硅里的多數(shù)載流子是帶正電荷的空穴,少數(shù)載流子是帶負(fù)電荷的電子。在沒有外電場的情況下,光電轉(zhuǎn)換激勵出的電子(空穴)對會在一定時間內(nèi)復(fù)合并湮滅。于是,需要給MOS電容器的金屬柵極加上正偏壓,這樣產(chǎn)生兩個方面的作用,一是電場透過 層,在緊靠
層處形成耗盡區(qū)(勢阱),耗盡區(qū)的深度隨正偏電壓升高而加大。二是CCD光電轉(zhuǎn)換產(chǎn)生的空穴被排斥遠(yuǎn)離,電子則能夠被吸引到柵極下的勢阱中,形成電荷包即信號電荷。
3.電荷的轉(zhuǎn)移
電荷的轉(zhuǎn)移是將儲存的電荷從一個MOS電容器轉(zhuǎn)移到另一個MOS電容器,直到轉(zhuǎn)移至輸出級的過程。它是通過變換MOS電容器的柵極電壓利用勢阱位置的移動來實現(xiàn)信號電荷轉(zhuǎn)移,具體過程是:首先通過控制相鄰MOS電容器柵極電壓的高低來調(diào)節(jié)勢阱的深淺。其次,相鄰MOS電容的兩個柵極之間的間隙很小。最后,在信號電荷自感生電場的庫倫力推動下,信號電荷由淺處流向深處,實現(xiàn)信號電荷的轉(zhuǎn)移。
4.信號的輸出
當(dāng)信號電荷轉(zhuǎn)移至輸出級時,還不能直接利用,需要利用輸出節(jié)點電容將其轉(zhuǎn)換為電壓信號。電壓信號的強弱與信號電荷的多少成正比。由于光電轉(zhuǎn)換所激勵產(chǎn)生的信號電荷數(shù)量非常少,轉(zhuǎn)換的電壓信號也相當(dāng)微弱,因此再利用放大器對電壓信號進(jìn)行放大輸出。這時的電壓信號還是連續(xù)的模擬信號。放大后的電壓信號被送到模數(shù)轉(zhuǎn)換器(ADC)進(jìn)行采樣、編碼等一系列轉(zhuǎn)換,最終得到檔案的數(shù)字化圖像數(shù)據(jù)。
(二)色分離技術(shù)
CCD只是將光信號轉(zhuǎn)換成大小不同的電壓信號,不能對所掃描檔案進(jìn)行顏色識別,因此不能實現(xiàn)對紙質(zhì)檔案的彩色模式掃描。要實現(xiàn)彩色掃描,需要對CCD光線進(jìn)行色光分離,其原理是1666年艾薩克·牛頓發(fā)現(xiàn)的光的色散現(xiàn)象,即白光是由一端為紫色而另一端為紅色的連續(xù)色譜組成,人眼對紅、綠、藍(lán)色最為敏感,其他顏色則可以通過紅、綠、藍(lán)這三種顏色按照不同的比例組合產(chǎn)生,而紅、綠、藍(lán)這三種顏色也被人們稱為基色。
三CCD色分離技術(shù)與濾光片、光源交替色分離方式不同。三CCD色分離技術(shù)要使用三個CCD來完成紙質(zhì)檔案的掃描過程。光源發(fā)出的光線經(jīng)過一個特殊設(shè)計的分光棱鏡將紅、綠、藍(lán)光線分別反射到相對應(yīng)的CCD上,每一個CCD產(chǎn)生一種顏色的圖像數(shù)據(jù)。這樣一次掃描即可得到紙質(zhì)檔案數(shù)字化的彩色圖像。這種色分離技術(shù)掃描速度最快,但成本最高。隨著半導(dǎo)體制造工藝的不斷提升和成本的不斷下降,目前檔案數(shù)字化所采用的平板掃描儀大多使用三CCD分離技術(shù)來實現(xiàn)彩色掃描。
(三)JPEG
在檔案數(shù)字化工作中,通常將JPEG格式作為紙質(zhì)檔案數(shù)字圖像長期保存的通用格式。這里的JPEG通常指的是將紙質(zhì)檔案掃描后獲取的圖像數(shù)據(jù)經(jīng)壓縮編碼后在硬盤、磁盤、光盤等存儲介質(zhì)上儲存的一種數(shù)據(jù)封裝形式。我們習(xí)慣上稱之為JPEG格式或JPEG文件,但這并不準(zhǔn)確。JPEG還可以是一個組織,是一種靜態(tài)圖像的壓縮編碼標(biāo)準(zhǔn)。JPEG組織、JPEG標(biāo)準(zhǔn)與JPEG文件格式既有關(guān)聯(lián)又有本質(zhì)上的不同,三者不能混為一談
(1)JPEG組織。JPEG是聯(lián)合圖像專家組的縮寫,是1986年3月以個人名義發(fā)起的非官方組織,旨在開發(fā)一種靜態(tài)圖像壓縮和編碼標(biāo)準(zhǔn)間。(2)JPEG標(biāo)準(zhǔn)。1993年獲得國際標(biāo)準(zhǔn)化組織批準(zhǔn)并于1994年2月發(fā)布,JPEG壓縮標(biāo)準(zhǔn)成為獲得CCITT和ISO共同認(rèn)可的圖像數(shù)據(jù)壓縮標(biāo)準(zhǔn)。JPEG是一種有損壓縮算法。算法設(shè)計的基本原理是利用人的眼睛對圖像亮度變化的敏感程度大于對色彩變化的敏感程度,即對色彩中的高頻信息不敏感的特點,將亮度和色差分開表示,去除圖像中冗余的視覺信息和數(shù)據(jù),從而達(dá)到壓縮數(shù)據(jù)的目的。(3)JPEG格式。JPEG是一種編解碼標(biāo)準(zhǔn),不是文件格式。為了區(qū)分和識別圖像數(shù)據(jù)及其相關(guān)信息,JPEG在制定標(biāo)準(zhǔn)時定義了許多標(biāo)記,解決了如何將圖像數(shù)據(jù)壓縮為字節(jié)流以及重新解碼為圖像的過程。
三、紙質(zhì)檔案數(shù)字化的兩個技術(shù)指標(biāo)
《紙質(zhì)檔案數(shù)字化規(guī)范》第九章對紙質(zhì)檔案數(shù)字化的掃描分辨率、掃描色彩模式進(jìn)行了規(guī)定。
(一)掃描分辨率
分辨率是衡量一臺掃描儀掃描品質(zhì)的最重要的性能指標(biāo),通常用圖像在每英寸長度內(nèi)包含的點數(shù)或像素數(shù)表示。分辨率的高低不僅直接決定了掃描時所能獲取的圖像的精細(xì)程度,而且也影響到紙質(zhì)檔案數(shù)字化的質(zhì)量。關(guān)于掃描儀的分辨率又有光學(xué)分辨率、最大分辨率等提法。
光學(xué)分辨率又稱為物理分辨率、硬件分辨率或真實分辨率,是在紙質(zhì)檔案數(shù)字化工作中所說的掃描分辨率。它是掃描儀的硬件(CCD)所能達(dá)到的實際分辨率,是衡量掃描儀掃描質(zhì)量和掃描儀精度的決定性指標(biāo)。如果掃描儀的性能參數(shù)信息為“光學(xué)分辨率 或“分辨率1200dpi”,則意味著這臺掃描儀的光學(xué)分辨率為
,即掃描儀電荷耦合器件CCD上每英寸包含有1200個MOS電容器
最大分辨率又稱插值分辨率,它是圖像處理軟件利用內(nèi)插法對掃描出的圖像灰度、色彩等進(jìn)行計算后得到的分辨率,對掃描儀的掃描質(zhì)量沒有實質(zhì)上的影響,掃描儀的分辨率實際以光學(xué)分辨率為準(zhǔn),光學(xué)分辨率相同的情況下,最大分辨率只能作為參考。
雖然掃描儀的光學(xué)分辨率越高,紙質(zhì)檔案數(shù)字化掃描的質(zhì)量也就越好。但是隨著分辨率的提高,檔案數(shù)字化掃描后生成的圖像數(shù)據(jù)也會急劇增加,掃描速度也會大幅度降低,紙質(zhì)檔案數(shù)字化的成本也會相應(yīng)增加,所以選擇合適的掃描分辨率對紙質(zhì)檔案數(shù)字化工作尤其重要。《紙質(zhì)檔案數(shù)字化規(guī)范》要求掃描分辨率應(yīng)不小于 ,當(dāng)檔案文字偏小、密集、清晰度較差時,則要求掃描分辨率不小于
,這既是紙質(zhì)檔案數(shù)字化工作的經(jīng)驗總結(jié),也是考慮到紙質(zhì)檔案數(shù)字化成本問題,在掃描分辨率上作出的最優(yōu)選擇。
(二)掃描色彩模式
1.黑白二值模式
黑白二值模式是指圖像上的任何一個像素點要么為黑色,要么為白色。如果用1位二進(jìn)制數(shù)表示,則用0、1分別代表黑色、白色。如果用8位二進(jìn)制數(shù)表示,則用0、255分別代表黑色、白色。掃描后獲取的檔案圖像黑白分明。當(dāng)檔案的頁面為黑白兩色、字跡清晰、不帶插圖時,可以采用黑白二值模式進(jìn)行掃描。
2.灰度模式
灰度模式是黑白二值模式的升級版。在灰度掃描模式下,若用8位二進(jìn)制數(shù)來表示1個像素點,則將圖像的明暗程度從黑色至白色劃分為256個灰度等級,灰度值從0至255。紙質(zhì)檔案數(shù)字化掃描時,像素點灰度值的二進(jìn)制數(shù)位數(shù)越多,表示灰度級越多,掃描圖像的層次越豐富。目前市場上的主流掃描儀已經(jīng)可以實現(xiàn)65536級(16位)的灰度掃描。當(dāng)檔案頁面為黑白兩色,且字跡清晰度差或帶有插圖時,可以采用灰度模式掃描。
3.彩色模式
檔案數(shù)字化掃描中選用的彩色模式掃描一般是24位真彩色。24位真彩色代表的是用24位二進(jìn)制數(shù)來表示掃描儀能夠區(qū)分色彩數(shù)的多少,24位也就是2的24次方(16777216)種顏色。24位二進(jìn)制數(shù)分成3組,每8位表示一種顏色,即紅色、綠色、藍(lán)色三種基色,每種顏色又有256階層次。檔案掃描后每一個像素點的顏色值用一個24位的二進(jìn)制數(shù)來表示。目前性能較好的掃描儀可以實現(xiàn)48位
參考文獻(xiàn):
[1]中辦國辦印發(fā)《“十四五”全國檔案事業(yè) 發(fā)展規(guī)劃》[DB/OL].(2021-06-09)[2024-06-20]. https://www.saac.gov.cn/daj/toutiao/202106/ecca2de 5bce44a0eb55c890762868683.shtml.
[2]國家檔案局.DA/T31-2017紙質(zhì)檔案數(shù)字化規(guī)范[S].北京:國家檔案局,2017.
[3]韓偉.掃描儀的工作原理(上)[].家電檢修技術(shù),2012(10):41-42.
[4]韓偉.掃描儀的工作原理(下)].家電檢修技術(shù).2012(11):41-42.
[5]掃描儀工作原理[EB/OL].(2010-07- 22)[2024-04-04].http://www.360doc.com/conte nt/10/0722/12/1726391_40629664.shtml.
[6] Istv á n Sebesty é n. Some little-known彩色掃描。掃描儀的色彩位數(shù)越多,表示顏色數(shù)量就越多,就越能真實地反映檔案原始圖像的色彩,掃描出的檔案圖像效果也就越真實。但是色彩的位數(shù)也不是越多越好,色彩的位數(shù)多,意味著會有更多數(shù)據(jù)產(chǎn)生,需要更大的存儲空間,產(chǎn)生更高的存儲成本。
紙質(zhì)檔案數(shù)字化是一項理論性、實踐性都很強的業(yè)務(wù)工作。無論是2005年的《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》,還是2017年的《紙質(zhì)檔案數(shù)字化規(guī)范》,都在宏觀層面上對紙質(zhì)檔案的數(shù)字化工作進(jìn)行了非常詳盡、具體的描述和規(guī)范,各級綜合檔案館在紙質(zhì)檔案數(shù)字化的過程中形成了一套具有本單位特色的檔案數(shù)字化管理制度。雖然CCD的發(fā)展已經(jīng)非常成熟,并且在圖形圖像領(lǐng)域有著廣泛的應(yīng)用,但是在檔案數(shù)字化領(lǐng)域只是將掃描儀等設(shè)備作為實現(xiàn)檔案數(shù)字化轉(zhuǎn)換的工具,至今還沒有在微觀層面上對紙質(zhì)的檔案的數(shù)字化進(jìn)行技術(shù)或理論解析。各級檔案館(室)的檔案數(shù)字化工作主要是由外包公司來完成,大部分檔案工作者對檔案數(shù)字化的相關(guān)技術(shù)和原理不知其所以然。因此,檔案部門特別是各級檔案館的檔案工作者要掌握檔案工作話語權(quán),從理論層面對紙質(zhì)檔案數(shù)字化進(jìn)行深入的研究。
aspects of the history of the JPEG still picture-coding standard,ITU-T T.81 | ISO/IEC 10918-1 (1986- 1993)[]ITU Journal: ICT Discoveries.2020(1):1-36.
[7] ITU.ITU-T T.81 Information TechnologyDigital compression and coding of continuoustone still images-Requirements and guidelines [S]. ITU,1993.
[8]令人拍案叫絕的JPEG圖像壓縮原理[EB/OL].(2022-12-16)[2024-04-05].https://zhuanlanzhihu.com/p/521617590.
[9]彩色掃描儀原理及優(yōu)化設(shè)計[EB/OL].(2022-05-19)[2024-04-05].https://wenku.baidu.com/view/5d5483226ddb6f1aff00bed5b9f3f90f76c64dc7.html.
作者單位:河北省檔案館(省方志辦)