張 帆(無錫市檔案局,江蘇無錫,214023)
報紙作為一種獨(dú)特的館藏信息資源記載了人類社會政治、經(jīng)濟(jì)、文化、科學(xué)發(fā)展的歷程,是傳播知識、社會教育的媒介,具有特殊的參考價值和史料價值。傳統(tǒng)紙質(zhì)報紙的保存很大程度上受到客觀條件的限制,隨著時間的推移會出現(xiàn)泛黃、老化、褪色等問題。隨著信息技術(shù)的高速發(fā)展,數(shù)字報紙已經(jīng)成為一種主流的媒體出現(xiàn)在大眾的視線里,它易于保存,且隨時能夠進(jìn)行再版印刷。數(shù)字報紙還能夠?qū)崿F(xiàn)目錄及全文檢索,簡化了手工查找報紙信息的復(fù)雜程序,同時可以對文章、圖片、廣告等進(jìn)行分類統(tǒng)計,提高了利用效率。
2010年無錫市檔案館選擇與無錫日報社合作,進(jìn)行歷史報紙數(shù)字化項(xiàng)目,將《無錫日報》作為首批數(shù)字化加工對象?!稛o錫日報》是無錫市檔案館的重要館藏資源,同時也是中共無錫市委機(jī)關(guān)報,發(fā)行量居無錫地區(qū)新聞類報紙第一位,具有極強(qiáng)的可信性,一直是無錫最大的主流媒體。通過本次工作的研究和實(shí)施,我總結(jié)了一些報紙數(shù)字化處理的途徑與方法,和大家分享一下。
首先在工作初期,我們對于《無錫日報》進(jìn)行了詳細(xì)的調(diào)研?!稛o錫日報》是從1949年8月創(chuàng)刊的,至今已有60余年的歷史,期間經(jīng)歷了數(shù)次更名,且多次進(jìn)行出版周期調(diào)整。從2009年起,無錫日報社已有數(shù)字報紙出版,因此我們需要加工的《無錫日報》是1949年8月至2008年的所有出版報紙。為了更好地進(jìn)行下一步工作,我們首先將無錫市檔案館和無錫日報社所收藏的《無錫日報》進(jìn)行了整理,并作了詳細(xì)的情況記錄,經(jīng)過半個月的時間,基本摸清了現(xiàn)有報紙的版面和保存情況。我們發(fā)現(xiàn)現(xiàn)有報紙主要存在四種問題:一是版面不全;二是部分版面存在缺角、破損、開天窗等情況,尤其是“文化大革命”期間出版的報紙被剪和被亂劃的問題比較突出;三是由于保存條件原因,80年代以前的報紙出現(xiàn)了泛黃、老化、內(nèi)容模糊等現(xiàn)象;四是部分報紙采用了中縫裝訂的方式,導(dǎo)致中縫內(nèi)容破損嚴(yán)重。為了解決這些問題,我們與多家《無錫日報》收藏單位取得聯(lián)系,其中包括無錫市圖書館、南京市圖書館、北京國家圖書館等,最終共補(bǔ)得報紙近10000版,報紙的補(bǔ)齊率達(dá)到了99%以上。
我們通過研究和測試,將報紙數(shù)字化分為三個步驟:
1.報紙圖像的采集。初期我們嘗試了掃描和翻拍兩種方式進(jìn)行報紙圖像的采集。由于報紙版面比較大,開始我們認(rèn)為采用翻拍的方式比較省力,同時對報紙的損傷比較小,但是這種方式采集下來的圖像精度較差,后期進(jìn)行文字識別時識別率太差并不適用。后來改用平板掃描儀掃描的方式進(jìn)行圖像采集,掃描方式取得的圖像字跡清晰,精度高,考慮到后期有再版印刷等需求,將掃描的分辨率定為400DPI,存儲格式為JPG。在報紙掃描環(huán)節(jié)需要根據(jù)報紙的實(shí)際情況調(diào)整掃描儀設(shè)置以便能更好地識別報紙。其中“輝度”調(diào)整報紙上字顏色的深淺。字的顏色不能太深,不然字就會成墨團(tuán),不能很好地識別;字的顏色也不能太淺,不然字的筆畫間會出現(xiàn)斷點(diǎn),后期就會識別成幾個字。“對比度”調(diào)整報紙底紋的深淺,對比度數(shù)值低底紋顏色深,不利于識別文字,同時也不美觀;數(shù)值過高,底紋淺了,會出現(xiàn)很多雜點(diǎn),報紙識別時又會造成很多錯字。每次更換一個時間段的報紙,我們都需要通過多次測試來確定這批報紙掃描的設(shè)置參數(shù)。
2.報紙圖像處理。通過掃描儀采集到的報紙版面圖像需要進(jìn)一步通過圖像處理,進(jìn)行傾斜矯正、裁邊、去雜點(diǎn)、去黃色底等步驟來提高清晰度,同時也有利于OCR識別率的提高。在圖像處理階段,根據(jù)不同時間段的報紙情況也要采用不同的處理方式。如五六十年代的報紙紙質(zhì)泛黃,還有較嚴(yán)重的破損情況,圖像處理時就要通過做圖軟件中“色階”等的設(shè)置將報紙底紋去黃,然后再調(diào)整文字顏色以便于后面的識別。同時還需要通過畫布、圖層等的設(shè)置,把破損的地方取相近顏色補(bǔ)齊,達(dá)到美觀的效果。
3.報紙數(shù)字信息轉(zhuǎn)換及加工。在取得清晰美觀的報紙圖像以后,如何將圖像信息轉(zhuǎn)換為數(shù)字信息是工作的主要環(huán)節(jié)。由于報紙數(shù)字化技術(shù)已經(jīng)相對成熟,我們通過多方面的比較,選擇使用漢王的報紙OCR技術(shù)進(jìn)行轉(zhuǎn)換。轉(zhuǎn)換后的數(shù)據(jù)再通過針對性開發(fā)的二次加工處理系統(tǒng)進(jìn)行標(biāo)引和分類的深度加工,最終形成完整的數(shù)字報紙。
主要步驟見圖1。
(1)版面分析:對于版面圖片的布局、內(nèi)容進(jìn)行邏輯分析,在系統(tǒng)中具體操作是根據(jù)不同的類型用不同顏色的屬性框?qū)Π婷孢M(jìn)行劃分。每個框所標(biāo)示的屬性主要有序號、標(biāo)引屬性、欄的識別類型屬性等。其中序號描述的是篇序號與框序號,例如1-1表示第一篇第一個框;標(biāo)引屬性分為標(biāo)題、副題、正文等;欄的識別類型表示的是識別的類別和順序,例如:左排橫欄、右排橫欄、表格、圖片等。版面分析后效果如圖2。
(2)OCR識別:根據(jù)版面分析的結(jié)果,將圖像識別為可編輯的文字信息,并輸出識別的結(jié)果。此項(xiàng)工作主要由OCR系統(tǒng)自動完成。
(3)縱向校對:縱向校對是對圖像的識別結(jié)果按字型逐字與原文對比校對,將可疑字列出、并標(biāo)記為紅色,以便操作人員修改。如圖3。
(4)橫向校對:橫向校對是逐行逐字地把識別文本與相應(yīng)圖像做對比的校對方式,方便利用上下文信息進(jìn)行判斷。如圖4。
(5)版面還原:將識別結(jié)果進(jìn)行版面還原形成雙層PDF文件。
(6)數(shù)據(jù)入庫:將前面形成的初步識別數(shù)據(jù)批量導(dǎo)入到數(shù)字報紙利用平臺數(shù)據(jù)庫中。
(7)二次加工:通過二次加工對數(shù)據(jù)進(jìn)行深加工,主要完成對各個字段的補(bǔ)充,以及對文章、圖片、廣告等按照要求進(jìn)行分類。
(8)最終數(shù)據(jù):將最終形成的完整數(shù)字報紙數(shù)據(jù)保存?zhèn)浞荨?/p>
通過多次測試和實(shí)施,最終形成了完整的報紙數(shù)字化加工技術(shù)規(guī)范,為未來展開館藏報紙數(shù)字化工作奠定了扎實(shí)的基礎(chǔ)。
有了數(shù)字報紙資源,要真正將信息資源利用起來還需要軟件平臺的支撐。在工作的第三階段,無錫市檔案館與軟件開發(fā)單位合作開發(fā)了擁有自主知識產(chǎn)權(quán)的數(shù)字報紙利用平臺。開發(fā)主要經(jīng)歷兩個階段,歷時5個月。第一版系統(tǒng)采用SQL Server數(shù)據(jù)庫,由于數(shù)據(jù)量逐漸增多,數(shù)據(jù)庫結(jié)構(gòu)及檢索利用響應(yīng)速度等問題,后進(jìn)行第二版系統(tǒng)開發(fā)。第二版系統(tǒng)采用Orcal數(shù)據(jù)庫,開發(fā)環(huán)境為.NET,并優(yōu)化了數(shù)據(jù)結(jié)構(gòu),通過不斷測試改進(jìn),平均響應(yīng)速度達(dá)到10秒以內(nèi)。系統(tǒng)分為前臺展示系統(tǒng)和后臺二次加工系統(tǒng)兩部分。前臺展示系統(tǒng)為B/S結(jié)構(gòu),主要功能為:導(dǎo)航瀏覽、各類檢索功能、顯示打印、統(tǒng)計功能、系統(tǒng)管理等。后臺二次加工系統(tǒng)為C/S結(jié)構(gòu),主要功能為:報刊維護(hù)、期號維護(hù)、版面維護(hù)、內(nèi)容維護(hù)、二次加工、數(shù)據(jù)統(tǒng)計、數(shù)據(jù)管理、用戶管理等。
圖2
圖3
圖4
通過數(shù)字報紙利用平臺,突破了手工利用報紙的局限性,我們可以快捷方便地實(shí)現(xiàn)對于報紙信息資源的分類檢索和全文檢索,并且能夠?qū)蠹埼恼?、圖片、廣告、字頻等進(jìn)行統(tǒng)計分析,進(jìn)一步深化對報紙數(shù)字化資源的利用。
以上是對于報紙數(shù)字化工作的一些經(jīng)驗(yàn)和探討,在今后的工作中我們將繼續(xù)優(yōu)化報紙信息數(shù)據(jù)庫結(jié)構(gòu),并就報紙數(shù)字資源的利用模式展開更深入的探索和研究。