亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

報紙數(shù)字化處理的途徑與方法

2012-03-12 12:12:04無錫市檔案局江蘇無錫214023

檔案與建設(shè) 2012年8期

張帆（無錫市檔案局，江蘇無錫，214023）

報紙作為一種獨(dú)特的館藏信息資源記載了人類社會政治、經(jīng)濟(jì)、文化、科學(xué)發(fā)展的歷程，是傳播知識、社會教育的媒介，具有特殊的參考價值和史料價值。傳統(tǒng)紙質(zhì)報紙的保存很大程度上受到客觀條件的限制，隨著時間的推移會出現(xiàn)泛黃、老化、褪色等問題。隨著信息技術(shù)的高速發(fā)展，數(shù)字報紙已經(jīng)成為一種主流的媒體出現(xiàn)在大眾的視線里，它易于保存，且隨時能夠進(jìn)行再版印刷。數(shù)字報紙還能夠?qū)崿F(xiàn)目錄及全文檢索，簡化了手工查找報紙信息的復(fù)雜程序，同時可以對文章、圖片、廣告等進(jìn)行分類統(tǒng)計，提高了利用效率。

2010年無錫市檔案館選擇與無錫日報社合作，進(jìn)行歷史報紙數(shù)字化項(xiàng)目，將《無錫日報》作為首批數(shù)字化加工對象?！稛o錫日報》是無錫市檔案館的重要館藏資源，同時也是中共無錫市委機(jī)關(guān)報，發(fā)行量居無錫地區(qū)新聞類報紙第一位，具有極強(qiáng)的可信性，一直是無錫最大的主流媒體。通過本次工作的研究和實(shí)施，我總結(jié)了一些報紙數(shù)字化處理的途徑與方法，和大家分享一下。

一、紙質(zhì)報紙情況調(diào)研及補(bǔ)齊

首先在工作初期，我們對于《無錫日報》進(jìn)行了詳細(xì)的調(diào)研?！稛o錫日報》是從1949年8月創(chuàng)刊的，至今已有60余年的歷史，期間經(jīng)歷了數(shù)次更名，且多次進(jìn)行出版周期調(diào)整。從2009年起，無錫日報社已有數(shù)字報紙出版，因此我們需要加工的《無錫日報》是1949年8月至2008年的所有出版報紙。為了更好地進(jìn)行下一步工作，我們首先將無錫市檔案館和無錫日報社所收藏的《無錫日報》進(jìn)行了整理，并作了詳細(xì)的情況記錄，經(jīng)過半個月的時間，基本摸清了現(xiàn)有報紙的版面和保存情況。我們發(fā)現(xiàn)現(xiàn)有報紙主要存在四種問題：一是版面不全；二是部分版面存在缺角、破損、開天窗等情況，尤其是“文化大革命”期間出版的報紙被剪和被亂劃的問題比較突出；三是由于保存條件原因，80年代以前的報紙出現(xiàn)了泛黃、老化、內(nèi)容模糊等現(xiàn)象；四是部分報紙采用了中縫裝訂的方式，導(dǎo)致中縫內(nèi)容破損嚴(yán)重。為了解決這些問題，我們與多家《無錫日報》收藏單位取得聯(lián)系，其中包括無錫市圖書館、南京市圖書館、北京國家圖書館等，最終共補(bǔ)得報紙近10000版，報紙的補(bǔ)齊率達(dá)到了99%以上。

二、報紙數(shù)字化方法研究和實(shí)施

我們通過研究和測試，將報紙數(shù)字化分為三個步驟：

1.報紙圖像的采集。初期我們嘗試了掃描和翻拍兩種方式進(jìn)行報紙圖像的采集。由于報紙版面比較大，開始我們認(rèn)為采用翻拍的方式比較省力，同時對報紙的損傷比較小，但是這種方式采集下來的圖像精度較差，后期進(jìn)行文字識別時識別率太差并不適用。后來改用平板掃描儀掃描的方式進(jìn)行圖像采集，掃描方式取得的圖像字跡清晰，精度高，考慮到后期有再版印刷等需求，將掃描的分辨率定為400DPI，存儲格式為JPG。在報紙掃描環(huán)節(jié)需要根據(jù)報紙的實(shí)際情況調(diào)整掃描儀設(shè)置以便能更好地識別報紙。其中“輝度”調(diào)整報紙上字顏色的深淺。字的顏色不能太深，不然字就會成墨團(tuán)，不能很好地識別；字的顏色也不能太淺，不然字的筆畫間會出現(xiàn)斷點(diǎn)，后期就會識別成幾個字。“對比度”調(diào)整報紙底紋的深淺，對比度數(shù)值低底紋顏色深，不利于識別文字，同時也不美觀；數(shù)值過高，底紋淺了，會出現(xiàn)很多雜點(diǎn)，報紙識別時又會造成很多錯字。每次更換一個時間段的報紙，我們都需要通過多次測試來確定這批報紙掃描的設(shè)置參數(shù)。

2.報紙圖像處理。通過掃描儀采集到的報紙版面圖像需要進(jìn)一步通過圖像處理，進(jìn)行傾斜矯正、裁邊、去雜點(diǎn)、去黃色底等步驟來提高清晰度，同時也有利于OCR識別率的提高。在圖像處理階段，根據(jù)不同時間段的報紙情況也要采用不同的處理方式。如五六十年代的報紙紙質(zhì)泛黃，還有較嚴(yán)重的破損情況，圖像處理時就要通過做圖軟件中“色階”等的設(shè)置將報紙底紋去黃,然后再調(diào)整文字顏色以便于后面的識別。同時還需要通過畫布、圖層等的設(shè)置，把破損的地方取相近顏色補(bǔ)齊，達(dá)到美觀的效果。

3.報紙數(shù)字信息轉(zhuǎn)換及加工。在取得清晰美觀的報紙圖像以后，如何將圖像信息轉(zhuǎn)換為數(shù)字信息是工作的主要環(huán)節(jié)。由于報紙數(shù)字化技術(shù)已經(jīng)相對成熟，我們通過多方面的比較，選擇使用漢王的報紙OCR技術(shù)進(jìn)行轉(zhuǎn)換。轉(zhuǎn)換后的數(shù)據(jù)再通過針對性開發(fā)的二次加工處理系統(tǒng)進(jìn)行標(biāo)引和分類的深度加工，最終形成完整的數(shù)字報紙。

主要步驟見圖1。

（1）版面分析：對于版面圖片的布局、內(nèi)容進(jìn)行邏輯分析，在系統(tǒng)中具體操作是根據(jù)不同的類型用不同顏色的屬性框?qū)Π婷孢M(jìn)行劃分。每個框所標(biāo)示的屬性主要有序號、標(biāo)引屬性、欄的識別類型屬性等。其中序號描述的是篇序號與框序號，例如1-1表示第一篇第一個框；標(biāo)引屬性分為標(biāo)題、副題、正文等；欄的識別類型表示的是識別的類別和順序，例如：左排橫欄、右排橫欄、表格、圖片等。版面分析后效果如圖2。

（2）OCR識別：根據(jù)版面分析的結(jié)果，將圖像識別為可編輯的文字信息，并輸出識別的結(jié)果。此項(xiàng)工作主要由OCR系統(tǒng)自動完成。

（3）縱向校對：縱向校對是對圖像的識別結(jié)果按字型逐字與原文對比校對，將可疑字列出、并標(biāo)記為紅色，以便操作人員修改。如圖3。

（4）橫向校對：橫向校對是逐行逐字地把識別文本與相應(yīng)圖像做對比的校對方式，方便利用上下文信息進(jìn)行判斷。如圖4。

（5）版面還原：將識別結(jié)果進(jìn)行版面還原形成雙層PDF文件。

（6）數(shù)據(jù)入庫：將前面形成的初步識別數(shù)據(jù)批量導(dǎo)入到數(shù)字報紙利用平臺數(shù)據(jù)庫中。

（7）二次加工：通過二次加工對數(shù)據(jù)進(jìn)行深加工，主要完成對各個字段的補(bǔ)充，以及對文章、圖片、廣告等按照要求進(jìn)行分類。

（8）最終數(shù)據(jù)：將最終形成的完整數(shù)字報紙數(shù)據(jù)保存?zhèn)浞荨?/p>

通過多次測試和實(shí)施，最終形成了完整的報紙數(shù)字化加工技術(shù)規(guī)范，為未來展開館藏報紙數(shù)字化工作奠定了扎實(shí)的基礎(chǔ)。

三、建立數(shù)字報紙利用平臺

有了數(shù)字報紙資源，要真正將信息資源利用起來還需要軟件平臺的支撐。在工作的第三階段，無錫市檔案館與軟件開發(fā)單位合作開發(fā)了擁有自主知識產(chǎn)權(quán)的數(shù)字報紙利用平臺。開發(fā)主要經(jīng)歷兩個階段，歷時5個月。第一版系統(tǒng)采用SQL Server數(shù)據(jù)庫，由于數(shù)據(jù)量逐漸增多，數(shù)據(jù)庫結(jié)構(gòu)及檢索利用響應(yīng)速度等問題，后進(jìn)行第二版系統(tǒng)開發(fā)。第二版系統(tǒng)采用Orcal數(shù)據(jù)庫，開發(fā)環(huán)境為.NET，并優(yōu)化了數(shù)據(jù)結(jié)構(gòu)，通過不斷測試改進(jìn)，平均響應(yīng)速度達(dá)到10秒以內(nèi)。系統(tǒng)分為前臺展示系統(tǒng)和后臺二次加工系統(tǒng)兩部分。前臺展示系統(tǒng)為B/S結(jié)構(gòu)，主要功能為：導(dǎo)航瀏覽、各類檢索功能、顯示打印、統(tǒng)計功能、系統(tǒng)管理等。后臺二次加工系統(tǒng)為C/S結(jié)構(gòu)，主要功能為：報刊維護(hù)、期號維護(hù)、版面維護(hù)、內(nèi)容維護(hù)、二次加工、數(shù)據(jù)統(tǒng)計、數(shù)據(jù)管理、用戶管理等。

圖2

圖3

圖4

通過數(shù)字報紙利用平臺，突破了手工利用報紙的局限性，我們可以快捷方便地實(shí)現(xiàn)對于報紙信息資源的分類檢索和全文檢索，并且能夠?qū)蠹埼恼?、圖片、廣告、字頻等進(jìn)行統(tǒng)計分析，進(jìn)一步深化對報紙數(shù)字化資源的利用。

以上是對于報紙數(shù)字化工作的一些經(jīng)驗(yàn)和探討，在今后的工作中我們將繼續(xù)優(yōu)化報紙信息數(shù)據(jù)庫結(jié)構(gòu)，并就報紙數(shù)字資源的利用模式展開更深入的探索和研究。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

報紙數(shù)字化處理的途徑與方法

一、紙質(zhì)報紙情況調(diào)研及補(bǔ)齊

二、報紙數(shù)字化方法研究和實(shí)施

三、建立數(shù)字報紙利用平臺

一、紙質(zhì)報紙情況調(diào)研及補(bǔ)齊

三、建立數(shù)字報紙利用平臺