亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        報紙數(shù)字化處理的途徑與方法

        2012-03-12 12:12:04無錫市檔案局江蘇無錫214023
        檔案與建設(shè) 2012年8期
        關(guān)鍵詞:無錫市版面無錫

        張 帆(無錫市檔案局,江蘇無錫,214023)

        報紙作為一種獨(dú)特的館藏信息資源記載了人類社會政治、經(jīng)濟(jì)、文化、科學(xué)發(fā)展的歷程,是傳播知識、社會教育的媒介,具有特殊的參考價值和史料價值。傳統(tǒng)紙質(zhì)報紙的保存很大程度上受到客觀條件的限制,隨著時間的推移會出現(xiàn)泛黃、老化、褪色等問題。隨著信息技術(shù)的高速發(fā)展,數(shù)字報紙已經(jīng)成為一種主流的媒體出現(xiàn)在大眾的視線里,它易于保存,且隨時能夠進(jìn)行再版印刷。數(shù)字報紙還能夠?qū)崿F(xiàn)目錄及全文檢索,簡化了手工查找報紙信息的復(fù)雜程序,同時可以對文章、圖片、廣告等進(jìn)行分類統(tǒng)計,提高了利用效率。

        2010年無錫市檔案館選擇與無錫日報社合作,進(jìn)行歷史報紙數(shù)字化項(xiàng)目,將《無錫日報》作為首批數(shù)字化加工對象?!稛o錫日報》是無錫市檔案館的重要館藏資源,同時也是中共無錫市委機(jī)關(guān)報,發(fā)行量居無錫地區(qū)新聞類報紙第一位,具有極強(qiáng)的可信性,一直是無錫最大的主流媒體。通過本次工作的研究和實(shí)施,我總結(jié)了一些報紙數(shù)字化處理的途徑與方法,和大家分享一下。

        一、紙質(zhì)報紙情況調(diào)研及補(bǔ)齊

        首先在工作初期,我們對于《無錫日報》進(jìn)行了詳細(xì)的調(diào)研?!稛o錫日報》是從1949年8月創(chuàng)刊的,至今已有60余年的歷史,期間經(jīng)歷了數(shù)次更名,且多次進(jìn)行出版周期調(diào)整。從2009年起,無錫日報社已有數(shù)字報紙出版,因此我們需要加工的《無錫日報》是1949年8月至2008年的所有出版報紙。為了更好地進(jìn)行下一步工作,我們首先將無錫市檔案館和無錫日報社所收藏的《無錫日報》進(jìn)行了整理,并作了詳細(xì)的情況記錄,經(jīng)過半個月的時間,基本摸清了現(xiàn)有報紙的版面和保存情況。我們發(fā)現(xiàn)現(xiàn)有報紙主要存在四種問題:一是版面不全;二是部分版面存在缺角、破損、開天窗等情況,尤其是“文化大革命”期間出版的報紙被剪和被亂劃的問題比較突出;三是由于保存條件原因,80年代以前的報紙出現(xiàn)了泛黃、老化、內(nèi)容模糊等現(xiàn)象;四是部分報紙采用了中縫裝訂的方式,導(dǎo)致中縫內(nèi)容破損嚴(yán)重。為了解決這些問題,我們與多家《無錫日報》收藏單位取得聯(lián)系,其中包括無錫市圖書館、南京市圖書館、北京國家圖書館等,最終共補(bǔ)得報紙近10000版,報紙的補(bǔ)齊率達(dá)到了99%以上。

        二、報紙數(shù)字化方法研究和實(shí)施

        我們通過研究和測試,將報紙數(shù)字化分為三個步驟:

        1.報紙圖像的采集。初期我們嘗試了掃描和翻拍兩種方式進(jìn)行報紙圖像的采集。由于報紙版面比較大,開始我們認(rèn)為采用翻拍的方式比較省力,同時對報紙的損傷比較小,但是這種方式采集下來的圖像精度較差,后期進(jìn)行文字識別時識別率太差并不適用。后來改用平板掃描儀掃描的方式進(jìn)行圖像采集,掃描方式取得的圖像字跡清晰,精度高,考慮到后期有再版印刷等需求,將掃描的分辨率定為400DPI,存儲格式為JPG。在報紙掃描環(huán)節(jié)需要根據(jù)報紙的實(shí)際情況調(diào)整掃描儀設(shè)置以便能更好地識別報紙。其中“輝度”調(diào)整報紙上字顏色的深淺。字的顏色不能太深,不然字就會成墨團(tuán),不能很好地識別;字的顏色也不能太淺,不然字的筆畫間會出現(xiàn)斷點(diǎn),后期就會識別成幾個字。“對比度”調(diào)整報紙底紋的深淺,對比度數(shù)值低底紋顏色深,不利于識別文字,同時也不美觀;數(shù)值過高,底紋淺了,會出現(xiàn)很多雜點(diǎn),報紙識別時又會造成很多錯字。每次更換一個時間段的報紙,我們都需要通過多次測試來確定這批報紙掃描的設(shè)置參數(shù)。

        2.報紙圖像處理。通過掃描儀采集到的報紙版面圖像需要進(jìn)一步通過圖像處理,進(jìn)行傾斜矯正、裁邊、去雜點(diǎn)、去黃色底等步驟來提高清晰度,同時也有利于OCR識別率的提高。在圖像處理階段,根據(jù)不同時間段的報紙情況也要采用不同的處理方式。如五六十年代的報紙紙質(zhì)泛黃,還有較嚴(yán)重的破損情況,圖像處理時就要通過做圖軟件中“色階”等的設(shè)置將報紙底紋去黃,然后再調(diào)整文字顏色以便于后面的識別。同時還需要通過畫布、圖層等的設(shè)置,把破損的地方取相近顏色補(bǔ)齊,達(dá)到美觀的效果。

        3.報紙數(shù)字信息轉(zhuǎn)換及加工。在取得清晰美觀的報紙圖像以后,如何將圖像信息轉(zhuǎn)換為數(shù)字信息是工作的主要環(huán)節(jié)。由于報紙數(shù)字化技術(shù)已經(jīng)相對成熟,我們通過多方面的比較,選擇使用漢王的報紙OCR技術(shù)進(jìn)行轉(zhuǎn)換。轉(zhuǎn)換后的數(shù)據(jù)再通過針對性開發(fā)的二次加工處理系統(tǒng)進(jìn)行標(biāo)引和分類的深度加工,最終形成完整的數(shù)字報紙。

        主要步驟見圖1。

        (1)版面分析:對于版面圖片的布局、內(nèi)容進(jìn)行邏輯分析,在系統(tǒng)中具體操作是根據(jù)不同的類型用不同顏色的屬性框?qū)Π婷孢M(jìn)行劃分。每個框所標(biāo)示的屬性主要有序號、標(biāo)引屬性、欄的識別類型屬性等。其中序號描述的是篇序號與框序號,例如1-1表示第一篇第一個框;標(biāo)引屬性分為標(biāo)題、副題、正文等;欄的識別類型表示的是識別的類別和順序,例如:左排橫欄、右排橫欄、表格、圖片等。版面分析后效果如圖2。

        (2)OCR識別:根據(jù)版面分析的結(jié)果,將圖像識別為可編輯的文字信息,并輸出識別的結(jié)果。此項(xiàng)工作主要由OCR系統(tǒng)自動完成。

        (3)縱向校對:縱向校對是對圖像的識別結(jié)果按字型逐字與原文對比校對,將可疑字列出、并標(biāo)記為紅色,以便操作人員修改。如圖3。

        (4)橫向校對:橫向校對是逐行逐字地把識別文本與相應(yīng)圖像做對比的校對方式,方便利用上下文信息進(jìn)行判斷。如圖4。

        (5)版面還原:將識別結(jié)果進(jìn)行版面還原形成雙層PDF文件。

        (6)數(shù)據(jù)入庫:將前面形成的初步識別數(shù)據(jù)批量導(dǎo)入到數(shù)字報紙利用平臺數(shù)據(jù)庫中。

        (7)二次加工:通過二次加工對數(shù)據(jù)進(jìn)行深加工,主要完成對各個字段的補(bǔ)充,以及對文章、圖片、廣告等按照要求進(jìn)行分類。

        (8)最終數(shù)據(jù):將最終形成的完整數(shù)字報紙數(shù)據(jù)保存?zhèn)浞荨?/p>

        通過多次測試和實(shí)施,最終形成了完整的報紙數(shù)字化加工技術(shù)規(guī)范,為未來展開館藏報紙數(shù)字化工作奠定了扎實(shí)的基礎(chǔ)。

        三、建立數(shù)字報紙利用平臺

        有了數(shù)字報紙資源,要真正將信息資源利用起來還需要軟件平臺的支撐。在工作的第三階段,無錫市檔案館與軟件開發(fā)單位合作開發(fā)了擁有自主知識產(chǎn)權(quán)的數(shù)字報紙利用平臺。開發(fā)主要經(jīng)歷兩個階段,歷時5個月。第一版系統(tǒng)采用SQL Server數(shù)據(jù)庫,由于數(shù)據(jù)量逐漸增多,數(shù)據(jù)庫結(jié)構(gòu)及檢索利用響應(yīng)速度等問題,后進(jìn)行第二版系統(tǒng)開發(fā)。第二版系統(tǒng)采用Orcal數(shù)據(jù)庫,開發(fā)環(huán)境為.NET,并優(yōu)化了數(shù)據(jù)結(jié)構(gòu),通過不斷測試改進(jìn),平均響應(yīng)速度達(dá)到10秒以內(nèi)。系統(tǒng)分為前臺展示系統(tǒng)和后臺二次加工系統(tǒng)兩部分。前臺展示系統(tǒng)為B/S結(jié)構(gòu),主要功能為:導(dǎo)航瀏覽、各類檢索功能、顯示打印、統(tǒng)計功能、系統(tǒng)管理等。后臺二次加工系統(tǒng)為C/S結(jié)構(gòu),主要功能為:報刊維護(hù)、期號維護(hù)、版面維護(hù)、內(nèi)容維護(hù)、二次加工、數(shù)據(jù)統(tǒng)計、數(shù)據(jù)管理、用戶管理等。

        圖2

        圖3

        圖4

        通過數(shù)字報紙利用平臺,突破了手工利用報紙的局限性,我們可以快捷方便地實(shí)現(xiàn)對于報紙信息資源的分類檢索和全文檢索,并且能夠?qū)蠹埼恼?、圖片、廣告、字頻等進(jìn)行統(tǒng)計分析,進(jìn)一步深化對報紙數(shù)字化資源的利用。

        以上是對于報紙數(shù)字化工作的一些經(jīng)驗(yàn)和探討,在今后的工作中我們將繼續(xù)優(yōu)化報紙信息數(shù)據(jù)庫結(jié)構(gòu),并就報紙數(shù)字資源的利用模式展開更深入的探索和研究。

        猜你喜歡
        無錫市版面無錫
        無錫一棉
        紡織報告(2024年1期)2024-02-27 06:53:52
        無錫市開展重大事故隱患“清零行動”
        無錫一棉
        China Textile(2022年3期)2022-07-12 05:37:36
        無錫市剛?cè)岵?jì)治理重大事故隱患
        無錫確定11月1日為“無錫企業(yè)家日”
        華人時刊(2020年21期)2020-11-17 11:28:32
        無錫公交
        版面擷英
        好版面要有獨(dú)到的創(chuàng)新技巧
        新聞傳播(2016年3期)2016-07-12 12:55:35
        版面“三評”看得失
        新聞前哨(2015年2期)2015-03-11 19:29:25
        無錫市
        江蘇年鑒(2014年0期)2014-03-11 17:10:09
        无码国产一区二区色欲| 99久久久无码国产精品性| 亚洲妇熟xxxx妇色黄| 精品国产一区二区三区av片| 女同久久精品国产99国产精品| 亚洲中文久久久久无码| 国产丝袜在线福利观看| 精品一区二区三区婷婷| 亚洲成av人在线观看网址| 中文字幕无码日韩专区免费 | 成年无码av片在线| 欧美韩日亚洲影视在线视频| 色777狠狠狠综合| 中文字幕无码av激情不卡| 久久国产精99精产国高潮| 丰满人妻被猛烈进入中文字幕护士| 久久精品亚洲成在人线av乱码| 人人鲁人人莫人人爱精品| 9lporm自拍视频区| 在线看片国产免费不卡| 北岛玲亚洲一区二区三区| 男女裸体做爰视频高清| 色天使综合婷婷国产日韩av| 国产96在线 | 亚洲| 国产偷闻隔壁人妻内裤av| 日韩美女av一区二区| 久久96国产精品久久久| 精品无码一区二区三区亚洲桃色| 久久99久久99精品免观看女同| 青青草免费观看视频免费| 久久久精品久久久久久96| 久久亚洲精品无码va白人极品| 欧美日韩精品一区二区三区高清视频 | 欧美色图50p| 91亚洲精品久久久中文字幕| 亚洲桃色视频在线观看一区| 国产无遮挡又黄又爽免费网站| 美国黄色片一区二区三区 | 推油少妇久久99久久99久久 | 东京热无码人妻中文字幕| 国产日产韩国级片网站|