《天津日?qǐng)?bào)》全信息標(biāo)準(zhǔn)數(shù)字化智能信息系統(tǒng)是在全國(guó)傳統(tǒng)報(bào)業(yè)紛紛向數(shù)字化報(bào)業(yè)戰(zhàn)略轉(zhuǎn)型、中文新聞信息技術(shù)標(biāo)準(zhǔn)化大力推行的背景下正式立項(xiàng)并建設(shè)完成的。該系統(tǒng)采用最新國(guó)內(nèi)外報(bào)刊數(shù)字化技術(shù)成果,充分考慮對(duì)報(bào)紙資源利用的現(xiàn)在和將來的需求,使用科學(xué)成熟的生產(chǎn)工藝,在數(shù)據(jù)生產(chǎn)的整個(gè)過程,從掃描、識(shí)別、校改、版式還原、文章標(biāo)引等都采用高標(biāo)準(zhǔn)數(shù)字化技術(shù)及規(guī)范要求,將報(bào)紙全部信息數(shù)字化,生產(chǎn)規(guī)范的數(shù)據(jù),集成中文信息先進(jìn)和成熟的系統(tǒng)軟件,使得本系統(tǒng)成為高質(zhì)量的“精品工程”,也是天津市信息化建設(shè)的重要組成部分。
在數(shù)字化生產(chǎn)全過程中,該系統(tǒng)堅(jiān)持國(guó)家新聞分類法標(biāo)準(zhǔn)和數(shù)字化技術(shù)標(biāo)準(zhǔn),將版面結(jié)構(gòu)和版面內(nèi)容等完整信息實(shí)施數(shù)字化。不僅使得檢索結(jié)果精確、速度快捷,而且版面文件容量小,檢索速度快,字型美觀。它適用于各種電腦、閱讀器、手機(jī)等各類終端設(shè)備,為多格式轉(zhuǎn)化和支持多終端應(yīng)用建立了數(shù)據(jù)基礎(chǔ),在互聯(lián)網(wǎng)發(fā)布具備明顯優(yōu)勢(shì),實(shí)現(xiàn)了新聞信息的多渠道發(fā)布和個(gè)性化服務(wù)。同時(shí)實(shí)現(xiàn)了現(xiàn)刊數(shù)字報(bào)直接轉(zhuǎn)換對(duì)接歷史報(bào)刊數(shù)據(jù)庫(kù)系統(tǒng),使歷史報(bào)刊數(shù)據(jù)庫(kù)的數(shù)據(jù)始終處于動(dòng)態(tài)更新中。
在數(shù)據(jù)生產(chǎn)的整個(gè)過程中必須采用國(guó)家新聞標(biāo)準(zhǔn)和其他一些數(shù)字化技術(shù)標(biāo)準(zhǔn)及規(guī)范,通過先進(jìn)的技術(shù)手段將版面所有信息(包括版面結(jié)構(gòu)和版面內(nèi)容)全部信息數(shù)字化,為實(shí)現(xiàn)多格式轉(zhuǎn)化支持多終端應(yīng)用打下數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)庫(kù)系統(tǒng)采用主流的先進(jìn)數(shù)據(jù)庫(kù)技術(shù),數(shù)據(jù)庫(kù)結(jié)構(gòu)開放,可擴(kuò)展,支持主流檢索系統(tǒng),整個(gè)數(shù)據(jù)庫(kù)系統(tǒng)具備了獨(dú)創(chuàng)性、領(lǐng)先性、超前性及國(guó)際性。
該系統(tǒng)數(shù)據(jù)庫(kù)總體設(shè)計(jì)堅(jiān)持了數(shù)字化文本、版面完整性原則,數(shù)字化正確性原則,實(shí)用性原則,先進(jìn)性原則和易用性原則。充分考慮了用戶的要求,采用html模版,允許用戶進(jìn)行任意設(shè)計(jì)界面和通過編寫javascript控制功能,實(shí)現(xiàn)界面的個(gè)性化和功能的定制。隨著情況變化,用戶需要調(diào)整或重新設(shè)計(jì),也完全可以方便迅速地實(shí)現(xiàn),降低了開發(fā)成本。因此,具有非常大的靈活性和可擴(kuò)展性。如圖所示。
該系統(tǒng)完成了《天津日?qǐng)?bào)》1949年創(chuàng)刊以來的全部報(bào)紙內(nèi)容的數(shù)字化,整合了《天津日?qǐng)?bào)》的全部新聞信息資源。系統(tǒng)完全達(dá)到了項(xiàng)目的設(shè)計(jì)目標(biāo)和要求,并具備多項(xiàng)技術(shù)創(chuàng)新特點(diǎn),尤其是在國(guó)內(nèi)首家采用版面全信息重構(gòu)技術(shù)和修訂后的國(guó)家新聞分類標(biāo)準(zhǔn),是一項(xiàng)具有前瞻性、高標(biāo)準(zhǔn)的歷史報(bào)紙數(shù)字化精品工程。具有較好的開放性、擴(kuò)展性和安全性,有著廣泛的應(yīng)用前景和示范作用。
2006年底完成的青蘋果“四合一”報(bào)刊技術(shù)平臺(tái),集成最新中文信息和軟件開發(fā)成果,將電子報(bào)刊的功能從查詢檢索提升到分析管理的層次?!八暮弦弧眻?bào)刊技術(shù)平臺(tái)可以作為讀者的查詢閱讀工具,也可以作為管理使用者的信息資源管理分析平臺(tái)?!八暮弦弧眻?bào)刊技術(shù)平臺(tái)代表了報(bào)刊電子版技術(shù)的新水準(zhǔn)和新進(jìn)展?;谇嗵O果報(bào)刊雙平臺(tái)網(wǎng)絡(luò)版全文檢索系統(tǒng),其性能優(yōu)于其他同類產(chǎn)品:主流數(shù)據(jù)庫(kù)平臺(tái),市場(chǎng)占有率大,穩(wěn)定性強(qiáng);數(shù)據(jù)庫(kù)結(jié)構(gòu)開放;數(shù)據(jù)壓縮功能強(qiáng)大,數(shù)據(jù)膨脹率小于0.5;采用分詞索引技術(shù),保證查全率、查準(zhǔn)率及響應(yīng)速度的性能;具有全文和版面相關(guān)聯(lián)的檢索功能;具備全文模糊檢索、特征檢索、專題檢索、圖片檢索、廣告檢索、版面檢索等全方位的檢索支持;具備在檢索結(jié)果中漸進(jìn)檢索功能;可與其他檢索系統(tǒng)協(xié)同工作;數(shù)據(jù)庫(kù)一次設(shè)計(jì),多重發(fā)布:提供數(shù)據(jù)庫(kù)后網(wǎng)絡(luò)版,網(wǎng)絡(luò)版支持多人同時(shí)通過瀏覽器訪問,一旦有需要,可以迅速提供相同界面的單機(jī)版,無需雙重設(shè)計(jì);綠色軟件,除了標(biāo)準(zhǔn)的IE瀏覽器,整個(gè)程序不依賴于其它任何組件,因此可靠性很高。
全信息標(biāo)準(zhǔn)數(shù)字化智能信息系統(tǒng)的技術(shù)創(chuàng)新點(diǎn)主要體現(xiàn)在以下方面:
1)報(bào)紙版面全信息數(shù)字。將版面所有信息(包括版面結(jié)構(gòu)和版面內(nèi)容)全部數(shù)字化,把結(jié)構(gòu)基元(包括字體坐標(biāo)、字號(hào)坐標(biāo)、行坐標(biāo)、段落坐標(biāo)等)和內(nèi)容基元(文字的內(nèi)容、字體、字號(hào)、顏色等)全部信息內(nèi)容封裝在XML內(nèi),最后將XML作為基礎(chǔ)數(shù)據(jù)保存。通過全信息數(shù)字化處理的結(jié)果數(shù)據(jù)可以重復(fù)和長(zhǎng)期使用。
2)在國(guó)內(nèi)首家采用版面全信息重構(gòu)技術(shù)。在文字識(shí)別的基礎(chǔ)上,對(duì)版面結(jié)構(gòu)和版面內(nèi)容的基元進(jìn)行了智能提取,實(shí)現(xiàn)了數(shù)字化版面的智能化還原,準(zhǔn)確率達(dá)到80%,以及文章區(qū)在版面縮略圖中的準(zhǔn)確定位和顯示。
3)首家采用修訂后的國(guó)家新聞分類法標(biāo)準(zhǔn)。在嚴(yán)格遵守分類標(biāo)準(zhǔn)體系的基礎(chǔ)上,利用了分類法的擴(kuò)展性,增加了96個(gè)天津地方特色類目,并形成了《天津日?qǐng)?bào)新聞分類使用本》,開發(fā)了輔助標(biāo)引軟件工具,實(shí)現(xiàn)智能標(biāo)引、智能分類,75%標(biāo)引字段自動(dòng)提取,4項(xiàng)類別做到智能自動(dòng)分類,并不斷積累分類語(yǔ)料庫(kù),逐步過渡到自動(dòng)分類。
4)在整個(gè)報(bào)紙數(shù)字化過程中工藝、格式以及流程規(guī)范;采用XML對(duì)版面結(jié)構(gòu)和版面內(nèi)容進(jìn)行描述和封裝,并為多格式轉(zhuǎn)化和支持多終端應(yīng)用建立了數(shù)據(jù)基礎(chǔ),實(shí)現(xiàn)了新聞信息的多通道發(fā)布和個(gè)性化服務(wù)。
5)實(shí)現(xiàn)了現(xiàn)刊數(shù)字報(bào)的自動(dòng)轉(zhuǎn)換及與歷史報(bào)刊數(shù)據(jù)庫(kù)的對(duì)接,保證了不同規(guī)范數(shù)據(jù)的延續(xù)性。
全信息標(biāo)準(zhǔn)數(shù)字化智能信息系統(tǒng)不僅是報(bào)社主導(dǎo)報(bào)刊的數(shù)字化基礎(chǔ)建設(shè),同時(shí)可以作為報(bào)社重要的商品開發(fā)資源。此外,該系統(tǒng)向社會(huì)提供了有力地見證天津社會(huì)經(jīng)濟(jì)發(fā)展的完整、權(quán)威的報(bào)紙文獻(xiàn)資料庫(kù),對(duì)報(bào)紙資源進(jìn)行有效的保護(hù)和深度開發(fā),這將對(duì)天津乃至全國(guó)的信息化建設(shè)都將產(chǎn)生深遠(yuǎn)的影響。《天津日?qǐng)?bào)》全信息標(biāo)準(zhǔn)數(shù)字化智能信息系統(tǒng)的建成并投入使用,使天津日?qǐng)?bào)社由傳統(tǒng)報(bào)業(yè)向全媒體數(shù)字報(bào)業(yè)的戰(zhàn)略轉(zhuǎn)型邁出了堅(jiān)實(shí)的一步,是建設(shè)全媒體數(shù)字報(bào)業(yè)重要的基礎(chǔ)準(zhǔn)備。
圖2 《天津日?qǐng)?bào)》數(shù)據(jù)庫(kù)系統(tǒng)架構(gòu)圖
《天津日?qǐng)?bào)》歷史報(bào)紙數(shù)字化及數(shù)據(jù)庫(kù)建設(shè)項(xiàng)目社會(huì)效益遠(yuǎn)大于經(jīng)濟(jì)效益。為天津保存珍貴的歷史資料,對(duì)天津人民共同的財(cái)富進(jìn)行搶救性保護(hù);讀者、記者、編輯以及天南海北的天津人,通過它可以更深切有效地了解天津,增加自豪感、歸屬感和責(zé)任感,同時(shí)也為個(gè)人信息需求提供方便;溫故而知新,可以成為天津各級(jí)黨和政府在做重大決策和解決錯(cuò)綜復(fù)雜的政務(wù)問題時(shí)的參考文獻(xiàn)資料,更準(zhǔn)確、更便捷、更人性化;各經(jīng)濟(jì)實(shí)體在進(jìn)行經(jīng)濟(jì)活動(dòng)時(shí),可依據(jù)它尋找商機(jī)、制定或調(diào)整經(jīng)營(yíng)策略,以達(dá)到最大的經(jīng)濟(jì)效益;歷史研究人員依據(jù)它可對(duì)天津進(jìn)行更全面更深入的研究;通過網(wǎng)絡(luò)發(fā)布,國(guó)內(nèi)外各界人士及公司團(tuán)體可據(jù)此了解天津,提高他們對(duì)天津的了解和興趣,為招商引資、加快天津市新區(qū)開發(fā)開放服務(wù);報(bào)社重要的基本建設(shè)和向“數(shù)字報(bào)業(yè)”轉(zhuǎn)型的資源準(zhǔn)備。
對(duì)《天津日?qǐng)?bào)》歷史報(bào)紙數(shù)字化并建立全信息標(biāo)準(zhǔn)數(shù)字化智能信息系統(tǒng),最全面、權(quán)威地提供了見證天津社會(huì)經(jīng)濟(jì)發(fā)展文獻(xiàn)資料庫(kù),是對(duì)報(bào)紙資源的有效保護(hù)和對(duì)信息資源的成功開發(fā),數(shù)據(jù)庫(kù)是數(shù)據(jù)內(nèi)容、分類標(biāo)引內(nèi)容和檢索閱讀平臺(tái)的組成產(chǎn)物,適用于單機(jī)、局域、互聯(lián)網(wǎng)和移動(dòng)載體的閱讀形式,在提高報(bào)社新聞業(yè)務(wù)的同時(shí),無論從歷史角度還是現(xiàn)實(shí)需求來看,對(duì)天津乃至全國(guó)的信息建設(shè)發(fā)展都具有不可替代的珍貴價(jià)值。
對(duì)《天津日?qǐng)?bào)》數(shù)字化資源進(jìn)行多層次的重復(fù)開發(fā)和利用,最大限度地挖掘報(bào)紙新聞信息的潛在價(jià)值,使報(bào)紙資源形成多品種適合于不同發(fā)布渠道的數(shù)字化產(chǎn)品,擴(kuò)大信息資源的有效應(yīng)用和增值服務(wù),具有很好的應(yīng)用前景:①對(duì)報(bào)紙信息資源查閱檢索與發(fā)布;②數(shù)據(jù)庫(kù)產(chǎn)品進(jìn)行不同層次和區(qū)域的全球銷售;③提供互聯(lián)網(wǎng)和移動(dòng)終端報(bào)紙信息有償定制服務(wù);④全刊影印版零庫(kù)存定制銷售;⑤報(bào)紙專題資源個(gè)性化服務(wù);⑥廣告信息增添、捆綁等商業(yè)服務(wù)。