嚴(yán) 安,范曉峰,費(fèi) 嵩
(中國(guó)鐵路南寧局集團(tuán)有限公司信息技術(shù)所,1.高級(jí)工程師。2、3.工程師,廣西 南寧 530029)
史志資料收集作為鐵路史志管理工作中極為重要的基礎(chǔ)性工作。長(zhǎng)期以來(lái),由于資料在收集任務(wù)下達(dá)、審核、采編、報(bào)送等環(huán)節(jié)多為紙質(zhì)和電子郵件方式,致使資料收集過(guò)程耗時(shí)長(zhǎng)、手續(xù)繁瑣、整理困難。同時(shí),由于沒(méi)有信息化平臺(tái),大量史志資料和已出版志鑒書籍得不到有效利用,修志工作成果不能有效服務(wù)于企業(yè)。研發(fā)鐵路史志工作綜合應(yīng)用管理平臺(tái)的計(jì)劃正是在這樣的背景下應(yīng)運(yùn)而生,目的在于實(shí)現(xiàn)史志資源數(shù)字化,志鑒資料采編、考核等工作網(wǎng)絡(luò)化,為鐵路干部職工提供詳實(shí)的史志資源數(shù)字化查詢服務(wù),為各級(jí)領(lǐng)導(dǎo)決策參考發(fā)揮作用。
鐵路史志工作綜合應(yīng)用管理平臺(tái)運(yùn)行在南寧局集團(tuán)公司辦公信息網(wǎng)上,采用“瀏覽器/服務(wù)器”模式(即B/S 模式)構(gòu)建,以史志資料收集、資源數(shù)字建庫(kù)、信息展示和查詢服務(wù)為重點(diǎn),功能上設(shè)置包括志鑒管理、工作考核、資料管理、照片庫(kù)、信息發(fā)布、電子書籍管理、組織結(jié)構(gòu)管理、權(quán)限管理等功能模塊。
2.1 鐵路修志工作信息化流程設(shè)計(jì)鐵路史志工作綜合應(yīng)用管理平臺(tái)的目標(biāo)之一是要實(shí)現(xiàn)鐵路修志工作信息化、流程化管理[1],形成集史志機(jī)構(gòu)資料報(bào)送任務(wù)下達(dá),到各承修部門、單位收到任務(wù)提醒,根據(jù)任務(wù)說(shuō)明提報(bào)志鑒材料,以及史志機(jī)構(gòu)資料審核、未達(dá)要求資料退回重新提報(bào)、審核通過(guò)入庫(kù)、資料共享于一體的閉環(huán)管理體系。為實(shí)現(xiàn)上述目標(biāo),在重點(diǎn)梳理修志工作處理流程(見(jiàn)圖1)的基礎(chǔ)上,平臺(tái)合理設(shè)計(jì)了志鑒上報(bào)審核流程及數(shù)據(jù)接口,確保志鑒資料完整、無(wú)誤地入庫(kù)。
平臺(tái)通過(guò)上述設(shè)計(jì)旨在達(dá)到史志資料電子化和史志工作網(wǎng)絡(luò)化、流程化、系統(tǒng)化管理,實(shí)現(xiàn)史志數(shù)據(jù)集中存儲(chǔ)、統(tǒng)一管理和信息共享,規(guī)范史志資料管理,提高工作質(zhì)量和效率。
2.2 史志資料數(shù)字化管理和在線瀏覽將幾百頁(yè)的紙質(zhì)資料轉(zhuǎn)換成電子文檔(PDF 格式),利用PDF中間軟件提供的API 接口進(jìn)行編程,實(shí)現(xiàn)對(duì)PDF 文檔的目錄和內(nèi)容分別進(jìn)行抽取、字符識(shí)別、編碼轉(zhuǎn)換后[2],完成入庫(kù)共享利用,并對(duì)已入庫(kù)的史志資料可以進(jìn)行上架、下架、編輯、刪除、還原等管理操作。
此外,管理平臺(tái)還能增強(qiáng)用戶閱讀體驗(yàn),如為解決史志資料通常存在大量圖片導(dǎo)致生成的PDF 文件超過(guò)500 M 而很難在線瀏覽閱讀問(wèn)題,開(kāi)發(fā)了SWF 轉(zhuǎn)換組件,即PDF 入庫(kù)的同時(shí)后臺(tái)逐頁(yè)將其轉(zhuǎn)換成SWF,用戶利用瀏覽器自帶的SWF 插件即可進(jìn)行瀏覽。又如采用前臺(tái)響應(yīng)式開(kāi)發(fā),bootstrap 框架布局,通過(guò)CSS3中的MediaQuery可以更加精確的作用于不同的媒介類型和同一媒介的不同條件,能夠自適應(yīng)不同的瀏覽器和設(shè)備,達(dá)到最佳瀏覽效果。
2.3 史志大數(shù)據(jù)資源的全文檢索利用中文分詞、Lucene 全文檢索、索引原理開(kāi)發(fā)檢索模塊。在Lucene 中,采集數(shù)據(jù)(從網(wǎng)站爬取或連接數(shù)據(jù)庫(kù))是為了創(chuàng)建索引[3],創(chuàng)建索引需要先將采集的原始數(shù)據(jù)加工為文檔,再由文檔分詞產(chǎn)生索引。文檔包含若干個(gè)Field 域。IndexWriter 是索引過(guò)程的核心組件,通過(guò)IndexWriter 可以創(chuàng)建新索引、更新索引、刪除索引操作。在對(duì)文檔中的內(nèi)容索引之前需要使用分詞器進(jìn)行分詞,分詞的主要過(guò)程就是分詞、過(guò)濾兩步。過(guò)濾包括去除標(biāo)點(diǎn)符號(hào)、去除停用詞(的、是、a、an、the等)、大寫轉(zhuǎn)小寫、詞的形還原(復(fù)數(shù)形式轉(zhuǎn)成單數(shù)形參、過(guò)去式轉(zhuǎn)成現(xiàn)在式等)。
全文檢索就是將查詢的目標(biāo)文檔中的詞提取出來(lái),組成索引,通過(guò)查詢索引達(dá)到快速、精確搜索目標(biāo)文檔的目的。PDF 文檔的全文檢索,通過(guò)系統(tǒng)定時(shí)調(diào)度,對(duì)PDF 抽取出來(lái)的文字內(nèi)容建設(shè)索引[4],實(shí)現(xiàn)快速檢索,并可以實(shí)現(xiàn)直接跳轉(zhuǎn)到包含關(guān)鍵字的所有內(nèi)容頁(yè)進(jìn)行查看。
管理平臺(tái)自2018 年在南寧局集團(tuán)公司投入使用以來(lái),覆蓋了集團(tuán)公司33 個(gè)機(jī)關(guān)部門、80 個(gè)所屬單位,效果達(dá)到設(shè)計(jì)預(yù)期。
3.1 大幅提高了修志工作效率管理平臺(tái)使集團(tuán)公司修志工作從史志機(jī)構(gòu)的資料收集任務(wù)下達(dá),到各部門、單位的資料提報(bào),包括資料收集、審核、采編、考核,資料入庫(kù)和利用等工作都能便捷完成。集團(tuán)公司史志辦原10 個(gè)工作日的資料收集流程縮短到3個(gè)工作日內(nèi)即可完成。
3.2 實(shí)現(xiàn)了史志資料的高度共享管理平臺(tái)全面支持史志資料PDF 格式入庫(kù),與史志報(bào)送工作形成的史志資料、照片資源實(shí)現(xiàn)整合建庫(kù),強(qiáng)化鐵路各部門、單位史志資料有效管理,形成修志資源全局共享模式。截至2019 年,平臺(tái)史志資源庫(kù)已涵蓋了近1000 萬(wàn)字的史志數(shù)據(jù)共享資源,為鐵路智庫(kù)建設(shè)提供了強(qiáng)大的數(shù)據(jù)支撐。
3.3 提供海量史志資料的快速檢索管理平臺(tái)可將大量沉積在史志機(jī)構(gòu)圖書資料室的珍貴史志資料和已出版志鑒書籍轉(zhuǎn)化成PDF 在線文檔,通過(guò)系統(tǒng)定時(shí)調(diào)度,對(duì)PDF 抽取出來(lái)的文字內(nèi)容建設(shè)索引,從而實(shí)現(xiàn)PDF 文檔的快速全文檢索,讓海量史志資源得到充分挖掘利用,有效發(fā)揮史志工作資政、存史、教化、服務(wù)作用。
鐵路史志工作綜合應(yīng)用管理平臺(tái)的建立和運(yùn)用,使史志資料季、年和專項(xiàng)任務(wù)提報(bào)工作通過(guò)管理平臺(tái)得以規(guī)范開(kāi)展,對(duì)提升鐵路修志工作效率和信息服務(wù)水平作用顯著。隨著史志資料的持續(xù)錄入和補(bǔ)充,平臺(tái)必將在服務(wù)鐵路史志編修和領(lǐng)導(dǎo)決策、企業(yè)文化建設(shè)等工作中發(fā)揮更大作用。