胡 慧, 向 禹
(1.中南大學(xué) 生物醫(yī)學(xué)信息系,湖南 長(zhǎng)沙 410013;2.湖南核工業(yè)地質(zhì)局檔案館,湖南 長(zhǎng)沙 410000;3.中南大學(xué) 檔案技術(shù)研究所,湖南 長(zhǎng)沙 410083)
隨著現(xiàn)代信息技術(shù)的發(fā)展,檔案業(yè)務(wù)環(huán)境經(jīng)歷了重大變革。檔案信息經(jīng)歷了從模擬態(tài)到數(shù)字態(tài)的變化,目前正在向數(shù)據(jù)態(tài)的方向發(fā)展,在實(shí)際的檔案工作中,模擬態(tài)、數(shù)字態(tài)、數(shù)據(jù)態(tài)三種形態(tài)的檔案信息并存互補(bǔ)。大數(shù)據(jù)時(shí)代,不同型態(tài)的海量檔案信息未得到充分的挖掘、分析和利用,傳統(tǒng)的信息資源開(kāi)發(fā)模式已經(jīng)不適用于數(shù)據(jù)驅(qū)動(dòng)與模型驅(qū)動(dòng)并嚴(yán)重依賴(lài)業(yè)務(wù)規(guī)則和場(chǎng)景的數(shù)據(jù)態(tài)檔案信息,必須探索適應(yīng)大數(shù)據(jù)環(huán)境的檔案信息資源開(kāi)發(fā)的新模式。
檔案是人們?cè)诟黜?xiàng)社會(huì)活動(dòng)中形成的原始記錄,只要能反映社會(huì)活動(dòng)真實(shí)面貌的存在都能作為檔案保存。檔案類(lèi)型多樣且涉及不同的行業(yè),傳統(tǒng)意義上將檔案按內(nèi)容分為文書(shū)檔案、科技檔案、會(huì)計(jì)檔案等,或按載體分為紙質(zhì)檔案、光盤(pán)檔案等。
中國(guó)人民大學(xué)錢(qián)毅教授根據(jù)檔案管理對(duì)象的形成環(huán)境和與之匹配的技術(shù)體系將檔案分為三種形態(tài):模擬態(tài)檔案:主要指以紙質(zhì)為主的檔案資料,還包括其他各種載體和內(nèi)容不可分離的縮微膠片檔案、簡(jiǎn)牘檔案及實(shí)物檔案等。傳統(tǒng)的檔案管理方式就是對(duì)模擬態(tài)檔案的管理,其重點(diǎn)是通過(guò)分析檔案內(nèi)容對(duì)檔案載體進(jìn)行收集、整理、鑒定、保管。數(shù)字態(tài)檔案:指檔案信息由人們可以肉眼觀察和識(shí)別的模擬態(tài)轉(zhuǎn)變?yōu)橛?jì)算機(jī)可以直接讀取的二進(jìn)制的比特流,主要包括圖像文件、音頻音像文件、word文檔、CAD圖等類(lèi)型的電子文件檔案資料,其特點(diǎn)是信息內(nèi)容可以自由流動(dòng)、與固定載體不再緊密聯(lián)系,依賴(lài)電子系統(tǒng)。對(duì)數(shù)字態(tài)檔案的管理更側(cè)重分析其內(nèi)容、背景、結(jié)構(gòu)信息,努力維護(hù)其內(nèi)容的真實(shí)性、完整性、可靠性和可用性。數(shù)據(jù)態(tài)檔案:其實(shí)是數(shù)字態(tài)檔案的延伸,在數(shù)字態(tài)的基礎(chǔ)上,使其數(shù)據(jù)化,形成可重組、可分析、可關(guān)聯(lián)的概念集合,其形成依賴(lài)基于規(guī)則的業(yè)務(wù)系統(tǒng)或模型,如金融系統(tǒng)數(shù)據(jù)、政府系統(tǒng)數(shù)據(jù)等,本質(zhì)是通過(guò)制定一系列參數(shù)和規(guī)則形成的數(shù)據(jù)組合。數(shù)據(jù)態(tài)檔案管理的重點(diǎn)是對(duì)數(shù)據(jù)、業(yè)務(wù)流程或模型的描述與關(guān)聯(lián)管理[1]。
圖1 三種檔案形態(tài)的演進(jìn)關(guān)系
檔案信息資源開(kāi)發(fā)主體面對(duì)日益增長(zhǎng)的檔案信息資源需求,通過(guò)各種技術(shù)手段對(duì)檔案資源進(jìn)行開(kāi)發(fā)并傳遞出去,主要目的在于充分發(fā)揮檔案的價(jià)值,促進(jìn)用戶(hù)對(duì)檔案資源的有效利用。一般而言,檔案信息資源開(kāi)發(fā)的不同程度對(duì)應(yīng)著三個(gè)層次的檔案價(jià)值[2]。
檔案資源開(kāi)發(fā)利用最基本的層次。由于檔案的本質(zhì)屬性是 “原始記錄性”,所以檔案在社會(huì)活動(dòng)中具有較高的法律效力,擁有無(wú)可比擬的憑證作用,是檔案應(yīng)用最廣泛的價(jià)值之一。通過(guò)復(fù)制制作檔案副本,可以代替檔案原件解決一些工作以及生活中的問(wèn)題。此種檔案資源開(kāi)發(fā)利用方式多見(jiàn)于模擬態(tài)檔案,需要在檔案實(shí)體上蓋檔案部門(mén)印章方能生效。
圖2 檔案價(jià)值的三個(gè)層次
檔案信息資源開(kāi)發(fā)的中間層次。檔案信息資源開(kāi)發(fā)主體通過(guò)分析社會(huì)需求、結(jié)合一定技術(shù)手段將檔案資源進(jìn)行聚類(lèi)整合,提煉出對(duì)生產(chǎn)生活、經(jīng)濟(jì)運(yùn)行和國(guó)家社會(huì)發(fā)展有用的情報(bào)信息,為政府決策和普通用戶(hù)的工作生活提供信息支持。主要方式有資料簡(jiǎn)介、原文匯編,建立檢索系統(tǒng)、數(shù)據(jù)庫(kù)等。
檔案信息資源開(kāi)發(fā)的最高層次。由于檔案是社會(huì)實(shí)踐的原始記錄,涵蓋了不同年代的社會(huì)全貌,保存了某個(gè)地區(qū)或者國(guó)家的記憶,因此檔案具有一定的歷史文化價(jià)值。文化的影響和傳承離不開(kāi)檔案,從浩繁的檔案資源中進(jìn)行文化挖掘,是踐行黨和國(guó)家實(shí)現(xiàn)“文化自信”的重要舉措,也是檔案人必須要努力的方向。
數(shù)字態(tài)和數(shù)據(jù)態(tài)檔案都是計(jì)算機(jī)可以自動(dòng)分析、理解與處置的檔案信息,通過(guò)對(duì)結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析、聚類(lèi)分析,對(duì)非結(jié)構(gòu)化的文本信息進(jìn)行模塊提取,對(duì)業(yè)務(wù)系統(tǒng)采用面向不同主題、角度的多維分析等方式,實(shí)現(xiàn)對(duì)檔案信息的深度挖掘。相較于傳統(tǒng)載體檔案采用人工標(biāo)引、編目、著錄、編研等進(jìn)行檔案資源開(kāi)發(fā)的方式,數(shù)字態(tài)和數(shù)據(jù)態(tài)的檔案資源開(kāi)發(fā)方式顯然效率更高、效果更顯著。
呂玉潔、向禹在《確定性需求驅(qū)動(dòng)的檔案數(shù)字化加工監(jiān)理模式構(gòu)建與適用性分析》中建立了檔案數(shù)字化加工確定需求的模型,對(duì)我國(guó)當(dāng)前檔案數(shù)字化加工的確定性需求進(jìn)行總結(jié)。檔案數(shù)字化加工的第一層次需求是要滿(mǎn)足長(zhǎng)久保存,第二層需求是實(shí)現(xiàn)檢索、利用,第三層需求是檔案數(shù)據(jù)化,第四層需求是展現(xiàn)關(guān)聯(lián)性[3]。目前國(guó)內(nèi)許多綜合檔案館已完成對(duì)館內(nèi)部分歷史檔案和現(xiàn)行檔案的數(shù)字化處理工作,滿(mǎn)足了檔案數(shù)字化加工的第一層和第二層需求,而對(duì)第三層檔案信息的數(shù)據(jù)化處理尚缺乏宏觀性的規(guī)劃,大多數(shù)檔案數(shù)字化后以檔案目錄數(shù)據(jù)庫(kù)和數(shù)字圖像的形式保存。
圖3 檔案數(shù)字化加工的確定性需求
與此同時(shí),政府部門(mén)、企業(yè)在社會(huì)活動(dòng)中形成越來(lái)越多的數(shù)據(jù)態(tài)檔案沒(méi)有得到有效的歸檔和保存,大眾對(duì)數(shù)據(jù)資源進(jìn)行整合與挖掘的需求越來(lái)越強(qiáng)烈,如地質(zhì)行業(yè)需要建立四維地質(zhì)環(huán)境模型實(shí)現(xiàn)數(shù)據(jù)可視化以便更好地進(jìn)行地質(zhì)勘查和環(huán)境治理;人民群眾要求政府推行一站式辦理業(yè)務(wù)的服務(wù);等。因此,如何建立檔案數(shù)據(jù)化發(fā)展模式,實(shí)現(xiàn)業(yè)務(wù)環(huán)節(jié)和檔案環(huán)節(jié)的無(wú)縫對(duì)接,以電子文件雙軌制向“單軌制”運(yùn)行為契機(jī),推動(dòng)各行業(yè)的在線(xiàn)歸檔功能實(shí)現(xiàn),使檔案館形成社會(huì)檔案大數(shù)據(jù)資源中心,實(shí)現(xiàn)對(duì)檔案數(shù)據(jù)資源的深度挖掘和充分利用,是檔案部門(mén)必須解決的問(wèn)題。
從檔案信息資源開(kāi)發(fā)主體和開(kāi)發(fā)技術(shù)角度,通過(guò)文獻(xiàn)調(diào)查和網(wǎng)絡(luò)查找的方式對(duì)檔案信息資源開(kāi)發(fā)模式進(jìn)行探討。
檔案信息資源開(kāi)發(fā)主體可分為三種:政府部門(mén)、公共檔案部門(mén)和市場(chǎng)。
(1)政府部門(mén)主導(dǎo)的檔案信息資源開(kāi)發(fā)模式。指政府部門(mén)主導(dǎo)單位內(nèi)部檔案信息資源開(kāi)發(fā)的模式,政府部門(mén)作為檔案信息資源的生產(chǎn)者和使用者,是檔案信息資源開(kāi)發(fā)的主力軍。政府部門(mén)占據(jù)了社會(huì)上大部分檔案信息資源,涵蓋行政公文、聲像資料等多種類(lèi)型的檔案,涉及自然資源、氣象、農(nóng)林等多行業(yè)檔案資料,通過(guò)深度開(kāi)發(fā)檔案信息資源為政府決策提供信息支持,為民眾辦理業(yè)務(wù)提供快速高效的服務(wù)。
政府部門(mén)主導(dǎo)的檔案信息資源開(kāi)發(fā)模式的優(yōu)勢(shì):一是安全。政府部門(mén)具有較高的保密意識(shí),涉密和非涉密檔案信息的處理有嚴(yán)格區(qū)分,保密制度健全,安全措施到位。二是快速。政府部門(mén)通過(guò)行政指令分派任務(wù),能將檔案資源開(kāi)發(fā)的工作在全國(guó)范圍內(nèi)快速鋪陳開(kāi)來(lái),在短時(shí)間內(nèi)聚集優(yōu)質(zhì)人力物力資源完成任務(wù)。該模式的劣勢(shì):一是人員技術(shù)不足。政府部門(mén)工作人員主要從事行政管理方面的工作,不擅長(zhǎng)做技術(shù)層面的工作。政府各單位部門(mén)之間存在著信息壁壘,各業(yè)務(wù)系統(tǒng)之間還未完全整合,單靠檔案室的工作人員顯然無(wú)法解決這些難題。二是政府各單位檔案部門(mén)的局限性。政府各單位的檔案部門(mén)主要以檔案室的形式存在,其保存的檔案信息最終要流向公共檔案館,其檔案資源開(kāi)發(fā)的任務(wù)多是局部性、應(yīng)急性、預(yù)警性的,不適合多角度全方位的深度挖掘[4]。
(2)公共部門(mén)主導(dǎo)的檔案信息資源開(kāi)發(fā)模式。主要是指公共綜合性檔案館、專(zhuān)門(mén)檔案館等公益性事業(yè)單位為主對(duì)館藏檔案資源進(jìn)行開(kāi)發(fā)的模式。檔案館的檔案信息資源一般是政府部門(mén)移交、其他單位匯交以及檔案館主動(dòng)收集的資料,經(jīng)過(guò)分類(lèi)、鑒定、整理歸檔形成的。以地質(zhì)資料檔案館為例,各省地質(zhì)資料檔案館都保存了不同地區(qū)豐富多樣的地質(zhì)資料,包括各種區(qū)調(diào)報(bào)告、礦產(chǎn)資源勘查成果資料、地質(zhì)災(zāi)害調(diào)查報(bào)告等。目前許多地質(zhì)資料檔案館都搭建了地質(zhì)資料信息共享服務(wù)平臺(tái),供公眾查詢(xún)館藏地質(zhì)資料目錄,單位和個(gè)人都可以按規(guī)定查詢(xún)所需檔案資料信息。同時(shí),地質(zhì)資料檔案館還要圍繞環(huán)境評(píng)價(jià)、高速公路、高鐵地鐵等政府項(xiàng)目進(jìn)行檔案資源開(kāi)發(fā),及時(shí)提供信息支持。
公共部門(mén)主導(dǎo)的檔案信息資源開(kāi)發(fā)模式優(yōu)勢(shì)是:①實(shí)用性強(qiáng)。檔案館的定位就是服務(wù)政府和公眾的信息中心,直接面向用戶(hù),不僅能對(duì)現(xiàn)實(shí)需求迅速反應(yīng),還能通過(guò)用戶(hù)分析對(duì)未來(lái)的信息需求提前預(yù)判,及時(shí)提供所需檔案資源;專(zhuān)門(mén)性檔案館比如城建檔案館、地質(zhì)資料檔案館等,保存了大量專(zhuān)業(yè)的技術(shù)資料,通過(guò)大數(shù)據(jù)挖掘技術(shù)能深層次開(kāi)發(fā)檔案信息資源。②人才技術(shù)資源優(yōu)勢(shì)。檔案館有專(zhuān)門(mén)的檔案信息技術(shù)人才,既懂檔案也懂現(xiàn)代信息技術(shù),能有的放矢開(kāi)發(fā)檔案資源,提供專(zhuān)業(yè)的信息咨詢(xún)。③安全優(yōu)勢(shì)。檔案館是公益性組織,與政府部門(mén)緊密聯(lián)系,嚴(yán)格執(zhí)行黨和國(guó)家的方針政策,安全保密度高。該模式劣勢(shì)為:許多檔案館保存的檔案內(nèi)容比較單一,館際之間信息化水平不一,不利于檔案信息資源的綜合開(kāi)發(fā)。
(3)市場(chǎng)主導(dǎo)的信息資源開(kāi)發(fā)模式。指企業(yè)根據(jù)市場(chǎng)需求自主開(kāi)發(fā)檔案信息資源產(chǎn)品向政府和公眾提供有償?shù)臋n案信息服務(wù),或通過(guò)招投標(biāo)等方式接受政府或公共檔案館的委托,為其開(kāi)發(fā)檔案信息資源的模式。該模式的優(yōu)勢(shì)是企業(yè)技術(shù)力量強(qiáng)大,項(xiàng)目開(kāi)發(fā)經(jīng)驗(yàn)豐富,靈活性強(qiáng),快速高效。劣勢(shì)是:目前國(guó)家缺乏對(duì)企業(yè)檔案資源開(kāi)發(fā)產(chǎn)品系統(tǒng)的監(jiān)管和評(píng)估規(guī)范,有泄露國(guó)家機(jī)密信息的風(fēng)險(xiǎn);企業(yè)對(duì)委托其開(kāi)發(fā)的檔案資源產(chǎn)品所有權(quán)存在爭(zhēng)議等。
表1 不同的檔案信息開(kāi)發(fā)模式優(yōu)劣比較
從技術(shù)開(kāi)發(fā)角度看,主要有平臺(tái)+數(shù)據(jù)挖掘、技術(shù)框架+用戶(hù)畫(huà)像兩種檔案資源開(kāi)發(fā)模式。
(1)平臺(tái)+數(shù)據(jù)挖掘模式。目前許多政府部門(mén)和檔案館都建立了信息共享平臺(tái),供用戶(hù)查詢(xún)信息、辦理業(yè)務(wù)、咨詢(xún)等,該平臺(tái)既保存了許多數(shù)字檔案也產(chǎn)生許多數(shù)據(jù)檔案。隨著物聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,滲透到人們生活的方方面面,數(shù)據(jù)檔案的數(shù)量將劇烈上升。未來(lái)將以大數(shù)據(jù)和云計(jì)算技術(shù)為依托,建立智能化平臺(tái),例如智慧城市大腦,通過(guò)物聯(lián)網(wǎng)的承載網(wǎng)絡(luò)、廣域互聯(lián)網(wǎng)、局域網(wǎng)、移動(dòng)通信網(wǎng)獲取數(shù)據(jù)檔案。運(yùn)用大數(shù)據(jù)技術(shù)對(duì)平臺(tái)內(nèi)的數(shù)據(jù)進(jìn)行智能分析,通過(guò)數(shù)據(jù)關(guān)聯(lián)挖掘和提煉數(shù)據(jù)中隱藏的知識(shí)將變得十分便捷和高效。
(2)技術(shù)框架+用戶(hù)畫(huà)像模式。該模式對(duì)用戶(hù)在網(wǎng)絡(luò)中的行為進(jìn)行分析,通過(guò)可視化統(tǒng)計(jì)描述、多維度交叉分析、用戶(hù)關(guān)系圖譜等技術(shù)構(gòu)建目標(biāo)用戶(hù)模型。這種方式已廣泛應(yīng)用到電子商務(wù)領(lǐng)域,通過(guò)用戶(hù)畫(huà)像判斷用戶(hù)需求實(shí)現(xiàn)精準(zhǔn)推送。檔案行業(yè)要積極地轉(zhuǎn)變思維,通過(guò)信息共享平臺(tái)、微博、微信等渠道收集用戶(hù)的行為數(shù)據(jù),在大數(shù)據(jù)時(shí)代扭轉(zhuǎn)公眾對(duì)檔案部門(mén)的“刻板印象”,及時(shí)地改進(jìn)工作,為用戶(hù)提供檔案信息的精準(zhǔn)服務(wù)[5]。
通過(guò)對(duì)比研究,我們認(rèn)為,政府作為行政管理部門(mén),為了進(jìn)一步提高工作效率和管理水平,建設(shè)現(xiàn)代智慧城市,滿(mǎn)足公眾的信息需求,對(duì)于深度開(kāi)發(fā)檔案信息資源有著迫切的需要。由于政府檔案部門(mén)的局限性,可以通過(guò)行政命令或購(gòu)買(mǎi)服務(wù)的方式,借助綜合檔案館、高校檔案館等公益性事業(yè)單位提供優(yōu)質(zhì)的技術(shù)服務(wù)和專(zhuān)業(yè)技術(shù)人才,結(jié)合檔案相關(guān)企業(yè)進(jìn)行檔案信息資源的開(kāi)發(fā)。而綜合檔案館、高校檔案館、專(zhuān)門(mén)檔案館等公共部門(mén)有良好的科研環(huán)境和項(xiàng)目績(jī)效刺激,掌握了比較新的數(shù)據(jù)分析技術(shù)和檔案專(zhuān)業(yè)知識(shí),結(jié)合市場(chǎng)上檔案相關(guān)企業(yè)成熟的技術(shù)團(tuán)隊(duì)和豐富的項(xiàng)目經(jīng)驗(yàn),能更好地應(yīng)對(duì)不同類(lèi)型的檔案數(shù)據(jù)資源開(kāi)發(fā)。因此,政府部門(mén)負(fù)責(zé)履行公共管理職能,對(duì)檔案信息資源開(kāi)發(fā)進(jìn)行規(guī)劃、監(jiān)督和規(guī)范,檔案館和市場(chǎng)協(xié)同開(kāi)展檔案信息資源開(kāi)發(fā)工作,提供信息服務(wù),是比較優(yōu)質(zhì)、高效的檔案資源開(kāi)發(fā)模式。