李 琳
(長(zhǎng)沙先導(dǎo)投資控股集團(tuán)有限公司,湖南 長(zhǎng)沙 410000)
檔案檢索是指對(duì)檔案信息進(jìn)行系統(tǒng)存儲(chǔ)和根據(jù)需要進(jìn)行檔案查找的工作,其定義包括檔案信息存儲(chǔ)和查檢兩個(gè)具體過(guò)程。檔案檢索主要有以下四步:第一步,分析利用檔案的具體需求和特點(diǎn);第二步,選擇檢索工具,確定將要采用的檢索方式(即根據(jù)檔案的特定屬性進(jìn)行檢索),如按分類方式、按主題方式、全宗構(gòu)成者方式、責(zé)任者方式、時(shí)間段方式或其他方式;第三步,根據(jù)選定的檔案檢索方式和檔案檢索標(biāo)識(shí),如分類號(hào)、主題詞、關(guān)鍵字等查取需要利用的檔案;第四步,通過(guò)一定的方式(比如:復(fù)印件、電子件),將檔案內(nèi)容或提煉的檔案目錄提供給利用者。
在檔案利用實(shí)際工作中,資料存儲(chǔ)的全面豐富、查找的快速準(zhǔn)確、信息的方便實(shí)用是衡量檔案利用質(zhì)量水平的主要標(biāo)準(zhǔn),直接關(guān)系到為用戶提供檔案服務(wù)的效率與優(yōu)劣。因此,作為檔案開發(fā)利用的前提條件,在大數(shù)據(jù)時(shí)代,檔案檢索也將并且必須實(shí)現(xiàn)進(jìn)步。
在信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù)和與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新中,各個(gè)行業(yè)的邊界日漸模糊,領(lǐng)域融合快速變化,檔案工作也受到了前所未有的沖擊,檔案檢索也從中得到了進(jìn)步發(fā)展的新的推動(dòng)力,改變傳統(tǒng)的檔案檢索模式和發(fā)展思路,研究適應(yīng)大數(shù)據(jù)時(shí)代的檔案檢索新模式、新思路,提供更多、更有價(jià)值的檔案檢索內(nèi)容,方能順應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展。
檔案查找的過(guò)程,是首先對(duì)利用者的檢索要求進(jìn)行分析,確定利用者所需檔案的實(shí)質(zhì)內(nèi)容,然后綜合運(yùn)用檔案檢索工具,找出利用者所需要的檔案。檔案檢索就是為解決檔案信息量與用戶精確需求之間的矛盾而出現(xiàn)并發(fā)展起來(lái)的。大數(shù)據(jù)時(shí)代背景下,文字圖像資料的信息量呈現(xiàn)幾何式膨脹,同時(shí),現(xiàn)代社會(huì)的物資高速流動(dòng),使涉及到人物歷史,工程進(jìn)度、文化發(fā)展等資料存在跨時(shí)間、跨部門、甚至跨空間分布的趨勢(shì)。與此同時(shí),全社會(huì)的信息意識(shí)迅速增強(qiáng),不同背景的人們開始有意識(shí)通過(guò)檔案信息來(lái)維護(hù)自己的合法權(quán)益,用戶數(shù)目的增長(zhǎng)進(jìn)一步對(duì)檔案檢索的效率提出了嚴(yán)峻考驗(yàn),也要求檢索平臺(tái)與檢索方式趨于簡(jiǎn)便與普及?;谑止z索而生的傳統(tǒng)檢索方式,無(wú)疑無(wú)法充分滿足人們對(duì)檔案信息準(zhǔn)確性、豐富性、知識(shí)性的需求。這些客觀因素,決定了檔案檢索進(jìn)步的必然。
科技進(jìn)步是推動(dòng)檔案事業(yè)發(fā)展的強(qiáng)大動(dòng)力。檔案工作涉及每一個(gè)部門,社會(huì)每一個(gè)角落,首當(dāng)其沖面臨當(dāng)代信息技術(shù)的發(fā)展革新帶來(lái)的驅(qū)動(dòng)力。首先,科技進(jìn)步給傳統(tǒng)館藏帶來(lái)了圖像、音頻、視頻、軟件等信息,使檢索目錄呈現(xiàn)多元化;其次,現(xiàn)代信息技術(shù)發(fā)展,給標(biāo)準(zhǔn)化、兼容化的檢索平臺(tái)的構(gòu)建提供了可能;最后,數(shù)字化的社會(huì)現(xiàn)實(shí),使檔案工作人員的知識(shí)結(jié)構(gòu)與事務(wù)處理方法有了跨越式發(fā)展。而今,日新月異的信息技術(shù)使得電子檔案檢索方式(見圖1)不斷深化、擴(kuò)充,正逐步取代傳統(tǒng)手工檢索的主導(dǎo)地位,給檔案檢索帶來(lái)了全新的機(jī)遇與挑戰(zhàn)。
作為一項(xiàng)開放性的工作,檔案檢索服務(wù)對(duì)象綜合性和多樣次性,館藏內(nèi)容也牽涉社會(huì)生活、歷史人文、自然地理等各個(gè)領(lǐng)域。其中,服務(wù)對(duì)象既是資料的提供者,也是提取者,受當(dāng)前的社會(huì)發(fā)展需求與簡(jiǎn)化政務(wù)的大環(huán)境影響,部門與企業(yè)主體的編制規(guī)模變動(dòng)大大增加,隨著職能的變動(dòng),檔案資料內(nèi)容也在不斷分化整合。同時(shí),服務(wù)對(duì)象所查的資料范圍也在持續(xù)擴(kuò)大,往往單個(gè)事項(xiàng),就牽涉到個(gè)人資歷、行政公文、統(tǒng)計(jì)數(shù)據(jù)等多項(xiàng)內(nèi)容,對(duì)信息要求越發(fā)“全”和“精”。這些因素不可避免地影響了檢索的側(cè)重點(diǎn)與檢索方式。
圖1 電子檔案檢索的多種方式
檔案檢索發(fā)展的是社會(huì)、科技、人文動(dòng)因相互交織的結(jié)果,這些動(dòng)因共同凝聚成推動(dòng)檔案檢索進(jìn)步的動(dòng)力,使之突破傳統(tǒng)檔案檢索的瓶頸。然而,制約檔案檢索向數(shù)字化進(jìn)步的現(xiàn)實(shí)情況也始終存在。
檢索是基于檔案而生的工作過(guò)程,因此,檢索方式的數(shù)字化不能脫離檔案數(shù)字化存在。目前,由于經(jīng)費(fèi)、人力、軟硬件設(shè)備的制約,大部分檔案館尤其是地方檔案館,并沒(méi)有實(shí)現(xiàn)館藏檔案的數(shù)字化,這就使檢索數(shù)字化成了空中樓閣。所以,目前部分單位正在嘗試實(shí)行數(shù)字化目錄+紙質(zhì)化檔案的模式,完全實(shí)行檔案數(shù)字化的單位非常少。
首先在學(xué)科方面,至今檔案學(xué)依然是“冷門”專業(yè),教學(xué)內(nèi)容更集中于傳統(tǒng)的檢索工具、著錄標(biāo)引、檢索語(yǔ)言等方面,沒(méi)有及時(shí)更新針對(duì)電子文件的內(nèi)容,整體呈現(xiàn)滯后狀態(tài)。其次,在信息化社會(huì),大量檔案以電子文檔、音像制品的形式被存儲(chǔ)利用,現(xiàn)有的檢索標(biāo)準(zhǔn)已很難適應(yīng)需要。最后,近年來(lái),各地區(qū)檔案部門紛紛探索跨區(qū)域檔案信息共享,然而至今,標(biāo)準(zhǔn)化、兼容化檔案共享平臺(tái)仍然只是地區(qū)性的小范圍嘗試。
數(shù)字化時(shí)代的檔案檢索是計(jì)算機(jī)、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、搜索引擎、編程等先進(jìn)技術(shù)的綜合運(yùn)用,要求檔案管理者不僅要掌握傳統(tǒng)的手工檢索技術(shù)理論,更要掌握計(jì)算機(jī)技術(shù)與理念,甚至具備一定建立數(shù)據(jù)庫(kù)能力。而現(xiàn)今大部分檔案工作人員大多未進(jìn)行專業(yè)系統(tǒng)的檔案學(xué)科學(xué)習(xí),計(jì)算機(jī)能力與科技理念偏低,有些單位聘請(qǐng)的檔案人員往往年紀(jì)偏大,對(duì)新事務(wù)接受程度偏低或干脆不愿意嘗試新事務(wù),甚至存在一定的思想觀念落后情況,這嚴(yán)重阻礙了檔案檢索服務(wù)的成功轉(zhuǎn)型。
這些現(xiàn)實(shí)狀況,是現(xiàn)代檔案檢索發(fā)展需要克服的命題,卻也為未來(lái)的發(fā)展提供了一定的指導(dǎo)方向。
目前,地區(qū)檔案館數(shù)字化方式一般為“掃描+后期+存儲(chǔ)”,是極其耗費(fèi)人力與時(shí)間的工作,地方檔案館的財(cái)力也很難維持全館全文掃描的財(cái)政支出。因此,檔案館必須正確把握當(dāng)?shù)氐睦眯枨?,根?jù)服務(wù)對(duì)象需求的密度和價(jià)值來(lái)進(jìn)行選擇性數(shù)字化,有計(jì)劃選擇存儲(chǔ)內(nèi)容與形式,強(qiáng)調(diào)突出館藏特色。其中,檔案數(shù)據(jù)庫(kù)建設(shè)應(yīng)當(dāng)以檔案目錄數(shù)字化為首要任務(wù),然后逐步擴(kuò)展到檔案正本的數(shù)字化。
在全文數(shù)字化的過(guò)程中,檔案館應(yīng)當(dāng)根據(jù)利用頻率和檔案的重要程度,遞進(jìn)式進(jìn)行全文數(shù)字化。比如先完成利用頻率非常高的婚姻檔案、退伍軍人檔案和改制國(guó)有企業(yè)的離退休人員檔案;先完成民國(guó)時(shí)期、明清時(shí)期的重點(diǎn)檔案。
目前,地方檔案館主要職責(zé)為存儲(chǔ)政府機(jī)構(gòu)的公文資料,對(duì)社保、婚姻、拆遷、房產(chǎn)、計(jì)生、環(huán)境、林權(quán)等民生檔案的收集相對(duì)薄弱,大多散存于各職能部門。而與之相對(duì)的是現(xiàn)今民眾日益覺醒的檔案維權(quán)需求,實(shí)際工作中,因?yàn)闅v史民生檔案的不完備和分散存儲(chǔ),給民眾維護(hù)自己合法權(quán)益帶來(lái)了許多不便。而民眾個(gè)人查檔受交通條件制約,也對(duì)快速確定檔案位置形成了強(qiáng)烈訴求。因此,地方檔案館在現(xiàn)有條件允許下,不妨嘗試增加民生檔案種類,并在資料存儲(chǔ)中有意識(shí)選擇數(shù)字化形式,減少館藏?cái)?shù)字化工程量。
隨著時(shí)代的變遷,檔案載體目前已多樣化發(fā)展,常見的載體有紙張、照片、膠片、磁帶、光碟、軟盤等等。然而,在目前的技術(shù)背景下,文字是最主要的檢索手段,圖像和多媒體文件檢索往往通過(guò)詳細(xì)的文字描述檢索實(shí)現(xiàn),因此,檔案館應(yīng)加強(qiáng)對(duì)多媒體檔案目錄的建設(shè),早日實(shí)現(xiàn)真正意義上的多媒體檢索。比如在音視頻中做到幀檢索、幀定位、幀播放,結(jié)合語(yǔ)音檢索(見圖2)、圖像檢索(見圖3)等先進(jìn)技術(shù),直接可以檢索并定位音視頻中的語(yǔ)音內(nèi)容,或根據(jù)某個(gè)圖片檢索出音視頻中的響應(yīng)人像或物體。同時(shí),及時(shí)對(duì)特殊載體進(jìn)行復(fù)制更新,比如軟盤、錄像帶等載體,必須及時(shí)轉(zhuǎn)錄為符合現(xiàn)代技術(shù)水平的多媒體資料,以免因硬件淘汰而造成的檔案丟失。
圖2 語(yǔ)音檢索說(shuō)明
圖3 圖像檢索說(shuō)明
在檢索實(shí)踐中,查閱人往往存在信息要素的不確定現(xiàn)象,庫(kù)中存有檔案卻無(wú)法檢出的情況屢屢發(fā)生。因此,當(dāng)利用者輸入關(guān)鍵詞但沒(méi)有得到所需結(jié)果時(shí),系統(tǒng)需要進(jìn)行相應(yīng)的模糊搜索,提供主題近似的內(nèi)容或者檢索詞,同時(shí),盡量兼顧發(fā)文方、文號(hào)、關(guān)鍵詞、日期、類別等多種信息進(jìn)行搜索篩選,以改善查詢結(jié)果,縮小甄別的范圍。這一點(diǎn),可以面向網(wǎng)絡(luò)搜索引擎尋求經(jīng)驗(yàn)。
對(duì)電子檔案的再應(yīng)用,主要包括兩部分:一是瀏覽掃描的檔案內(nèi)容,二是對(duì)掃描的檔案圖像識(shí)別后,再利用識(shí)別后的文本文字。一般如果需要文本,必須畫框并對(duì)框內(nèi)內(nèi)容識(shí)別,需要在客戶端安裝OCR軟件,成本較高。雙層PDF在生成的同時(shí)就做了OCR處理,那么客戶端打開PDF的同時(shí),不需要再作OCR識(shí)別,即可使用文本在檔案原文信息資源庫(kù)不斷豐富的基礎(chǔ)上,建立全文索引庫(kù)后,全文搜索的速度比數(shù)據(jù)庫(kù)檢索的速度要快數(shù)倍。全文檢索庫(kù)的建立粒度需要根據(jù)用戶常用檢索模式、檔案數(shù)據(jù)結(jié)構(gòu)、系統(tǒng)性能問(wèn)題、授權(quán)問(wèn)題綜合考慮。
平臺(tái)的兼容統(tǒng)一,首先體現(xiàn)在技術(shù)方面。目前,數(shù)據(jù)庫(kù)電子文本格式基本為PDF、WORD、TXT等,電子圖片格式有JPG、JPEG等,多媒體格式更是紛繁蕪雜。許多甚至與計(jì)算機(jī)、瀏覽器相沖突,需要安裝插件。其次在內(nèi)容上,由于檢索時(shí)只能選取其中的一個(gè)數(shù)據(jù)庫(kù)進(jìn)行查詢,一旦信息分散或者交疊,將會(huì)帶來(lái)極大不便。因此,提供統(tǒng)一的檢索入口,提供兼容的文件格式,實(shí)現(xiàn)跨庫(kù)檢索和全文檢索是目前檔案信息檢索系統(tǒng)建設(shè)需要努力的方向。
圖4 電子檔案的智能檢索
時(shí)代在進(jìn)步,新興技術(shù)不斷更替發(fā)展。大數(shù)據(jù)時(shí)代,檔案人應(yīng)利用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示檔案內(nèi)容之間的相互聯(lián)系,借助機(jī)器學(xué)習(xí),必將實(shí)現(xiàn)檔案的智能檢索(檔案智能檢索,見圖4),深度發(fā)掘檔案信息資源,把握開啟未來(lái)之門的鑰匙。同時(shí)實(shí)事求是,注重科技,更新觀念,推進(jìn)檔案事業(yè)在新的時(shí)代煥發(fā)新的活力。