趙旭 魯達(dá)志
(吉林大學(xué))
隨著社會的發(fā)展、信息化程度的提高,檔案管理中的信息化技術(shù)日益受到社會重視。目前,檔案管理型的傳統(tǒng)模式已不能適應(yīng)當(dāng)今時(shí)代檔案管理的現(xiàn)實(shí)要求,所需是一種能夠適應(yīng)時(shí)代、系統(tǒng)性和需求的技術(shù)模型。數(shù)據(jù)挖掘技術(shù)的存在使檔案分類、收集和保存工作得到了極大的提高。
隨著技術(shù)的發(fā)展,傳統(tǒng)的檔案管理無法適應(yīng)工作的需要,而新的信息也給檔案管理帶來了很大的困難,而現(xiàn)在,隨著信息化的發(fā)展,檔案管理的能力得到了極大的強(qiáng)化,工作的速度也得到了極大的提升。數(shù)字化數(shù)據(jù)挖掘技術(shù)是將大量的信息流進(jìn)行分類,并將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息流。通過對數(shù)據(jù)、信息的綜合,對其進(jìn)行分析、高效地加工,從而使其具有較高的價(jià)值,具有實(shí)際意義。數(shù)據(jù)挖掘技術(shù)在很多方面都有廣泛的用途,他首先涉獵的是數(shù)學(xué),在實(shí)際運(yùn)用中,他對資料的管理和查詢進(jìn)行了優(yōu)化,對數(shù)據(jù)的保存和監(jiān)控都有很好的效果,直到后來,才開始在各行各業(yè)中使用[1]。
在這個(gè)資訊大爆炸的年代,我們必須要在各種資訊資源的基礎(chǔ)上,挑選自己所需的資訊,加以加工,以建立自己的知識系統(tǒng),為整個(gè)產(chǎn)業(yè)的發(fā)展提供依據(jù)。數(shù)據(jù)挖掘技術(shù)可以說是與因特網(wǎng)一起成長起來的。20世紀(jì)80年代,在第11次國際 AI大會上,人類首先提出了“數(shù)據(jù)知識倉庫”這個(gè)詞,讓人意識到了數(shù)據(jù)的潛在意義,而數(shù)據(jù)挖掘也逐漸進(jìn)入了人類的視線。然而,在國內(nèi),數(shù)據(jù)挖掘技術(shù)仍處在初級發(fā)展的初期,許多實(shí)際問題都有待于處理,以充分利用和服務(wù)于各個(gè)產(chǎn)業(yè)。從80年代起,我國的檔案館信息系統(tǒng)已經(jīng)基本建立,并已積累了海量的資料,并產(chǎn)生了各種各樣的管理格式和各種 檔案管理型的資料。目前,檔案管理的主要任務(wù)是“資料存儲”和“資料檢索”,并沒有能夠挖掘出更多的信息。單純的數(shù)據(jù)堆積不僅會造成資源的消耗,還會導(dǎo)致系統(tǒng)的維修成本大幅上升。在我國,隨著信息技術(shù)的飛速發(fā)展,人們對于檔案管理的認(rèn)知也越來越深刻,并開始探索其背后的價(jià)值。要深入地挖掘和使用這些數(shù)據(jù),就必須要有一套完整的數(shù)據(jù)挖掘系統(tǒng),才能將這些數(shù)據(jù)進(jìn)行全面的挖掘[2]。
在如今的大環(huán)境下,檔案管理模式已經(jīng)逐漸從過去的紙質(zhì)文件發(fā)展到今天的數(shù)碼化。檔案管理室肯定儲存了海量的資料,資料的覆蓋范圍也在不斷擴(kuò)大,資源也在不斷地增加。很顯然,過去的檔案管理模式和手段已經(jīng)不能適應(yīng)我們的需要了。因此,由于各種媒介形式多樣、數(shù)據(jù)覆蓋量大,電腦數(shù)據(jù)庫對數(shù)據(jù)處理工作提出了新的要求,并將其運(yùn)用到檔案管理中。
知識管理是未來檔案管理發(fā)展的必然趨勢,如今的用戶已經(jīng)不僅僅局限于資料和文檔,他們更愿意從數(shù)據(jù)中獲取更多的知識和信息。因此,檔案使用也不能只是單純地提供資料,而是要把資料轉(zhuǎn)變成知識。
在當(dāng)今的信息化社會中,電子檔案得到了大量的應(yīng)用。然而,由于大量的各類資訊檔案,導(dǎo)致資訊的大量涌入,難以有效地甄別資訊。隨著我國檔案館信息化工作不斷強(qiáng)化,資料覆蓋面不斷擴(kuò)大,經(jīng)常會把一些有價(jià)值的資料掩埋在無用資料中,搜索效率也大幅降低。所以,在海量的文件中尋找有用的資料,是當(dāng)前的一個(gè)關(guān)鍵問題。
檔案的經(jīng)營目標(biāo)是為了方便今后使用,因此必須對文獻(xiàn)資料進(jìn)行二次開發(fā),形成多種類型的文獻(xiàn)研究成果,并積極為檢索人員服務(wù)。隨著社會經(jīng)濟(jì)的發(fā)展,各類檔案數(shù)量急劇增加,各類檔案種類繁多,編研人員大量發(fā)放檔案資料,給檔案資料的二次發(fā)展帶來了難度。首先要從大量的資料中找到有用的資料,然后是編寫、研究、發(fā)展無組織的文件資料,減少檔案開發(fā)的工作量[3]。
檔案記錄文件都是非常關(guān)鍵的,也是檔案管理工作的一個(gè)縮影。由于數(shù)據(jù)挖掘技術(shù)和電腦技術(shù)的發(fā)展,逐步將數(shù)據(jù)挖掘技術(shù)引入到檔案資料的處理中,改變了以往的檔案管理型,從而推動了檔案管理的發(fā)展。首先,它可以增加檔案管理的安全性。檔案文獻(xiàn)記載的都是具有一定歷史意義的珍貴文獻(xiàn),而檔案信息是其價(jià)值的主要載體。作為檔案管理工作的工作者,應(yīng)該盡量多地保持和保持檔案資料的使用,以更好地反映和增添其使用的價(jià)值,同時(shí)也應(yīng)該提高其使用的頻度。然而,在這樣的條件下,檔案的存儲和管理工作將面臨困難,而且隨著使用時(shí)間的延長,其生命周期也會隨之減少。而在管理工作中,保密工作也是重中之重,一旦資料外泄,將會對工作人員的個(gè)人隱私造成不良的后果,造成文件管理和利用的困難。而在檔案管理中采用數(shù)據(jù)挖掘技術(shù)可以有效避免此類問題的發(fā)生,提高文件的保密程度。其次,利用數(shù)據(jù)挖掘技術(shù)可以降低檔案管理的費(fèi)用支出,從而改善經(jīng)營的效益。數(shù)據(jù)挖掘技術(shù)可以極大地改善傳統(tǒng)檔案管理的缺陷,從而使檔案管理的工作效率和質(zhì)量得到改善。使用數(shù)據(jù)采集技術(shù),可以節(jié)約大量的時(shí)間,加快數(shù)據(jù)的收集速度。在檔案資料的處理中,鑒定工作是一個(gè)非常關(guān)鍵的工作,以前的鑒定工作主要依靠檔案主管的工作經(jīng)歷,具有很大的主觀性,數(shù)據(jù)挖掘技術(shù)的運(yùn)用可以有效地防止由于行政人員的主觀原因造成的資料遺失等現(xiàn)象,從而達(dá)到定性的目的,確保檔案鑒定更加科學(xué)、有依據(jù)[4]。
檔案分類就是根據(jù)某種標(biāo)準(zhǔn)和規(guī)范,對各種類型的文件進(jìn)行劃分,利用歸類可以區(qū)分出各種類型和性質(zhì)的文件。將數(shù)據(jù)挖掘技術(shù)引入到文件的分類中,可以實(shí)現(xiàn)對文件的分類和歸檔,從而提高了檢索的速度和效率。把數(shù)據(jù)挖掘技術(shù)用于文件的歸類和解析,通常是通過數(shù)據(jù)庫的分析函數(shù),把各個(gè)數(shù)據(jù)進(jìn)行分解,形成各種工作流程。當(dāng)用戶在網(wǎng)上存取文件時(shí),數(shù)據(jù)挖掘技術(shù)會根據(jù)用戶的具體狀況和資料,將用戶的存取資料進(jìn)行分類。由于使用者本身的特性和偏好等不同,所以采用數(shù)據(jù)挖掘技術(shù)可以提高使用者資訊的準(zhǔn)確性,提高資訊的品質(zhì)與水準(zhǔn)[5]。
數(shù)據(jù)挖掘技術(shù)在檔案收集中心的應(yīng)用,實(shí)際上就是通過對數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行科學(xué)的研究,并構(gòu)建一個(gè)數(shù)據(jù)模型,比較不同的數(shù)據(jù)模式和不同的樣品,當(dāng)檢測結(jié)果與數(shù)據(jù)的一致性時(shí),可以根據(jù)不同的數(shù)據(jù)類型進(jìn)行不同的劃分。數(shù)據(jù)挖掘技術(shù)要求對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行科學(xué)化的研究,確保所描述的方法是科學(xué)的、合理的,能對現(xiàn)有的數(shù)據(jù)和模型進(jìn)行有效的刻畫,并且通過實(shí)驗(yàn)驗(yàn)證,在經(jīng)過反復(fù)的實(shí)驗(yàn)之后,該方案的精確度達(dá)到了一定程度,就可以用它來進(jìn)行科學(xué)的劃分。檔案管理工作中的檔案搜集是基本工作,要實(shí)現(xiàn)檔案管理的個(gè)性化,首先要對資料進(jìn)行搜集。比如,在網(wǎng)上發(fā)布了一份調(diào)查表,把該調(diào)查表的內(nèi)容錄入了資料庫,其中包含了用戶的基本信息等。如有新的使用者資訊被錄入到資料庫,程式會根據(jù)檔案資料與現(xiàn)實(shí)需求,進(jìn)行自動的剖析,明確使用者類別,讓服務(wù)更具針對性和效能。
檔案保留是利用科技方法對舊職工的資料進(jìn)行管理,避免檔案丟失??茖W(xué)地挖掘、分析和整合老干部的檔案丟失情況,找準(zhǔn)造成的原因,采取科學(xué)的管理措施和手段,可以避免人才的外流。數(shù)據(jù)挖掘技術(shù)在檔案管理中的運(yùn)用,可以提高檔案管理的工作效率,使得查詢更為便捷和快速,從而把檔案管理和人力資源的管理有機(jī)地融合在一起,從而達(dá)到人力資源的有效利用。
對于檔案管理工作來說,其工作費(fèi)用是檔案管理業(yè)務(wù)整個(gè)工作流程中的一個(gè)關(guān)鍵因素。在對文件進(jìn)行鑒別時(shí),既要考慮其真實(shí)性,又要對檔案管理工作的科學(xué)化起到一定的作用。但是,在某些領(lǐng)域,沒有什么條條框框,全靠工作人員的工作經(jīng)驗(yàn),很可能會影響到檔案的工作。將數(shù)據(jù)挖掘技術(shù)運(yùn)用到檔案資料的管理中,可以根據(jù)檔案的使用狀況和檔案的現(xiàn)實(shí)狀況,了解檔案的形成過程、方式、規(guī)律和涵蓋的領(lǐng)域,從而掌握檔案的搜集工作的要點(diǎn)。通過該方法,可以為檔案的識別工作提出一種定量的方法,增強(qiáng)檔案的可信度[6]。
學(xué)校檔案館管理的是檔案,檔案資料目的是育人,校史館、博物館管理的是實(shí)物,實(shí)物信息也是育人的價(jià)值。三者在本質(zhì)上有很大的相似之處,都有教書育人的文化特色。有些高校綜合管理檔案館、校史館、博物館,使其融為一體,充分發(fā)揮其教育職能;有些高校雖然各自行政相對獨(dú)立,但相互之間卻有著緊密的關(guān)系。比如,許多書籍的資料都是從史書、校史館、博物館中搜集的資料,并在這些資料的基礎(chǔ)上,再進(jìn)行二次加工、打磨。對高校檔案館、校史館、博物館等進(jìn)行統(tǒng)一管理,將現(xiàn)有的資料與檔案大數(shù)據(jù)庫進(jìn)行整合,使使用者能夠在高密度的數(shù)據(jù)中,找到有價(jià)值的資料。通過對資源的統(tǒng)一管理和綜合使用,各種信息將互相補(bǔ)充、互為補(bǔ)充,形成大型檔案館的數(shù)據(jù)資源庫[7]。
將大數(shù)據(jù)挖掘技術(shù)應(yīng)用到了海量的檔案中的效果取決于檔案數(shù)據(jù)的有效程度。由于在與外界的信息系統(tǒng)連接時(shí),存在著大量的差錯(cuò)或矛盾,造成了數(shù)據(jù)噪音和冗余,因此必須進(jìn)行清理、篩選和集中。例如,檔案資料中的數(shù)據(jù)會不準(zhǔn)確,按照一定的程序,可以判斷哪些數(shù)據(jù)是不正確的,哪些數(shù)據(jù)會由于各種因素而丟失,或是數(shù)據(jù)中有很多的重復(fù),所以要進(jìn)行核對和加工。具體的解決方法是:如果依據(jù)檔案的操作規(guī)程或一般知識,數(shù)據(jù)有不一致的地方,例如輸入方法、專門領(lǐng)域知識的可辨識等易于修正的問題,可以通過電腦進(jìn)行自動的辨識和修正;如果無法進(jìn)行自動的辨識和修正,可以將其分類發(fā)給有關(guān)的業(yè)務(wù)單位,以修正對應(yīng)的系統(tǒng)內(nèi)數(shù)據(jù)。對于數(shù)據(jù)的無效性問題,如果確實(shí)是重要數(shù)據(jù),可以采取整型方式進(jìn)行處理,而不是使用刪除變數(shù)或使用專用代碼,以確保數(shù)據(jù)的總數(shù)量。通常情況下,數(shù)據(jù)丟失問題都是由數(shù)據(jù)負(fù)責(zé)人人工進(jìn)行補(bǔ)充的。可以采用合并或刪除的方法來解決數(shù)據(jù)重復(fù)問題。數(shù)據(jù)清洗是一項(xiàng)長時(shí)間的處理工作,要求檔案工作者和相關(guān)部門的工作人員,本著責(zé)任心和毅力,多角度反復(fù)清洗、反饋、處理,通過不懈的工作,才能保證數(shù)據(jù)價(jià)值的高效利用。
除了防止自然災(zāi)害、環(huán)境影響和人為因素造成的高溫、高濕、蟲蛀、霉變等危害文件的安全性問題,網(wǎng)絡(luò)入侵、網(wǎng)絡(luò)泄密等問題已構(gòu)成了數(shù)據(jù)時(shí)代異常重要的安全隱患。針對此類風(fēng)險(xiǎn),目前我國的檔案館大多采取的是基于身份的認(rèn)證方式,即利用不同的身份來設(shè)置相應(yīng)的權(quán)限。隨著資料保密技術(shù)的不斷發(fā)展,許多資料保密技術(shù)可以在檔案資料資料的處理中得到應(yīng)用。數(shù)據(jù)傳輸加密、數(shù)據(jù)存儲加密、密鑰處理等都是保障個(gè)人信息和敏感數(shù)據(jù)的一種主要手段,保證不會泄露文件數(shù)據(jù),不會對文件數(shù)據(jù)進(jìn)行非法利用,并能根據(jù)自身的權(quán)限對文件數(shù)據(jù)進(jìn)行有選擇的存取,保證了海量文件數(shù)據(jù)的高效、安全[8]。
數(shù)據(jù)挖掘技術(shù)能夠有效地處理復(fù)雜的數(shù)據(jù)問題,但它需要滿足數(shù)據(jù)的需求。數(shù)據(jù)挖掘的先決條件是:
(1)必須滿足數(shù)據(jù)的挖掘需求,并將最少的數(shù)據(jù)量與利用的導(dǎo)向相聯(lián)系,并按照scikitlearn數(shù)據(jù)挖掘開放源碼的標(biāo)準(zhǔn)來進(jìn)行,數(shù)據(jù)挖掘必須確保數(shù)據(jù)的數(shù)量超過50。數(shù)據(jù)的數(shù)量愈多,其表現(xiàn)的就愈具代表性。
(2)數(shù)據(jù)必須要有品質(zhì),也就是要反映其本身的信息。因?yàn)殡娮游募芾淼男畔⒒?,使傳統(tǒng)的紙質(zhì)文件變成了電子文件。但是,無法將數(shù)字文件直接應(yīng)用到數(shù)據(jù)挖掘中去。數(shù)據(jù)挖掘是以文字資料為基礎(chǔ),若數(shù)字化文檔無法真正地反映原始文本,則會出現(xiàn)亂碼、錯(cuò)別字等現(xiàn)象。
(3)數(shù)據(jù)之間要反映出特性差異,不能反映同一屬性。例如工程圖紙若在色彩、輪廓等方面沒有清晰的劃分,特點(diǎn)不鮮明,很難進(jìn)行數(shù)據(jù)挖掘[9]。
在檔案管理中要根據(jù)使用者的需要進(jìn)行數(shù)據(jù)挖掘,在挖掘的時(shí)候要滿足普遍的使用者需要,同時(shí)要兼顧將來的各種情況,并確保出現(xiàn)的問題能夠得到快速反應(yīng)。
數(shù)據(jù)挖掘技術(shù)對 檔案管理的運(yùn)用需要人力、物力、財(cái)力的支持。目前,很多單位的檔案室都處在“邊緣化”的位置,資金有限,兼職人員眾多,實(shí)際訓(xùn)練程度低。要確保文獻(xiàn)數(shù)據(jù)的有效利用,不僅要有相應(yīng)的投資,而且要盡可能地減少科研經(jīng)費(fèi),而且要把投資與產(chǎn)出的收益相聯(lián)系。所以,在進(jìn)行數(shù)據(jù)挖掘時(shí),應(yīng)側(cè)重于使用價(jià)值,以達(dá)到有效地使用以前生成的文檔,并在數(shù)據(jù)挖掘后為輔助決策提供支持[10]。
檔案大數(shù)據(jù)挖掘技術(shù)是在當(dāng)前數(shù)據(jù)激增的社會背景下,有效地挖掘、整理、存儲、分析、判斷海量數(shù)據(jù)資源的有效途徑。同時(shí),也要對檔案管理手段與技術(shù)策略進(jìn)行及時(shí)更新,使之成為提高檔案利用服務(wù)功能的一個(gè)重要突破口。大數(shù)據(jù)挖掘是一種具有趨勢性的知識服務(wù)技術(shù),它越來越引起了人們的重視。高校檔案館要加強(qiáng)與各級部門的溝通與合作,將大數(shù)據(jù)挖掘技術(shù)應(yīng)用到日常工作中,以提高工作的效率和服務(wù)水平。