齊秀艷
[摘 要]進(jìn)入二十一世紀(jì)以來,在我國現(xiàn)代社會主義持續(xù)發(fā)展的過程中,其計算機技術(shù)本身在這一過程中得到了持續(xù)性的進(jìn)步,同時,信息技術(shù)本身在這一過程中也在各個不同領(lǐng)域發(fā)揮出了重要的作用。本篇文章主要針對基于數(shù)據(jù)挖掘的實數(shù)字檔案信息管理研究進(jìn)行了全面詳細(xì)的探討,以期為我國經(jīng)濟體系發(fā)展過程中的數(shù)字檔案信息發(fā)展提供參考。
[關(guān)鍵詞]數(shù)字化;圖書管理;檔案化
數(shù)據(jù)挖掘,實際上就是從大量不明確、模糊、隨機的數(shù)據(jù)之中進(jìn)行隱含的數(shù)據(jù)提取,并且這部分?jǐn)?shù)據(jù)是人們事先所不了解的但是自身又是有用的數(shù)據(jù)處理過程。這部分?jǐn)?shù)據(jù)自身可以是以結(jié)構(gòu)化的方式呈現(xiàn),也同樣可以是半結(jié)構(gòu)化的方式呈現(xiàn),甚至還能夠通過異構(gòu)型方式來呈現(xiàn)。通過這一方式所發(fā)掘的知識,能夠使用在決策支持、優(yōu)化查詢、信息管理等多個不同的方面,這是世界上目前所進(jìn)行的數(shù)據(jù)庫領(lǐng)域研究關(guān)鍵項目。下文主要針對基于數(shù)據(jù)萬巨額的數(shù)字檔案信息管理進(jìn)行了全面詳細(xì)的研究。
一、數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘在實際操作的過程中,主要是針對未來的數(shù)據(jù)發(fā)展趨勢以及具體行為進(jìn)行預(yù)測性的決策制定。數(shù)據(jù)挖掘所涉及到的挖掘目標(biāo),通常情況下都是在數(shù)據(jù)庫之中所發(fā)現(xiàn)的具有隱含知識以及相關(guān)意義的一項有效知識,按照不同是知識所呈現(xiàn)出的不同功能,主要可以劃分成為以下幾個方面:
1、關(guān)聯(lián)分析
關(guān)聯(lián)分析是能夠直接找到數(shù)據(jù)庫之中大量不同數(shù)據(jù)之間的互相聯(lián)系性方式,通常情況下,該技術(shù)分為序列模式以及關(guān)聯(lián)規(guī)則這兩個方面來加以應(yīng)用、執(zhí)行。從本質(zhì)上來說,關(guān)聯(lián)規(guī)則實質(zhì)上就是發(fā)現(xiàn)某個事物與其他組成部分之間所存在的關(guān)聯(lián)性、依賴性等因素。
2、聚類
所輸入的數(shù)據(jù)本身沒有任何形式的標(biāo)記存在,而聚類則是對不同的數(shù)據(jù)類型進(jìn)行規(guī)劃、集合,也就是將多個不同的對象組成多個不同的類,或者是形成簇,通過該方式能夠直接使得同一個簇的數(shù)據(jù)擁有極高的相似度,不同的簇與簇之間存在著較大的差異性。聚類方式的存在,不但使得人們本身對于各個環(huán)節(jié)的認(rèn)識進(jìn)行了強化,同樣還是對于概念以及偏差進(jìn)行分析的一個必要條件。
3、自動預(yù)測趨勢和行為
數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中進(jìn)行分類和預(yù)測,尋找預(yù)測性信息,自動地提出描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢,這樣以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。
二、數(shù)據(jù)挖掘在建設(shè)現(xiàn)代化高校檔案館中的應(yīng)用
1、資源類實數(shù)據(jù)主要包含了檔案館在進(jìn)行數(shù)據(jù)館藏過程中,對數(shù)據(jù)進(jìn)行的數(shù)字化加工所產(chǎn)生的各種不同類型的電子檔案,而在對于這類檔案信息進(jìn)行處理的過程中,便必須要對于多方面的檔案信息加以重視,以檔案用戶的實際需求來作為出發(fā)點,促使數(shù)據(jù)挖掘能夠為檔案館全面掌握各方面信息提供了良好的參考依據(jù)以及執(zhí)行方法。
(1)通過WEB信息訪問方式的挖掘技術(shù),來找出各項數(shù)據(jù)之中所存在的序列模式、關(guān)聯(lián)模式以及WEB訪問趨勢等多方面問題,從而構(gòu)建起完善的用戶思維興模型。從而可以確定檔案信息或服務(wù)受歡迎的程度,發(fā)現(xiàn)用戶訪問模式和用戶需求的趨勢,從不同側(cè)面來研究用戶的信息需求,為優(yōu)化檔案館的檔案信息資源建設(shè)提供了科學(xué)依據(jù)。
(2)收集大學(xué)檔案網(wǎng)web服務(wù)器保留的用戶注冊信息、訪問記錄,以及有關(guān)用戶與系統(tǒng)交互的信息等原始數(shù)據(jù),經(jīng)過清洗、濃縮和轉(zhuǎn)換形成便于統(tǒng)計分析的用戶查閱數(shù)據(jù)庫、日志數(shù)據(jù)庫、用戶定制信息庫、用戶反饋信息等各種數(shù)據(jù)集合。
2、從建設(shè)大學(xué)檔案館館藏信息資源出發(fā),數(shù)據(jù)挖掘為大學(xué)檔案館提供了選擇一條科學(xué)發(fā)展道路的重要依據(jù)。
(1)利用檔案網(wǎng)和檔案管理軟件訪問信息的挖掘分析出檔案資源的利用率,將利用率高、需求量大的傳統(tǒng)載體檔案優(yōu)先數(shù)字化。例如:通過對檔案信息的訪問記錄、檢索請求中用戶請求失敗的數(shù)據(jù)進(jìn)行分析,按類統(tǒng)計檔案拒用集和頻繁利用集,結(jié)合聚集算法發(fā)現(xiàn)館藏資源的缺漏,有針對性地補充和豐富檔案信息資源。
(2)在大學(xué)檔案館藏管理過程中利用文本挖掘,運用關(guān)聯(lián)、分類、聚類等方法,從海量檔案信息中按照相關(guān)專題進(jìn)行挖掘、分類、加工、整理和有序化重組,構(gòu)建特色檔案信息庫及各類專題檔案信息庫等。
三、數(shù)據(jù)挖掘在管理類數(shù)據(jù)中的應(yīng)用
大學(xué)檔案館的管理類數(shù)據(jù)包括:智能監(jiān)控系統(tǒng)、消防系統(tǒng)、溫濕度控制系統(tǒng)、智能密集架、數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)利用系統(tǒng)等在日常工作產(chǎn)生大量的管理類數(shù)據(jù)。我們得用數(shù)據(jù)挖掘工具在這類看似無用的數(shù)據(jù)中提取有價值的知識并運用到大學(xué)檔案館工作中,并在大學(xué)檔案館的現(xiàn)代化建設(shè)中發(fā)揮作用。
大學(xué)檔案館檔案工作的重點是為師生服務(wù),以服務(wù)為中心開展各項工作,如何使用先進(jìn)的工具,提高服務(wù)的質(zhì)量是一直困擾我們的難題。數(shù)據(jù)挖掘為大學(xué)檔案館檔案工作的智能化、個性化、精品化提供了行之有效的方法。在智能檢索系統(tǒng)可調(diào)用用戶興趣模型,自動修正檢索策略并可依用戶興趣將檢索結(jié)果迅速聚類和分類,并條理化地排序出來;對于設(shè)計院、社科院等科研型檔案用戶,可借助數(shù)據(jù)挖掘開展針對性的檔案信息挖掘,并將研究成果以概述、成果報告等形式提供給用戶。
四、結(jié)語
綜上所述,在我國當(dāng)前科技技術(shù)飛速發(fā)展的過程中,人們開始越發(fā)重視數(shù)據(jù)挖掘所具有的重要性,尤其是利用數(shù)據(jù)挖掘技術(shù)在數(shù)字檔案信息管理工作中所起到的便利性,對于我國當(dāng)前的檔案信息管理工作來說,起到了極其重要的作用。但是,必須要加以重視的是,在數(shù)字檔案信息中對數(shù)據(jù)挖掘技術(shù)進(jìn)行應(yīng)用的過程中,務(wù)必要針對其中所涉及到的多個方面進(jìn)行協(xié)調(diào)性研究,這對于網(wǎng)絡(luò)檔案的建設(shè)和運行來說,起到了極其重要的作用。
參考文獻(xiàn):
[1]張顯恒.數(shù)據(jù)挖掘技術(shù)在圖書管理中的應(yīng)用[J].科技資訊.2012(26)
[2]鐘家洪,賴敏.數(shù)據(jù)挖掘模型在入侵檢測系統(tǒng)中的應(yīng)用[J].硅谷.2012(16)
[3]郭群.基于企業(yè)數(shù)據(jù)挖掘技術(shù)的應(yīng)用及發(fā)展方向[J].信息系統(tǒng)工程.2012(09)