甘 璐
(中國科學(xué)院合肥物質(zhì)科學(xué)研究院,安徽合肥 230031)
檔案是指人們?cè)诟黜?xiàng)社會(huì)活動(dòng)中直接形成的各種形式的具有保存價(jià)值的原始記錄。檔案繼承了文件原始記錄性,所以檔案具有歷史再現(xiàn)性、知識(shí)性、信息性、政治性、文化性、社會(huì)性、教育性、價(jià)值性等特點(diǎn),其中歷史再現(xiàn)性為其本質(zhì)屬性,其他特點(diǎn)為一般屬性[1]。隨著檔案事業(yè)的發(fā)展和檔案信息化進(jìn)程的加快,我國檔案信息管理工作也日益成熟起來[2]。但是,隨著數(shù)字化檔案館建設(shè)的不斷推進(jìn),檔案信息的存儲(chǔ)容量迅速增加,目前的檔案管理系統(tǒng)僅僅停留在簡單的檢索和統(tǒng)計(jì)階段,根本無法有效滿足人們的需求。檔案信息的分析工作仍舊需要耗費(fèi)大量的人工和時(shí)間成本[3]。數(shù)據(jù)挖掘是20 世紀(jì)90年代出現(xiàn)的一門交叉學(xué)科,涉及來自數(shù)據(jù)庫技術(shù)、知識(shí)工程、概率與統(tǒng)計(jì)、模式識(shí)別、神經(jīng)元網(wǎng)絡(luò)、可視化技術(shù)等各領(lǐng)域的研究成果[4]。數(shù)據(jù)挖掘的本質(zhì)目標(biāo)是從大量、有噪聲、不完全、模糊、隨機(jī)的數(shù)據(jù)中抽取出隱藏的并具一定可利用價(jià)值的信息和關(guān)系。數(shù)據(jù)挖掘的功能和不同模式類型包括[5]:關(guān)聯(lián)分析、分類和預(yù)測、聚類分析和孤立點(diǎn)分析。數(shù)據(jù)挖掘不僅可以對(duì)現(xiàn)有信息實(shí)現(xiàn)查詢和遍歷,并且可以發(fā)現(xiàn)現(xiàn)有信息之間的隱含關(guān)系,從而為決策提供必要的科學(xué)技術(shù)支持。
本文提出一種基于數(shù)據(jù)挖掘技術(shù)的檔案館信息快速分析算法。該算法采用熵加權(quán)對(duì)典型數(shù)據(jù)挖掘K-means聚類算法進(jìn)行改進(jìn),以便有效解決數(shù)據(jù)集合維度和相似數(shù)據(jù)冗余的問題。實(shí)驗(yàn)結(jié)果表明,相比原始的K-means聚類算法,提出算法的聚類精度及運(yùn)行效率較高。
數(shù)據(jù)挖掘技術(shù)已經(jīng)經(jīng)歷了十幾年的發(fā)展,國內(nèi)外不少研究人員已經(jīng)將其運(yùn)用于各種數(shù)字檔案信息管理工作中。文獻(xiàn)[5]對(duì)檔案數(shù)據(jù)挖掘中數(shù)據(jù)采集與準(zhǔn)備問題進(jìn)行系統(tǒng)分析。在給出執(zhí)行具體挖掘操作前的數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理各個(gè)環(huán)節(jié)概念描述的基礎(chǔ)上,探討各個(gè)環(huán)節(jié)的注意事項(xiàng)及具體實(shí)現(xiàn)方法。文獻(xiàn)[6]從日志文件到評(píng)估指標(biāo)等多個(gè)方面,對(duì)使用數(shù)據(jù)挖掘?qū)W生檔案信息進(jìn)行了系統(tǒng)研究。通過現(xiàn)有研究結(jié)果可以看出,數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中具有重要的應(yīng)用價(jià)值,例如,發(fā)掘用戶對(duì)哪些方面的檔案更感興趣(見圖1);檔案的分類等。
圖1 檔案與檔案利用者關(guān)系Fig.1 Relationship between archive and archive user
因此,為了提高檔案館信息管理系統(tǒng)進(jìn)行統(tǒng)計(jì)及分析的效率,設(shè)計(jì)了基于數(shù)據(jù)挖掘的檔案館信息系統(tǒng)工作流程,如圖2 所示。
圖2 基于數(shù)據(jù)挖掘的檔案館信息系統(tǒng)工作流程Fig.2 Workflow of archive information system based on data mining
作為一種基于距離的劃分聚類算法,K-means 聚類算法具有算法結(jié)構(gòu)簡單、運(yùn)行效率高且適用范圍大等優(yōu)點(diǎn)[7-9]。K-means 聚類算法一般通過式(1)所示的目標(biāo)函數(shù)實(shí)現(xiàn)優(yōu)化:
可以看出,式(1)所示的目標(biāo)函數(shù)是一個(gè)誤差平方和計(jì)算過程。其中,E為聚類準(zhǔn)則函數(shù);K為聚類的總數(shù);Cj,j=1,2,…,K為聚類中的簇;x為簇Cj中的一個(gè)聚類目標(biāo);mj為簇Cj的平均大小。
K-means 聚類算法的輸入?yún)?shù)為數(shù)值K和數(shù)據(jù)集X中聚類目標(biāo)的數(shù)量n,輸出為使聚類準(zhǔn)則函數(shù)E達(dá)到最小的K個(gè)聚類。K-means 聚類算法的基本流程為:
1)輸入?yún)?shù)并初始化K個(gè)聚類中心。
2)計(jì)算E的數(shù)值。
3)更新每個(gè)群集的中心并計(jì)算新E。
4)是否滿足收斂條件。是,輸出參數(shù)并結(jié)束;否,跳轉(zhuǎn)到步驟2)。
通過上述典型K-means 聚類算法的原理和步驟分析,可以看出其具有一定的缺陷,在處理復(fù)雜的高維度數(shù)據(jù)時(shí),算法的運(yùn)行效率會(huì)大大降低,因此需要對(duì)其進(jìn)行優(yōu)化以便減少數(shù)據(jù)集合維度和去掉相似數(shù)據(jù)冗余。
本文采用熵加權(quán)對(duì)典型K-means 聚類算法進(jìn)行改進(jìn),首先定義聚類的目標(biāo)函數(shù):
首先計(jì)算當(dāng)前集合的隸屬度:
該數(shù)據(jù)集合的特征系數(shù)vik可通過式(4)得到:
根據(jù)目標(biāo)函數(shù)及式(3)可以計(jì)算隸屬迭代:
然后根據(jù)式(6)的結(jié)果推導(dǎo)聚類中心距離:
通過式(7)進(jìn)一步計(jì)算t時(shí)刻的聚類中心值:
接著,通過式(9)計(jì)算熵加權(quán)系數(shù)[10]:
仿真實(shí)驗(yàn)環(huán)境配置為:Windows 7 操作系統(tǒng),CPU為I7 處理器,6 GB 內(nèi)存,Matlab 2010仿真平臺(tái)。測試數(shù)據(jù)來自某檔案館近三年的歷史文檔,并隨機(jī)選取了400 GB的數(shù)據(jù),涉及多個(gè)類別。
此外,為了更直觀地顯示算法分類的性能,采用單一的F1測試值來評(píng)估改進(jìn)聚類算法的性能,F(xiàn)1的計(jì)算公式如下[9]:
典型K-means 聚類算法和本文算法處理檔案信息數(shù)據(jù)集的結(jié)果對(duì)比如表1 所示。
表1 檔案信息數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of archive information dataset
從表1 可以看出,相比于典型K-means 聚類算法,本文提出聚類算法在準(zhǔn)確率、召回率和F1測試值方面均有明顯提高,分類結(jié)果的平均F1值約89.79%,在精度上能夠滿足實(shí)際應(yīng)用需求。此外,本文聚類算法的平均收斂代數(shù)只需典型K-means 聚類算法的一半,因此數(shù)據(jù)挖掘的速度更快,驗(yàn)證了該方法的先進(jìn)性。
本文提出一種基于數(shù)據(jù)挖掘技術(shù)的檔案館信息快速分析算法。分析了典型K-means 聚類算法解決數(shù)據(jù)集合維度和相似數(shù)據(jù)冗余的必要性,并采用熵加權(quán)對(duì)典型K-means 聚類算法進(jìn)行改進(jìn)。得出如下結(jié)論:相比原始的K-means 聚類算法,提出算法的聚類精度較好,分類結(jié)果的平均F1值約89.79%,在精度上能夠滿足實(shí)際應(yīng)用需求;提出算法的運(yùn)行效率較高,對(duì)檔案管信息管理系統(tǒng)具有一定的參考指導(dǎo)意義。