亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于數(shù)據(jù)挖掘技術(shù)的檔案館信息快速分析算法研究

2019-04-13 03:03甘璐

現(xiàn)代電子技術(shù) 2019年7期

甘璐

（中國科學(xué)院合肥物質(zhì)科學(xué)研究院，安徽合肥 230031）

0 引言

檔案是指人們?cè)诟黜?xiàng)社會(huì)活動(dòng)中直接形成的各種形式的具有保存價(jià)值的原始記錄。檔案繼承了文件原始記錄性，所以檔案具有歷史再現(xiàn)性、知識(shí)性、信息性、政治性、文化性、社會(huì)性、教育性、價(jià)值性等特點(diǎn)，其中歷史再現(xiàn)性為其本質(zhì)屬性，其他特點(diǎn)為一般屬性[1]。隨著檔案事業(yè)的發(fā)展和檔案信息化進(jìn)程的加快，我國檔案信息管理工作也日益成熟起來[2]。但是，隨著數(shù)字化檔案館建設(shè)的不斷推進(jìn)，檔案信息的存儲(chǔ)容量迅速增加，目前的檔案管理系統(tǒng)僅僅停留在簡單的檢索和統(tǒng)計(jì)階段，根本無法有效滿足人們的需求。檔案信息的分析工作仍舊需要耗費(fèi)大量的人工和時(shí)間成本[3]。數(shù)據(jù)挖掘是20 世紀(jì)90年代出現(xiàn)的一門交叉學(xué)科，涉及來自數(shù)據(jù)庫技術(shù)、知識(shí)工程、概率與統(tǒng)計(jì)、模式識(shí)別、神經(jīng)元網(wǎng)絡(luò)、可視化技術(shù)等各領(lǐng)域的研究成果[4]。數(shù)據(jù)挖掘的本質(zhì)目標(biāo)是從大量、有噪聲、不完全、模糊、隨機(jī)的數(shù)據(jù)中抽取出隱藏的并具一定可利用價(jià)值的信息和關(guān)系。數(shù)據(jù)挖掘的功能和不同模式類型包括[5]：關(guān)聯(lián)分析、分類和預(yù)測、聚類分析和孤立點(diǎn)分析。數(shù)據(jù)挖掘不僅可以對(duì)現(xiàn)有信息實(shí)現(xiàn)查詢和遍歷，并且可以發(fā)現(xiàn)現(xiàn)有信息之間的隱含關(guān)系，從而為決策提供必要的科學(xué)技術(shù)支持。

本文提出一種基于數(shù)據(jù)挖掘技術(shù)的檔案館信息快速分析算法。該算法采用熵加權(quán)對(duì)典型數(shù)據(jù)挖掘K-means聚類算法進(jìn)行改進(jìn)，以便有效解決數(shù)據(jù)集合維度和相似數(shù)據(jù)冗余的問題。實(shí)驗(yàn)結(jié)果表明，相比原始的K-means聚類算法，提出算法的聚類精度及運(yùn)行效率較高。

1 問題表述

數(shù)據(jù)挖掘技術(shù)已經(jīng)經(jīng)歷了十幾年的發(fā)展，國內(nèi)外不少研究人員已經(jīng)將其運(yùn)用于各種數(shù)字檔案信息管理工作中。文獻(xiàn)[5]對(duì)檔案數(shù)據(jù)挖掘中數(shù)據(jù)采集與準(zhǔn)備問題進(jìn)行系統(tǒng)分析。在給出執(zhí)行具體挖掘操作前的數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理各個(gè)環(huán)節(jié)概念描述的基礎(chǔ)上，探討各個(gè)環(huán)節(jié)的注意事項(xiàng)及具體實(shí)現(xiàn)方法。文獻(xiàn)[6]從日志文件到評(píng)估指標(biāo)等多個(gè)方面，對(duì)使用數(shù)據(jù)挖掘?qū)W生檔案信息進(jìn)行了系統(tǒng)研究。通過現(xiàn)有研究結(jié)果可以看出，數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中具有重要的應(yīng)用價(jià)值，例如，發(fā)掘用戶對(duì)哪些方面的檔案更感興趣（見圖1）；檔案的分類等。

圖1 檔案與檔案利用者關(guān)系Fig.1 Relationship between archive and archive user

因此，為了提高檔案館信息管理系統(tǒng)進(jìn)行統(tǒng)計(jì)及分析的效率，設(shè)計(jì)了基于數(shù)據(jù)挖掘的檔案館信息系統(tǒng)工作流程，如圖2 所示。

圖2 基于數(shù)據(jù)挖掘的檔案館信息系統(tǒng)工作流程Fig.2 Workflow of archive information system based on data mining

2 采用的聚類算法及其改進(jìn)

2.1 K-means聚類基本原理

作為一種基于距離的劃分聚類算法，K-means 聚類算法具有算法結(jié)構(gòu)簡單、運(yùn)行效率高且適用范圍大等優(yōu)點(diǎn)[7-9]。K-means 聚類算法一般通過式（1）所示的目標(biāo)函數(shù)實(shí)現(xiàn)優(yōu)化：

可以看出，式（1）所示的目標(biāo)函數(shù)是一個(gè)誤差平方和計(jì)算過程。其中，E為聚類準(zhǔn)則函數(shù)；K為聚類的總數(shù)；Cj,j=1,2,…,K為聚類中的簇；x為簇Cj中的一個(gè)聚類目標(biāo)；mj為簇Cj的平均大小。

K-means 聚類算法的輸入?yún)?shù)為數(shù)值K和數(shù)據(jù)集X中聚類目標(biāo)的數(shù)量n，輸出為使聚類準(zhǔn)則函數(shù)E達(dá)到最小的K個(gè)聚類。K-means 聚類算法的基本流程為：

1）輸入?yún)?shù)并初始化K個(gè)聚類中心。

2）計(jì)算E的數(shù)值。

3）更新每個(gè)群集的中心并計(jì)算新E。

4）是否滿足收斂條件。是，輸出參數(shù)并結(jié)束；否，跳轉(zhuǎn)到步驟2）。

通過上述典型K-means 聚類算法的原理和步驟分析，可以看出其具有一定的缺陷，在處理復(fù)雜的高維度數(shù)據(jù)時(shí)，算法的運(yùn)行效率會(huì)大大降低，因此需要對(duì)其進(jìn)行優(yōu)化以便減少數(shù)據(jù)集合維度和去掉相似數(shù)據(jù)冗余。

2.2 聚類算法的改進(jìn)

本文采用熵加權(quán)對(duì)典型K-means 聚類算法進(jìn)行改進(jìn)，首先定義聚類的目標(biāo)函數(shù)：

首先計(jì)算當(dāng)前集合的隸屬度：

該數(shù)據(jù)集合的特征系數(shù)vik可通過式（4）得到：

根據(jù)目標(biāo)函數(shù)及式（3）可以計(jì)算隸屬迭代：

然后根據(jù)式（6）的結(jié)果推導(dǎo)聚類中心距離：

通過式（7）進(jìn)一步計(jì)算t時(shí)刻的聚類中心值：

接著，通過式（9）計(jì)算熵加權(quán)系數(shù)[10]：

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)設(shè)置及評(píng)估指標(biāo)

仿真實(shí)驗(yàn)環(huán)境配置為：Windows 7 操作系統(tǒng)，CPU為I7 處理器，6 GB 內(nèi)存，Matlab 2010仿真平臺(tái)。測試數(shù)據(jù)來自某檔案館近三年的歷史文檔，并隨機(jī)選取了400 GB的數(shù)據(jù)，涉及多個(gè)類別。

此外，為了更直觀地顯示算法分類的性能，采用單一的F1測試值來評(píng)估改進(jìn)聚類算法的性能，F(xiàn)1的計(jì)算公式如下[9]：

3.2 結(jié)果分析

典型K-means 聚類算法和本文算法處理檔案信息數(shù)據(jù)集的結(jié)果對(duì)比如表1 所示。

表1 檔案信息數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of archive information dataset

從表1 可以看出，相比于典型K-means 聚類算法，本文提出聚類算法在準(zhǔn)確率、召回率和F1測試值方面均有明顯提高，分類結(jié)果的平均F1值約89.79%，在精度上能夠滿足實(shí)際應(yīng)用需求。此外，本文聚類算法的平均收斂代數(shù)只需典型K-means 聚類算法的一半，因此數(shù)據(jù)挖掘的速度更快，驗(yàn)證了該方法的先進(jìn)性。

4 結(jié) 論

本文提出一種基于數(shù)據(jù)挖掘技術(shù)的檔案館信息快速分析算法。分析了典型K-means 聚類算法解決數(shù)據(jù)集合維度和相似數(shù)據(jù)冗余的必要性，并采用熵加權(quán)對(duì)典型K-means 聚類算法進(jìn)行改進(jìn)。得出如下結(jié)論：相比原始的K-means 聚類算法，提出算法的聚類精度較好，分類結(jié)果的平均F1值約89.79%，在精度上能夠滿足實(shí)際應(yīng)用需求；提出算法的運(yùn)行效率較高，對(duì)檔案管信息管理系統(tǒng)具有一定的參考指導(dǎo)意義。