亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘技術(shù)的檔案館信息快速分析算法研究

        2019-04-13 03:03
        現(xiàn)代電子技術(shù) 2019年7期
        關(guān)鍵詞:典型數(shù)據(jù)挖掘檔案館

        甘 璐

        (中國科學(xué)院合肥物質(zhì)科學(xué)研究院,安徽合肥 230031)

        0 引 言

        檔案是指人們?cè)诟黜?xiàng)社會(huì)活動(dòng)中直接形成的各種形式的具有保存價(jià)值的原始記錄。檔案繼承了文件原始記錄性,所以檔案具有歷史再現(xiàn)性、知識(shí)性、信息性、政治性、文化性、社會(huì)性、教育性、價(jià)值性等特點(diǎn),其中歷史再現(xiàn)性為其本質(zhì)屬性,其他特點(diǎn)為一般屬性[1]。隨著檔案事業(yè)的發(fā)展和檔案信息化進(jìn)程的加快,我國檔案信息管理工作也日益成熟起來[2]。但是,隨著數(shù)字化檔案館建設(shè)的不斷推進(jìn),檔案信息的存儲(chǔ)容量迅速增加,目前的檔案管理系統(tǒng)僅僅停留在簡單的檢索和統(tǒng)計(jì)階段,根本無法有效滿足人們的需求。檔案信息的分析工作仍舊需要耗費(fèi)大量的人工和時(shí)間成本[3]。數(shù)據(jù)挖掘是20 世紀(jì)90年代出現(xiàn)的一門交叉學(xué)科,涉及來自數(shù)據(jù)庫技術(shù)、知識(shí)工程、概率與統(tǒng)計(jì)、模式識(shí)別、神經(jīng)元網(wǎng)絡(luò)、可視化技術(shù)等各領(lǐng)域的研究成果[4]。數(shù)據(jù)挖掘的本質(zhì)目標(biāo)是從大量、有噪聲、不完全、模糊、隨機(jī)的數(shù)據(jù)中抽取出隱藏的并具一定可利用價(jià)值的信息和關(guān)系。數(shù)據(jù)挖掘的功能和不同模式類型包括[5]:關(guān)聯(lián)分析、分類和預(yù)測、聚類分析和孤立點(diǎn)分析。數(shù)據(jù)挖掘不僅可以對(duì)現(xiàn)有信息實(shí)現(xiàn)查詢和遍歷,并且可以發(fā)現(xiàn)現(xiàn)有信息之間的隱含關(guān)系,從而為決策提供必要的科學(xué)技術(shù)支持。

        本文提出一種基于數(shù)據(jù)挖掘技術(shù)的檔案館信息快速分析算法。該算法采用熵加權(quán)對(duì)典型數(shù)據(jù)挖掘K-means聚類算法進(jìn)行改進(jìn),以便有效解決數(shù)據(jù)集合維度和相似數(shù)據(jù)冗余的問題。實(shí)驗(yàn)結(jié)果表明,相比原始的K-means聚類算法,提出算法的聚類精度及運(yùn)行效率較高。

        1 問題表述

        數(shù)據(jù)挖掘技術(shù)已經(jīng)經(jīng)歷了十幾年的發(fā)展,國內(nèi)外不少研究人員已經(jīng)將其運(yùn)用于各種數(shù)字檔案信息管理工作中。文獻(xiàn)[5]對(duì)檔案數(shù)據(jù)挖掘中數(shù)據(jù)采集與準(zhǔn)備問題進(jìn)行系統(tǒng)分析。在給出執(zhí)行具體挖掘操作前的數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理各個(gè)環(huán)節(jié)概念描述的基礎(chǔ)上,探討各個(gè)環(huán)節(jié)的注意事項(xiàng)及具體實(shí)現(xiàn)方法。文獻(xiàn)[6]從日志文件到評(píng)估指標(biāo)等多個(gè)方面,對(duì)使用數(shù)據(jù)挖掘?qū)W生檔案信息進(jìn)行了系統(tǒng)研究。通過現(xiàn)有研究結(jié)果可以看出,數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中具有重要的應(yīng)用價(jià)值,例如,發(fā)掘用戶對(duì)哪些方面的檔案更感興趣(見圖1);檔案的分類等。

        圖1 檔案與檔案利用者關(guān)系Fig.1 Relationship between archive and archive user

        因此,為了提高檔案館信息管理系統(tǒng)進(jìn)行統(tǒng)計(jì)及分析的效率,設(shè)計(jì)了基于數(shù)據(jù)挖掘的檔案館信息系統(tǒng)工作流程,如圖2 所示。

        圖2 基于數(shù)據(jù)挖掘的檔案館信息系統(tǒng)工作流程Fig.2 Workflow of archive information system based on data mining

        2 采用的聚類算法及其改進(jìn)

        2.1 K-means聚類基本原理

        作為一種基于距離的劃分聚類算法,K-means 聚類算法具有算法結(jié)構(gòu)簡單、運(yùn)行效率高且適用范圍大等優(yōu)點(diǎn)[7-9]。K-means 聚類算法一般通過式(1)所示的目標(biāo)函數(shù)實(shí)現(xiàn)優(yōu)化:

        可以看出,式(1)所示的目標(biāo)函數(shù)是一個(gè)誤差平方和計(jì)算過程。其中,E為聚類準(zhǔn)則函數(shù);K為聚類的總數(shù);Cj,j=1,2,…,K為聚類中的簇;x為簇Cj中的一個(gè)聚類目標(biāo);mj為簇Cj的平均大小。

        K-means 聚類算法的輸入?yún)?shù)為數(shù)值K和數(shù)據(jù)集X中聚類目標(biāo)的數(shù)量n,輸出為使聚類準(zhǔn)則函數(shù)E達(dá)到最小的K個(gè)聚類。K-means 聚類算法的基本流程為:

        1)輸入?yún)?shù)并初始化K個(gè)聚類中心。

        2)計(jì)算E的數(shù)值。

        3)更新每個(gè)群集的中心并計(jì)算新E。

        4)是否滿足收斂條件。是,輸出參數(shù)并結(jié)束;否,跳轉(zhuǎn)到步驟2)。

        通過上述典型K-means 聚類算法的原理和步驟分析,可以看出其具有一定的缺陷,在處理復(fù)雜的高維度數(shù)據(jù)時(shí),算法的運(yùn)行效率會(huì)大大降低,因此需要對(duì)其進(jìn)行優(yōu)化以便減少數(shù)據(jù)集合維度和去掉相似數(shù)據(jù)冗余。

        2.2 聚類算法的改進(jìn)

        本文采用熵加權(quán)對(duì)典型K-means 聚類算法進(jìn)行改進(jìn),首先定義聚類的目標(biāo)函數(shù):

        首先計(jì)算當(dāng)前集合的隸屬度:

        該數(shù)據(jù)集合的特征系數(shù)vik可通過式(4)得到:

        根據(jù)目標(biāo)函數(shù)及式(3)可以計(jì)算隸屬迭代:

        然后根據(jù)式(6)的結(jié)果推導(dǎo)聚類中心距離:

        通過式(7)進(jìn)一步計(jì)算t時(shí)刻的聚類中心值:

        接著,通過式(9)計(jì)算熵加權(quán)系數(shù)[10]:

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)設(shè)置及評(píng)估指標(biāo)

        仿真實(shí)驗(yàn)環(huán)境配置為:Windows 7 操作系統(tǒng),CPU為I7 處理器,6 GB 內(nèi)存,Matlab 2010仿真平臺(tái)。測試數(shù)據(jù)來自某檔案館近三年的歷史文檔,并隨機(jī)選取了400 GB的數(shù)據(jù),涉及多個(gè)類別。

        此外,為了更直觀地顯示算法分類的性能,采用單一的F1測試值來評(píng)估改進(jìn)聚類算法的性能,F(xiàn)1的計(jì)算公式如下[9]:

        3.2 結(jié)果分析

        典型K-means 聚類算法和本文算法處理檔案信息數(shù)據(jù)集的結(jié)果對(duì)比如表1 所示。

        表1 檔案信息數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of archive information dataset

        從表1 可以看出,相比于典型K-means 聚類算法,本文提出聚類算法在準(zhǔn)確率、召回率和F1測試值方面均有明顯提高,分類結(jié)果的平均F1值約89.79%,在精度上能夠滿足實(shí)際應(yīng)用需求。此外,本文聚類算法的平均收斂代數(shù)只需典型K-means 聚類算法的一半,因此數(shù)據(jù)挖掘的速度更快,驗(yàn)證了該方法的先進(jìn)性。

        4 結(jié) 論

        本文提出一種基于數(shù)據(jù)挖掘技術(shù)的檔案館信息快速分析算法。分析了典型K-means 聚類算法解決數(shù)據(jù)集合維度和相似數(shù)據(jù)冗余的必要性,并采用熵加權(quán)對(duì)典型K-means 聚類算法進(jìn)行改進(jìn)。得出如下結(jié)論:相比原始的K-means 聚類算法,提出算法的聚類精度較好,分類結(jié)果的平均F1值約89.79%,在精度上能夠滿足實(shí)際應(yīng)用需求;提出算法的運(yùn)行效率較高,對(duì)檔案管信息管理系統(tǒng)具有一定的參考指導(dǎo)意義。

        猜你喜歡
        典型數(shù)據(jù)挖掘檔案館
        用最典型的事寫最有特點(diǎn)的人
        多項(xiàng)式求值題的典型解法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        典型胰島素瘤1例報(bào)道
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        全省部分檔案館新館掠影
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        太倉市數(shù)字檔案館成為“全國示范數(shù)字檔案館”
        when與while檔案館
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        曰本女人与公拘交酡| 91精品91久久久久久| 扒开双腿操女人逼的免费视频| 日本免费大片一区二区三区| 一区二区三区国产免费视频| 亚洲精品无码久久久久去q| 少妇人妻偷人精品免费视频| 婷婷丁香五月亚洲| 亚洲每天色在线观看视频| 亚洲日本高清一区二区| 少妇伦子伦情品无吗| 欧美gv在线观看| 中文字幕久久精品波多野结百度| 宅男天堂亚洲一区二区三区| 国产午夜精品无码| 欧美疯狂性xxxxxbbbbb| www.av在线.com| 亚洲国产人成综合网站| 人妻体内射精一区二区三四| 在线观看免费午夜大片| 91久久精品人妻一区二区| 人成在线免费视频网站| 亚洲精品午夜无码专区| 亚洲熟妇一区无码| 狠狠久久av一区二区三区| 亚洲人成网站18禁止| 久久精品亚洲中文字幕无码网站| 国产精品亚洲ΑV天堂无码| 国产成人亚洲精品91专区高清 | 日韩精品人妻一区二区三区蜜桃臀| av人摸人人人澡人人超碰下载| 越南女子杂交内射bbwxz| 欧美日一本| 国产亚洲成人精品久久久| 国产好大好硬好爽免费不卡| 亚洲国产精品久久久天堂不卡海量| 少妇特殊按摩高潮对白| 亚洲中文字幕久久精品蜜桃| 特级毛片a级毛片在线播放www | 黄片视频免费观看蜜桃| 国产一卡2卡3卡四卡国色天香 |