亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于布爾關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)在數(shù)字檔案館應(yīng)用研究

        2014-09-03 12:12:25劉大寧
        檔案管理 2014年5期
        關(guān)鍵詞:檔案館數(shù)據(jù)挖掘關(guān)聯(lián)

        劉大寧

        1 引言

        在信息社會的大背景下,檔案館社會化也將隨之而發(fā)展,數(shù)字檔案館訪問者將具有來源廣泛性、背景多樣性的特征,信息需求的個性化發(fā)展也會隨之而增強,數(shù)據(jù)挖掘?qū)蔀闄n案工作者全面掌握和準(zhǔn)確理解檔案用戶的信息需求和心理行為最為便捷的方式。關(guān)聯(lián)規(guī)則作為數(shù)據(jù)挖掘的主要技術(shù)之一,也是在無指導(dǎo)學(xué)習(xí)系統(tǒng)中挖掘本地模式的最普遍形式。可使我們獲得一些存在于數(shù)據(jù)庫中的關(guān)聯(lián)模式,為數(shù)字檔案館的建設(shè)提供科學(xué)依據(jù)。來檔案館查資料的人有不同目的,當(dāng)?shù)谝淮瓮ㄟ^數(shù)字檔案館閱覽時,可使用關(guān)聯(lián)規(guī)則由其注冊信息將他劃分為相關(guān)聯(lián)的用戶群。使用登錄賬號登錄數(shù)據(jù)庫閱覽時,數(shù)字檔案館數(shù)據(jù)庫已根據(jù)其個人關(guān)聯(lián)進(jìn)行相對應(yīng)檢索,顯現(xiàn)在用戶面前網(wǎng)頁就有可能是其最需要的資料,從而減少訪問者檢索所需時間。即是根據(jù)各位訪問者經(jīng)常使用的信息進(jìn)行一定的關(guān)聯(lián)分析,就可整理出數(shù)據(jù)庫中不同種類用戶群。

        2 數(shù)據(jù)挖掘技術(shù)流程

        2.1 確定對象。明確給出服務(wù)對象的業(yè)務(wù)需求,認(rèn)清進(jìn)行數(shù)據(jù)挖掘達(dá)到的目的是數(shù)據(jù)挖掘的重要一步,進(jìn)行挖掘技術(shù)的最后結(jié)果是不可預(yù)知的,但要探索的問題卻是可以預(yù)見的,為了數(shù)據(jù)挖掘而進(jìn)行數(shù)據(jù)挖掘則帶有一定的盲目性,成功率必然偏低。

        2.2 前期準(zhǔn)備。一是數(shù)據(jù)的選擇:搜索數(shù)據(jù)庫中與業(yè)務(wù)對象有關(guān)的各種數(shù)據(jù)信息,并從中挑選出適用于開展數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。二是數(shù)據(jù)的預(yù)處理:通過研究數(shù)據(jù)的質(zhì)量,為下一步的數(shù)據(jù)分析做準(zhǔn)備,并選定將要進(jìn)行的數(shù)據(jù)挖掘操作類型。三是數(shù)據(jù)轉(zhuǎn)換:將搜集的數(shù)據(jù)轉(zhuǎn)換成一個分析模型,是針對采用的挖掘算法而建立的。而建立一個真正與挖掘算法匹配的分析模型則是進(jìn)行數(shù)據(jù)挖掘成功的重要環(huán)節(jié)。

        2.3 開始挖掘。對前期經(jīng)過篩選所得并經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。在選擇合適的挖掘算法后,剩下的所有工作都能自動地完成。

        2.4 挖掘分析。對挖掘結(jié)果進(jìn)行解釋并作出評估,在此過程中使用的分析方法應(yīng)根據(jù)數(shù)據(jù)挖掘操作而定,一般采用可視化技術(shù)。

        2.5 進(jìn)行知識同化。將挖掘結(jié)果分析所得到知識進(jìn)行集成,并以此建立完善業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)。

        3 基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法

        關(guān)聯(lián)分析(Association analysis)就是通過對數(shù)據(jù)庫中的各數(shù)據(jù)項之間存在的相關(guān)特性按照一定規(guī)則進(jìn)行比對分析,尋找出隱藏在數(shù)據(jù)項之間的相互聯(lián)系,如果數(shù)據(jù)庫中有兩項或以上數(shù)據(jù)存在著某種聯(lián)系,就能根據(jù)這種聯(lián)系通過其相關(guān)聯(lián)數(shù)據(jù)對某一數(shù)據(jù)

        進(jìn)行預(yù)測。關(guān)聯(lián)分析就能通過訪問用戶查閱各種檔案信息間存在的關(guān)聯(lián)性,進(jìn)而分析發(fā)現(xiàn)用戶使用模式。關(guān)聯(lián)規(guī)則分析就是通過尋找數(shù)據(jù)庫中數(shù)據(jù)之間相關(guān)性。如果兩項或以上屬性之間存在有此關(guān)聯(lián)性的話,通過這種方式就可依據(jù)其他屬性值預(yù)測其中某項的屬性值。即通過數(shù)據(jù)挖掘技術(shù)就可找出數(shù)據(jù)庫中藏匿的關(guān)聯(lián)網(wǎng),進(jìn)而對下一步的決策提供指導(dǎo)。

        一方面,對原有的檔案數(shù)據(jù)庫中的顯性知識和隱性知識進(jìn)行搜集和整理,根據(jù)其概念描述歸納出便于提取的相關(guān)特征,通過基于布爾關(guān)聯(lián)規(guī)則的分析,按照相似性與差異性構(gòu)建不同的需求分析模型,然后利用Apriori算法進(jìn)行迭代分析,將數(shù)據(jù)放入不同的分類中,便于提取。另一方面,要對用戶確定的主題進(jìn)行定義,明確挖掘要求和目的。通過需求分析模型與用戶指定信息進(jìn)行結(jié)合,進(jìn)行差異分析和偏差檢測,排除其他不相關(guān)數(shù)據(jù),得到挖掘結(jié)果。最后要對挖掘結(jié)果開展評價,得到的挖掘結(jié)果可能有沒有關(guān)聯(lián)的數(shù)據(jù),也可能沒有達(dá)到需求,如果出現(xiàn)這種情況,整個數(shù)據(jù)挖掘過程就要返回到數(shù)據(jù)收集階段,并重新開始挖掘過程,這可以用“if not…then”規(guī)則來描述,反之即滿足數(shù)據(jù)挖掘要求,可為數(shù)字檔案館所用,并就將其充實到原有數(shù)據(jù)庫中,進(jìn)行檔案館知識創(chuàng)新。

        4 存在問題及對策

        基于布爾關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)使數(shù)字檔案館從理論走向?qū)嵺`成為可能,它主要提供技術(shù)支撐,而數(shù)據(jù)挖掘的基礎(chǔ)是對各種數(shù)據(jù)的識別,也就是針對不同的數(shù)據(jù)庫都要能夠識別,就需要數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一起來。當(dāng)前我國檔案信息化工作在標(biāo)準(zhǔn)體系建設(shè)方面相對延后,各種檔案管理軟件與檔案信息管理平臺尤其是檔案信息元數(shù)據(jù)、檔案數(shù)據(jù)庫結(jié)構(gòu)存在著無法兼容的情況,并且數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)多樣,無法滿足數(shù)據(jù)挖掘所需要的高質(zhì)量數(shù)據(jù)庫要求。需要對檔案信息整理統(tǒng)一標(biāo)準(zhǔn)體系,按照標(biāo)準(zhǔn)清理優(yōu)化數(shù)據(jù),完善數(shù)據(jù)庫結(jié)構(gòu)。需要借鑒數(shù)據(jù)挖掘在其他行業(yè)取得的成功做法,在數(shù)字檔案館建設(shè)中擴(kuò)大數(shù)據(jù)挖掘在各個環(huán)節(jié)的應(yīng)用,進(jìn)一步推動數(shù)字檔案館建設(shè)和發(fā)展。數(shù)據(jù)挖掘技術(shù)的精度仍需提高,即如何使得迭代算法能夠在進(jìn)行關(guān)聯(lián)規(guī)則分析時穩(wěn)定收斂是仍需要進(jìn)一步深入探討的問題,建議采用數(shù)理分析方法,提出一種基于參數(shù)的優(yōu)化模型,以此進(jìn)一步優(yōu)化提高算法性能。

        *本文為2013年河南省檔案局科技項目,編號:13-X-18

        (作者單位:河南牧業(yè)經(jīng)濟(jì)學(xué)院人文與社會科學(xué)系 來稿日期:2014-06-16)

        猜你喜歡
        檔案館數(shù)據(jù)挖掘關(guān)聯(lián)
        “苦”的關(guān)聯(lián)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        奇趣搭配
        關(guān)于縣級檔案館館藏檔案開發(fā)利用的思考
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        全省部分檔案館新館掠影
        浙江檔案(2017年10期)2017-03-31 06:27:31
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        when與while檔案館
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        极品尤物人妻堕落沉沦| 亚洲免费一区二区三区视频| 丰满人妻AV无码一区二区三区| 在线亚洲国产一区二区三区| 日本一区二区国产精品| 成年免费a级毛片免费看| 18分钟处破好疼哭视频在线观看| 亚洲精品综合第一国产综合| 色综合久久五月天久久久| 国产精品高湖呻呤久久av| 一区二区三区无码高清视频| 色吊丝中文字幕| 精品性影院一区二区三区内射| 成在线人免费无码高潮喷水| 色婷婷精品大在线视频| 成熟人妻换xxxx| 最近中文字幕完整版免费| 久久无码精品精品古装毛片| 蜜臀av国内精品久久久人妻| 青青草中文字幕在线播放| 偷看农村妇女牲交| av无码免费永久在线观看| 国色天香精品亚洲精品| 三个黑人插一个女的视频| 凌辱人妻中文字幕一区| 久久久g0g0午夜无码精品| 亚洲综合色区无码专区| 亚洲视频在线中文字幕乱码| 精品国产日韩一区2区3区| 日韩aⅴ人妻无码一区二区| 人妻aⅴ无码一区二区三区| 国产在线一区二区视频免费观看 | 午夜免费观看一区二区三区| 中国孕妇变态孕交xxxx| 亚洲欧美激情精品一区二区| 青草青草伊人精品视频| 亚洲综合精品一区二区| 欧美顶级少妇作爱| 亚洲av综合av国产av| 香蕉久久夜色精品国产| 男女做那个视频网站国产|