亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談如何做好建設工程檔案編研工作

        2016-05-30 09:58:40李娜
        卷宗 2016年4期
        關鍵詞:Apriori算法關聯(lián)分析數(shù)據(jù)挖掘

        李娜

        摘 要:介紹了關聯(lián)規(guī)則,應用Apriori算法對圖書館讀者借閱記錄進行分析,發(fā)掘存在其中的關聯(lián)規(guī)則,在圖書館提供的個性化服務中具有很大的價值。

        關鍵詞:數(shù)據(jù)挖掘;關聯(lián)分析;Apriori算法

        緊跟著教育體制的不斷改革深化的步伐,高等院校辦學的規(guī)模也隨之擴大,相應的圖書館藏書也日益豐富起來。不斷擴充的藏書容量在提供大量知識的同時,人們查找自己所需信息的難度也在逐漸增大,在信息時代迅猛發(fā)展的今天如何給讀者提供方便快捷的搜索方式也已擺在管理者眼前。鑒于高校圖書館目前廣泛采用了信息化的管理系統(tǒng),會產(chǎn)生大量借閱數(shù)據(jù)資源,如果發(fā)掘這些海量數(shù)據(jù)資源中的關系和規(guī)則,尋找出背后隱藏的借閱信息,進而可對不同的讀者提供具有針對性的個性化服務。數(shù)據(jù)挖掘經(jīng)過近些年的逐步發(fā)展,在提供關聯(lián)分析等方面能夠便于發(fā)現(xiàn)隱藏在大量數(shù)據(jù)后的有用資源,可為讀者提供更為主動地服務,提高知識的利用效率。

        1 關聯(lián)規(guī)則的相關概念

        1.1 關聯(lián)規(guī)則

        關聯(lián)規(guī)則(association rule)是是數(shù)據(jù)挖掘的主要技術之一,它對數(shù)據(jù)庫中的數(shù)據(jù)項的依存性和關聯(lián)性進行描述,從而在已知項的基礎上對未知項進行預測,是形如X→ Y的表達式,其中X和Y是不相交的項集,即X ∩ Y= Ф。關聯(lián)規(guī)則的強度可以用它的支持度(support)和置信度(confidence) 來度量。支持度代表該規(guī)則所代表的事例(元組)占全部事例(元組)的百分比;而置信度代表該規(guī)則所代例占滿足前提條件事例的百分比。即:

        使用支持度和置信度是由于一方面支持度是一種重要度量,低支持度概率的規(guī)則可能僅為偶然出現(xiàn),多數(shù)是無意義的,通??蓪⑵鋭h去。另一方面,置信度度量通過規(guī)則進行推理具有可靠性。對于給定的規(guī)則X Y,置信度越高,Y在包含X的事務中出現(xiàn)的可能性就越大。但由關聯(lián)規(guī)則做出的推論只表示規(guī)則前件和后件中的項明顯地同時出現(xiàn),而不能說明其必然蘊涵因果關系。

        關聯(lián)規(guī)則發(fā)現(xiàn):給定事務的集合T,關聯(lián)規(guī)則發(fā)現(xiàn)是指找出支持度大于等于minsup并且置信度大于等于minconf的所有規(guī)則,其中minsup和minconf是對應的支持度和置信度閾值。

        挖掘關聯(lián)規(guī)則的一種原始方法是:把每個可能存在的規(guī)則的支持度和置信度都計算出來。但是這種方法將會花費相當大的代價,從包含d項的數(shù)據(jù)集提取的規(guī)則的數(shù)目可以達指數(shù)級3395988.png ,但最終大部分規(guī)則將被丟棄。因此,對規(guī)則事先進行剪枝并拆分其支持度和置信度要求可免于將它們計算出來。例如,涉及同一個項集的{甲,乙,丙}的規(guī)則:{甲,乙} {丙},{甲,丙} {乙},{乙,丙} {甲},{甲} {乙,丙},{丙} {甲,乙},{乙} {甲,丙}。如果能夠判斷出項集{甲,乙,丙}是非頻繁的,則可以將這6個候選規(guī)則給剪掉,從而能夠有效地減少算法開銷。因此,通常釆用將挖掘任務分解為如下兩個主要的過程的挖掘算法:

        (1)頻繁項集產(chǎn)生:尋找滿足最小支持度閾值的所有項集作為頻繁項集(frequent itemset)。

        (2)規(guī)則的產(chǎn)生:從上一步發(fā)現(xiàn)的頻繁項集中提取所有高置信度的規(guī)則作為強規(guī)則(strong rule)。

        1.2 Apriori算法

        Apriori算法采用通過候選項集產(chǎn)生頻繁項集的基礎上再由頻繁項集產(chǎn)生關聯(lián)規(guī)則的方法,來達到系統(tǒng)地控制候選項集指數(shù)增長的目的。首先掃描事務數(shù)據(jù)庫,從中尋找出頻繁項集1的集合L1,然后用L1尋找頻繁二項集2的集合L2,再用L2找出L3,直到不能再找到頻繁項集K為止,來完成了頻繁項集的挖掘,其中連接和剪枝是兩個最關鍵的步驟。

        1.2.1連接(join)

        合并篩選后的候選k-項集與L k-1,產(chǎn)生下一個項集支持度。即為尋找L k,通過L k-1與自己合并候選k-項集的集合。

        1.2.2剪枝(prune)

        由于C k是L k的超集,可能有些元素不是頻繁的。C k很大是會帶來巨大的計算量,為減少C k的規(guī)模,Apriori遵從下列性質:任何非頻繁的(k-1)項集必定不是頻繁k-項集的子集。所以,當候選k-項集的某個(k-1)子集不是L k-1中的成員時,則該候選項集不可能是頻繁的,可以從L k-1中移去。

        2 Apriori算法在圖書館推薦服務中的應用

        2.1 數(shù)據(jù)預處理

        對于大量的借閱數(shù)據(jù)來說,借閱次數(shù)較少的讀者產(chǎn)生的借閱記錄對于關聯(lián)分析分析沒有太大的參考價值,因此在錄入數(shù)據(jù)庫時要剔除借閱量少于十本的讀者記錄,而僅將活躍讀者的借閱數(shù)據(jù)信息錄入到數(shù)據(jù)庫中;將在架圖書按標準的中圖法進行編號歸類,分為基于類型的多個借閱記錄來避免出現(xiàn)一個較大的數(shù)據(jù)庫,減少一次數(shù)據(jù)庫掃描的容量;在借閱記錄中出現(xiàn)借閱兩本完全相同的概率很小,關聯(lián)中只考慮到類別的書籍,而推薦出在此類別中借閱記錄最高的一本來處理。設置最小支持度0.0255和最小置信度0.85。

        以下是部分經(jīng)提取后的讀者借閱信息:

        將獲得到的數(shù)據(jù)進行變換和分類,得出每個讀者的借閱記錄

        2.2 對處理的數(shù)據(jù)通過Apriori算法的處理,可得到以下規(guī)則

        2.3 對規(guī)則作出分析

        查閱書號從關聯(lián)規(guī)則中可知,有2.58%的人同時借閱了O182(數(shù)學建模、控制論、分析基礎類的書籍,而且在這些人中借閱了數(shù)學建模、控制論后有86.5%的人同時借閱了分析基礎類的書籍;有2.55%的人同時借閱了工程力學和機械原理類的書籍,而且在這些人中借閱了機械原理后有88.2%的人同時借閱了工程力學類的書籍;有2.59%的人同時借閱了考古學和世界史類的書籍,而且在這些人中借閱了考古學后有89.1%的人同時借閱了世界史類的書籍……通過對算法處理結果進行分析,我們可以很直觀地發(fā)現(xiàn)讀者借閱信息中存在的某些信息,讀者會傾向于在選擇某類書籍的同時捎帶上另一類或幾類需要的書籍。因此,我們可以建立一種數(shù)字化圖書館的推送業(yè)務,對借閱了數(shù)學建模、控制論后的讀者推送分析基礎;對借閱了機械原理的讀者推送工程力學;對借閱了考古學后的讀者推送世界史等等,這樣雖然可能不適用于小部分群體,但方便了大部分讀者,為他們創(chuàng)造了方便。同時,我們還可以嘗試調整這些書籍的放置位置,將具有關聯(lián)性質的書籍放置在互相靠近的地方,使讀者能夠一次性借閱到自己所需要的書籍,從而減少去各個不同類型的書籍場館借閱所帶來的不便,更好的發(fā)揮出這些數(shù)據(jù)的潛在價值。

        3 總結

        為找出存在于讀者中的譜遍性閱讀習慣,本文對圖書館的讀者借閱記錄采用Apriori算法分析了其中可能存在的關聯(lián)規(guī)則,為圖書館的讀者借閱提供方便的圖書推送業(yè)務和圖書關聯(lián)放置模式;同時,也要發(fā)現(xiàn)存在的某些不足:由于存在讀者幫別人借閱書籍的情況,會使相互關聯(lián)性存在誤差,影響到對個體行為的分析以及總體的關聯(lián)情況,導致降低了數(shù)據(jù)分析的普適性,因此,需要在數(shù)據(jù)的錄入階段需要對這種讀者的節(jié)借閱波動性建立濾波矩陣,予以濾除這種“噪聲”的干擾,以便更加精準的分析可能存在的關聯(lián)規(guī)則。后續(xù)的研究中還可對不同的年級的學生、教員建立單獨的借閱數(shù)據(jù)庫,以便能夠發(fā)現(xiàn)關聯(lián)性更強的準則,做出更加精準的預測,為廣大讀者提供針對性更強的服務。

        參考文獻

        [1] Mehmed Kantardzic 數(shù)據(jù)挖掘:概念、模型、方法和算法[M].閃四清,陳茵,程 雁,等譯.北京:清華大學出版社,2003

        [2]李愛鳳.基于數(shù)據(jù)挖掘技術的課程相關性模式研究與實現(xiàn)[D].華南師范大學,2006

        [3]許成香.基于數(shù)據(jù)挖掘技術的學生信息系統(tǒng)開發(fā)[J].硅谷,2009,16:57

        [4]Han Jiawei,Kamber M.數(shù)據(jù)挖掘:概念與技術[M].北京:機械工業(yè)出版社,2008:150-167endprint

        猜你喜歡
        Apriori算法關聯(lián)分析數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于Hadoop平臺的并行DHP數(shù)據(jù)分析方法
        基于隨機函數(shù)Petri網(wǎng)的系統(tǒng)動力學關聯(lián)分析模型
        基于Apriori算法的高校學生成績數(shù)據(jù)關聯(lián)規(guī)則挖掘分析
        關聯(lián)分析技術在學生成績分析中的應用
        軟件導刊(2016年11期)2016-12-22 21:58:16
        基于云平臺MapReduce的Apriori算法研究
        關聯(lián)規(guī)則挖掘Apriori算法的一種改進
        中國市場(2016年36期)2016-10-19 04:10:44
        基于關聯(lián)分析的學生活動參與度與高校社團管理實證研究
        科技視界(2016年15期)2016-06-30 12:43:00
        不同的數(shù)據(jù)挖掘方法分類對比研究
        国产精品亚洲片夜色在线 | 最近中文字幕在线mv视频在线| 一级毛片不卡在线播放免费| 在线观看免费人成视频国产| 久久精品中文字幕有码| 人人人妻人人澡人人爽欧美一区| 欧美不卡视频一区发布| 久久精品中文字幕久久| 男男做h嗯啊高潮涩涩| 麻豆亚洲av熟女国产一区二| 国产婷婷一区二区三区| 免费一级国产大片| 国产人妖伦理视频在线观看 | 人妻无码中文专区久久综合| 国产激情免费观看视频| 久久免费看黄a级毛片| 国产在线一区二区三区av| 国内久久婷婷精品人双人| 亚洲中文字幕免费精品| 亚洲精品无码永久中文字幕| 国产精品久久毛片av大全日韩 | 欧美成年黄网站色视频| 亚洲VR永久无码一区| 国产亚洲av综合人人澡精品| 色偷偷亚洲第一成人综合网址 | 亚洲av无码av在线播放| 91精品一区国产高清在线gif| 中文熟女av一区二区| 国产情侣自拍在线视频| 正在播放东北夫妻内射| 久久国产欧美日韩高清专区| 亚洲精品天堂日本亚洲精品| 97色偷偷色噜噜狠狠爱网站| 最新69国产成人精品视频免费| 亚洲综合无码无在线观看| 国产美女69视频免费观看| 国产精品丝袜美女久久 | 亚洲成av人片一区二区| 日韩精品成人无码AV片| 男女互舔动态视频在线观看| 热久久国产欧美一区二区精品|