亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)聯(lián)分析在圖書興趣推薦中的應(yīng)用

        2021-06-16 23:49:52周智謙邱松
        電子制作 2021年6期
        關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

        周智謙,邱松

        (武漢城市職業(yè)學(xué)院設(shè)備處,湖北武漢,430070)

        0 引言

        世間萬(wàn)物都是有聯(lián)系的,這種聯(lián)系也稱為相關(guān)性或者關(guān)聯(lián)性(association rule),關(guān)聯(lián)分析(association analysis)是指如果兩個(gè)或多個(gè)事物之間存在一定的關(guān)聯(lián),那么其中一個(gè)事物就能通過(guò)其他事物進(jìn)行預(yù)測(cè),目的是為了挖掘隱藏在數(shù)據(jù)間的相互關(guān)系。本文以我校學(xué)生近兩年的圖書借閱事務(wù)標(biāo)識(shí)和項(xiàng)目集合數(shù)據(jù)作為分析對(duì)象,通過(guò)分析事務(wù)背后深層次地相互影響的關(guān)系即關(guān)聯(lián)關(guān)系,通過(guò)關(guān)聯(lián)分析達(dá)到尋找圖書借閱的聯(lián)系和規(guī)律,發(fā)現(xiàn)它們之間的關(guān)聯(lián)關(guān)系的目的。事物的相關(guān)性或關(guān)聯(lián)性是指當(dāng)一個(gè)事物變化時(shí),另一個(gè)事物隨著發(fā)生變化;或一個(gè)事物出現(xiàn),導(dǎo)致另一個(gè)事物出現(xiàn)。

        相關(guān)性又分為正相關(guān)和負(fù)相關(guān),正相關(guān)是指兩個(gè)變量變動(dòng)方向相同,自變量由大到小或由小到大變化時(shí),因變量同樣由大到小或由小到大變化,即其數(shù)據(jù)曲線的切線斜率始終大于零;負(fù)相關(guān)是指自變量的變化導(dǎo)致因變量反向變化,即其數(shù)據(jù)曲線的切線斜率始終小于零。

        關(guān)聯(lián)分析是數(shù)據(jù)挖掘相關(guān)應(yīng)用中的一個(gè)重要課題方向,已經(jīng)在各行業(yè)中廣泛研究和使用。數(shù)據(jù)挖掘可以完成數(shù)據(jù)總結(jié)、分類、回歸分析、聚類分析和關(guān)聯(lián)分析的工作,其中通過(guò)關(guān)聯(lián)規(guī)則挖掘可發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的相互關(guān)聯(lián)規(guī)則,關(guān)聯(lián)分析包括簡(jiǎn)單關(guān)聯(lián)規(guī)則和時(shí)序關(guān)聯(lián)規(guī)則。以簡(jiǎn)單關(guān)聯(lián)規(guī)則舉例來(lái)說(shuō),分析發(fā)現(xiàn)在同一個(gè)專業(yè)的讀者中有相當(dāng)比例同時(shí)借閱程序語(yǔ)言、算法語(yǔ)言(TP312)、軟件工具(TP311.561)與圖形圖像識(shí)別(TP391.41)的,這種規(guī)律即為一種簡(jiǎn)單關(guān)聯(lián)規(guī)則。

        1 數(shù)據(jù)挖掘

        信息社會(huì)的特征是數(shù)據(jù)泛濫但知識(shí)相對(duì)匱乏,以我校18-19 年圖書借閱數(shù)據(jù)為例,總借閱數(shù)為59302 條,包含的信息有借閱時(shí)間、書籍題名、讀者姓名、讀者條碼、年級(jí)組、院系、索書號(hào),隨著時(shí)間的推移數(shù)據(jù)積累地越來(lái)越多,借閱信息作為借還書的重要數(shù)據(jù)在圖書借閱系統(tǒng)中使用,如果不對(duì)數(shù)據(jù)庫(kù)進(jìn)行技術(shù)統(tǒng)計(jì)分析,這些借閱信息不能很好幫助我們理解這些數(shù)據(jù),比如無(wú)法發(fā)現(xiàn)借閱數(shù)據(jù)之間的關(guān)系和規(guī)則,無(wú)法依據(jù)現(xiàn)有數(shù)據(jù)預(yù)測(cè)未來(lái)趨勢(shì),就將形成數(shù)據(jù)泛濫和知識(shí)相對(duì)匱乏的情況。

        ■1.1 數(shù)據(jù)挖掘的定義

        數(shù)據(jù)挖掘是一個(gè)利用各種方法,從海量的有噪聲的凌亂數(shù)據(jù)中,提取隱含和潛在的對(duì)決策有用的信息和模式的過(guò)程[1]。

        1995 年在加拿大蒙特利爾的第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國(guó)際會(huì)議上提出數(shù)據(jù)挖掘(date mining)概念。數(shù)據(jù)庫(kù)中的數(shù)據(jù)被稱為“礦石”,數(shù)據(jù)挖掘就是在礦石中開(kāi)采“知識(shí)”(黃金)。在計(jì)算機(jī)科學(xué)領(lǐng)域提出的知識(shí)發(fā)現(xiàn)KDD(Knowledge Discovery in Database)則是在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí),KDD 的過(guò)程為建立數(shù)據(jù)源、提取數(shù)據(jù)、數(shù)據(jù)預(yù)處理、模型搭建、模型評(píng)估、可視化、應(yīng)用等。

        以我校某工科類學(xué)院近兩年圖書借閱信息作分析,對(duì)海量數(shù)據(jù)通過(guò)查詢和抽取來(lái)獲得了之前沒(méi)有獲得的有用信息或規(guī)則,該院系共718 人有借閱記錄,其中借閱1 本人數(shù)為238,占總?cè)藬?shù)的33.1%;借閱2 本人數(shù)為152,占總?cè)藬?shù)的21.1%;借閱3 本人數(shù)為97,占總?cè)藬?shù)的13.5%;借閱4 本人數(shù)為56,占總?cè)藬?shù)的7.8%;借閱5 本人數(shù)為97,占總?cè)藬?shù)的4.4%。借閱量從1 本至12 本的人數(shù)約占總?cè)藬?shù)的95%;完全借閱I 類文學(xué)種類書籍人數(shù)為15 人;僅借一本圖書的238 人中有18%借閱與專業(yè)相關(guān),40%借閱文學(xué)類書籍;文學(xué)類占總借閱量的52.9%,專業(yè)相關(guān)的占27.6%,而哲學(xué)、歷史、藝術(shù)、數(shù)理科學(xué)、經(jīng)濟(jì)、天文等借閱量普遍在1%上下,從側(cè)面反映了工科學(xué)生的求知欲局限于本專業(yè)之內(nèi)。

        但是隨著對(duì)數(shù)據(jù)挖掘的應(yīng)用與實(shí)踐不斷深入,對(duì)數(shù)據(jù)的簡(jiǎn)單查詢和抽取已經(jīng)不能合理描述模型,必須借助于統(tǒng)計(jì)學(xué)、機(jī)器學(xué)等其他學(xué)科,對(duì)數(shù)據(jù)的預(yù)處理和對(duì)生成模型的評(píng)估是數(shù)據(jù)挖掘的基礎(chǔ)。

        ■1.2 數(shù)據(jù)挖掘方法論

        數(shù)據(jù)挖掘方法論是數(shù)據(jù)挖掘?qū)嵤┑目傮w指導(dǎo)方案,目前有三個(gè)經(jīng)典的數(shù)據(jù)挖掘方法論,它們分別是CRISP-DM方法論、SEMMA 方法論和Tom Khabaza 挖掘9 律,其中CRISP-DM(Cross-Industry Standard Process for Data Mining)方法論由SPSS 和Daimler-Benz 公司聯(lián)合制定,是跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)。本課題基于Clementine 數(shù)據(jù)挖掘,使用了該方法論,它以數(shù)據(jù)為核心,其數(shù)據(jù)挖掘是以自然迭代為規(guī)律,整體呈現(xiàn)螺旋式數(shù)據(jù)探索過(guò)程,其對(duì)應(yīng)的六個(gè)階段分別是:(1)業(yè)務(wù)理解(business understanding)、(2)數(shù)據(jù)理解(data understanding)、(3)數(shù)據(jù)準(zhǔn)備(data preparation)、(4)模型搭建(modeling)、(5)模型評(píng)估(evaluation)、(6)模型發(fā)布(deployment)。

        ■1.3 數(shù)據(jù)準(zhǔn)備工作

        本次數(shù)據(jù)挖掘的目的是對(duì)圖書借閱信息做關(guān)聯(lián)分析,找到數(shù)據(jù)背后的隱藏關(guān)系;清洗數(shù)據(jù)共59302 條,剔除系統(tǒng)生成空白借閱信息22 條;清除劃歸至系部的教師借閱信息900 余條,因文學(xué)類占全??偨栝喠砍^(guò)62%,與其他門類書籍有較強(qiáng)的關(guān)聯(lián)性,故需清除所有文學(xué)(I)類信息;因?yàn)闊o(wú)法產(chǎn)生關(guān)聯(lián)項(xiàng),刪除個(gè)人名下只借閱一本的信息;研究側(cè)重對(duì)象是工科學(xué)生,對(duì)于跨學(xué)科的哲學(xué)、文史、經(jīng)濟(jì)等大類,只對(duì)大類關(guān)聯(lián)分析,將書籍所屬學(xué)科按領(lǐng)域合并;共2466 種書籍,為減小項(xiàng)目集合數(shù)量,提高關(guān)聯(lián)性,如Tp312 為程序語(yǔ)言、算法語(yǔ)言,此類有多個(gè)分支,比如JAVA 表示為TP312JA、C++表示為TP312C++、VC 表示為TP312VC 等,故將所有分支匯集成TP312 這個(gè)大類,最終得到47 種不重復(fù)種類;在做書籍大類關(guān)聯(lián)分析的基礎(chǔ)上,進(jìn)一步分析某一工科專業(yè)學(xué)生的專業(yè)書籍關(guān)聯(lián)情況,共梳理出T 類(工業(yè)技術(shù))種63 子類。

        2 基于Clementine 的關(guān)聯(lián)分析

        Clementine 提供了基于Apriori 和GRI 的算法,其中Apriori 算法是一種經(jīng)典的關(guān)聯(lián)規(guī)數(shù)據(jù)挖據(jù)算法,它利用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí),通過(guò)逐層搜索迭代的布爾型關(guān)聯(lián)規(guī)則從事務(wù)數(shù)據(jù)庫(kù)或關(guān)系數(shù)據(jù)庫(kù)中發(fā)現(xiàn)同時(shí)滿足最小支持度和置信度的頻繁項(xiàng)目集[2]。

        ■2.1 關(guān)聯(lián)規(guī)則的定義

        簡(jiǎn)單關(guān)聯(lián)分析的對(duì)象是事務(wù)(Transaction),它由事務(wù)標(biāo)識(shí)(TID)和項(xiàng)目集合(X)組成,一個(gè)事務(wù)標(biāo)識(shí)對(duì)應(yīng)一個(gè)事務(wù)。

        事務(wù)標(biāo)識(shí)從001 起始,事務(wù)總量T=4;TN79、TN309、TP311.12、TP316.81、TP36 為變量名,取值1 代表借閱,0 代表沒(méi)有借閱。

        ■2.2 描述簡(jiǎn)單關(guān)聯(lián)規(guī)則的三個(gè)測(cè)量值

        一般使用支持度(Support)和置信度(Confidence)兩個(gè)測(cè)度指標(biāo)來(lái)描述關(guān)聯(lián)規(guī)則的屬性。

        (1)置信度(C)

        所謂置信度,就是對(duì)簡(jiǎn)單關(guān)聯(lián)規(guī)則準(zhǔn)確度的反映,它表示選擇A 后,B 出現(xiàn)的概率。算法公式為:

        (2)支持度(S)

        支持度是指同時(shí)選擇A 和B 的概率,或者說(shuō)是選擇組合的次數(shù)占總事務(wù)標(biāo)識(shí)條目的比例。算法公式為:

        (3)提升度(L)

        提升度是置信度與后項(xiàng)支持度的比值,意義是先選擇A對(duì)再次選擇B 的提升作用,用來(lái)判斷選擇組合方式是否具有現(xiàn)實(shí)意義,也即是組合選擇AB 的次數(shù)多于單獨(dú)選擇B 的次數(shù),說(shuō)明組合方式有效。算法公式為:

        理想關(guān)聯(lián)規(guī)則的置信度(C)和支持度(S)越大越好,并且提升度要大于1。如果置信度高但支持度低,說(shuō)明規(guī)則可信度好但是規(guī)則應(yīng)用機(jī)會(huì)少;如果支持度高但是置信度低,則說(shuō)明規(guī)則可信度低。故理想的關(guān)聯(lián)規(guī)則是在眾多的關(guān)聯(lián)規(guī)則中較好的一類,在設(shè)計(jì)模型時(shí),可以對(duì)置信度和支持度的閾值做限制以篩選出理想關(guān)聯(lián)規(guī)則。

        ■2.3 Apriori 算法

        (1)確定頻繁項(xiàng)集。以表1 為例,首先由用戶指定最小支持度閾值為0.5,通過(guò)單個(gè)項(xiàng)目集合依次向多個(gè)項(xiàng)目集合迭代,事務(wù)總量T=4。通過(guò)第一次迭代的計(jì)算,分別計(jì)算出項(xiàng)集C1 中A 至E 的支持度:A=0.5 B=0.75 C=0.75 D=0.25 E=0.75,因此頻繁項(xiàng)集L1 為A,B,C,E;第二次迭代項(xiàng)集C2為AB,AC,AE,BC,BE,CE,支持度分別為0.25,0.5,0.25,0.5,0.75,0.5,因此頻繁項(xiàng)集L2 為AC,BC,BE,CE;第三次迭代項(xiàng)集C3 為ABC,ACE,BCE,支持度分別為0.25,0.25,0.5,因此頻繁項(xiàng)集L3 為BCE。

        表1 事實(shí)表示例

        (2)產(chǎn)生簡(jiǎn)單關(guān)聯(lián)規(guī)則。在高于支持度閾值的前提下,根據(jù)用戶指定的置信度閾值來(lái)確定理想規(guī)則集合。對(duì)于第三次迭代產(chǎn)生的頻繁項(xiàng)L3 而言,需要計(jì)算BC 出現(xiàn)時(shí)E 出現(xiàn)的概率,即置信度CBC→E=0.5/0.5=1,此時(shí)置信度最大;計(jì)算BE 出現(xiàn)時(shí)C 出現(xiàn)的概率,即置信度CBE→C=0.5/0.75=0.67;計(jì)算CE 出現(xiàn)時(shí)B 出現(xiàn)的概率,即置信度CCE→B=0.5/0.75=0.67??梢?jiàn),如果設(shè)置置信度為1,則產(chǎn)生的簡(jiǎn)單關(guān)聯(lián)規(guī)則是(BC)→(E);若設(shè)置置信度為0.6,則產(chǎn)生的簡(jiǎn)單關(guān)聯(lián)規(guī)則將是(BC)→(E)、(BE)→(C)和(CE)→(B)。

        3 模型建立及結(jié)論

        使用Clementine 對(duì)某學(xué)院同一專業(yè)借閱的圖書進(jìn)行分析。在分析前,首先對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)備工作,同一人名下借閱同種類型、多本圖書計(jì)一本,樣本中總?cè)藬?shù)為85 人,清洗掉只借一本的10 人,得到借閱至少兩本的可進(jìn)行關(guān)聯(lián)分析的人數(shù)為75,書籍借閱種類共計(jì)46 種;將數(shù)據(jù)庫(kù)中的事務(wù)類型表轉(zhuǎn)換成事實(shí)表,得到事務(wù)總量T 為75,項(xiàng)目為46。

        通過(guò)Var.file 節(jié)點(diǎn)讀入數(shù)據(jù),將Moedling 中的Apriori節(jié)點(diǎn)放入,在字段的后項(xiàng)和前項(xiàng)中引入所有需要分析的項(xiàng)目。為能選出理想模型,設(shè)置最低支持度閾值為10%,最小規(guī)則置信度設(shè)置為50%,分析結(jié)果如下表2 所示。

        表2 Apriori關(guān)聯(lián)分析結(jié)果

        其中1 號(hào)規(guī)則的含義是:借閱TP393(計(jì)算機(jī)網(wǎng)絡(luò))同時(shí)會(huì)借閱TP312C(程序語(yǔ)言、算法語(yǔ)言,C 語(yǔ)言),支持度和置信度都大于設(shè)定閾值,提升度(L)>1,說(shuō)明規(guī)則具有現(xiàn)實(shí)意義,組合方式有效。4 號(hào)規(guī)則的含義是借閱TP312PH(程序語(yǔ)言、算法語(yǔ)言,PHP 語(yǔ)言)和TP312C(C 語(yǔ)言)的同時(shí)會(huì)借閱TP312JA(JAVA 語(yǔ)言),并且它的提升度(L)是最高的,說(shuō)明實(shí)際指導(dǎo)意義相對(duì)最大。

        簡(jiǎn)單規(guī)則的分析結(jié)果可應(yīng)用于優(yōu)化圖書館書籍的收納分類和圖書興趣推薦方面。將同一大類書籍按照借閱的關(guān)聯(lián)規(guī)則合理規(guī)劃擺放區(qū)域,可方便讀者一并借閱;通過(guò)優(yōu)化借閱路徑,在擺放專業(yè)相關(guān)分類書籍的同時(shí),覆蓋一部分交叉學(xué)科書籍,有助于學(xué)生補(bǔ)充綜合性知識(shí),使學(xué)生能獲得多元的理論基礎(chǔ)和視角。

        猜你喜歡
        數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
        撐竿跳規(guī)則的制定
        “苦”的關(guān)聯(lián)
        數(shù)獨(dú)的規(guī)則和演變
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        奇趣搭配
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        免费看美女被靠的网站| 国产精品一品二区三区| 亚洲av毛片在线网站| 无码人妻精品一区二区三| 日韩好片一区二区在线看| 亚洲精品美女自拍偷拍| 亚洲国产精品天堂久久久| 人人妻人人澡人人爽人人精品浪潮| 亚洲成人色区| 无码精品一区二区免费AV| 一本色道久久综合亚州精品| 国产让女高潮的av毛片| 亚洲日韩国产一区二区三区在线 | 日本护士xxxxhd少妇| 午夜成人精品福利网站在线观看| 日本久久久免费高清| 日本一道本加勒比东京热| 精品国产天堂综合一区在线 | 亚洲国产成人一区二区精品区| 国产三级在线观看免费| 国产韩国精品一区二区三区| 中文国产乱码在线人妻一区二区| 99久久人妻无码精品系列| 国产一区二区三区在线观看精品| 蜜桃视频中文字幕一区二区三区 | 久久久久人妻精品一区二区三区| 久久中文字幕无码专区| 日本不卡一区二区高清中文| 国产av精选一区二区| 狠狠噜狠狠狠狠丁香五月| 99久久婷婷国产综合亚洲91| 亚洲免费看三级黄网站| 亚洲乱码一区二区三区在线观看| 天天摸日日摸狠狠添| yw193.can尤物国产在线网页| 人妻少妇艳情视频中文字幕| 又大又粗又爽18禁免费看| 欧美国产亚洲精品成人a v| 亚洲精品av一区二区日韩| 成人国成人国产suv| 国产96在线 | 亚洲|