亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)聯(lián)分析技術(shù)在學(xué)生成績(jī)分析中的應(yīng)用

        2016-12-22 21:58:16龔希章付熙徐
        軟件導(dǎo)刊 2016年11期
        關(guān)鍵詞:關(guān)聯(lián)分析數(shù)據(jù)挖掘

        龔希章 付熙徐

        摘 要:采用Visual Basic對(duì)學(xué)生管理系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行關(guān)聯(lián)分析,揭示了各科成績(jī)之間的聯(lián)系,詳細(xì)描述了關(guān)聯(lián)規(guī)則算法及實(shí)時(shí)優(yōu)化,分析了使用高維數(shù)據(jù)結(jié)構(gòu)在關(guān)聯(lián)分析中的優(yōu)化效果。

        關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)分析;高維數(shù)據(jù)

        DOIDOI:10.11907/rjdk.161962

        中圖分類號(hào):TP391

        文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2016)011017303

        0 引言

        互聯(lián)網(wǎng)及信息技術(shù)的發(fā)展,產(chǎn)生了大量的歷史數(shù)據(jù),這些數(shù)據(jù)迫切需要轉(zhuǎn)換為有用的信息和知識(shí)[12],通過(guò)這些信息和知識(shí),研究經(jīng)營(yíng)管理狀況、分析市場(chǎng)、控制生產(chǎn),發(fā)現(xiàn)和挖掘可以改進(jìn)的地方,甚至預(yù)測(cè)將來(lái)的發(fā)展和變化,由此產(chǎn)生數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘是從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中發(fā)現(xiàn)并提取隱藏其中的信息的一種技術(shù),目的是幫助決策者尋找數(shù)據(jù)間潛在關(guān)聯(lián),發(fā)現(xiàn)被忽略的要素,這些信息對(duì)預(yù)測(cè)趨勢(shì)和決策十分重要[34]。數(shù)據(jù)挖掘技術(shù)涉及數(shù)據(jù)庫(kù)、人工智能(AI)、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析等多種技術(shù)。

        數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘正越來(lái)越多地應(yīng)用到傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)領(lǐng)域[5]。本文介紹了一個(gè)關(guān)聯(lián)分析技術(shù)在教育領(lǐng)域的應(yīng)用。學(xué)生某些課程成績(jī)比較好會(huì)導(dǎo)致另外一門(mén)或幾門(mén)課程成績(jī)比較好,對(duì)此進(jìn)行關(guān)聯(lián)分析可得到其對(duì)課程偏好之間的聯(lián)系。本文討論了經(jīng)典頻繁集算法進(jìn)行關(guān)聯(lián)分析過(guò)程,描述了關(guān)聯(lián)分析中發(fā)現(xiàn)多維關(guān)聯(lián)規(guī)則方法,分析了使用高維數(shù)據(jù)結(jié)構(gòu)在關(guān)聯(lián)分析中的優(yōu)化效果。

        1 相關(guān)數(shù)據(jù)庫(kù)結(jié)構(gòu)與分析

        學(xué)生成績(jī)關(guān)聯(lián)分析數(shù)據(jù)來(lái)自一個(gè)學(xué)生管理系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)中包含學(xué)生成績(jī)信息和住宿信息等,由于分析的是各科成績(jī)關(guān)系,故相關(guān)的只有成績(jī)事實(shí)表和學(xué)生、課程兩個(gè)維表,表中出生年月、教師、課程類型、學(xué)分、籍貫、考試日期等不相關(guān)屬性可以去掉,相關(guān)數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)如表1、表2、表3所示。

        2 數(shù)據(jù)挖掘準(zhǔn)備工作

        數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)抽取、數(shù)據(jù)變換和數(shù)據(jù)歸約。數(shù)據(jù)清理和數(shù)據(jù)集成在數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建過(guò)程中已經(jīng)完成。

        對(duì)預(yù)處理后數(shù)據(jù)進(jìn)行統(tǒng)計(jì),以直方圖表示成績(jī)的分布情況,直方圖用分箱的方法來(lái)表示數(shù)據(jù)的近似分布。圖1以橫坐標(biāo)表示成績(jī),縱坐標(biāo)表示百分比,用Visual Basic 處理數(shù)據(jù)。

        從圖1可以看出,考試中成績(jī)優(yōu)秀的只占很小一部分,而成績(jī)及格和中等卻占比很大。一般意義上成績(jī)良好也可以說(shuō)是成績(jī)好,因此將成績(jī)良好和優(yōu)秀(score>=3)都定義為成績(jī)好。

        3 數(shù)據(jù)挖掘算法及改進(jìn)

        3.1 關(guān)聯(lián)分析和經(jīng)典頻繁集算法

        關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性-值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。關(guān)聯(lián)規(guī)則是形如X=>Y的規(guī)則,支持度為在所有交易集中同時(shí)符合X與Y的交易數(shù)與所有交易數(shù)之比,可信度指在所有交易集中同時(shí)符合X與Y的交易數(shù)與符合X的交易數(shù)之比。關(guān)聯(lián)規(guī)則可表示為:

        關(guān)聯(lián)分析主要算法有經(jīng)典頻繁集算法和FP-growth等改進(jìn)算法,本文采用經(jīng)典頻集算法思想對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析。經(jīng)典頻繁集算法思想如下:①找出所有具有超出最小支持度的支持度項(xiàng)集(itemsets),由Apriori算法實(shí)現(xiàn);②利用大項(xiàng)集(litemsets)產(chǎn)生所需規(guī)則(rules)。算法實(shí)現(xiàn)如下:

        3.2 關(guān)聯(lián)分析算法優(yōu)化

        根據(jù)上面的歸約,分析學(xué)生某科(幾科)成績(jī)與其它科目成績(jī)關(guān)系。把一門(mén)課程成績(jī)好(score>=3)作為一個(gè)項(xiàng),每個(gè)學(xué)生的考試可作為一項(xiàng)交易,下面討論進(jìn)行關(guān)聯(lián)分析時(shí)遇到的問(wèn)題和解決辦法。

        3.2.1 關(guān)聯(lián)分析問(wèn)題

        由于數(shù)據(jù)結(jié)構(gòu)關(guān)系,本次關(guān)聯(lián)分析遇到以下問(wèn)題:①經(jīng)典頻繁集算法理論一般只介紹同一字段值之間的關(guān)系,而考試成績(jī)分析涉及到課程和成績(jī)兩個(gè)字段,屬于多維關(guān)聯(lián)規(guī)則;②課程數(shù)量很多(1 000門(mén)左右),但大多數(shù)課程只有部分學(xué)生選修,如果支持度要求太高就得不到有意義的規(guī)則,故頻繁-1項(xiàng)集也會(huì)比較多。數(shù)據(jù)倉(cāng)庫(kù)中每次考試都存儲(chǔ)為一條記錄,需要過(guò)于頻繁地掃描數(shù)據(jù)量巨大的事實(shí)表。

        3.2.2 多維關(guān)聯(lián)規(guī)則處理方法和頻繁-1項(xiàng)集找尋

        為了簡(jiǎn)化多維關(guān)聯(lián)規(guī)則,建立一個(gè)頻繁項(xiàng)集表,結(jié)構(gòu)如表4所示。

        3.2.3 交易集表產(chǎn)生和算法優(yōu)化

        如果直接在事實(shí)表中搜尋層次為2以上的頻繁項(xiàng)集,需對(duì)每個(gè)學(xué)生確認(rèn)頻繁集組合條件是否符合,對(duì)每個(gè)學(xué)生都要掃描記錄數(shù)巨大的考試事實(shí)表數(shù)次。為解決此問(wèn)題,建立了專門(mén)的交易集表(也可在學(xué)生表中直接加一個(gè)字段,但這需要更新數(shù)據(jù)倉(cāng)庫(kù)的學(xué)生表,并影響其它分析),表結(jié)構(gòu)見(jiàn)表5。

        3.2.4 層次較高的頻繁集和規(guī)則產(chǎn)生

        找出頻繁-1項(xiàng)集并生成交易集表后,即可依次找出頻繁-2項(xiàng)集等層次的頻繁集,其中一個(gè)2項(xiàng)集由兩項(xiàng)頻繁-1項(xiàng)集構(gòu)成,一個(gè) n項(xiàng)集由一個(gè)頻繁n-1項(xiàng)集和一個(gè)頻繁-1項(xiàng)集構(gòu)成。可從頻繁項(xiàng)集表中推出構(gòu)成每個(gè)多項(xiàng)集的頻繁-1項(xiàng)集,掃描交易集表即可找出該頻繁多項(xiàng)集的支持度,最終找出所有頻繁項(xiàng)集。以下程序可確定某頻繁項(xiàng)集包含的所有頻繁-1項(xiàng)集:

        其中,array()是用于保存該頻繁項(xiàng)集包含的所有頻繁-1項(xiàng)集數(shù)組,也可直接生成查詢條件:將array(i)=rs2(“p2”)改為str1=”$”+cstr(rs2(“p2”))+”$%”,該字符串可直接用于判斷交易集表中的交易是否包含該頻繁項(xiàng)集的所有條件。

        通過(guò)掃描交易集表找出所有頻繁大項(xiàng)集后生成規(guī)則,若支持度大于給定的支持度即可輸出為關(guān)聯(lián)規(guī)則。

        3.2.5 興趣度分析及規(guī)則輸出

        關(guān)聯(lián)分析規(guī)則是否有興趣,主要評(píng)價(jià)標(biāo)準(zhǔn)是可信度和支持度。通常使用固定的可信度和支持度標(biāo)準(zhǔn),但由于本例中頻繁項(xiàng)數(shù)量很多,高層關(guān)聯(lián)規(guī)則產(chǎn)生算法的復(fù)雜度也相對(duì)較高。而較高層次頻繁項(xiàng)的支持度要比較低層次頻繁項(xiàng)低很多,可將支持度低的低層次頻繁項(xiàng)不產(chǎn)生高層次頻繁項(xiàng),予以清除。本例中各層次使用不同的支持度標(biāo)準(zhǔn),該標(biāo)準(zhǔn)從低層到高層遞減。

        經(jīng)過(guò)最后篩選,輸出部分規(guī)則如下(最小可信度為30%):

        (漁業(yè)導(dǎo)論>=3)AND(大學(xué)英語(yǔ)1>=3)=>(法律基礎(chǔ)>=3)支持度5.1% 可信度33.3%

        (法律基礎(chǔ)>=3)=>(漁業(yè)法規(guī)>=3) 支持度5.2% 可信度53.1%

        (漁業(yè)法規(guī)>=3)=>(法律基礎(chǔ)>=3) 支持度5.2% 可信度61.2%

        注:倒過(guò)來(lái)不一定有足夠可信度,例如由于可信度不到30%的緣故,(法律基礎(chǔ)>=3) =>(大學(xué)英語(yǔ)1>=3)沒(méi)有作為規(guī)則輸出。

        4 結(jié)語(yǔ)

        數(shù)據(jù)挖掘是一項(xiàng)復(fù)雜技術(shù),本文介紹了經(jīng)典頻繁集算法進(jìn)行多維關(guān)聯(lián)分析的方法,討論了如何將多維關(guān)聯(lián)分析簡(jiǎn)化為一維關(guān)聯(lián)分析,將多次掃描龐大的事實(shí)表轉(zhuǎn)化為掃描相對(duì)較小的交易集表。

        課程很多,項(xiàng)集也會(huì)很大,而經(jīng)典頻繁集算法的缺點(diǎn)之一正是建立了大量頻繁項(xiàng)集,頻繁掃描事實(shí)表。所以對(duì)此種關(guān)聯(lián)分析,經(jīng)典頻繁集算法不是最好的算法,但分步優(yōu)化和使用高維數(shù)據(jù)能使算法復(fù)雜度大大降低。

        參考文獻(xiàn):

        [1] 張兵令,付熙徐,張丹玨.數(shù)據(jù)倉(cāng)庫(kù)的建立與維護(hù)[J].微型電腦應(yīng)用,2006(2):1519.

        [2] 朱揚(yáng)勇.高級(jí)數(shù)據(jù)庫(kù)應(yīng)用開(kāi)發(fā)[M].北京:清華大學(xué)出版社,2007.

        [3] JIAWEI HAN,MICHELINE KAMBR.數(shù)據(jù)挖掘——概念與技術(shù)[M].影印版.北京:高等教育出版社,2001.

        [4] [美]OLIVIA PARR RUD.數(shù)據(jù)挖掘?qū)嵺`[M].朱揚(yáng)勇,左子葉,張忠平,譯.北京:機(jī)械工業(yè)出版社,2003.

        [5] 康曉東.基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘技術(shù)[M].北京:機(jī)械工業(yè)出版社,2004.

        (責(zé)任編輯:杜能鋼)

        猜你喜歡
        關(guān)聯(lián)分析數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
        玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關(guān)聯(lián)分析
        基于隨機(jī)函數(shù)Petri網(wǎng)的系統(tǒng)動(dòng)力學(xué)關(guān)聯(lián)分析模型
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        基于關(guān)聯(lián)分析的學(xué)生活動(dòng)參與度與高校社團(tuán)管理實(shí)證研究
        科技視界(2016年15期)2016-06-30 12:43:00
        不同的數(shù)據(jù)挖掘方法分類對(duì)比研究
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        名老中醫(yī)經(jīng)驗(yàn)方用藥加減規(guī)律的研究
        欧美黑寡妇特a级做爰| 国产精品一区二区熟女不卡| 少妇精品揄拍高潮少妇桃花岛| 亚洲丰满熟女一区二亚洲亚洲 | 婷婷久久亚洲中文字幕| 日韩国产精品一本一区馆/在线| 欧美性受xxxx狂喷水| 色av色婷婷18人妻久久久| 午夜精品男人天堂av| 成人国产一区二区三区| 一本本月无码-| 中日韩精品视频在线观看| 久久国产成人精品国产成人亚洲| 国产一区二区三区小说| 国产福利97精品一区二区| 成人一区二区三区蜜桃| 成h视频在线观看免费| 成人一区二区免费中文字幕视频| 东北妇女肥胖bbwbbwbbw| 精品午夜福利1000在线观看| 毛片无码高潮喷白浆视频| 五月激情狠狠开心五月| 日本免费精品一区二区三区视频| 一区二区黄色在线观看| 无码熟妇人妻av在线影片最多| 五月综合激情婷婷六月色窝| 免费无码成人av在线播| 免费精品美女久久久久久久久久| 日韩精品极品视频在线观看蜜桃 | 日本大片免费观看视频| 国产av人人夜夜澡人人爽| 欧美成人三级一区二区在线观看 | 亚洲av一二三又爽又爽又色| 日本中文字幕乱码中文乱码| 全免费a级毛片免费看无码| 蜜桃久久精品成人无码av| 少妇高潮惨叫久久久久久| 女的把腿张开男的猛戳出浆| 国产一区精品二区三区四区| 亚洲悠悠色综合中文字幕| 成人免费直播|