亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關聯(lián)分析技術在學生成績分析中的應用

        2016-12-22 21:58:16龔希章付熙徐
        軟件導刊 2016年11期
        關鍵詞:關聯(lián)分析數(shù)據(jù)挖掘

        龔希章 付熙徐

        摘 要:采用Visual Basic對學生管理系統(tǒng)數(shù)據(jù)倉庫進行關聯(lián)分析,揭示了各科成績之間的聯(lián)系,詳細描述了關聯(lián)規(guī)則算法及實時優(yōu)化,分析了使用高維數(shù)據(jù)結構在關聯(lián)分析中的優(yōu)化效果。

        關鍵詞:數(shù)據(jù)挖掘;關聯(lián)分析;高維數(shù)據(jù)

        DOIDOI:10.11907/rjdk.161962

        中圖分類號:TP391

        文獻標識碼:A 文章編號文章編號:16727800(2016)011017303

        0 引言

        互聯(lián)網(wǎng)及信息技術的發(fā)展,產生了大量的歷史數(shù)據(jù),這些數(shù)據(jù)迫切需要轉換為有用的信息和知識[12],通過這些信息和知識,研究經(jīng)營管理狀況、分析市場、控制生產,發(fā)現(xiàn)和挖掘可以改進的地方,甚至預測將來的發(fā)展和變化,由此產生數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘是從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)并提取隱藏其中的信息的一種技術,目的是幫助決策者尋找數(shù)據(jù)間潛在關聯(lián),發(fā)現(xiàn)被忽略的要素,這些信息對預測趨勢和決策十分重要[34]。數(shù)據(jù)挖掘技術涉及數(shù)據(jù)庫、人工智能(AI)、機器學習和統(tǒng)計分析等多種技術。

        數(shù)據(jù)倉庫與數(shù)據(jù)挖掘正越來越多地應用到傳統(tǒng)數(shù)據(jù)庫技術領域[5]。本文介紹了一個關聯(lián)分析技術在教育領域的應用。學生某些課程成績比較好會導致另外一門或幾門課程成績比較好,對此進行關聯(lián)分析可得到其對課程偏好之間的聯(lián)系。本文討論了經(jīng)典頻繁集算法進行關聯(lián)分析過程,描述了關聯(lián)分析中發(fā)現(xiàn)多維關聯(lián)規(guī)則方法,分析了使用高維數(shù)據(jù)結構在關聯(lián)分析中的優(yōu)化效果。

        1 相關數(shù)據(jù)庫結構與分析

        學生成績關聯(lián)分析數(shù)據(jù)來自一個學生管理系統(tǒng)數(shù)據(jù)倉庫,數(shù)據(jù)倉庫中包含學生成績信息和住宿信息等,由于分析的是各科成績關系,故相關的只有成績事實表和學生、課程兩個維表,表中出生年月、教師、課程類型、學分、籍貫、考試日期等不相關屬性可以去掉,相關數(shù)據(jù)倉庫結構如表1、表2、表3所示。

        2 數(shù)據(jù)挖掘準備工作

        數(shù)據(jù)預處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)抽取、數(shù)據(jù)變換和數(shù)據(jù)歸約。數(shù)據(jù)清理和數(shù)據(jù)集成在數(shù)據(jù)倉庫構建過程中已經(jīng)完成。

        對預處理后數(shù)據(jù)進行統(tǒng)計,以直方圖表示成績的分布情況,直方圖用分箱的方法來表示數(shù)據(jù)的近似分布。圖1以橫坐標表示成績,縱坐標表示百分比,用Visual Basic 處理數(shù)據(jù)。

        從圖1可以看出,考試中成績優(yōu)秀的只占很小一部分,而成績及格和中等卻占比很大。一般意義上成績良好也可以說是成績好,因此將成績良好和優(yōu)秀(score>=3)都定義為成績好。

        3 數(shù)據(jù)挖掘算法及改進

        3.1 關聯(lián)分析和經(jīng)典頻繁集算法

        關聯(lián)分析發(fā)現(xiàn)關聯(lián)規(guī)則,這些規(guī)則展示屬性-值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。關聯(lián)規(guī)則是形如X=>Y的規(guī)則,支持度為在所有交易集中同時符合X與Y的交易數(shù)與所有交易數(shù)之比,可信度指在所有交易集中同時符合X與Y的交易數(shù)與符合X的交易數(shù)之比。關聯(lián)規(guī)則可表示為:

        關聯(lián)分析主要算法有經(jīng)典頻繁集算法和FP-growth等改進算法,本文采用經(jīng)典頻集算法思想對數(shù)據(jù)進行關聯(lián)分析。經(jīng)典頻繁集算法思想如下:①找出所有具有超出最小支持度的支持度項集(itemsets),由Apriori算法實現(xiàn);②利用大項集(litemsets)產生所需規(guī)則(rules)。算法實現(xiàn)如下:

        3.2 關聯(lián)分析算法優(yōu)化

        根據(jù)上面的歸約,分析學生某科(幾科)成績與其它科目成績關系。把一門課程成績好(score>=3)作為一個項,每個學生的考試可作為一項交易,下面討論進行關聯(lián)分析時遇到的問題和解決辦法。

        3.2.1 關聯(lián)分析問題

        由于數(shù)據(jù)結構關系,本次關聯(lián)分析遇到以下問題:①經(jīng)典頻繁集算法理論一般只介紹同一字段值之間的關系,而考試成績分析涉及到課程和成績兩個字段,屬于多維關聯(lián)規(guī)則;②課程數(shù)量很多(1 000門左右),但大多數(shù)課程只有部分學生選修,如果支持度要求太高就得不到有意義的規(guī)則,故頻繁-1項集也會比較多。數(shù)據(jù)倉庫中每次考試都存儲為一條記錄,需要過于頻繁地掃描數(shù)據(jù)量巨大的事實表。

        3.2.2 多維關聯(lián)規(guī)則處理方法和頻繁-1項集找尋

        為了簡化多維關聯(lián)規(guī)則,建立一個頻繁項集表,結構如表4所示。

        3.2.3 交易集表產生和算法優(yōu)化

        如果直接在事實表中搜尋層次為2以上的頻繁項集,需對每個學生確認頻繁集組合條件是否符合,對每個學生都要掃描記錄數(shù)巨大的考試事實表數(shù)次。為解決此問題,建立了專門的交易集表(也可在學生表中直接加一個字段,但這需要更新數(shù)據(jù)倉庫的學生表,并影響其它分析),表結構見表5。

        3.2.4 層次較高的頻繁集和規(guī)則產生

        找出頻繁-1項集并生成交易集表后,即可依次找出頻繁-2項集等層次的頻繁集,其中一個2項集由兩項頻繁-1項集構成,一個 n項集由一個頻繁n-1項集和一個頻繁-1項集構成??蓮念l繁項集表中推出構成每個多項集的頻繁-1項集,掃描交易集表即可找出該頻繁多項集的支持度,最終找出所有頻繁項集。以下程序可確定某頻繁項集包含的所有頻繁-1項集:

        其中,array()是用于保存該頻繁項集包含的所有頻繁-1項集數(shù)組,也可直接生成查詢條件:將array(i)=rs2(“p2”)改為str1=”$”+cstr(rs2(“p2”))+”$%”,該字符串可直接用于判斷交易集表中的交易是否包含該頻繁項集的所有條件。

        通過掃描交易集表找出所有頻繁大項集后生成規(guī)則,若支持度大于給定的支持度即可輸出為關聯(lián)規(guī)則。

        3.2.5 興趣度分析及規(guī)則輸出

        關聯(lián)分析規(guī)則是否有興趣,主要評價標準是可信度和支持度。通常使用固定的可信度和支持度標準,但由于本例中頻繁項數(shù)量很多,高層關聯(lián)規(guī)則產生算法的復雜度也相對較高。而較高層次頻繁項的支持度要比較低層次頻繁項低很多,可將支持度低的低層次頻繁項不產生高層次頻繁項,予以清除。本例中各層次使用不同的支持度標準,該標準從低層到高層遞減。

        經(jīng)過最后篩選,輸出部分規(guī)則如下(最小可信度為30%):

        (漁業(yè)導論>=3)AND(大學英語1>=3)=>(法律基礎>=3)支持度5.1% 可信度33.3%

        (法律基礎>=3)=>(漁業(yè)法規(guī)>=3) 支持度5.2% 可信度53.1%

        (漁業(yè)法規(guī)>=3)=>(法律基礎>=3) 支持度5.2% 可信度61.2%

        注:倒過來不一定有足夠可信度,例如由于可信度不到30%的緣故,(法律基礎>=3) =>(大學英語1>=3)沒有作為規(guī)則輸出。

        4 結語

        數(shù)據(jù)挖掘是一項復雜技術,本文介紹了經(jīng)典頻繁集算法進行多維關聯(lián)分析的方法,討論了如何將多維關聯(lián)分析簡化為一維關聯(lián)分析,將多次掃描龐大的事實表轉化為掃描相對較小的交易集表。

        課程很多,項集也會很大,而經(jīng)典頻繁集算法的缺點之一正是建立了大量頻繁項集,頻繁掃描事實表。所以對此種關聯(lián)分析,經(jīng)典頻繁集算法不是最好的算法,但分步優(yōu)化和使用高維數(shù)據(jù)能使算法復雜度大大降低。

        參考文獻:

        [1] 張兵令,付熙徐,張丹玨.數(shù)據(jù)倉庫的建立與維護[J].微型電腦應用,2006(2):1519.

        [2] 朱揚勇.高級數(shù)據(jù)庫應用開發(fā)[M].北京:清華大學出版社,2007.

        [3] JIAWEI HAN,MICHELINE KAMBR.數(shù)據(jù)挖掘——概念與技術[M].影印版.北京:高等教育出版社,2001.

        [4] [美]OLIVIA PARR RUD.數(shù)據(jù)挖掘實踐[M].朱揚勇,左子葉,張忠平,譯.北京:機械工業(yè)出版社,2003.

        [5] 康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術[M].北京:機械工業(yè)出版社,2004.

        (責任編輯:杜能鋼)

        猜你喜歡
        關聯(lián)分析數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關聯(lián)分析
        玉米骨干親本及其衍生系中基因的序列變異及與株高等性狀的關聯(lián)分析
        基于隨機函數(shù)Petri網(wǎng)的系統(tǒng)動力學關聯(lián)分析模型
        數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
        基于關聯(lián)分析的學生活動參與度與高校社團管理實證研究
        科技視界(2016年15期)2016-06-30 12:43:00
        不同的數(shù)據(jù)挖掘方法分類對比研究
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        名老中醫(yī)經(jīng)驗方用藥加減規(guī)律的研究
        国产人妻久久精品二区三区老狼| 国产精品-区区久久久狼| 老色鬼永久精品网站| 国产一区二区三区免费小视频| 成人麻豆视频免费观看| 不卡一卡二卡三乱码免费网站| 麻豆乱码国产一区二区三区| 亚洲国产字幕| 国产一区二区三区亚洲| 疯狂做受xxxx高潮视频免费| 精品成人乱色一区二区| 国产一区二区三区免费在线视频| 亚洲国产成人av毛片大全| 亚洲av无码乱码在线观看牲色| 亚洲巨乳自拍在线视频| 校花高潮一区日韩| 精品国产一区二区三区香| 免费超爽大片黄| 久久99国产亚洲高清观看韩国| 亚洲精品中文字幕尤物综合| 久久精品女人av一区二区| 午夜福利试看120秒体验区| 日本高清不卡二区| 国产午夜在线观看视频| 人妻少妇看a偷人无码| 无码熟妇人妻av在线影片| 玩弄人妻奶水无码AV在线| 国产一区二区三免费视频| 国产青榴视频在线观看| 狠狠色噜噜狠狠狠97影音先锋| 国产高清不卡在线视频| 亚洲av无码专区国产不卡顿| 亚洲欧美日韩中文无线码| 国产视频精品一区白白色| 亚洲国产熟女精品传媒| 少妇久久久久久被弄到高潮| 中文字幕一区二区三区在线不卡| 91国内偷拍精品对白| 国产黄大片在线观看| 欧美色欧美亚洲另类二区不卡| 天堂av一区二区在线|