亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)聯(lián)規(guī)則挖掘模型在大學(xué)生評價中的應(yīng)用*

        2013-03-20 11:13:28高曉紅
        楚雄師范學(xué)院學(xué)報 2013年3期
        關(guān)鍵詞:智育約簡置信度

        高曉紅,劉 鵬

        (楚雄師范學(xué)院數(shù)學(xué)系,云南 楚雄 675000)

        1 引言

        隨著信息化時代的來臨及網(wǎng)絡(luò)和計算機(jī)應(yīng)用的迅速普及,近幾年各高校收集了學(xué)生的大量信息,并形成了一定的信息數(shù)據(jù)庫。在學(xué)生隊伍建設(shè)中,面對如此海量的信息,學(xué)校管理者如何發(fā)現(xiàn)具有實際指導(dǎo)意義的規(guī)律,特別是如何才能在選拔人才時綜合考慮學(xué)生的實際能力,將成為研究熱點。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一個重要研究分支,其主要研究目的是從大型數(shù)據(jù)集中發(fā)現(xiàn)隱藏的、有價值的屬性間存在的規(guī)律。本文用關(guān)聯(lián)規(guī)則挖掘技術(shù)在這方面做了一定的探索和研究,期望能得到一些有益的啟示。

        2 相關(guān)概念

        2.1 關(guān)聯(lián)規(guī)則的基本原理

        設(shè)I={i1,i2,…,in}是項的集合。包含K個項的項集稱作K項集。設(shè)D是數(shù)據(jù)庫記錄的集合,其中每個事務(wù)T是項的集合,且T?I。設(shè)X是一個項集,事務(wù)T包含X,當(dāng)且僅當(dāng)X?T。

        關(guān)聯(lián)規(guī)則是形如X?Y的蘊涵式,這里X?I,Y?I,且X∩Y=φ。X稱為規(guī)則的左部或規(guī)則的前提(簡記LHS),Y稱為規(guī)則的右部或結(jié)論(簡記RHS)。

        度量規(guī)則的參數(shù)是支持度(Support)與置信度(Confidence)。支持度是指數(shù)據(jù)集中的實例同時包含條件屬性與決策屬性的共同概率,支持度揭示了規(guī)則的重要性。置信度表示實例在包含條件屬性的前提下,也包含決策屬性的條件概率,它揭示了規(guī)則的可信度。在粗糙集理論中支持度與置信度可以表示為:

        其中P(X)表示X在D中出現(xiàn)的概率,其余相似。Support(X?Y)指X、Y在D中同時出現(xiàn)的概率;Confidence(X?Y)表示在X出現(xiàn)的前提下Y出現(xiàn)的概率[1]。若得到的規(guī)則同時滿足支持度不小于支持度閾值和置信度不小于置信度閾值,則該規(guī)則有意義[2]。

        2.2 決策表的屬性約簡

        在決策表中,不同的屬性可能具有不同的重要性。要找出某些屬性的重要性,就要從表中去掉一些屬性,再來考察沒有該屬性后分類會有怎樣的變化。若去掉該屬性后分類變化較大,則說明該屬性強(qiáng)度較大,重要性高;反之,則說明該屬性重要性低。決策表的一般屬性約簡的具體步驟是:

        (1)求多個條件屬性 C1,C2,C3,…,Cn的等價類;

        (2)計算從C中分別去掉C1,C2,C3,…和Cn后所有屬性集下的等價類;

        (3)求決策屬性D與條件屬性C的依賴度;

        (4)檢查從C中去掉C1,C2,C3,…和Cn時分類的變化情況,若分類發(fā)生較大變化,說明該屬性不可去,否則可去。

        3 關(guān)聯(lián)規(guī)則挖掘模型

        在大量實踐的基礎(chǔ)上,人們總結(jié)出了一個相對成熟的基于粗糙集的關(guān)聯(lián)規(guī)則挖掘模型,其基本思想和步驟見圖1。

        圖1 基于粗糙集的關(guān)聯(lián)規(guī)則模型

        本文將基于粗糙集的關(guān)聯(lián)規(guī)則的挖掘過程分為三步:數(shù)據(jù)預(yù)處理,屬性約簡與關(guān)聯(lián)規(guī)則挖掘。

        (1)數(shù)據(jù)預(yù)處理:通過對高校學(xué)生數(shù)據(jù)的初始信息進(jìn)行數(shù)據(jù)清洗,缺失值處理,轉(zhuǎn)換及數(shù)據(jù)選擇,獲取初始信息表,且將初始表轉(zhuǎn)換為決策表形式,并明確條件屬性集和決策屬性;

        (2)屬性約簡:對條件屬性進(jìn)行約簡,刪除多余屬性,在此基礎(chǔ)上利用一般屬性約簡算法進(jìn)行屬性約簡并生成約簡屬性集;

        (3)關(guān)聯(lián)規(guī)則挖掘:輸入支持度閾值和置信度閾值,根據(jù)數(shù)據(jù)約簡結(jié)果,利用粗糙集理論文獻(xiàn)[3]中的算法,進(jìn)行關(guān)聯(lián)規(guī)則的挖掘。

        4 關(guān)聯(lián)規(guī)則挖掘模型在大學(xué)生評價中的應(yīng)用

        本文以楚雄師院數(shù)學(xué)系學(xué)生信息為例(根據(jù)學(xué)生的智育成績、綜合成績、證書總數(shù)等來評價學(xué)生的等級),說明基于粗糙集的關(guān)聯(lián)規(guī)則挖掘模型的實施過程。

        根據(jù)上述構(gòu)建的數(shù)據(jù)挖掘模型,利用屬性約簡算法對大學(xué)生數(shù)據(jù)進(jìn)行約簡。首先進(jìn)行數(shù)據(jù)項處理,其次求出約簡或近似約簡,最后提取規(guī)則,可將其應(yīng)用于新對象的分析和預(yù)測[4]。

        4.1 數(shù)據(jù)預(yù)處理

        用基于粗糙集的數(shù)據(jù)挖掘方法進(jìn)行知識挖掘,需要獲取數(shù)據(jù)表。本文以楚雄師院數(shù)學(xué)系部分學(xué)生信息為例,采用關(guān)系數(shù)據(jù)庫模型,經(jīng)關(guān)系數(shù)據(jù)庫的導(dǎo)入及連接進(jìn)行抽象﹑離散化等預(yù)處理。將影響學(xué)生評價的因素:生源地,家庭背景,政治面貌,高考成績,畢業(yè)學(xué)校,學(xué)習(xí)程度,大學(xué)期間學(xué)生的智育平均成績,大學(xué)期間學(xué)生綜合平均成績,英語水平,計算機(jī)水平,獲獎證書總數(shù)作為系統(tǒng)的條件屬性C,而將對學(xué)生的評價等級作為決策屬性D。

        對于具體的數(shù)據(jù)處理時可先將其抽象、離散化、使后續(xù)的表格簡潔明了。生源地(a:云南省內(nèi) b:云南省外),家庭背景(a:好 b:一般 c:差),政治面貌(a:正式黨員 b:預(yù)備黨員

        c:團(tuán)員),高考成績(a:490-495分 b:496-500分 c:501-505分 d:506-510分 e:510分以上),畢業(yè)學(xué)校(a:普通高中 b:重點高中 c:其它),學(xué)習(xí)程度(a:努力 b:一般

        c:不努力),平均智育(a:0-75分 b:76-80分 c:81-85分 d:86-100分),平均綜合(a:0-75分 b:76-80分 c:81-85分 d:86-100分),英語水平(a:通過四級 b:未通過四級),計算機(jī)水平(a:國家二級 b:國家三級 c:國家四級 d:無),證書總數(shù)(a:0-5b:6-10c:11-15d:15以上),學(xué)生評價等級(a:優(yōu) b:良 c:中 d:差)。

        注:劃分等級的依據(jù)為學(xué)生的平均智育成績、平均綜合成績和證書總數(shù),若同時滿足平均智育成績在81-100分之間,平均綜合成績在81-100分之間和證書總數(shù)大于等于11個,則對該生的評價為優(yōu);若同時滿足平均智育成績在76-80分之間,平均綜合成績在76-80分之間和證書總數(shù)為6-10個,則對該生的評價為良;若滿足平均智育成績小于等于75分,或平均綜合成績小于等于75分,或證書總數(shù)小于等于5個,則對該生的評價為中;若同時滿足平均智育成績小于等于75分,平均綜合成績小于等于75分和證書總數(shù)小于等于5個,則對該生的評價為差。

        對30個初始數(shù)據(jù)進(jìn)行簡單整理和離散化﹐將其再進(jìn)行預(yù)處理(即數(shù)據(jù)清洗、轉(zhuǎn)換和選擇)后可得表1,如下所示。

        表1 預(yù)處理后的大學(xué)生數(shù)據(jù)

        4.2 屬性約簡

        為了計算方便,用C1,C2,C3,C4,C5,C6,C7,C8,C9,C10,C11來表示條件屬性,其中 C1={生源地},C2={家庭背景},C3={政治面貌},C4={高考成績},C5={畢業(yè)學(xué)校},C6={學(xué)習(xí)程度},C7={平均智育},C8={平均綜合},C9={英語水平},C10={計算機(jī)水平},C11={證書總數(shù)},D表示決策屬性,且D={評價等級}。通過一般屬性約簡方法對表1進(jìn)行約簡,具體過程如下:

        由以上計算可知,C1,C2,C3,C4,C6,C9對D的依賴度為0,即它們在D中是不必要的,為冗余屬性,將它們刪除。因此 C 的屬性約簡集為{C5,C7,C8,C10,C11},即 C={畢業(yè)學(xué)校,平均智育,平均綜合,計算機(jī)水平,證書總數(shù)}。對屬性約簡后對應(yīng)的表再次刪除冗余對象,由于對象6、20與對象5重復(fù),對象8、10、11與對象7重復(fù),對象14、22與對象12重復(fù),對象15與對象9重復(fù),重復(fù)對象中保留一個即可,不妨保留對象5、7、9、12。于是,得到屬性約簡后的最終數(shù)據(jù)表,如表2所示。

        表2 約簡后的數(shù)據(jù)表

        12 a a b d b c 13 a a b b d b 16 c b b d a c 17 a a a d a d 18 b d d d c a 19 a d d d b b 21 b b c d a c

        再求表2條件屬性對于決策屬性的重要性,計算過程如下:

        由以上計算可知:條件屬性C5,C7,C8,C10,C11對于決策屬性D都是很重要的,不可刪除,且有σCD(C7)>σCD(C11)>σCD(C8)=σCD(C5)>σCD(C10)),即在學(xué)生評價中,各屬性對學(xué)生的重要性從大到小依次為:平均智育、證書總數(shù)、平均綜合、畢業(yè)學(xué)校、計算機(jī)水平。其中σCD(Ci)表示條件屬性集C中的屬性Ci對決策屬性D的重要性。

        4.3 關(guān)聯(lián)規(guī)則挖掘

        給出支持度閾值為5%,置信度閾值為80%,根據(jù)表2得到的約簡,將屬性之間的隱含關(guān)系進(jìn)行關(guān)聯(lián)規(guī)則挖掘[5],得到一些有意義的規(guī)則。

        Rule1:if(畢業(yè)學(xué)校 =a)and(平均智育 =c),then(學(xué)生評價 =a),該規(guī)則置信度為100%,支持度為2/14=14.3%;

        Rule2:if(畢業(yè)學(xué)校 =b)and(平均智育 =a)and(平均綜合 =c)and(計算機(jī)水平 =d)and(證書總數(shù) =c),then(學(xué)生評價 =b),該規(guī)則置信度為100%,支持度為1/14=7.1%;

        Rule3:if(畢業(yè)學(xué)校 =a)and(平均智育 =b),then(學(xué)生評價 =b),該規(guī)則置信度為100%,支持度為2/14=14.3%;

        Rule4:if(畢業(yè)學(xué)校 =b)and(平均智育 =b)and(平均綜合 =b)and(計算機(jī)水平 =d)and(證書總數(shù) =b),then(學(xué)生評價 =b),該規(guī)則置信度為100%,支持度為1/14=7.1%;

        Rule5:if(畢業(yè)學(xué)校 =a)and(平均智育 =a)and(平均綜合 =b)and(計算機(jī)水平 =d)then(學(xué)生評價 =c),該規(guī)則置信度為100%,支持度為2/14=14.3%;

        Rule6:if(畢業(yè)學(xué)校 =a)and(平均智育 =a)and(平均綜合 =b)and(計算機(jī)水平 =b)and(證書總數(shù) =d),then(學(xué)生評價 =b),該規(guī)則置信度為100%,支持度為1/14=7.1%;

        Rule7:if(畢業(yè)學(xué)校 =c)and(平均智育 =b)and(平均綜合 =b)and(計算機(jī)水平 =d)and(證書總數(shù) =a),then(學(xué)生評價 =c),該規(guī)則置信度為100%,支持度為1/14=7.1%.

        Rule8:if(畢業(yè)學(xué)校 =a)and(平均智育 =a)and(平均綜合 =a)and(計算機(jī)水平 =d)and(證書總數(shù) =a),then(學(xué)生評價 =d),該規(guī)則置信度為100%,支持度為1/14=7.1%;

        Rule9:if(畢業(yè)學(xué)校 =b)and(平均智育 =d)and(平均綜合 =d)and(計算機(jī)水平 =d)and(證書總數(shù) =c),then(學(xué)生評價 =a),該規(guī)則置信度為100%,支持度為1/14=7.1%;

        Rule10:if(畢業(yè)學(xué)校 =a)and(平均智育 =d)and(平均綜合 =d)and(計算機(jī)水平 =d)and(證書總數(shù) =b),then(學(xué)生評價 =b),該規(guī)則置信度為100%,支持度為1/14=7.1%;

        Rule11:if(畢業(yè)學(xué)校 =b)and(平均智育 =b)and(平均綜合 =c)and(計算機(jī)水平 =d)and(證書總數(shù) =a),then(學(xué)生評價 =c),該規(guī)則置信度為100%,支持度為1/14=7.1%;

        于是,上述規(guī)則均同時滿足支持度不小于支持度閾值和置信度不小于置信度閾值,故以上11條規(guī)則都是有意義的。上述規(guī)則的含義如下:

        由Rule1知:畢業(yè)學(xué)校為普通高中,平均智育成績在81-85分之間,則對該學(xué)生的評價為優(yōu);由Rule2知:畢業(yè)學(xué)校為重點高中,平均智育成績在0-75分之間,平均綜合成績在81-85分之間,無計算機(jī)證書,證書總數(shù)為11-15個,則對該學(xué)生的評價為良;由Rule3知:畢業(yè)學(xué)校為普通高中,平均智育成績在76-80分之間,則對該學(xué)生的評價為良;由Rule4知:畢業(yè)學(xué)校為重點高中,平均智育成績在76-80分之間,平均綜合成績在76-80分之間,無計算機(jī)證書,證書總數(shù)為6-10個,則對該學(xué)生的評價為良;由Rule5知:畢業(yè)學(xué)校為普通高中,平均智育成績在0-75分之間,平均綜合成績在76-80分之間,無計算機(jī)證書,則對該學(xué)生的評價為中;由Rule6知:畢業(yè)學(xué)校為普通高中,平均智育成績在0-75分之間,平均綜合成績在76-80分之間,獲得計算機(jī)三級證書,證書總數(shù)為15個以上,則對該學(xué)生的評價為良;由Rule7知:畢業(yè)學(xué)校為其它,平均智育成績在76-80分之間,平均綜合成績在76-80分之間,無計算機(jī)證書,證書總數(shù)小于等于5個,則對該學(xué)生的評價為中;由Rule8知:畢業(yè)學(xué)校為普通高中,平均智育成績在0-75分之間,平均綜合成績在0-75分之間,無計算機(jī)證書,證書總數(shù)小于等于5個,則對該學(xué)生的評價為差;由Rule9知:畢業(yè)學(xué)校為重點高中,平均智育成績在85分以上,平均綜合成績在85分以上,無計算機(jī)證書,證書總數(shù)為11-15個,則對該學(xué)生的評價為優(yōu);由Rule10知:畢業(yè)學(xué)校為普通高中,平均智育成績在85分以上,平均綜合成績在85分以上,無計算機(jī)證書,證書總數(shù)為6-10個,則對該學(xué)生的評價為良;由Rule11知:畢業(yè)學(xué)校為重點高中,平均智育成績在76-80分之間,平均綜合成績在81-85分之間,無計算機(jī)證書,證書總數(shù)小于等于5個,則對該學(xué)生的評價為中。

        從以上規(guī)則可知,畢業(yè)學(xué)校,平均智育成績,平均綜合成績,計算機(jī)等級證書及證書總數(shù)對學(xué)生的評價具有顯著的影響。因此,建議社會各階層在選拔人才時,改變傳統(tǒng)的只看學(xué)歷和畢業(yè)學(xué)校的觀念,需多考慮以上因素,防止人才被埋沒的現(xiàn)象,從而減少不必要的損失。

        5 結(jié)論

        本文在對數(shù)據(jù)挖掘相關(guān)技術(shù)、關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行深入研究的基礎(chǔ)上,歸納總結(jié)了基于粗糙集理論的關(guān)聯(lián)規(guī)則挖掘模型和屬性約簡算法,利用楚雄師院數(shù)學(xué)系學(xué)生的數(shù)據(jù),進(jìn)行了關(guān)聯(lián)規(guī)則的挖掘?qū)嶒灒⑵涑晒?yīng)用于大學(xué)生評價中,并對關(guān)聯(lián)規(guī)則產(chǎn)生的結(jié)果進(jìn)行了解釋,為社會選拔人才提供有價值的參考。

        [1]David Hand,Heiki Mannila,Padhraic Smith.Principles of Data Mining.機(jī)械工業(yè)出版社,中信出版社,2003.

        [2]姜云蘋,葛世倫,蔣家尚,王麗敏.基于粗糙集理論的關(guān)聯(lián)規(guī)則挖掘在教師成長中的應(yīng)用 [J].計算機(jī)與信息技術(shù),2008,(01):57—58.

        [3]白秀玲,崔林,王向陽.一種基于關(guān)聯(lián)規(guī)則挖掘的粗糙集約簡算法 [J].計算機(jī)工程與應(yīng)用,2003,39(10):185—186.

        [4]曾黃麟.基于粗集方法的智能專家系統(tǒng) [J].中國工程科學(xué),2001, (02):47—50.

        [5]Han Jiawei Lamber M.數(shù)據(jù)挖掘概念與技術(shù) [M].北京:機(jī)械工業(yè)出版社,2006:56—76.

        猜你喜歡
        智育約簡置信度
        科技創(chuàng)新 智育未來
        非遺剪紙繪夢想,厚德啟智育新人
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        武術(shù),是一生的修行
        金秋(2021年18期)2021-02-14 08:25:16
        基于二進(jìn)制鏈表的粗糙集屬性約簡
        正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
        實值多變量維數(shù)約簡:綜述
        基于模糊貼近度的屬性約簡
        淺析現(xiàn)代美術(shù)教育的美育、德育、智育功能
        人間(2015年19期)2016-01-04 12:46:56
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        亚洲欧洲AV综合色无码| 人妻色综合网站| 亚洲av无码av制服丝袜在线| 亚洲国产A∨无码影院| 99久久精品国产一区色| 日本一区二区在线免费视频| 亚洲精品久久久久久久久久吃药| 亚洲国产av一区二区三区四区 | 日日高潮夜夜爽高清视频| 国产精品免费观看调教网| 国产99视频精品免视看9| 五月天综合社区| 偷拍熟女露出喷水在线91| 精品国产sm最大网站| 国产精品无码久久久久久久久久| 国产一级免费黄片无码AV| 亚洲中文字幕高清乱码毛片| 国产农村妇女精品一区| 国产国拍亚洲精品mv在线观看| 黄色毛片视频免费| 午夜av福利亚洲写真集| 国产精品黄色片在线看| 怡红院a∨人人爰人人爽| 日韩欧美在线播放视频| 热综合一本伊人久久精品| 色欲色香天天天综合vvv| 999国内精品永久免费视频| 不卡a v无码在线| 国产精品亚洲一区二区三区在线看 | 丝袜美女美腿一区二区| 一二三区无线乱码中文在线 | 免费在线日韩| 亚洲中文字幕高清av| 狼人青草久久网伊人| 亚洲免费不卡| 久久综合加勒比东京热| 蜜臀av在线观看| 亚洲中文有码字幕青青| 人人妻人人澡av| 日本熟女精品一区二区三区| 尤物网址在线观看|