亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類和決策樹算法的成績影響因素分析

        2013-10-24 07:32:40
        關(guān)鍵詞:數(shù)據(jù)挖掘信息

        張 莉

        (中國石油大學(xué)勝利學(xué)院 信息與計算科學(xué)系,山東 東營257000)

        學(xué)生在校成績是學(xué)校教學(xué)質(zhì)量和學(xué)生掌握知識程度的直觀體現(xiàn)。隨著社會的發(fā)展,外界因素對在校生成績在廣度和深度上影響越來越大。對影響因素分析,使用數(shù)據(jù)挖掘技術(shù)挖掘出影響成績的關(guān)鍵因素,將結(jié)果反饋到教學(xué)中,通過改善教學(xué)方法等手段提高教學(xué)質(zhì)量。

        1 數(shù)據(jù)挖掘

        數(shù)據(jù)挖掘(data mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程[1]。

        數(shù)據(jù)挖掘方法是由人工智能、機(jī)器學(xué)習(xí)的方法發(fā)展而來,結(jié)合傳統(tǒng)的統(tǒng)計分析方法、模糊數(shù)學(xué)方法以及科學(xué)計算可視化技術(shù)等,以數(shù)據(jù)庫為研究對象,形成了數(shù)據(jù)挖掘的方法和技術(shù)。數(shù)據(jù)挖掘的方法和技術(shù)主要包括:統(tǒng)計分析方法、關(guān)聯(lián)規(guī)則方法、決策樹方法、神經(jīng)網(wǎng)絡(luò)法、粗糙集理論方法、遺傳算法、可視化技術(shù)等[2]。

        2 K-means算法的成績定性評價

        聚類分析是數(shù)據(jù)挖掘中的一種分析方法,根據(jù)樣本對象關(guān)聯(lián)的標(biāo)準(zhǔn)相似性自動分為多類,同一類中的樣本對象有較高的相似度,類間的樣本對象相異。聚類的方法主要有:以劃分為基礎(chǔ)的K-means聚類算法,以層次為基礎(chǔ)的聚類算法,以密度為基礎(chǔ)的方法等[3],筆者將采用K-means聚類算法進(jìn)行成績定性評價。

        2.1 K-means算法評價函數(shù)的優(yōu)化

        K-means算法即已知數(shù)據(jù)庫包含n個數(shù)據(jù)樣本,給定聚類個數(shù)k,對每個數(shù)據(jù)樣本計算其應(yīng)該屬于的類,得到滿足方差最小標(biāo)準(zhǔn)的k個聚類。

        K-means算法是無監(jiān)督算法,一般使用性能評價函數(shù)對數(shù)據(jù)樣本的聚類結(jié)果進(jìn)行有效性評價。若采用的評價函數(shù)不能準(zhǔn)確反映聚類質(zhì)量,則會在很大程度上影響算法的有效性和準(zhǔn)確性。針對樣本數(shù)據(jù)結(jié)構(gòu)特點,重新定義一種新的評價性能函數(shù)應(yīng)用到K-means算法中,對參數(shù)k進(jìn)行優(yōu)化。

        2.1.1 確定初始聚類中心

        對K-means算法中的最初分類個數(shù)k設(shè)定為2,從樣本對象集合中抽取k個樣本點,計算出樣本數(shù)據(jù)的原始分類點。對樣本中心進(jìn)行再計算直到樣本中心不再變化,然后對聚類結(jié)果進(jìn)行評價計算。若計算結(jié)果增加則說明得到了更優(yōu)的聚類結(jié)果,讓k自增執(zhí)行循環(huán),直到二者成反比,即隨著k的增加得到負(fù)增加的計算結(jié)果,結(jié)束所有運(yùn)算??梢酝ㄟ^計算數(shù)據(jù)分布相異值,防止類中出現(xiàn)樣本過多或過少的不平衡現(xiàn)象。數(shù)據(jù)分布相異值的計算公式為

        式中,Ni、Nj為第i與第j類中含樣本數(shù)據(jù)的個數(shù);參數(shù)q為類的數(shù)量。

        2.1.2 計算不同類間差異值

        聚類的結(jié)果就是對數(shù)據(jù)集合進(jìn)行劃分,劃分后保證不同類間的數(shù)據(jù)差異度高,而同一類中的數(shù)據(jù)相異度低,即具有較高的相象度??赏ㄟ^類間差異度和類內(nèi)差異度的計算對分類結(jié)果進(jìn)行評價:

        式中,xij為屬于j類的樣本點xi;ci和cj為類的中心值。

        2.1.3 確定評定函數(shù)

        通過計算評定值

        可讓聚類的結(jié)果值達(dá)到最優(yōu),評定值與結(jié)果成反比,評定值越小聚類結(jié)果值越優(yōu)。

        2.2 聚類結(jié)果

        本文中隨機(jī)選取了某學(xué)校某教學(xué)班100名同學(xué)的相關(guān)學(xué)籍信息及某學(xué)期各門課的平均成績作為研究數(shù)據(jù)庫,對學(xué)生信息成績表的屬性字段“性別”、“上課出勤次數(shù)”、“四六級通過”、“生源地”進(jìn)行無量綱化處理,優(yōu)化得到指標(biāo)值μi:

        式中,νmax和νmin為特征值μi的最大值和最小值;指標(biāo)值μi位于0和1之間。

        處理得到的學(xué)生信息成績表如表1所示,屬性間具有橫向可比性。對表中數(shù)據(jù)應(yīng)用聚類算法聚類后得到優(yōu)、良、中、差四種聚類結(jié)果,如圖1所示。

        表1 學(xué)生信息成績表

        圖1 聚類結(jié)果示意圖

        3 ID3算法的屬性影響分析

        3.1 屬性選擇度量

        ID3算法是決策樹算法中最常使用的一種,用信息增益作為屬性選擇度量。計算所有屬性的信息增益值,選擇值最高的屬性作為樹的節(jié)點進(jìn)行分裂。

        設(shè)有一數(shù)據(jù)集合,集合中有S個數(shù)據(jù)對象,將它們劃分成C個類,每一個類Ci中有Si個數(shù)據(jù)對象,每一類中樣本數(shù)據(jù)的期望信息值為

        式中,參數(shù)Pi為任意樣本屬于類Ci的概率。

        設(shè)屬性U具有m個不同值。根據(jù)不同的屬性值Ui將數(shù)據(jù)集合S劃分成m個數(shù)據(jù)子集。假定某一屬性Ui為一分裂屬性,數(shù)據(jù)子集{S1,S2,…,Sm}就是從某一屬性根節(jié)點生成的新葉節(jié)點。根據(jù)屬性U劃分得到的某一數(shù)據(jù)子集的熵或期望信息值:

        數(shù)據(jù)集合S通過屬性U劃分后由下式計算信息增益值:

        3.2 計算結(jié)果分析

        由ID3算法進(jìn)行相關(guān)運(yùn)算,得到不同屬性的信息增益值:

        Gain(上課出勤次數(shù))=I(S1,S2,S3,S4)-E(上課出勤次數(shù))=1·972048-1·479893=0·492155

        Gain(四六級通過情況)=I(S1,S2,S3,S4)-E(四六級通過情況)=1·972048-1·836696=0·315352

        Gain(生源地)=I(S1,S2,S3,S4)-E(生源地)=1·972048-1·85877=0·113278

        Gain(性別)=I(S1,S2,S3,S4)-E(性別)=1·972048-1·921978=0·05007

        根據(jù)計算結(jié)果,選擇信息增益值最大的屬性“上課出勤次數(shù)”作為決策樹的根節(jié)點,其余屬性根據(jù)其相應(yīng)的增益值依此遞增最終形成一棵完整決策樹(圖2)。

        圖2 決策樹分析模型

        根據(jù)此決策樹進(jìn)行分析,可見學(xué)生成績跟上課出勤情況關(guān)系最大,四六級通過情況、性別、生源地等雖然也會對成績有影響,但影響不大。針對決策樹的結(jié)果可以對屬性進(jìn)行處理,去除對成績影響非常小或根本無關(guān)的屬性,挑選關(guān)聯(lián)大的屬性繼續(xù)分析,并可根據(jù)各屬性對成績的影響力進(jìn)行排序,得到有價值的信息應(yīng)用于教學(xué)。

        4 結(jié)束語

        應(yīng)用數(shù)據(jù)挖掘技術(shù)對學(xué)生成績進(jìn)行分析,首先通過聚類算法對學(xué)生成績數(shù)據(jù)進(jìn)行分類,并對分類后的結(jié)果使用ID3算法建立決策樹深入分析,得到影響成績的關(guān)鍵因素是上課出勤,其他因素雖然對成績有影響,但影響得很小。通過聚類和決策樹算法對影響學(xué)生成績的因素進(jìn)行分析,可將藏匿于海量數(shù)據(jù)中的有用信息挖掘出來,促進(jìn)學(xué)校教學(xué)工作的進(jìn)一步提升。

        [1]范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007:26.

        [2]陳文偉.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2003:32.

        [3]袁方,周志勇,宋鑫.初始聚類中心優(yōu)化的K-means算法[J].計算機(jī)工程,2007,33(3):65-66.

        猜你喜歡
        數(shù)據(jù)挖掘信息
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        成人国产一区二区三区| 欧洲国产精品无码专区影院| 色青青女同性恋视频日本熟女 | 久久综合这里只有精品| 中出人妻希奇杰卡西av| 国产亚洲真人做受在线观看| 99国产免费热播视频| 久久精品国产亚洲av热九| 精品高清免费国产在线| 伊人久久大香线蕉综合影院首页| 亚洲精品你懂的在线观看| 97色人阁俺也去人人人人人| 亚洲国产综合在线亚洲区亚洲av| 国模无码一区二区三区不卡| 91社区视频在线观看| 人妻风韵犹存av中文字幕| 国产毛片视频一区二区| 久久国产劲暴∨内射| 亚洲色成人WWW永久在线观看| 国产激情在线观看视频网址| 色又黄又爽18禁免费网站现观看 | 久久精品国产99国产精品亚洲 | 国产av无码专区亚洲精品| 把插八插露脸对白内射| 国内精品视频成人一区二区| 人妻有码av中文幕久久| 国模无码一区二区三区| 国产91网址| 日本一曲二曲三曲在线| 夜夜躁日日躁狠狠久久av| 久久av无码精品人妻出轨| 欧美成人网视频| 国产熟女露脸91麻豆| 2021久久精品国产99国产精品| 国产乱子伦精品免费女| 国产一区二区三区在线av| 久人人爽人人爽人人片av| 福利视频黄| 求网址日韩精品在线你懂的| 伊人久久大香线蕉av波多野结衣| 人妻无码一区二区三区四区 |