亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Weka的CET—4成績的挖掘與分析

        2017-06-05 17:40:07范殉琦鐘寶榮
        電腦知識與技術(shù) 2017年7期
        關(guān)鍵詞:數(shù)據(jù)挖掘英語學(xué)生

        范殉琦 鐘寶榮

        摘要;現(xiàn)如今大學(xué)生人數(shù)逐年在增多,就業(yè)壓力也在逐年增大,獲得含金量較大的證書無疑可以增大大學(xué)生就業(yè)的優(yōu)勢,CET-4證書就是其中的一種。從本校大學(xué)一年級學(xué)生教育學(xué)習(xí)情況調(diào)查問卷中,運用決策樹C4。5算法進行數(shù)據(jù)挖掘,可以發(fā)現(xiàn)學(xué)生高考成績、性別、對英語的學(xué)習(xí)態(tài)度、努力程度、與英語老師的關(guān)系和英語四級考試成績之間潛在的關(guān)系。運用WEKA數(shù)據(jù)挖掘軟件,可以很清晰直觀的進行數(shù)據(jù)挖掘并分析出影響英語四級考試的因素,對高校英語教學(xué)有一定的指導(dǎo)意義。

        關(guān)鍵詞:WEKA軟件;CET-4成績;數(shù)據(jù)挖掘;決策樹

        中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)07-0248-02

        1引言

        大學(xué)英語四級考試,即CET-4,College English Test Band4的縮寫,是由國家教育部高等教育司主持的全國性教學(xué)考試??荚囉幸欢ǖ碾y度并且監(jiān)考力度大,考試成績具有很高的可信度,因此引起了高校中學(xué)生、老師和領(lǐng)導(dǎo)的高度重視。

        學(xué)校每年都會進行在校大學(xué)生學(xué)習(xí)情況的調(diào)查,而這些數(shù)據(jù)僅僅是用在表面的數(shù)據(jù)查詢,數(shù)據(jù)背后隱藏的有用信息并未被有效的挖掘出來。針對這個問題,利用WEKA數(shù)據(jù)挖掘軟件中決策樹J48(對C4.5進行了改進)算法,挖掘出學(xué)生高考成績、性別、對英語的學(xué)習(xí)態(tài)度、努力程度、與英語老師的關(guān)系與CET-4成績之間的潛在關(guān)系,分析出那些因素對CET-4成績影響最大,從而總結(jié)出學(xué)習(xí)的規(guī)律,提高高校學(xué)生的CE'T-4成績。

        2WEKA軟件

        2.1WEKA數(shù)據(jù)挖掘軟件介紹

        Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnvironment for Knowledge Analysis),是一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機器學(xué)習(xí)算法,包括對數(shù)據(jù)進行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。

        2.2WEKA數(shù)據(jù)集格式AR]EF

        ARFF(Attribute-Relation File Format)格式是一種ASCII文本文件,記錄了具有共同屬性的實例集。ARFF格式是數(shù)據(jù)挖掘軟件WEKA所使用的文件格式。ARFF文件分為注釋、關(guān)系名、屬性名、數(shù)據(jù)域幾大部分,注釋用百分號開頭%,關(guān)系名用@relation申明,屬性用@attribute什么,數(shù)據(jù)域用@data開頭。當(dāng)數(shù)據(jù)是數(shù)值型,在屬性名的后面加numeric,如果是離散值(枚舉值),就用一個大括號將值域列出來。@data下一行后為數(shù)據(jù)記錄,數(shù)據(jù)為矩陣形式,即每一個的數(shù)據(jù)元素個數(shù)相等,若有缺失值,就用問號?表示。

        3C4.5數(shù)據(jù)挖掘算法

        C4.5算法是機器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法ID3算法。分類決策樹算法是從大量事例中進行提取分類規(guī)則的自上而下的決策樹。

        ID3算法的核心思想就是以信息增益度量屬性選擇,選擇分裂后信息增益最大的屬性進行分裂。

        設(shè)D為用類別對訓(xùn)練元組進行的劃分,則D的熵(entropy)表示為:

        其中pi表示第i個類別在整個訓(xùn)練元組中出現(xiàn)的概率,可以用屬于此類別元素的數(shù)量除以訓(xùn)練元組元素總數(shù)量作為估計。熵的實際意義表示是D中元組的類標(biāo)號所需要的平均信息量。

        現(xiàn)在我們假設(shè)將訓(xùn)練元組D按屬性A進行劃分,則A對D劃分的期望信息為;

        而信息增益即為兩者的差值:

        C4.5算法繼承了TD3算法的優(yōu)點,并對ID3算法進行了改進:

        C4.5算法首先定義了“分裂信息”,其定義可以表示成:

        其中各符號意義與ID3算法相同,然后,增益率被定義為;

        4CE4-4成績挖掘與分析

        4.1確定挖掘?qū)ο箅A段

        此次實驗的數(shù)據(jù)來源于我校在校學(xué)生學(xué)習(xí)情況、學(xué)生入學(xué)信息等多個數(shù)據(jù)源,利用數(shù)據(jù)庫技術(shù)將多個數(shù)據(jù)源中的可能對CET-4成績造成影響的字段進行整合,合并成一個用于分析學(xué)生CET-4成績的數(shù)據(jù)表。運用WEKA軟件,挖掘出學(xué)生高考成績、性別、對英語的學(xué)習(xí)態(tài)度、努力程度、與英語老師的關(guān)系和英語四級考試成績之間潛在的關(guān)系。

        4.2數(shù)據(jù)收集與數(shù)據(jù)預(yù)處理

        本次數(shù)據(jù)中的原始樣本數(shù)據(jù)共有1650個,經(jīng)過初步的數(shù)據(jù)清理、排除、整合等操作后,參與數(shù)據(jù)挖掘的數(shù)據(jù)共有1528個,樣本的有效率達(dá)到了92.6%。得到了一個包含stuNum,stuName,stuSex,stuScore,stuAttitude,stuWork,stuRelation,CET4Score八個字段的影響CET4成績的數(shù)據(jù)表,數(shù)據(jù)如表1所示。

        4.3數(shù)據(jù)轉(zhuǎn)換

        首先需要對stuScore、stuWork、CET4Score字段的數(shù)據(jù)通過離散化的方法,將原本NUMERIC類型轉(zhuǎn)換為NOMINAL類型。將大學(xué)生高考成績離散化為“A”(≥120分),“B”(≥105且<120分),“C”(≥90且<105分),“D”(<90分);將學(xué)生努力程度(每日學(xué)習(xí)英語的時間)離散化為“l(fā)azy”(425分),“nopass”(分?jǐn)?shù)<425分)。當(dāng)進行挖掘時,剔除掉stuNum和stuNarne兩個字段的值。

        4.4數(shù)據(jù)字段說明

        經(jīng)過轉(zhuǎn)化后,屬性的可選值為:

        5實驗結(jié)果

        從數(shù)據(jù)集中隨機抽取1428條數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,把剩余的100條數(shù)據(jù)作為測試數(shù)據(jù)集,測試決策樹的正確預(yù)測率。Weka中對數(shù)據(jù)集進行決策樹分析,產(chǎn)生的決策樹如圖1。

        正確率達(dá)到79.6218%,如圖2所示。

        從建立的決策樹模型中推測主要影響大學(xué)一年級新生的CFA一4成績因素有三個,學(xué)習(xí)的努力程度、對英語的學(xué)習(xí)態(tài)度、高考成績。

        從中可以看出,學(xué)生的努力程度對第一次CET-4是否能通過,有很明顯的預(yù)測作用,這也和我們本身認(rèn)知一致,當(dāng)付出了足夠的努力,會獲取相應(yīng)的回報,同時培養(yǎng)學(xué)生的學(xué)習(xí)興趣,對提高成績也有很大的幫助,這個信息給了高校的英語老師一個很好的提示,盡可能的要提高學(xué)生學(xué)習(xí)興趣,同時高考的成績也反映出學(xué)生的基礎(chǔ)知識,學(xué)習(xí)是個長期努力的過程,需要長時間的積累,只有對英語有興趣,花足夠多的時間來學(xué)習(xí)英語,才能更好地提高英語成績。

        6結(jié)語

        本文研究了可能影響CET-4成績的相關(guān)因素,介紹了C4.5數(shù)據(jù)挖掘方法,以開源數(shù)據(jù)挖掘軟件WEKA平臺為基礎(chǔ),調(diào)用其封裝好的決策樹J48算法,快速的挖掘出學(xué)生高考成績、性別、對英語的學(xué)習(xí)態(tài)度、努力程度、與英語老師的關(guān)系和英語四級考試成績之間潛在的關(guān)系。WEKA數(shù)據(jù)挖掘軟件開源并且源代碼免費,是一款非常好的數(shù)據(jù)挖掘軟件,利用該軟件可以節(jié)省挖掘數(shù)據(jù)的時間,提高工作的效率,挖掘出數(shù)據(jù)背后的隱藏的、有價值的信息,從而提高人們的學(xué)習(xí)效率,生活質(zhì)量。

        猜你喜歡
        數(shù)據(jù)挖掘英語學(xué)生
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        趕不走的學(xué)生
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        學(xué)生寫話
        學(xué)生寫的話
        讀英語
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        酷酷英語林
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        聰明的學(xué)生等
        亚洲精品无码专区在线| 按摩少妇高潮在线一区| av免费不卡一区二区| 大地资源中文第3页| 亚洲成人小说| 久久亚洲aⅴ精品网站婷婷| 天天做天天爱天天综合网| 国产AV无码专区亚洲AⅤ| 无码精品人妻一区二区三区98| 视频女同久久久一区二区| √天堂中文官网在线| 亚洲精品无码国模| 免费无码黄网站在线观看| 国产精品一区二区三区在线观看| 99久久免费只有精品国产| 69精品丰满人妻无码视频a片| 青青青国产免A在线观看| 在线观看一区二区三区在线观看 | 国产乱人伦偷精品视频免观看| 国产成人涩涩涩视频在线观看| 精品人妻无码中文字幕在线| 国产一国产一级新婚之夜| 99热久久只有这里是精品| 亚洲国产综合精品中文| 日本a级片免费网站观看| 熟女熟妇伦av网站| 亚洲国产一区二区三区在线视频| 人妻丰满熟妇一二三区| 97久久国产亚洲精品超碰热| 一本本月无码-| 欧美第五页| 国内精品嫩模av私拍在线观看| 国产在线高清理伦片a| 看国产黄大片在线观看| 97无码人妻一区二区三区蜜臀| 涩涩鲁精品亚洲一区二区| 在线播放免费播放av片| 久久精品性无码一区二区爱爱| 一区二区三区亚洲免费| 又粗又黄又猛又爽大片app| 亚洲视频在线看|