亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的高校教學(xué)評(píng)估系統(tǒng)的研究

        2016-03-27 20:18:11李瑩羅嬌敏閔芳
        數(shù)碼世界 2016年12期
        關(guān)鍵詞:數(shù)據(jù)挖掘預(yù)處理聚類

        李瑩 羅嬌敏 閔芳

        南京航空航天大學(xué)金城學(xué)院信息工程系

        基于數(shù)據(jù)挖掘的高校教學(xué)評(píng)估系統(tǒng)的研究

        李瑩 羅嬌敏 閔芳

        南京航空航天大學(xué)金城學(xué)院信息工程系

        對(duì)于高等院校來說,如何從眾多的成績數(shù)據(jù)中選取對(duì)于教育決策分析有用的信息,成為一個(gè)亟需解決的問題。本文通過深入研究數(shù)據(jù)挖掘的經(jīng)典算法,尋找適合的算法,建立數(shù)據(jù)挖掘模型。然后以學(xué)院中某個(gè)專業(yè)的歷史數(shù)據(jù)為研究對(duì)象,搭建數(shù)據(jù)倉庫,設(shè)計(jì)整體架構(gòu)。經(jīng)過多次的調(diào)研和實(shí)踐,最終確定采用聚類分析進(jìn)行實(shí)施。將學(xué)生通過聚類而不是分?jǐn)?shù)段分為五類,然后通過課程組、整體成績趨勢等多種方式加以分析,通過直觀的數(shù)據(jù)圖標(biāo)加以呈現(xiàn),更加準(zhǔn)確及時(shí)的了解教學(xué)情況,以輔助教學(xué)。

        數(shù)據(jù)挖掘 K-means算法 教學(xué)評(píng)估 聚類分析

        1 問題提出

        作為多年從事教育工作的筆者,常年面對(duì)學(xué)院產(chǎn)生的大量數(shù)據(jù),例如學(xué)籍管理、學(xué)科管理、招生、就業(yè)、教職工管理等系統(tǒng),其中包含了眾多能夠反饋出學(xué)院教學(xué)狀況的信息,但是由于其數(shù)據(jù)量實(shí)在龐大,且涉及的部門眾多,單純靠人力來解讀較為困難。因此,如何從數(shù)據(jù)中“掘金”,是本文討論的主要問題。

        2 教學(xué)評(píng)估系統(tǒng)的架構(gòu)

        本文設(shè)計(jì)的教學(xué)評(píng)估系統(tǒng)總體由三層結(jié)構(gòu)組成:數(shù)據(jù)層、邏輯層和表示層。表示層主要負(fù)責(zé)數(shù)據(jù)的輸入輸出,作為界面展示;數(shù)據(jù)層負(fù)責(zé)數(shù)據(jù)的預(yù)處理;邏輯層則提供專業(yè)的數(shù)據(jù)分析和挖掘。

        3 高校數(shù)據(jù)的預(yù)處理

        本文選取的是某高校信息工程專業(yè)的課程成績及設(shè)置,期望以該專業(yè)說明數(shù)據(jù)挖掘?qū)Ω咝?shù)據(jù)分析的過程。由于不同專業(yè)間課程差異較大,核心課程各異,數(shù)據(jù)處理必須分不同專業(yè)進(jìn)行,這也是教育領(lǐng)域數(shù)據(jù)挖掘較大的難點(diǎn)之一。但是其數(shù)據(jù)處理的思路與算法思想基本相同,僅是數(shù)據(jù)預(yù)處理的時(shí)候需要根據(jù)專業(yè)特色來制定。建議該預(yù)處理的過程尋求各專業(yè)內(nèi)部人士給出參考意見,收集本專業(yè)中的核心課程。同時(shí)還需要其了解專業(yè)的課程設(shè)置和學(xué)生情況,如近年來是否存在較大課程改革,學(xué)生學(xué)籍調(diào)動(dòng)等,以免產(chǎn)生較大誤差及噪聲數(shù)據(jù)。

        最終選取的是信息工程專業(yè)的核心課程(共16門),形成兩張關(guān)系表。其中“數(shù)據(jù)信息表”存放的是課程信息,定義專業(yè)課程的名稱,學(xué)時(shí),學(xué)分,課程類別,課程類型和考試方式等信息。而“成績信息表”則存放了學(xué)生的成績信息,將原有的教務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)重構(gòu),一行元組代表一個(gè)學(xué)生所有專業(yè)的成績情況,每個(gè)屬性代表一門專業(yè)課程的最終成績,統(tǒng)一采用百分制。這樣處理學(xué)生數(shù)據(jù)的原因是根據(jù)聚類的特性,將一個(gè)學(xué)生數(shù)據(jù)看成多維空間的一個(gè)數(shù)據(jù)點(diǎn),成績的差異可以通過計(jì)算數(shù)據(jù)點(diǎn)的距離絕對(duì)值,則根據(jù)該距離的遠(yuǎn)近可以可以實(shí)現(xiàn)學(xué)生的聚類。

        4 聚類算法應(yīng)用分析

        經(jīng)過多次調(diào)研和實(shí)踐,最終選用聚類分析中K-means算法來完成分析。聚類分析屬于無指導(dǎo)學(xué)習(xí),其挖掘不需要預(yù)先定義的類標(biāo)簽,而是通過大量數(shù)據(jù)找到其分布規(guī)則。由于數(shù)據(jù)來源于真實(shí)的教育背景,其數(shù)據(jù)存在一定的噪聲(如退學(xué)、留級(jí)導(dǎo)致的數(shù)據(jù)缺失等),預(yù)處理需要將這些數(shù)據(jù)刪除。

        在算法實(shí)踐方面,選用WEKA作為算法分析工具,WEKA是當(dāng)今較為先進(jìn)的機(jī)器學(xué)習(xí)算法及數(shù)據(jù)預(yù)處理工具。由新西蘭懷卡托大學(xué)開發(fā),JAVA實(shí)現(xiàn),幾乎可運(yùn)行在所有主流的操作平臺(tái)。WEKA為預(yù)處理以及后處理提供了統(tǒng)一的方法,可以指定學(xué)習(xí)算法應(yīng)用于給定的數(shù)據(jù)源,同時(shí)將不同的學(xué)習(xí)方案計(jì)算的結(jié)果給出評(píng)估。

        K-means算法是基于劃分的聚類,嘗試找出最小平方誤差函數(shù)值的K個(gè)劃分。算法復(fù)雜度為O(nkt),其中n是數(shù)據(jù)集的數(shù)目,k是簇?cái)?shù)目,t為迭代次數(shù)。算法需要預(yù)先指定簇?cái)?shù)目k,而對(duì)于教務(wù)數(shù)據(jù),由于學(xué)生的成績好壞基本分成五大類,簇?cái)?shù)目很好確定。同時(shí),算法較容易受到“噪聲”和孤立數(shù)據(jù)的影響,少量的誤差數(shù)據(jù)會(huì)對(duì)計(jì)算的結(jié)果產(chǎn)生極大影響,這也是教務(wù)數(shù)據(jù)需要進(jìn)行較復(fù)雜的人工指導(dǎo)下的預(yù)處理的原因。

        綜上所述,對(duì)于學(xué)生成績選用K-means算法來進(jìn)行聚類是較為合適的,根據(jù)成績的絕對(duì)值差距將學(xué)生分為五類。通過主觀觀察和分析簇中心、簇占比等一系列數(shù)據(jù),確定合適的算法參數(shù)(seed值等)作為先驗(yàn)知識(shí),最終選取合適的聚類結(jié)果,再采用柱狀圖的方式加以直觀的展示。

        多次對(duì)比試驗(yàn)后,發(fā)現(xiàn)以下信息:

        ①一般情況下,平方誤差的多少是評(píng)判聚類好壞的標(biāo)準(zhǔn),該數(shù)據(jù)越小說明簇內(nèi)數(shù)據(jù)距離越小,則簇內(nèi)數(shù)據(jù)越接近,即學(xué)生的成績?cè)浇咏?。因此在判定不同參?shù)條件下聚類的好壞,該數(shù)據(jù)作為最重要的評(píng)判依據(jù)。

        ②為了找到更合適的聚類,在其他參數(shù)不變的情況下,更改隨機(jī)種子值(seed值)。seed值是聚類隨機(jī)選取的種子,一般在10%以內(nèi)?;诒疚牡臄?shù)據(jù)集為769條,seed值一般控制在80以下。隨著seed值的改變,聚類的表現(xiàn)相對(duì)較穩(wěn)定,有存在著一定的浮動(dòng)。但為了得到最為合適的聚類結(jié)果,還是需要人為選擇最合適的seed值。

        ③在seed值選為70的時(shí)候,產(chǎn)生了0%的聚類。究其原因是發(fā)現(xiàn)了單條記錄作為孤立點(diǎn)被判為單獨(dú)的簇,該簇占比太小,因此約等于0%。該條記錄有三門課程為零分,但其他課程分?jǐn)?shù)較正常,推測可能為學(xué)生換專業(yè)的原因?qū)е?。為什么僅在seed值為70的時(shí)候發(fā)現(xiàn)這種情況?由于K-means算法參數(shù)中的seed的選擇與輸入數(shù)據(jù)的順序直接關(guān)聯(lián),因此該算法很大程度下會(huì)依賴于數(shù)據(jù)的輸入順序。

        ④通過觀察簇中心,在學(xué)生成績預(yù)處理合適的情況下,能夠獲得了較佳的聚類效果。但是如果數(shù)據(jù)預(yù)處理不夠合理,可能會(huì)因?yàn)閿?shù)據(jù)缺失等嚴(yán)重影響聚類效果。

        綜合考慮以上的聚類結(jié)果,對(duì)seed值不同產(chǎn)生的不同聚類表現(xiàn),最終選擇的數(shù)據(jù)結(jié)果參數(shù)如下:簇?cái)?shù)目numClusters=5,seed=40。

        5 聚類下的教學(xué)評(píng)估體系

        最終聚類結(jié)果:聚類“0”為成績最好的學(xué)生,占比17%,課程平均分89分;聚類“2”成績次之,占比21%,課程平均分79分;聚類“4”成績居中,占比25%,課程平均分68分;聚類“1”成績較差,占比22%,課程成績平均分56分;聚類“3”成績最差,占比15%,課程平均分43分。

        該學(xué)生劃分也可以作為其他數(shù)據(jù)挖掘的分析依據(jù),以下分別從課程組和整體成績趨勢來做分析:

        5.1 按課程組分析

        數(shù)學(xué)類課程組共四門必修課,通過對(duì)比數(shù)據(jù)可以發(fā)現(xiàn),優(yōu)秀學(xué)生各科表現(xiàn)都比較好,這也表示出數(shù)學(xué)類課程對(duì)于個(gè)人素質(zhì)的體現(xiàn)。對(duì)于學(xué)院在新生選拔時(shí)選取數(shù)學(xué)作為考核科目,是較為合適的。

        然而對(duì)于“差”和“較差”這兩類學(xué)生來說,《高等數(shù)學(xué)(II)(下)》和《概率論與數(shù)理統(tǒng)計(jì)(II)》成績則出現(xiàn)了明顯下滑,這種下滑在其它簇的學(xué)生中并未出現(xiàn),說明若這一階段數(shù)學(xué)課程出現(xiàn)掛科,應(yīng)引起學(xué)生和老師足夠重視,督促學(xué)生端正學(xué)習(xí)態(tài)度,加重學(xué)習(xí)時(shí)間的投入。

        分析專業(yè)課程,可以發(fā)現(xiàn)《信號(hào)與系統(tǒng)》和《數(shù)字電路》這兩門課程在五類學(xué)生中都出現(xiàn)了明顯下滑,說明該課程的學(xué)習(xí)具有一定的難度,輔導(dǎo)員和班主任在指導(dǎo)該門課程的時(shí)候可以對(duì)學(xué)生提出特別提示,學(xué)生學(xué)習(xí)時(shí)也要格外的加強(qiáng)學(xué)習(xí)!

        5.2 整體成績趨勢分析

        將成績按照學(xué)期劃分后,可以發(fā)現(xiàn)一些重要的信息。如大一上學(xué)期,學(xué)生的總體成績不錯(cuò),尤其是高等數(shù)學(xué)。成績優(yōu)秀的學(xué)生,四年來的成績基本保持穩(wěn)定,基本為90分上下;而成績較差的學(xué)生,從大二上學(xué)期開始,成績就明顯發(fā)生了嚴(yán)重下滑,也就是該階段成績拉大了差距。而在大三上學(xué)期,這類學(xué)生有明顯提升了成績,基本與大一一致。數(shù)據(jù)表明,學(xué)生在大學(xué)后學(xué)習(xí)態(tài)度有明顯的變化過程,針對(duì)這一變化,輔導(dǎo)員和班主任有必要對(duì)學(xué)生加以警示和指導(dǎo),以更好的提升教學(xué)質(zhì)量!

        6 結(jié)束語

        隨著信息技術(shù)的發(fā)展,當(dāng)今社會(huì)早已步入“大數(shù)據(jù)時(shí)代”,數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用不斷出現(xiàn)且日趨成熟,作為新技術(shù)傳播者的高校更不能落后。筆者有多年高校的工作經(jīng)驗(yàn),結(jié)合具體的學(xué)院教學(xué)數(shù)據(jù)利用數(shù)據(jù)挖掘技術(shù)進(jìn)行深入研究,使用K-means算法完成數(shù)據(jù)預(yù)處理和聚類,通過數(shù)據(jù)重構(gòu)后的數(shù)據(jù)分析,將根學(xué)生分成五大類,而不是簡單的分?jǐn)?shù)段判別方式,進(jìn)而評(píng)定教學(xué)質(zhì)量。最后,根據(jù)不同學(xué)生在不同階段的成績情況,給出了課程學(xué)習(xí)的指導(dǎo)建議。

        但是目前的工作還存在著很多不足之處,本文僅就單專業(yè)完成數(shù)據(jù)分析,要形成供整個(gè)學(xué)院指導(dǎo)用途的系統(tǒng),還需要完善專業(yè)課程的數(shù)據(jù)處理信息。另外還可以考慮融入更多的數(shù)據(jù)挖掘技術(shù),如關(guān)聯(lián)規(guī)則挖掘,神經(jīng)網(wǎng)絡(luò),決策樹分析等,為學(xué)院提供更多的決策支持。

        [1]Ian H.Witten, Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques, Second Edition[M], China Machine Press, 2005

        [2]Ballou D P, Tayi G K. Decision aid for the selection and scheduling of software maintenance projects[J]. IEEE Transactions on System, Man and Cybernetics Part A: Systems and Humans. 1996,26(2):203~212

        [3]王珊,薩師煊著. 數(shù)據(jù)庫系統(tǒng)概論[M]. 北京:高等教育出版社. 2006. [22]王珊,薩師煊著. 數(shù)據(jù)庫系統(tǒng)概論[M].北京:高等教育出版社. 2006

        [4]S.Guha, R.Rastogi, and K.Shim. Cure: An efficient clustering algorithm for large databases. In Proc. 1998 ACM-SIGMOD Int. Conf. Management of Data(SIGMOD’98), pages 73-84, Seattle, WA, June 1998

        [5]陳曦,王執(zhí)銓著. 決策支持系統(tǒng)理論與方法研究綜述[J].控制與決策. 2006(9):961~968

        [6]G.Karypis, E.-H. Han, and V.Kumar. CHAMELEON: A hierarchical clustering algorithm using dynamic modeling. COMPUTER, 32:68-75, 1999

        [7]任明侖,楊善林. 智能決策支持系統(tǒng):研究現(xiàn)狀與挑戰(zhàn)[J].系統(tǒng)工程學(xué)報(bào). 2002(5):430~440

        [8]維克托.邁爾.舍爾伯格,肯尼思.庫克耶(英)著.大數(shù)據(jù)時(shí)代[M].浙江人民出版社.2013

        [9]朱德利.就業(yè)信息的數(shù)據(jù)挖掘及其分析[J].重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2014. (31)120~125

        [10]毛海軍,唐煥文著. 智能決策支持系統(tǒng)(IDSS)研究進(jìn)展[J]. 小型微型計(jì)算機(jī)系統(tǒng)

        2015年江蘇省高等教育教改研究“獨(dú)立學(xué)院計(jì)算機(jī)類專業(yè)人才培養(yǎng)模式研究與實(shí)踐”(課題編號(hào):2015JSJG564)。

        李瑩(1983-),女(漢),湖南省常德市,講師,碩士,主要研究方向?yàn)樗惴ㄔO(shè)計(jì)與分析,數(shù)據(jù)庫原理,人工智能等。

        羅嬌敏(1984-),女(漢),江西省高安市,講師,碩士,主要研究方向?yàn)椴僮飨到y(tǒng),系統(tǒng)安全,計(jì)算機(jī)網(wǎng)絡(luò)等。

        閔芳(1980-),女(漢),江蘇省宜興市,講師,碩士,主要研究方向?yàn)閿?shù)據(jù)安全,虛擬化存儲(chǔ),數(shù)據(jù)結(jié)構(gòu)等。

        猜你喜歡
        數(shù)據(jù)挖掘預(yù)處理聚類
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        絡(luò)合萃取法預(yù)處理H酸廢水
        基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        中文字幕日韩精品一区二区三区| 亚洲精品国产av一区二区| 成a人片亚洲日本久久| 精品国产sm最大网站| 99亚洲男女激情在线观看| 国产精品自在线免费| 久久一二三四区中文字幕| 电驱蚊液可以插一晚上吗| 国产亚洲日韩在线一区二区三区| 国产在线高清视频| 亚洲二区三区在线播放| 亚洲综合日韩一二三区| 内地老熟女老少配视频| 福利一区视频| 丝袜美女美腿一区二区| 中文字幕一区二区人妻秘书| 少妇太爽了在线观看免费视频| 久久精品免费一区二区喷潮| 亚洲高清自偷揄拍自拍| 亚洲色图在线免费观看视频| 一区二区三区在线 | 欧| 国内精品一区二区2021在线| 国产农村妇女毛片精品久久麻豆| 亚洲一区二区三区尿失禁| 亚洲av无码乱码国产精品fc2 | 中文国产日韩欧美二视频| 狠狠干视频网站| 精品国产免费一区二区久久| 欧美日韩精品一区二区视频| 亚洲日韩乱码中文无码蜜桃臀| 日本一区二区国产高清在线播放| 日韩一区二区三区精品视频| 内射爽无广熟女亚洲| 久久久久久亚洲AV成人无码国产| 国产av精品一区二区三区不卡 | 人妻体体内射精一区二区| 欧美黄色免费看| 久久这黄色精品免费久 | 亚洲AⅤ精品一区二区三区| 国产一区二区三区av观看| 色偷偷888欧美精品久久久|