胡祖輝+施佺
摘 要】
網(wǎng)絡(luò)對于學(xué)生的學(xué)習(xí)既有正面作用,又有負(fù)面作用。為了制定合理、有效的網(wǎng)絡(luò)管理措施,本研究以學(xué)生上網(wǎng)數(shù)據(jù)和學(xué)生成績數(shù)據(jù)為研究對象,采用決策樹、關(guān)聯(lián)規(guī)則、邏輯回歸三種數(shù)據(jù)挖掘方法對學(xué)生上網(wǎng)行為相關(guān)屬性與學(xué)生學(xué)習(xí)質(zhì)量之間的關(guān)系進(jìn)行了研究。研究結(jié)果表明,學(xué)生上網(wǎng)行為的相關(guān)屬性如“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”等均對學(xué)生的學(xué)習(xí)質(zhì)量有不同程度的影響,且均呈現(xiàn)負(fù)相關(guān)關(guān)系。其中,“上網(wǎng)時長”是影響學(xué)習(xí)質(zhì)量的主要因素,可以根據(jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的關(guān)鍵數(shù)據(jù)節(jié)點,制定相應(yīng)的網(wǎng)絡(luò)管理措施限制學(xué)生過度上網(wǎng)。三種數(shù)據(jù)挖掘方法都較好地實現(xiàn)了預(yù)期效果,得出的結(jié)論基本一致,其中關(guān)聯(lián)規(guī)則挖掘算法的總體性能最好,決策樹算法的總體性能略好于邏輯回歸算法。
【關(guān)鍵詞】 高校學(xué)生;上網(wǎng)行為分析;數(shù)據(jù)挖掘;決策樹;關(guān)聯(lián)規(guī)則;邏輯回歸
【中圖分類號】 G40-057 【文獻(xiàn)標(biāo)識碼】 A 【文章編號】 1009-458x(2017)02-0026-07
一、引言
在信息技術(shù)時代,網(wǎng)絡(luò)的普及一方面給高校學(xué)生的學(xué)習(xí)和生活帶來了極大的便利,另一方面也導(dǎo)致了一些學(xué)生出現(xiàn)過度上網(wǎng)甚至沉迷網(wǎng)絡(luò)的問題。可以說,網(wǎng)絡(luò)是把雙刃劍,利用好了可以充分借助網(wǎng)絡(luò)教育資源拓展學(xué)習(xí)時空,促進(jìn)學(xué)習(xí)交流;利用不好則會使學(xué)生沉迷于網(wǎng)絡(luò)虛擬世界,浪費寶貴的學(xué)習(xí)時間,影響正常學(xué)習(xí)。對網(wǎng)絡(luò)的管理,高校既不能放任不管,也不能簡單地限制上網(wǎng)。由于學(xué)生在校上網(wǎng)都要通過學(xué)校的網(wǎng)關(guān),因此學(xué)生上網(wǎng)數(shù)據(jù)能夠真實地反映學(xué)生的上網(wǎng)行為。利用學(xué)生上網(wǎng)數(shù)據(jù)對學(xué)生的上網(wǎng)行為進(jìn)行分析研究具有可行性,可以為制定合理、有效的網(wǎng)絡(luò)管理措施提供決策支持。
教育數(shù)據(jù)內(nèi)涵廣泛,學(xué)生上網(wǎng)數(shù)據(jù)和課程考試成績數(shù)據(jù)都屬于教育數(shù)據(jù)。上網(wǎng)數(shù)據(jù)中蘊(yùn)含了學(xué)生上網(wǎng)行為的客觀事實屬性,成績數(shù)據(jù)中蘊(yùn)含了學(xué)生學(xué)習(xí)質(zhì)量的客觀事實屬性。根據(jù)一般經(jīng)驗,學(xué)生過度上網(wǎng)會影響學(xué)習(xí)質(zhì)量。這一論斷是否正確,學(xué)生上網(wǎng)行為與學(xué)習(xí)質(zhì)量之間是否存在更多的關(guān)聯(lián),這些問題都需要利用數(shù)據(jù)挖掘技術(shù)對學(xué)生上網(wǎng)數(shù)據(jù)和成績數(shù)據(jù)進(jìn)行綜合分析,這正是本研究的意義所在。
二、教育數(shù)據(jù)挖掘相關(guān)研究
教育數(shù)據(jù)挖掘(Educational Data Mining,簡稱“EDM”)是運用數(shù)據(jù)挖掘方法從來自教育系統(tǒng)的原始數(shù)據(jù)中提取出有意義信息的過程,這些信息可以為教育者、學(xué)習(xí)者、教育管理者、教育軟件開發(fā)者和教育研究者等提供服務(wù)(李婷, 等, 2010)。教育數(shù)據(jù)挖掘是計算機(jī)科學(xué)、教育學(xué)和統(tǒng)計學(xué)相結(jié)合而形成的一個交叉學(xué)科,如圖1所示(Romero & Ventura, 2013)。
從圖1中可以看到,三個學(xué)科兩兩交叉形成了數(shù)字化學(xué)習(xí)、學(xué)習(xí)分析、數(shù)據(jù)挖掘與人工智能等研究領(lǐng)域。這些研究領(lǐng)域與教育數(shù)據(jù)挖掘密切相關(guān),且在一定程度上體現(xiàn)了教育數(shù)據(jù)挖掘的內(nèi)涵(Bousbia & Belamri, 2014)。
教育活動與教育數(shù)據(jù)密切關(guān)聯(lián),教育活動必然產(chǎn)生教育數(shù)據(jù)。在出現(xiàn)教育數(shù)據(jù)挖掘之前,教育活動與教育數(shù)據(jù)之間的聯(lián)系是單向的,教育數(shù)據(jù)中蘊(yùn)含的信息沒有得到有效利用。教育數(shù)據(jù)挖掘與應(yīng)用的過程就是從教育活動所產(chǎn)生的數(shù)據(jù)中發(fā)現(xiàn)知識,再利用這些知識來改善教育活動的循環(huán)過程(周慶, 等, 2015)。這個循環(huán)過程使得教育活動與教育數(shù)據(jù)之間建立起雙向循環(huán)反饋,有助于不斷改進(jìn)教育活動,提高教育質(zhì)量。教育數(shù)據(jù)挖掘模型如圖2所示(García, Romero, Ventura, & Castro, 2011)。
由圖2可見,教育數(shù)據(jù)挖掘的主要流程包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和結(jié)果分析四個步驟。數(shù)據(jù)采集是從教育環(huán)境中獲取數(shù)據(jù)并按照數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行初步轉(zhuǎn)換、存儲的過程。數(shù)據(jù)采集解決數(shù)據(jù)來源的問題,是數(shù)據(jù)挖掘的基礎(chǔ)。數(shù)據(jù)預(yù)處理是采用數(shù)據(jù)清理、數(shù)據(jù)合并、數(shù)據(jù)變換、數(shù)據(jù)歸約等方法將原始數(shù)據(jù)處理成適用于數(shù)據(jù)挖掘或有益于提高數(shù)據(jù)挖掘效果的數(shù)據(jù)形式。數(shù)據(jù)挖掘是整個模型的核心,是運用統(tǒng)計分析、人工智能、機(jī)器學(xué)習(xí)等方法,從大量數(shù)據(jù)中挖掘出隱含的、有價值的信息的過程。常用的數(shù)據(jù)挖掘方法有決策樹、聚類分析、關(guān)聯(lián)規(guī)則、回歸分析、神經(jīng)網(wǎng)絡(luò)、時序分析等。結(jié)果分析是采用評價指標(biāo)對數(shù)據(jù)挖掘結(jié)果進(jìn)行評價和分析,具體評價指標(biāo)包括查準(zhǔn)率、查全率、正確率、顯著性等。
由于教育數(shù)據(jù)挖掘具有重要意義,因此,教育數(shù)據(jù)挖掘與應(yīng)用已經(jīng)成為一個研究熱點。早在2008年,來自美國、德國、加拿大、澳大利亞、荷蘭等國的研究人員就成立了國際教育數(shù)據(jù)挖掘工作組。在該組織的大力推動下,2008年在加拿大召開了第一屆教育數(shù)據(jù)挖掘國際學(xué)術(shù)會議,至今已舉辦了九屆。同時,該組織于2011年設(shè)立了國際教育數(shù)據(jù)挖掘網(wǎng)站,并成功創(chuàng)辦了專門的電子期刊——教育數(shù)據(jù)挖掘雜志(Journal of Educational Data Mining,簡稱“JEDM”)。該組織給出了教育數(shù)據(jù)挖掘的定義:教育數(shù)據(jù)挖掘是一個新興的學(xué)科,該學(xué)科專注于研究用于探索來自教育系統(tǒng)獨特的和不斷增長的大規(guī)模數(shù)據(jù)的數(shù)據(jù)挖掘方法(Pechenizkiy et al., 2011)。Antonenko等(2012)使用聚類分析方法對Web服務(wù)器日志數(shù)據(jù)進(jìn)行了研究,分析了學(xué)生的在線學(xué)習(xí)行為,并對利用聚類分析作為教育數(shù)據(jù)挖掘技術(shù)的優(yōu)勢和局限性進(jìn)行了探討。Guruler等(2014)使用決策樹方法對高校學(xué)生成績的影響因素進(jìn)行了研究,并基于微軟的數(shù)據(jù)分析服務(wù)技術(shù)構(gòu)建了一個名為“學(xué)生知識發(fā)現(xiàn)”的教育數(shù)據(jù)挖掘系統(tǒng)。Agarwal等(2012)使用支持向量機(jī)、線性回歸、邏輯回歸、決策樹等多種數(shù)據(jù)挖掘方法對學(xué)生數(shù)據(jù)進(jìn)行了分析,并對分析結(jié)果進(jìn)行了比較。Parack等(2012)使用Apriori關(guān)聯(lián)規(guī)則算法和K-means聚類分析算法對學(xué)生的學(xué)術(shù)成果數(shù)據(jù)進(jìn)行了研究,分析了考試成績、考勤、實踐環(huán)節(jié)等因素對學(xué)術(shù)成果的影響。舒忠梅等(2014)采用回歸分析和決策樹方法對大學(xué)生滿意度調(diào)查數(shù)據(jù)進(jìn)行了分析,研究學(xué)生特征和學(xué)習(xí)經(jīng)歷與滿意度之間的關(guān)系。施佺等(2016)使用關(guān)聯(lián)規(guī)則和聚類分析方法對學(xué)生網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)進(jìn)行了研究,并提出了網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管的教育數(shù)據(jù)挖掘模型。陳益均等(2013)使用K-means聚類分析算法對學(xué)生上網(wǎng)行為與英語四級通過率之間的關(guān)系進(jìn)行了研究,發(fā)現(xiàn)學(xué)生英語四級通過率與上網(wǎng)行為中的下載流量、在線時長、使用費用等有明顯關(guān)聯(lián)。吳淑蘋(2013)在對教師網(wǎng)絡(luò)學(xué)習(xí)行為特征、表現(xiàn)形式和學(xué)習(xí)過程等進(jìn)行分析的基礎(chǔ)上,采用時序分析方法對教師網(wǎng)絡(luò)學(xué)習(xí)行為進(jìn)行了分析和預(yù)測。吳青等(2014)運用J48決策樹算法對不同風(fēng)格網(wǎng)絡(luò)學(xué)習(xí)者的網(wǎng)絡(luò)學(xué)習(xí)行為特征進(jìn)行了研究,并構(gòu)建了學(xué)習(xí)風(fēng)格模型?;诮逃龜?shù)據(jù)挖掘的在線學(xué)習(xí)預(yù)警研究已經(jīng)成功應(yīng)用于實踐,包括美國普渡大學(xué)的課程警示系統(tǒng)、Desire2Learn公司的學(xué)生成功系統(tǒng)、可汗學(xué)院的學(xué)習(xí)儀表盤等(王林麗, 等, 2016)。
教育數(shù)據(jù)挖掘具有實際應(yīng)用價值,政府、高校和企業(yè)都很重視教育數(shù)據(jù)挖掘。2012年美國教育部教育技術(shù)辦公室發(fā)布了一份《通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進(jìn)教與學(xué)》的研究報告,對美國國內(nèi)教育數(shù)據(jù)挖掘和學(xué)習(xí)分析的研究及應(yīng)用情況進(jìn)行了總結(jié),并提出了進(jìn)一步發(fā)展的意見建議(Bienkowski, Feng, & Means, 2012)。哈佛大學(xué)、斯坦福大學(xué)、耶魯大學(xué)等世界知名高校都啟動了教育數(shù)據(jù)挖掘相關(guān)研究計劃。一些企業(yè)已經(jīng)開發(fā)出了教育數(shù)據(jù)挖掘相關(guān)產(chǎn)品,如美國Knewton公司、英國Pearson公司、加拿大Desire2Learn公司等。國內(nèi)很多高校也開始關(guān)注教育數(shù)據(jù)挖掘研究與應(yīng)用。2014年5月,電子科技大學(xué)成立了教育大數(shù)據(jù)研究所,并已經(jīng)完成了數(shù)據(jù)一體化平臺、學(xué)生畫像系統(tǒng)等多個研究。2015年9月,中國統(tǒng)計信息服務(wù)中心和曲阜師范大學(xué)共同成立了中國教育大數(shù)據(jù)研究院,并聯(lián)合十余所高校和教育研究機(jī)構(gòu)發(fā)起“中國教育大數(shù)據(jù)發(fā)展促進(jìn)計劃”,提出了推動中國教育大數(shù)據(jù)發(fā)展的路線圖。
三、數(shù)據(jù)挖掘模型構(gòu)建
1. 數(shù)據(jù)采集
本研究以高校學(xué)生上網(wǎng)數(shù)據(jù)和課程考試成績數(shù)據(jù)為研究對象。從學(xué)生管理系統(tǒng)中提取某年級在籍本科學(xué)生數(shù)據(jù)6,725條記錄,從教務(wù)管理系統(tǒng)中提取相應(yīng)學(xué)生成績數(shù)據(jù)401,278條記錄,從網(wǎng)絡(luò)管理系統(tǒng)中提取相應(yīng)學(xué)生某月上網(wǎng)數(shù)據(jù)506,361條記錄。
2. 數(shù)據(jù)預(yù)處理
(1)成績數(shù)據(jù)。由于每個學(xué)生選修的課程和學(xué)分不一樣,因此,為了準(zhǔn)確衡量每個學(xué)生的綜合學(xué)習(xí)質(zhì)量,引入GPA(Grade Point Average,平均績點)進(jìn)行成績評定。首先將百分制和等級成績都折算成績點,考試成績與績點的關(guān)系如表1所示。
然后對每個學(xué)生的所有課程績點和學(xué)分進(jìn)行加權(quán)平均運算得到平均績點:
(1)經(jīng)過計算平均績點,每個學(xué)生只有1條成績數(shù)據(jù)記錄。這樣成績數(shù)據(jù)的記錄總數(shù)就由原來的401,278條記錄減少為6,725條記錄,與學(xué)生數(shù)據(jù)記錄總數(shù)一致,成績數(shù)據(jù)量大大減少。根據(jù)數(shù)據(jù)挖掘需要,采用等頻分箱法進(jìn)一步對成績數(shù)據(jù)進(jìn)行離散化處理,即按照平均績點由小到大進(jìn)行排序,取中間值將學(xué)生綜合學(xué)習(xí)質(zhì)量等分為“成績較差”和“成績較好”兩個成績類別。
(2)上網(wǎng)數(shù)據(jù)。首先利用數(shù)據(jù)庫分組查詢,按學(xué)號匯總得到每個學(xué)生的“在線時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”。這樣處理后得到的上網(wǎng)數(shù)據(jù)匯總記錄總數(shù)小于學(xué)生數(shù)據(jù)記錄總數(shù),因為每個學(xué)生最多有1條上網(wǎng)匯總記錄,但是客觀上存在部分學(xué)生一個月都不在校上網(wǎng)的情況。學(xué)生不在校上網(wǎng)的原因可能是因病請假或外出實習(xí),具體原因可由院系管理人員作進(jìn)一步了解。
(3)學(xué)生數(shù)據(jù)。保留學(xué)生數(shù)據(jù)中的主要字段,如“學(xué)號”“姓名”“院系”“專業(yè)”“班級”等,去除不必要字段,減少數(shù)據(jù)量。然后以學(xué)生數(shù)據(jù)為基礎(chǔ),將預(yù)處理后的學(xué)生上網(wǎng)數(shù)據(jù)和課程成績平均績點數(shù)據(jù)通過“學(xué)號”進(jìn)行關(guān)聯(lián),得到學(xué)生數(shù)據(jù)、上網(wǎng)數(shù)據(jù)和課程成績平均績點數(shù)據(jù)三者的合并數(shù)據(jù)集。合并后的數(shù)據(jù)集作為樣本數(shù)據(jù),以“學(xué)號”為關(guān)鍵字段,唯一標(biāo)識每條記錄。
3. 相關(guān)分析
在進(jìn)行數(shù)據(jù)挖掘之前,首先采用相關(guān)分析來研究上網(wǎng)與學(xué)習(xí)兩者之間的關(guān)系。相關(guān)分析是研究兩個變量之間相關(guān)性強(qiáng)弱及方向的一種統(tǒng)計方法。通常使用相關(guān)系數(shù)來定量描述兩個變量之間的線性關(guān)系,取值范圍為-1~1,相關(guān)系數(shù)大于0為正相關(guān),相關(guān)系數(shù)小于0為負(fù)相關(guān)。
根據(jù)不同數(shù)據(jù)的特點,通常采用3個相關(guān)系數(shù)來描述相關(guān)性,分別為Pearson相關(guān)系數(shù)、Spearman等級相關(guān)系數(shù)和Kendall等級相關(guān)系數(shù)。使用SPSS作為數(shù)據(jù)分析工具,分別以“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為統(tǒng)計變量與“平均績點”作相關(guān)分析,計算兩者的相關(guān)系數(shù),結(jié)果如表2所示。
從表2可以看出,3個相關(guān)系數(shù)雖然數(shù)值不同,但是得出的結(jié)論是一致的。由此可以看到:①“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”與“平均績點”之間的相關(guān)系數(shù)均為負(fù)值,即均呈負(fù)相關(guān)關(guān)系;②顯著性均為0,在0.01的置信度上,相關(guān)性不顯著;③與其他指標(biāo)相比,“上網(wǎng)時長”與“平均績點”的相關(guān)系數(shù)絕對值最大,表明其與“平均績點”的相關(guān)性最強(qiáng),即“上網(wǎng)時長”是影響學(xué)習(xí)質(zhì)量的主要因素。由此可見,過度上網(wǎng)會影響學(xué)習(xí)這個論斷是成立的。但如何區(qū)分合理上網(wǎng)與過度上網(wǎng),具體的尺度如何把握,還需要進(jìn)行數(shù)據(jù)挖掘。
4. 數(shù)據(jù)挖掘
根據(jù)數(shù)據(jù)預(yù)處理結(jié)果,樣本數(shù)據(jù)被分為“成績較好”和“成績較差”兩個類別。將“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為屬性,通過數(shù)據(jù)挖掘研究各個屬性對樣本成績分類的影響。本研究使用SSAS作為數(shù)據(jù)挖掘工具,采用決策樹、關(guān)聯(lián)規(guī)則和邏輯回歸三種方法來進(jìn)行數(shù)據(jù)挖掘。
(1)決策樹
決策樹作為一種監(jiān)督學(xué)習(xí)算法,主要用于分類和預(yù)測建模。決策樹通過不斷細(xì)化的分支,將錯綜復(fù)雜的數(shù)據(jù)分為若干類型(牟冬梅, 等, 2016)。通過決策樹分析,最終可形成一個樹形結(jié)構(gòu),每個內(nèi)部節(jié)點表示一個屬性上的測試,每個分支代表一個輸出,每個葉子節(jié)點代表一種類別。將“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為輸入值,“成績類別”既作為輸入值又作為預(yù)測值。將樣本總數(shù)的70%作為訓(xùn)練集,剩余的30%作為測試集。為避免決策樹分支過多,出現(xiàn)過擬合現(xiàn)象,將算法復(fù)雜度參數(shù)Complexity_Penalty設(shè)為0.8,以抑制決策樹的生長,達(dá)到剪枝的目的。決策樹分析結(jié)果如圖3所示。
從圖3可以看出,“上網(wǎng)時長”被作為決策樹每個節(jié)點的最優(yōu)分支屬性,最佳分割點分別為238.987、191.192、159.328。在根節(jié)點中,全部學(xué)生樣本按照成績類別被等分為兩個部分,灰色表示成績較好類別,白色表示成績較差類別。從圖中所有節(jié)點的圖例可以直觀地看出,上網(wǎng)時長越長,成績較好學(xué)生的比例越小,成績較差學(xué)生的比例越大,反之亦然。如在上網(wǎng)時長大于等于238.987的節(jié)點中,成績較差學(xué)生的比例達(dá)到79.82%。由此可以得出結(jié)論: ①“上網(wǎng)時長”是影響學(xué)習(xí)質(zhì)量的主要因素;②上網(wǎng)時長與學(xué)習(xí)質(zhì)量呈現(xiàn)負(fù)相關(guān)關(guān)系,即上網(wǎng)時長越長,成績越差;③上網(wǎng)時長的關(guān)鍵分割點是238.987、191.192、159.328,可以考慮采取上網(wǎng)時長階梯計費等措施限制過度上網(wǎng)。
(2)關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘算法用于發(fā)現(xiàn)事物屬性特征之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則是形如X->Y的蘊(yùn)涵式,其中X稱為前件,Y稱為后件。關(guān)聯(lián)規(guī)則挖掘中有幾個重要的概念:項集、頻繁項集、支持度、置信度、重要性。項集為事物屬性特征的集合,如“成績類別=1”“總流量>=56.01”等。頻繁項集是在數(shù)據(jù)集中出現(xiàn)頻率較高的項集。對于規(guī)則X->Y,支持度為(X,Y)/T,置信度為(X,Y)/X。其中,T表示項集的事務(wù)集合,(X,Y)表示T中同時包含X和Y的事務(wù)的個數(shù),X表示T中包含X的事務(wù)的個數(shù)。支持度表示規(guī)則的可能性大小,置信度表示規(guī)則的條件概率,也稱為概率。重要性用于衡量規(guī)則的有效性,重要性值越大,規(guī)則前件和后件的相關(guān)性越強(qiáng)。關(guān)聯(lián)規(guī)則挖掘是從事務(wù)集合中挖掘出滿足支持度和置信度最低閾值要求的所有關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘可以大致分為兩步:第一步是基于事務(wù)集合生成頻繁項目集,第二步是基于頻繁項目集生成滿足最低置信度的關(guān)聯(lián)規(guī)則。將“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為輸入值,“成績類別”既作為輸入值又作為預(yù)測值。由于關(guān)聯(lián)規(guī)則挖掘要求數(shù)據(jù)為離散型數(shù)據(jù),因此將連續(xù)型輸入值的數(shù)據(jù)類型設(shè)置為“Discretized”,以自動進(jìn)行離散化。將樣本總數(shù)的70%作為訓(xùn)練集,剩余的30%作為測試集。為保證關(guān)聯(lián)規(guī)則挖掘效果,將算法的最大項集大小參數(shù)Maximum_Itemset_Size設(shè)置為2,最小概率參數(shù)Minimum_Probability設(shè)置為0.6。關(guān)聯(lián)規(guī)則挖掘結(jié)果如圖4所示。
根據(jù)圖4關(guān)聯(lián)規(guī)則挖掘結(jié)果,整理得到詳細(xì)的關(guān)聯(lián)規(guī)則如表3所示。
從圖4和表3可以看出,影響學(xué)習(xí)質(zhì)量的因素有“上網(wǎng)時長”“出流量”“總流量”“入流量”,如規(guī)則1中學(xué)生上網(wǎng)時長大于等于255.84小時,其成績有84.0%的概率屬于“成績較差”類別;規(guī)則5中學(xué)生上網(wǎng)出流量小于1.01GB,其成績有62.5%的概率屬于“成績較好”類別;規(guī)則6中學(xué)生上網(wǎng)總流量大于等于56.01GB,其成績有62.5%的概率屬于“成績較差”類別;規(guī)則7中學(xué)生上網(wǎng)入流量大于等于48.34GB,其成績有61.9%的概率屬于“成績較差”類別。與其他屬性相比,“上網(wǎng)時長”的置信度和重要性最高,因此,“上網(wǎng)時長”仍然是影響學(xué)習(xí)質(zhì)量的主要因素。上網(wǎng)時長的關(guān)鍵分割點為255.84、190.44、150.14、69.85??梢钥闯?,關(guān)聯(lián)規(guī)則挖掘的結(jié)果與決策樹分析結(jié)果大體一致。
(3)邏輯回歸
回歸分析是通過建立回歸模型來確定兩種或兩種以上變量間的因果關(guān)系。邏輯回歸是對線性回歸模型的擴(kuò)展,可用于分類與預(yù)測分析。設(shè)因變量為y,影響y的n個自變量為x1,x2,...,xn,p為事件發(fā)生的概率,1-p為事件不發(fā)生的概率, p/(1-p)取自然對數(shù)ln(p/(1-p)),得到邏輯回歸模型為:
由式(2)可得:
式中為常數(shù),(i=1,…, n)為邏輯回歸系數(shù)。
將“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”作為輸入值,“成績類別”既作為輸入值又作為預(yù)測值。將樣本總數(shù)的70%作為訓(xùn)練集,剩余的30%作為測試集。邏輯回歸分析結(jié)果如表4所示。
從表4可以看出,影響學(xué)習(xí)質(zhì)量的因素有“上網(wǎng)時長”“出流量”“總流量”,如上網(wǎng)出流量在46.334GB到178.196GB之間的學(xué)生,其傾向于“成績較差”類別的概率為80%,上網(wǎng)時長在190.133小時到361.467小時之間的學(xué)生,其傾向于“成績較差”類別的概率為76.92%。分?jǐn)?shù)表示自變量與因變量之間因果關(guān)系的強(qiáng)度。表4中的分析結(jié)果顯示,“上網(wǎng)時長”仍然是影響學(xué)習(xí)質(zhì)量的主要因素。上網(wǎng)時長的關(guān)鍵分割點為190.133、140.440、90.746,這與前兩種分析方法得到的結(jié)論基本一致。此外,“出流量”也成為一個影響學(xué)習(xí)質(zhì)量的重要因素,這與前兩種分析方法的結(jié)論不一致,這個結(jié)論的有效性可以通過對相關(guān)學(xué)生進(jìn)行抽樣調(diào)查分析進(jìn)行驗證。
四、結(jié)果評價
首先對三種數(shù)據(jù)挖掘方法進(jìn)行評價,評價指標(biāo)包括查準(zhǔn)率、查全率、正確率、F值等。查準(zhǔn)率為算法識別正確的正面樣本數(shù)與所有識別為正面的樣本數(shù)的比值,用于衡量算法的精密度。查全率為算法識別正確的正面樣本數(shù)與樣本中所有正面樣本數(shù)的比值,反映算法的靈敏度,也稱為召回率。正確率為算法識別正確的觀點數(shù)與樣本總數(shù)的比值,反映算法的準(zhǔn)確度。F值為查準(zhǔn)率與查全率的調(diào)和平均值,其取值范圍在0到1之間,用于衡量算法的總體性能。查準(zhǔn)率所描述的精密度與正確率所描述的準(zhǔn)確度具有不同的含義。精密度是指多次重復(fù)測定同一輸入值時各測定值之間彼此相符合的程度,用來表示隨機(jī)誤差的大小。準(zhǔn)確度是指在一定條件下多次測定的平均值與其真值相符合的程度,用來表示系統(tǒng)誤差的大小。
在本研究中,設(shè)TP(Ture Positive)為實際成績較好而分類預(yù)測結(jié)果也為成績較好的樣本數(shù),F(xiàn)P(False Positive)為實際成績較好但分類預(yù)測結(jié)果為成績較差的樣本數(shù),TN(True Negative)為實際成績較差而分類預(yù)測結(jié)果也為成績較差的樣本數(shù),F(xiàn)N(False Negative)為實際成績較差但分類預(yù)測結(jié)果為成績較好的樣本數(shù),則有如下定義(Wikipedia, 2016):
為了更準(zhǔn)確地衡量算法的總體性能,有必要將正確率考慮在內(nèi),借鑒F值的調(diào)和平均值計算方法,定義精確度為正確率與F值的調(diào)和平均值,即:
精確度可以全面反映算法的精密度、靈敏度、準(zhǔn)確度,更準(zhǔn)確地描述算法的總體性能好壞。
根據(jù)決策樹、關(guān)聯(lián)規(guī)則、邏輯回歸三種方法的數(shù)據(jù)挖掘建模結(jié)果,采用樣本總體的30%測試集進(jìn)行測試,分別計算相應(yīng)的評價指標(biāo)值。計算結(jié)果如表5所示。
從表5可以看出,查準(zhǔn)率:關(guān)聯(lián)規(guī)則>決策樹>邏輯回歸;查全率:邏輯回歸>決策樹>關(guān)聯(lián)規(guī)則;正確率:邏輯回歸>決策樹>關(guān)聯(lián)規(guī)則,F(xiàn)值和精確度的計算結(jié)果均為:關(guān)聯(lián)規(guī)則>決策樹>邏輯回歸。三種算法都較好地實現(xiàn)了數(shù)據(jù)挖掘和分類預(yù)測效果,得出的結(jié)論基本一致,各項指標(biāo)都接近或超過60%,尤其是關(guān)聯(lián)規(guī)則的查準(zhǔn)率超過了80%。綜合考慮算法的總體性能,關(guān)聯(lián)規(guī)則挖掘算法的總體性能最好,決策樹算法的總體性能略好于邏輯回歸,兩者相差不大。
五、結(jié)論
在大數(shù)據(jù)時代,數(shù)據(jù)是寶貴的資源,充分挖掘和利用教育數(shù)據(jù)中蘊(yùn)含的信息,有助于改善教育活動。本研究首先對學(xué)生上網(wǎng)數(shù)據(jù)和成績數(shù)據(jù)進(jìn)行相關(guān)分析,然后采用三種數(shù)據(jù)挖掘方法對學(xué)生上網(wǎng)行為的相關(guān)屬性與學(xué)生成績的內(nèi)在關(guān)系進(jìn)行研究,得出了以下結(jié)論:①學(xué)生上網(wǎng)行為的相關(guān)屬性“上網(wǎng)時長”“入流量”“出流量”“總流量”“上網(wǎng)次數(shù)”對學(xué)習(xí)質(zhì)量都有不同程度的影響,且均呈現(xiàn)負(fù)相關(guān)關(guān)系,適度上網(wǎng)有利于學(xué)習(xí),過度上網(wǎng)影響學(xué)習(xí);②“上網(wǎng)時長”是影響學(xué)習(xí)質(zhì)量的主要因素,即兩者負(fù)相關(guān)關(guān)系強(qiáng)度最強(qiáng),應(yīng)予以重點關(guān)注;③綜合三種算法的挖掘結(jié)果,“上網(wǎng)時長”的關(guān)鍵分割點為248、190、150、90、70,其中“上網(wǎng)時長”超過190小時會對學(xué)習(xí)質(zhì)量產(chǎn)生顯著負(fù)面影響,超過248小時會產(chǎn)生嚴(yán)重負(fù)面影響,應(yīng)據(jù)此制定合理的網(wǎng)絡(luò)管理措施,引導(dǎo)學(xué)生健康上網(wǎng);④不同的數(shù)據(jù)挖掘方法在算法性能和挖掘結(jié)論上可能存在差異,需要根據(jù)實際情況選擇合適的算法,并合理設(shè)置算法參數(shù),保證結(jié)論的正確性和有效性。網(wǎng)絡(luò)環(huán)境是教育環(huán)境的重要組成部分。通過上網(wǎng)行為分析和數(shù)據(jù)挖掘,可以為制定合理、有效的網(wǎng)絡(luò)管理策略提供決策支持服務(wù),讓網(wǎng)絡(luò)真正成為學(xué)生學(xué)習(xí)的良好輔助工具。
[參考文獻(xiàn)]
陳益均,殷莉. 2013. 基于數(shù)據(jù)挖掘的學(xué)生成績影響模型的研究[J]. 現(xiàn)代教育技術(shù),23(1):94-96.
李婷,傅鋼善. 2010. 國內(nèi)外教育數(shù)據(jù)挖掘研究現(xiàn)狀及趨勢分析[J]. 現(xiàn)代教育技術(shù)(10):21-25.
牟冬梅,任珂. 2016. 三種數(shù)據(jù)挖掘算法在電子病歷知識發(fā)現(xiàn)中的比較[J]. 現(xiàn)代圖書情報技術(shù),32(6):102-109.
舒忠梅,徐曉東. 2014. 學(xué)習(xí)分析視域下的大學(xué)生滿意度教育數(shù)據(jù)挖掘及分析[J]. 電化教育研究(5):39-44.
施佺,錢源,孫玲. 2016. 基于教育數(shù)據(jù)挖掘的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管研究[J]. 現(xiàn)代教育技術(shù),26(6):87-93.
吳淑蘋. 2013. 基于數(shù)據(jù)挖掘的教師網(wǎng)絡(luò)學(xué)習(xí)行為分析與研究[J]. 教師教育研究,25(3):47-55.
吳青,羅儒國. 2014. 基于網(wǎng)絡(luò)學(xué)習(xí)行為的學(xué)習(xí)風(fēng)格挖掘[J]. 現(xiàn)代遠(yuǎn)距離教育,(1):54-62.
王林麗,葉洋,楊現(xiàn)民. 2016. 基于大數(shù)據(jù)的在線學(xué)習(xí)預(yù)警模型設(shè)計——“教育大數(shù)據(jù)研究與實踐專欄”之學(xué)習(xí)預(yù)警篇[J]. 現(xiàn)代教育技術(shù),26(7):5-11.
周慶,牟超,楊丹. 2015. 教育數(shù)據(jù)挖掘研究進(jìn)展綜述[J]. 軟件學(xué)報(11):3026-3042.
Agarwal, S., Pandey, G. N. & Tiwari, M. D. (2012). Data Mining in Education: Data Classification and Decision Tree Approach. International Journal of e-Education, e-Business, e-Management and e-Learning, 2(2), 140-144.
Antonenko, P. D., Toy, S. & Niederhauser, D. S. (2012). Using Cluster Analysis for Data Mining in Educational Technology Research. Educational Technology Research and Development, 60(3), 383-398.
Bienkowski, M., Feng, M. & Means, B. (2012). Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics: An Issue Brief. Washington:U.S. Department of Education, Office of Educational Technology.
Bousbia, N. & Belamri, I. (2014). Which Contribution Does EDM Provide to Computer-Based Learning Environments. Educational Data Mining, 524, 3-28.
García, E., Romero, C., Ventura, S. & Castro, C. D. (2011). A Collaborative Educational Association Rule Mining Tool. Internet and Higher Education, 14(2), 77-88.
Guruler, H. & Istanbullu, A. (2014). Modeling Student Performance in Higher Education Using Data Mining. Educational Data Mining, 524, 105-124.
Pechenizkiy, M., et al. (2011 July). International Educational Data Mining Society. from http://www.educationaldatamining.org.
Parack, S., Zahid, Z. & Merchant, F. (2012). Application of Data Mining in Educational Databases for Predicting Academic Trends and Patterns. IEEE International Conference on Technology Enhanced Education,1-4.
Romero, C. & Ventura, S. (2013). Data mining in education. Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery, 3(1), 12-27.
Wikipedia. (2016, August 6). Precision and recall. from https://en.wikipedia.org/wiki/Precision_and_recall.