孫新杰 孫國(guó)營(yíng) 管彥允 李偉
摘要:隨著高校數(shù)字化校園的建立,越來(lái)越多的學(xué)生行為數(shù)據(jù)可以通過電子的形式得以存儲(chǔ),針對(duì)這些數(shù)據(jù)提出一些關(guān)注的特征值,并針對(duì)這些特征值進(jìn)行進(jìn)一步的處理達(dá)到一種切合實(shí)際的數(shù)據(jù)模型,并針對(duì)該模型提出一種改進(jìn)的Apriori關(guān)聯(lián)算法,通過修改權(quán)重,對(duì)原始統(tǒng)計(jì)數(shù)據(jù)進(jìn)行區(qū)間化處理等技巧,實(shí)現(xiàn)了W_S_Apriori算法,并通過實(shí)驗(yàn)嚴(yán)重了該算法的有效性。
關(guān)鍵詞:數(shù)字化;特征值;關(guān)聯(lián);W_S_Apriori算法
中圖分類號(hào):TP391? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào):1009-3044(2020)36-0024-03
1 引言
隨著互聯(lián)網(wǎng)的高速發(fā)展及越發(fā)強(qiáng)大數(shù)據(jù)收集管理工具的誕生,如何高效找到數(shù)據(jù)之間的關(guān)系顯得至關(guān)重要。關(guān)聯(lián)分析是數(shù)據(jù)挖掘領(lǐng)域一個(gè)重要處理數(shù)據(jù)關(guān)系的手段,能夠從大數(shù)據(jù)中找出數(shù)據(jù)之間的關(guān)聯(lián)并進(jìn)一步挖掘出數(shù)據(jù)之間潛在價(jià)值是關(guān)聯(lián)分析的重要使命。
關(guān)聯(lián)分析已經(jīng)應(yīng)用于生活中的很多方面,如購(gòu)物、交通等。隨著近幾年國(guó)家對(duì)高等教育的不斷投入,大學(xué)校園基本已經(jīng)建立起了一套完善的數(shù)據(jù)采集與存儲(chǔ)設(shè)備,學(xué)生在校園中使用網(wǎng)絡(luò)留下的數(shù)據(jù)都以不同形式存在于存儲(chǔ)設(shè)置之中。但是近年來(lái)對(duì)于高校學(xué)生數(shù)據(jù)的研究并沒有進(jìn)行過多針對(duì)性的關(guān)聯(lián)分析算法研究,如何在教育領(lǐng)域,對(duì)教育大數(shù)據(jù)進(jìn)行預(yù)測(cè)與關(guān)聯(lián)分析顯得十分有必要。
2 相關(guān)概念及技術(shù)基礎(chǔ)
分析教育大數(shù)據(jù)之間的關(guān)聯(lián)行為,必須首選確定好教育大數(shù)據(jù)的來(lái)源。校園一卡通數(shù)據(jù)基本包含了學(xué)生的教育大數(shù)據(jù)的來(lái)源,如成績(jī)、圖書借閱、寢室門禁、食堂就餐等數(shù)據(jù)。通過針對(duì)性的數(shù)據(jù)挖掘技術(shù)從一卡通數(shù)據(jù)中找出未知有價(jià)值的信息,從而指導(dǎo)改善學(xué)生在校期間的校園行為,有針對(duì)性地提出提高學(xué)科成績(jī)模型[3]。
關(guān)聯(lián)分析技術(shù)是一種使用頻繁項(xiàng)目集來(lái)尋找數(shù)據(jù)之間的關(guān)聯(lián)性的。下面就常見的關(guān)聯(lián)分析算法的優(yōu)缺點(diǎn)進(jìn)行簡(jiǎn)單的闡述。
Apriori算法是通過首選確立頻繁1項(xiàng)集,然后在該1項(xiàng)集的基礎(chǔ)上進(jìn)一步尋找頻繁2項(xiàng)集,以此類推直到達(dá)到設(shè)定的閾值為止。該算法的優(yōu)缺點(diǎn)都非常的明顯,對(duì)整個(gè)數(shù)據(jù)源需要多次的訪問,保證了數(shù)據(jù)了完整性,但是也大大削弱了算法的時(shí)間效能;該算法的運(yùn)行特性導(dǎo)致產(chǎn)生大量的候選數(shù)據(jù)項(xiàng)集,浪費(fèi)運(yùn)行空間;而且該算法采用的支持度不能發(fā)生變化,導(dǎo)致該算法無(wú)法對(duì)各個(gè)指標(biāo)進(jìn)行個(gè)性化的考慮使用。
FP-Growth算法采用的不同于Apriori的算法技巧,它使用的是“分治”的方法。該算法是把頻繁項(xiàng)集進(jìn)行高度的壓縮,然后再把壓縮后的數(shù)據(jù)項(xiàng)集按條件進(jìn)行拆分,然后分別對(duì)拆分后的數(shù)據(jù)庫(kù)進(jìn)行關(guān)聯(lián)分析的挖掘。但是該算法也有它自己的不足之處,比如生成的樹的葉子節(jié)點(diǎn)過多,而且該樹只生成了前綴樹,這樣進(jìn)一步削弱了算法的效能,由于“分治”的思想實(shí)現(xiàn)是采用遞歸的這種思維模式,該模式需要消耗大量的計(jì)算內(nèi)存,導(dǎo)致該算法應(yīng)用面縮小。
3 教育大數(shù)據(jù)的預(yù)處理與特征提取
要想對(duì)教育大數(shù)據(jù)進(jìn)行挖掘,同樣需要對(duì)這些數(shù)據(jù)進(jìn)行處理,對(duì)數(shù)據(jù)的預(yù)處理的質(zhì)量直接絕對(duì)數(shù)據(jù)挖掘的質(zhì)量。本論文主要對(duì)學(xué)生行為中的圖書資料借閱信息、一卡通等記錄進(jìn)行格式化的預(yù)處理。下面分別對(duì)這些原始數(shù)據(jù)信息進(jìn)行預(yù)處理。
3.1 圖書資料借閱信息特征提取
圖書資料借閱信息的提取直接關(guān)系到學(xué)生行為對(duì)成績(jī)的影響[1],該項(xiàng)權(quán)數(shù)據(jù)意義重大,提取的圖書借閱特征有“圖書借閱學(xué)生學(xué)號(hào)”“圖書借閱時(shí)間”“圖書借閱ISBN號(hào)”“圖書分類識(shí)別號(hào)”。通過對(duì)“圖書借閱學(xué)生學(xué)號(hào)”進(jìn)行統(tǒng)計(jì)可以得出該生某段時(shí)間內(nèi)的借閱圖書的總次數(shù),以及通過“圖書借閱學(xué)生學(xué)號(hào)”和“圖書分類識(shí)別號(hào)”可以統(tǒng)計(jì)出學(xué)生借閱專業(yè)書籍的次數(shù)。通常情況下根據(jù)我校(六盤水師范學(xué)院)實(shí)際情況,每到期末考試前的最后2周都是學(xué)生集中借閱專業(yè)資料的黃金時(shí)段,該時(shí)段的借閱圖書統(tǒng)計(jì)科研單獨(dú)列出進(jìn)行數(shù)據(jù)的挖掘,具體提取指標(biāo)如表1所示。
3.2 自習(xí)時(shí)間特征提取
很多自習(xí)室需要使用一卡通進(jìn)行刷卡才能進(jìn)入進(jìn)行學(xué)習(xí)(包括圖書館內(nèi)部的自習(xí)室),這就為數(shù)據(jù)的統(tǒng)計(jì)帶來(lái)了方便,通過統(tǒng)計(jì)學(xué)生自習(xí)室的開放時(shí)間以及學(xué)生進(jìn)入自習(xí)室自習(xí)的時(shí)間可以很好地獲取學(xué)生投入到學(xué)習(xí)中的時(shí)間占比。這里需要進(jìn)行一些更加復(fù)雜的時(shí)間處理,首先應(yīng)獲取學(xué)生的課表時(shí)間,在課表之外的時(shí)間進(jìn)行學(xué)習(xí)占比的統(tǒng)計(jì)會(huì)更加的客觀,次數(shù)占比是除課表外的不低于1個(gè)小時(shí)的空閑時(shí)間進(jìn)行時(shí)間段的統(tǒng)計(jì),有效時(shí)間長(zhǎng)度占比以每次自習(xí)時(shí)間不低于20分鐘進(jìn)行占比統(tǒng)計(jì)。這里的統(tǒng)計(jì)方式與圖書資料借閱基本類似,不再進(jìn)行詳細(xì)的闡述,具體見表2所示。
3.3 食堂就餐特征提取
食堂就餐數(shù)據(jù)的處理相對(duì)比較煩瑣,不同地域不同家庭的同學(xué)就餐的樣書及就餐的金額差距都比較大,沒辦法給出一個(gè)標(biāo)準(zhǔn)來(lái)衡量不同學(xué)生的這些數(shù)據(jù)的優(yōu)劣程度。這里為了公平起見,需要對(duì)某些數(shù)據(jù)進(jìn)行歸一化處理,并且對(duì)處理后的數(shù)據(jù)只統(tǒng)計(jì)每學(xué)期就餐時(shí)間的平均值,分別按早餐、午餐、晚餐三餐時(shí)間進(jìn)行統(tǒng)計(jì)[2],并通過拉格朗日填充數(shù)據(jù)的方式對(duì)空缺值進(jìn)行填充處理,詳情如表3所示。
4 實(shí)驗(yàn)分析
在進(jìn)行關(guān)聯(lián)分析中,支持度是統(tǒng)計(jì)頻繁項(xiàng)集在總數(shù)據(jù)中的占比,如公式(1)所示。
置信度是指當(dāng)某個(gè)事件A發(fā)生時(shí),另外一個(gè)事件B發(fā)生的概率問題,如公式(2)所示。
提升度是某事件A出現(xiàn)的時(shí)候,事件A和B一起出現(xiàn)的概率與事件B獨(dú)自出現(xiàn)的概率的比值,如公式(3)所示。
4.1 就餐時(shí)間依據(jù)范圍歸一化
采用Apriori算法思想非常的簡(jiǎn)單就是不斷地掃描數(shù)據(jù)然后統(tǒng)計(jì)K-項(xiàng)集,只要滿足支持度的要求都可以進(jìn)入下一輪的計(jì)算,但是這樣導(dǎo)致有些數(shù)據(jù)出現(xiàn)的頻率不高,但是可能起到十分重要的作用的數(shù)據(jù)不能在該算法中得到有效的利用。特別是就餐時(shí)間統(tǒng)計(jì),由于每個(gè)人生活習(xí)慣的不同,比如不能簡(jiǎn)單地把早上6:30起床吃早飯的同學(xué)認(rèn)為優(yōu)于喜歡晚吃早飯的同學(xué),這樣就導(dǎo)致在進(jìn)行數(shù)據(jù)關(guān)聯(lián)時(shí)容易出現(xiàn)無(wú)效的關(guān)聯(lián)。本文的處理方式是把就餐均值進(jìn)行范圍式重定義,如早餐時(shí)間落在6:30-7:30之間的統(tǒng)一設(shè)定一個(gè)時(shí)間均值,其他就餐時(shí)間依據(jù)一小時(shí)為間隔范圍進(jìn)行重新歸一化處理,認(rèn)為在該段時(shí)間內(nèi)就餐是沒有區(qū)別的,不然根據(jù)Apriori算法思想很難進(jìn)行進(jìn)一步的處理。時(shí)間處理如公式4所示,T_mixi代表就餐均值時(shí)間,Scan{T1|T2|T3……|TN}代表規(guī)定的好的區(qū)間,在不同區(qū)間給出不同的值賦值給Avg_Mixi,Avg_Mixi就代表最終的該項(xiàng)值并參與關(guān)聯(lián)規(guī)則的建立。
4.2 加權(quán)的項(xiàng)集
傳統(tǒng)的Apriori算法對(duì)所有的數(shù)據(jù)處理方式都是進(jìn)行直接計(jì)數(shù)的方式,這種方式就是用起來(lái)比較簡(jiǎn)單,但是容易把一些不是常出現(xiàn),但是可能起到很重要的數(shù)據(jù)過濾掉,本文采用一種加權(quán)的方式對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的處理,在關(guān)注的學(xué)生行為數(shù)據(jù)中圖書借閱相關(guān)數(shù)據(jù)首先應(yīng)進(jìn)行處理,因?yàn)閷W(xué)校對(duì)每個(gè)學(xué)生的借閱數(shù)量有硬性要求,每個(gè)學(xué)期不得少于多少,這樣就導(dǎo)致雖然學(xué)生借閱圖書的數(shù)據(jù)是真實(shí)的,但是無(wú)意義的數(shù)據(jù)很多,如果進(jìn)行處理,更多的時(shí)候更需要關(guān)注期末階段學(xué)生借閱的圖書數(shù)量及圖書與專業(yè)之間的關(guān)系度,所以依據(jù)上述特征統(tǒng)計(jì)到的數(shù)據(jù)應(yīng)該適當(dāng)降低該項(xiàng)權(quán)重。
對(duì)于自習(xí)時(shí)間的處理,由于我校(六盤水師范學(xué)院)的自習(xí)室并沒有完全采用電子化的處理方式,很多學(xué)生的自習(xí)得不到有效的統(tǒng)計(jì),只能統(tǒng)計(jì)到部分教室的情況,而且有些自習(xí)是學(xué)院內(nèi)部強(qiáng)調(diào)上的,效果也可能大打折扣,所以應(yīng)對(duì)該項(xiàng)數(shù)據(jù)首先進(jìn)行統(tǒng)一上自習(xí)的數(shù)據(jù)的刪除,然后對(duì)于其他時(shí)間地點(diǎn)統(tǒng)計(jì)到的數(shù)據(jù)進(jìn)行提升權(quán)重的方式來(lái)處理,而且也要把自習(xí)時(shí)間進(jìn)行范圍歸一化處理,如有效自習(xí)時(shí)間以3次為基準(zhǔn),沒增加3次為該生的自習(xí)進(jìn)行一個(gè)更新。公式如5所示,[Z_countY]代表原始統(tǒng)計(jì)的有效自習(xí)次數(shù),[Zcount]代表最終進(jìn)行處理話之后的自習(xí)次數(shù)統(tǒng)計(jì)。
通過對(duì)數(shù)據(jù)的分析發(fā)現(xiàn)就餐時(shí)間的權(quán)重也應(yīng)進(jìn)行適當(dāng)?shù)慕档?,大部分學(xué)生采用外賣的形式就餐,這樣導(dǎo)致很多數(shù)據(jù)的不完整,雖然通過某些數(shù)據(jù)處理技巧進(jìn)行的簡(jiǎn)單的處理,但是該項(xiàng)數(shù)據(jù)實(shí)際的完整意義已經(jīng)發(fā)生了改變,所以應(yīng)適當(dāng)降低該項(xiàng)數(shù)據(jù)的權(quán)重。
4.3 實(shí)驗(yàn)測(cè)試
通過對(duì)數(shù)據(jù)的預(yù)處理之后發(fā)現(xiàn),要把自習(xí)的數(shù)據(jù)提高5倍以滿足支持度的要求,不然就導(dǎo)致自習(xí)數(shù)據(jù)基本在關(guān)聯(lián)分析中無(wú)效。需要對(duì)圖書借閱次數(shù)數(shù)據(jù)進(jìn)行縮小4倍進(jìn)行處理,這樣才能有效地得出考前兩周內(nèi)的借閱書籍的比例,繼而參與有效關(guān)聯(lián)。同時(shí)需要對(duì)就餐數(shù)據(jù)降低10倍來(lái)進(jìn)行數(shù)據(jù)的關(guān)聯(lián)分析,不然可能出現(xiàn)就餐數(shù)據(jù)支持度遠(yuǎn)遠(yuǎn)高于其他兩項(xiàng)。
修改的Apriori算法記為W_S_Apriori。
通過使用W_S_Apriori算法對(duì)六盤水師范學(xué)院學(xué)生行為數(shù)據(jù)進(jìn)行分析可得出支持度計(jì)數(shù)如表4所示。
下面分別使用2MB、5MB、10MB、20MB的數(shù)據(jù)量對(duì)三種算法對(duì)比發(fā)現(xiàn)W_S_Apriori算法在關(guān)聯(lián)預(yù)測(cè)方面做得更好。如圖1所示,衡中代表數(shù)據(jù)量的大小,縱軸代表關(guān)聯(lián)準(zhǔn)確性。
5 總結(jié)
本文針對(duì)學(xué)生行為數(shù)據(jù)進(jìn)行處理分析,并提出了一種加權(quán)修正區(qū)間值的一種改進(jìn)Apriori算法W_S_Apriori,該算法相對(duì)于傳統(tǒng)的關(guān)聯(lián)算法更能夠準(zhǔn)確地進(jìn)行數(shù)據(jù)的關(guān)聯(lián),大大提高了算法的可靠性,但是由于W_S_Apriori算法本身是基于Apriori的算法的改進(jìn),所以大規(guī)模數(shù)據(jù)使用該算法效率會(huì)大大降低。
參考文獻(xiàn):
[1] 戎荷婷,王瑞玲,武晶,等.學(xué)生行為對(duì)學(xué)生成績(jī)的影響探究[J].現(xiàn)代商貿(mào)工業(yè),2016,37(23):185-186.
[2] 姜楠,許維勝.基于數(shù)據(jù)挖掘技術(shù)的學(xué)生校園消費(fèi)行為分析[J].大眾科技,2015,17(1):26-28,39.
[3] 馬丹.基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].長(zhǎng)春:吉林大學(xué),2015.
[4] 王鳳軍.大學(xué)生行為習(xí)慣養(yǎng)成教育的措施與方法研究[J].當(dāng)代教育理論與實(shí)踐,2014,6(12):129-130.
【通聯(lián)編輯:梁書】