周 皞,萬里亞
高校貧困生資助是關系到教育公平的重要問題,而貧困生判別則是高校貧困生資助的前提和難點所在。貧困生判別問題的產(chǎn)生有其特定的社會背景,在某種意義上,它是資助資源稀缺的產(chǎn)物。面對資源有限和需求膨脹的矛盾,有效識別貧困生并將有限資源提供給最貧困者是教育資助的宗旨。筆者分析某高校1175位學生從2008年到2010年在校三年的校園一卡通消費數(shù)據(jù),旨在如何利用校園卡消費數(shù)據(jù)來輔助評判學生(家庭)經(jīng)濟狀況,為高校更有效的開展貧困生判別工作提供方法及實踐參考。
貧困生又稱家庭經(jīng)濟困難學生,是指學生本人及其家庭所能籌集到的資金,難以支付其在校學習期間的學習和生活基本費用的學生(教財[2007]8號文)。貧困生判別是指依據(jù)一定的理論和方法,對貧困學生家庭經(jīng)濟困難程度所做的評價。從操作層面上而言,貧困生判別是指通過一定的方法把貧困生從學生總集合中選出來。
國內(nèi)外關于貧困生判別方法有所不同。西方發(fā)達國家基于完善的稅收機制,可以比較準確地掌握學生家庭的經(jīng)濟收支,多常用“公式法”(又稱“模型法”)測算貧困生家庭經(jīng)濟狀況由此來判別貧困生。
在我國各高校貧困生判別方法沒有統(tǒng)一的標準,通常采用定性與定量結合的方法判別貧困生。[1]其具體實施步驟為三個方面:(1)各高校需了解學生經(jīng)濟情況。依靠學生入學時填寫的《高等學校學生及家庭情況調(diào)查表》或者貧困證明,即高校對學生經(jīng)濟困難程度的判別,僅限于學生入學時提供的調(diào)查表或縣鄉(xiāng)村三級證明、相關困難證件(如《特困證》、《最低生活保障證》、《社會扶助證》等)證明;(2)依靠評價學生的經(jīng)濟消費,如飯卡監(jiān)督、低保標準和月生活費監(jiān)督等;(3)根據(jù)班主任、輔導員對學生了解情況等鑒別。
由此判別方法建立起來的評判指標體系雖可較全面反映學生(家庭)經(jīng)濟狀況,但由于其所涉及的數(shù)據(jù)收集量過大,數(shù)據(jù)質(zhì)量往往得不到保障,加上一些指標不易量化,且不同地區(qū)的情況可比性差等原因,致使實際工作中困難重重,可操作性較差,其效果并不理想。
隨著教育信息化建設在高校的不斷深入,許多高校已逐漸建立起了一系列功能日臻完善的校園一卡通系統(tǒng)。校園一卡通系統(tǒng)是學校重要的綜合性信息管理系統(tǒng),在學校信息化建設中占據(jù)著重要地位。目前,高校所建的校園一卡通系統(tǒng)一般提供消費繳費、身份識別以及信息管理三大功能,其中消費繳費功能較全面地反映持卡人在學校生活期間的總體消費額度和結構情況。[2]考慮到高校學生的生活消費基本上集中在校園內(nèi)部,故可以基于校園卡的消費數(shù)據(jù)分析來輔助推測、評判學生(家庭)的經(jīng)濟狀況。
高校在建設校園一卡通系統(tǒng)時所覆蓋的校內(nèi)消費繳費項目可能各有不同。一般來說,覆蓋的消費繳費項目越多,其消費繳費數(shù)據(jù)反映學生(家庭)經(jīng)濟狀況越準確。在眾多消費繳費項目中,雖然有些的額度屬于政策規(guī)定且相對固定的,有些消費的發(fā)生屬于意外或隨機的,但更多的則與學生的個人情況密切相關,所以通過合理分析和數(shù)據(jù)挖掘,可以測度出消費數(shù)據(jù)與學生經(jīng)濟狀況的關聯(lián)規(guī)則。
在校園一卡通系統(tǒng)中,消費數(shù)據(jù)具有明確的消費項目標識,原始數(shù)據(jù)是以流水記錄形式存于數(shù)據(jù)庫的。在使用消費數(shù)據(jù)進行數(shù)據(jù)分析前,需要對原始數(shù)據(jù)進行必要的整理,一般應按學生的卡號、班級、年級、院系、專業(yè)、性別與消費發(fā)生時間、額度、消費項目等重新組織流水記錄,最好是另建數(shù)據(jù)倉庫,以適應數(shù)據(jù)運算需要。數(shù)據(jù)處理工作主要由數(shù)據(jù)類型轉(zhuǎn)換、缺失值處理和刪除孤立點三部分組成,將“校園一卡通”消費原始數(shù)據(jù)進行初步的分類、合并、篩選以及整理,并將其保存在數(shù)據(jù)倉庫中。實證研究中,筆者匯總了某高校1175位學生在校三年的一卡通消費情況,建立了數(shù)據(jù)倉庫,數(shù)據(jù)倉庫由Micro soft SQLS erver 2005 Analys is Services提供。
實證研究主要采用基于關聯(lián)規(guī)則的分類算法:(1)將數(shù)據(jù)倉庫中的數(shù)據(jù)分為訓練樣本和測試樣本兩大類;(2)通過關聯(lián)規(guī)則挖掘算法在訓練樣本中找出與學生的經(jīng)濟情況有較強相關性的特征規(guī)則;(3)利用這些特征規(guī)則對測試樣本進行預測分類,輸出分類結果。簡而言之,研究所要解決的問題是:給定一個學生的校園卡消費數(shù)據(jù),將其分類為貧困生和非貧困生兩類。也就是說,要解決的核心問題是如何定義一個學生基于消費數(shù)據(jù)的特征向量,然后找到特征向量與是否為貧困生之間的關聯(lián)規(guī)則,并用這些規(guī)則去預測新學生是否為貧困生。
給定一個數(shù)據(jù)類型為
算法的目標是在給定一個支持度閾值α和置信度閾值β的情況下,算法通過結合規(guī)則挖掘算法找到一系列滿足這兩個閾值的屬性值與類別的對應規(guī)則,并通過這些規(guī)則判斷未知類別的測試數(shù)據(jù)。其中,支持度是指屬性值和某個類別之間的對應規(guī)則在整個訓練集的出現(xiàn)概率,而置信度是指給定屬性值的對應數(shù)據(jù)集合,屬性值和某一類別之間的對應規(guī)則在這個集合中出現(xiàn)的概率。此類規(guī)則挖掘算法常用的有Apriori算法和F P-growth算法等。
基于已有的貧困生和非貧困生數(shù)據(jù),可以分析建立相關特征向量,然后計算出特征向量與貧困生之間的關聯(lián)規(guī)則?;陉P聯(lián)規(guī)則和新的學生的消費數(shù)據(jù),再來輔助判斷新學生是否是貧困生。假設挖掘出一條規(guī)則“{三個學年的總消費金額<5000;三個學年平均每次消費金額<5}==>貧困生”,那么滿足這條規(guī)則的學生,可以判斷其為貧困生,然后將此規(guī)則判斷結果提交給學校相關部門作為輔助決策。
經(jīng)過分析,研究建立的特征向量如下表所示,其中的特征代碼和數(shù)值級在實驗結果中解釋。特征向量可以根據(jù)實際的情況不斷調(diào)整(增加、修改或者刪除),從而使得算法不斷優(yōu)化。
訓練數(shù)據(jù)中,學生數(shù)量為1175個,其中非貧困生數(shù)量為743,貧困生數(shù)量為432。因此,非貧困生規(guī)則選擇的置信度至少是743/1175=0.63以上,貧困生規(guī)則選擇的置信度至少是432/1175=0.37以上。根據(jù)實際情況可以提高置信度閾值進一步篩選,目前在支持度閾值為0.1和底限置信度閾值的基礎上得到關聯(lián)規(guī)則若干條,舉例如下。
表1 消費數(shù)據(jù)的特征向量
該規(guī)則的解釋如下,“1-avg”是特征代碼,對應表中的“第一學年平均每次消費金額”特征向量,數(shù)量級為0.5,1-avg=6表示消費金額在6*0.5到7*0.5之間;“l(fā)unch-avg”對應表中的“三個學年平均午餐消費金額”特征向量,數(shù)量級為0.5,lunch-avg=8表示消費金額在8*0.5到9*0.5之間。滿足此條件的學生個數(shù)為162個,其中非貧困生128個,置信度為0.79。
該規(guī)則的解釋如下,all-avg在5*0.5到6*0.5之間,滿足此條件的學生個數(shù)為297個,其中非貧困生129個,置信度為0.43。
類似關聯(lián)規(guī)則可以通過調(diào)整特征向量和支持度和置信度閾值來不斷優(yōu)化,再利用這些關聯(lián)規(guī)則對測試樣本進行預測分類,用于貧困生判別輔助決策。
綜上所述,以高校學生校園一卡通消費數(shù)據(jù)為基礎,提出了將數(shù)據(jù)挖掘技術應用于高校貧困生輔助判別的一種新思路。筆者設計了基于數(shù)據(jù)挖掘技術中的分類預測和關聯(lián)規(guī)則的數(shù)據(jù)挖掘模型,并利用該模型對實際數(shù)據(jù)進行挖掘計算,并以期挖掘貧困生判別的關聯(lián)規(guī)則,作為貧困生評定工作提供輔助依據(jù)。數(shù)據(jù)挖掘模型的使用效率,可以通過調(diào)整特征向量和支持度和置信度閾值來提高,這也將是課題組今后研究工作需要進一步關注的重要內(nèi)容之一。
[1]畢鶴霞.中國高校貧困生判別方法及其認同度的實證研究[J].高教探索,2011(4):118-123.
[2]宋德昌.基于校園卡的學生經(jīng)濟狀況評價方法研究[J].中山大學學報(自然科學版),2009(S 1):9-11.