陳 霄,曾振東
(廣東青年職業(yè)學院,廣東 廣州510507)
隨著高職院??焖侔l(fā)展,規(guī)模不斷擴大,造成高職院校在課程設置、教學內容、學生管理、招生就業(yè)等方面面臨嚴峻的考驗,傳統(tǒng)的教學管理理念已經(jīng)不能夠適應高職院校發(fā)展的需要,但是,許多高職院校在專業(yè)課程設置上都是在以往的專業(yè)課程設置基礎上結合教學實際情況簡單的進行修改,很少高職院校在專業(yè)課程設置上聽取企業(yè)的建議或者遵循市場對人才的需求,導致課程應該在哪個學期開設或者是否繼續(xù)開設等方面存在不少問題。
目前,基本上所有的高職院校都是采用基于WEB的教學管理系統(tǒng)對學生成績信息進行有效管理,隨著時間的推移,教學管理系統(tǒng)將產(chǎn)生海量的數(shù)據(jù),大量的數(shù)據(jù)沒有被充分的利用,因此,如何利用關聯(lián)規(guī)則挖掘技術發(fā)掘隱藏在海量學生成績數(shù)據(jù)背后有價值的信息或者規(guī)則,如課程之間的聯(lián)系,學生成績與課程之間的聯(lián)系等等,為教師授課、學生學習、教育管理決策提供有用的理論指導。
數(shù)據(jù)挖掘(Data Mining),就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又潛在有用的信息和知識的過程。[1]關聯(lián)規(guī)則挖掘是從大量數(shù)據(jù)中挖掘出有價值的、描述數(shù)據(jù)項之間相互聯(lián)系的有關知識。[2]關聯(lián)規(guī)則是數(shù)據(jù)挖掘研究領域的一項重要技術,其目的是從數(shù)據(jù)庫中挖掘出不低于預先給定min-support閾值和minconfi閾值的關聯(lián)規(guī)則。[3]
關聯(lián)規(guī)則描述為:設I={i1,i2,……,im}為M個項目集,D為交易數(shù)據(jù)集合,其中事務T是I項目子集(T?I),對應的每一個事務交易都有唯一的標識TID。關聯(lián)規(guī)則形如X?Y的邏輯蘊涵式,其中X?I,Y?I,且X∩Y=ф。如果事務數(shù)據(jù)庫D中有s%的事務包含X∪Y,則稱關聯(lián)規(guī)則X?Y的支持度為s%,若項集X的支持度記為support(X),規(guī)則的信任度為support(X∪Y)/support(X)。[4]也就是:
Apriori算法是關聯(lián)規(guī)則挖掘中重要的算法之一,它的核心思想是采用逐層搜索的迭代的方法通過多次掃描數(shù)據(jù)庫D來找出所有的頻繁項集。其算法描述如下:
Apriori算法雖然簡單明了,容易實現(xiàn),但是存在許多不足之處,一是對數(shù)據(jù)庫D掃描次數(shù)過多,二是會產(chǎn)生大量的中間項集。針對這兩個問題,筆者對Apriori算法做了相應的改進,將整個數(shù)據(jù)庫進行分段,挖掘過程只需在段內進行,接著各子數(shù)據(jù)庫挖掘結果匯總,最終刷選出關聯(lián)規(guī)則。
高職院校計算機專業(yè)課程包括有圖像處理、網(wǎng)頁設計、動畫制作、網(wǎng)站制作與維護、C語言程序設計等。采用改進的Apriori算法對計算機專業(yè)課程進行分析,分析流程包括數(shù)據(jù)選擇、數(shù)據(jù)刷選、數(shù)據(jù)轉換、數(shù)據(jù)挖掘及結果分析。
本研究選取某高職院校計算機專業(yè)10級到12級學生成績表作為數(shù)據(jù)源,挖掘課程之間的關聯(lián)性。為了減少冗余數(shù)據(jù),將一些對專業(yè)課程影響較小的字段刪除,刪除了思政類、人文類、體育類和公共基礎課成績,最終選取了《圖像處理》、《網(wǎng)頁設計》、《動畫制作》等15門專業(yè)基礎、專業(yè)骨干、專業(yè)核心課程學生成績作為研究對象。
采集的數(shù)據(jù)往往存在數(shù)據(jù)冗余、數(shù)據(jù)不完整性等現(xiàn)象,不能直接進行挖掘,需要對數(shù)據(jù)進行篩選處理。例如對于學生成績表中含有學生的電話、地址、出生年月等字段,一一進行刪除;對于學生成績表中的學生退學、轉學等記錄一一刪除;對于學生成績表中缺考的信息,采用忽略元組的方法刪除;對于個別空缺值,采用人工填充的簡單方式,其填充值為該字段的中值;對于補考、重修通過的學生成績,采用替換的方式填充為50分,便于數(shù)據(jù)轉換。經(jīng)過數(shù)據(jù)篩選的數(shù)據(jù)如表1所示。
從表1中可以看出,每一條元組代表一名學生的課程成績,表中成績都是采用0-100的數(shù)值表示,如果直接進行數(shù)據(jù)挖掘,難以取得滿意的結果,所以,需要對每一條元組對應的屬性值進行量化,如采用區(qū)間量化,使每名學生每門課的成績值落入到特定的區(qū)間,最終轉換成離散屬性。因此,本文將學生各門課程成績分為優(yōu)秀、良好、中、及格、差五等,分別用A、B、C、D、E表示,90-100分為A類,80-89分為B類,70-79分為C類,60-69分為D類,60分以下為E類,同時,為了便于書寫,本文將表中各屬性的字段名用英文字母替代,其中KC1為《圖像處理》、KC2為《網(wǎng)頁設計》,KC3為《動畫制作》、KC4為《網(wǎng)站制作與維護》、KC5為《C語言程序設計》等等,數(shù)據(jù)轉換后如表2所示。
表1數(shù)據(jù)篩選后的學生成績表
表2 數(shù)據(jù)轉換后的學生成績表
要對上述學生課程成績進行課程關聯(lián)規(guī)則挖掘,本文采用的算法運行的硬件平臺:Intel酷睿2雙核E7500、2GB內存,軟件平臺:Windows XP、SQL Server 2000、SPSS Clementine。經(jīng)過數(shù)據(jù)轉換的學生成績數(shù)據(jù)已經(jīng)滿足Apriori算法對數(shù)據(jù)的要求,可以直接使用Apriori模型進行挖掘。為了能夠得到準確有效的課程關聯(lián)規(guī)則,經(jīng)過反復驗證處理,將最小支持度設定為30%,最小置信度設定為60%。部分挖掘結果如圖1所示。
圖1部分挖掘結果
上面挖掘出來的98條結果并非每條關聯(lián)規(guī)則都有意義,我們對某些無價值的關聯(lián)規(guī)則進行處理,無價值關聯(lián)就是一門課程的成績在A、B、C、D類中的其中一類能夠同時推出另外一門課程的成績?yōu)锳、B、C、D類中的兩類或者兩類以上的規(guī)則。例如,《圖像處理》成績?yōu)锳的學生可以推出《網(wǎng)頁設計》課程的學生成績即為A或者C等,這類規(guī)則就沒有意義。關聯(lián)規(guī)則分析主要有兩個參考依據(jù):支持度與置信度,若數(shù)據(jù)集中D有C比例的事務T滿足“包含A事務的同時包含B事務”,則稱規(guī)則A→B具有C置信度,置信度的高低代表關聯(lián)規(guī)則強弱,置信度越高,關聯(lián)越強。
通過整理98條,剩下64條有價值的規(guī)則,分析這些關聯(lián)規(guī)則,得到部分主要的關聯(lián)規(guī)則如下:
規(guī)則1:C語言程序設計=A→網(wǎng)頁設計=A,置信度為69.2%,圖像處理=A、C語言程序設計=A→網(wǎng)頁設計=A,說明C語言程序設計、圖像處理是網(wǎng)頁設計的前導課程,因此,在課程設置中,網(wǎng)頁設計排在C語言程序設計、圖像處理課之后。
規(guī)則2:動畫制作=A→網(wǎng)頁設計=C,置信度為70.5%,通過查看課程的安排學期發(fā)現(xiàn),網(wǎng)頁設計課程安排在動畫制作課程的前面,導致動畫制作課程為優(yōu)秀的學生,網(wǎng)頁設計課程的學生不一定為優(yōu)秀,因此,動畫制作課程應該安排在網(wǎng)頁設計的前面。
以下幾條規(guī)則的含義相似,不在詳述。
規(guī)則3:網(wǎng)頁設計=A、C語言程序設計=A→網(wǎng)站制作與維護=A,置信度為85%。
規(guī)則4:數(shù)據(jù)結構=D、C語言程序設計=D→數(shù)據(jù)庫技術=D,置信度80.3%。
規(guī)則5:C語言程序設計=A、操作系統(tǒng)=A→網(wǎng)站制作與維護=A,置信度76.5%。
規(guī)則6:計算機基礎=A、計算機組裝與維護=A、C語言程序設計=A→信息系統(tǒng)分析與設計=A,置信度82%。
從以上規(guī)則可以看出,C語言、數(shù)據(jù)結構對于計算機專業(yè)的學生來說是一門基礎課,比較重要。筆者通過分析某高職院校計算機專業(yè)課程設置是否合理,簡單的得出計算機專業(yè)課程體系,其中基礎課程為計算機基礎、計算機組裝與維護、計算機網(wǎng)絡技術、辦公自動化高級應用、圖像處理、動畫制作、C語言程序設計等,骨干課程為數(shù)據(jù)庫技術、網(wǎng)頁設計、操作系統(tǒng)、網(wǎng)站制作與維護等,核心課程為動態(tài)WEB技術、信息系統(tǒng)分析與設計等。
高職教育是培養(yǎng)符合市場需求的高技能型人才,通過關聯(lián)規(guī)則挖掘算法,能夠有效地挖掘出課程之間的關聯(lián)關系,為高職院校課程設置、教學計劃和教學方案提供有力地決策支持,也為學生學習提供方向性指導意見。
[1]JHan,MKamber.Data Mining:Concepts and Techniques[M].San Mateo,CA:Morgan Kaufmann,2001.
[2]付沙,周航軍.關聯(lián)規(guī)則挖掘Apriori算法的研究與改進[J].微電子學與計算機,2013(9).
[3]孫志剛,朱小冬,王毅剛.基于改進關聯(lián)規(guī)則的維修專業(yè)組合與優(yōu)化模型[J].計算機應用研究,2013(2).
[4]屈展,陳雷.一種改進的APR IOR I算法在電子商務中的應用[J].西安石油大學學報(自然科學版),2012(1).