王新龍
(長治學院 計算機系,山西 長治 046011)
聚類分析在中等職業(yè)學校學生專業(yè)選擇分析中的應用
王新龍
(長治學院 計算機系,山西 長治 046011)
利用聚類分析能比較清晰的獲得數據分布的情況,根據每一個簇的特點,可以對特定的簇作進一步分析。對中等職業(yè)學校學生入學成績進行聚類分析是學生專業(yè)選擇的重要參考。傳統(tǒng)的專業(yè)選擇方法存在一些不足,使用聚k-平均聚類分析算法對學生的入學成績進行聚類分析,為學生提出專業(yè)選擇的建議,可以有效地克服傳統(tǒng)專業(yè)選擇方法的不足。
聚類分析;k-平均算法;專業(yè)選擇
中等職業(yè)學校主要招收十五、六歲的初中畢業(yè)生,學生年齡較小,多數家長和學生對專業(yè)要求了解不多或根本就不了解,往往有從眾心理,出現盲目選報專業(yè)。而后期又會因專業(yè)學習困難,需要重新更換專業(yè),造成學校資源及家庭時間、精力、資金的浪費,尤其是加重了貧困家庭的負擔。我們經過調查、討論認為,影響專業(yè)選擇的主要因素有:學生的理科(數學、物理、化學)基礎、文科(語文、政治、英語)基礎、職業(yè)能力成績、就業(yè)情況、個人愛好及性格特點等。通過對學生成績的聚類分析,可以將學生群體按其成績分為全面、偏理、偏文、一般等4類,以此聚類分析結果作為參考我們可以為學生專業(yè)選擇提出比較合理的建議。
數據挖掘可以簡單的理解為從大量數據中提取或挖掘知識,許多人把數據挖掘視為數據庫知識發(fā)現(KDD)。因此數據挖掘一般可表述為:從存放在數據庫、數據倉庫或其他信息庫中的大量數據中挖掘有趣知識的過程[1]。
聚類分析僅根據在數據中發(fā)現的描述對象及其關系的信息,將數據對象分組。其目標是:組內的對象相互之間是相似的(相關的),而不同組中的對象是不同的(不相關的)。組內的相似性(同質性)越大,組間差別越大,聚類就越好。
聚類技術發(fā)展迅速,在數據挖掘、模式識別、機器學習、統(tǒng)計學、心理學、生物學、信息檢索、空間數據庫技術、市場營銷等領域有著非常廣泛的應用前景。由于數據庫中收集了大量的數據,聚類分析已經成為數據挖掘研究領域一個非常活躍的研究課題。
聚類分析主要針對的數據類型包括:區(qū)間標度變量(如:重量、高度、工資);二元變量(如:0,1,或 Yes,No);標稱變量(如:traffic light具有紅、黃、綠三種狀態(tài)/停、看、行三種狀態(tài));序數型變量(如:教授、副教授、講師、助教;或者:總經理、部門經理、科長、職員);以及由這些變量類型構成的復合類型。
一些基本的聚類算法通常采用數據矩陣和相異度矩陣兩種典型的數據結構。
①數據矩陣:設有n個數據對象,可用p個屬性來描述每個對象,則n×p矩陣稱為數據矩陣。
②相異度矩陣:按n個數據對象兩兩間的相異度構建的n階矩陣(因為相異度矩陣是對稱的,只需寫出上三角或下三角即可)稱為相異度矩陣。
目前存在大量的聚類算法,具體應用時應根據數據的類型和聚類的目的以及應用范圍而選擇相應的舉法。到目前為止聚類的算法大體可分為如下幾類:
①基于劃分的方法。常見的算法有:k-平均算法,在該算法中每個簇用該簇中對象的平均值來表示;k-中心點算法,在該算法中,每個簇用接近聚類中心的一個對象來表示。
②基于層次的方法。常見的算法有:CURE、BIRCH和Chameleon等算法。
③基于密度的方法。常見的算法有:DBSCAN和OPTICS等算法。
④基于網格的方法。常見的算法有:WaveCluster和CLIQUE等算法。
⑤基于模型方法。常見的算法有:神經網絡算法和COBWEB等算法。
K-平均算法如下。
輸入:蔟的數目個數k和包含n個對象的數據庫;
輸出:k個蔟,使平方誤差準則最??;
方法:
(1)任意選擇k個對象作為初始的簇中心;
(2)repeat;
(3)根據簇中對象的平均值,將每個對象(重新)賦給最類似的蔟;
(4)更新簇的平均值,即計算每個蔟中對象的平均值;
(5)until不再發(fā)生變化;
中等職業(yè)學校主要培養(yǎng)學生既要具備一定的專業(yè)理論,更應該具有一定的職業(yè)技能水平,以適應社會的需求。但是每年大多數新生在專業(yè)選擇上無章可循,不清楚自己應該學什么專業(yè)。例如:前幾年計算機專業(yè)比較熱,很多家長、學生也不考慮自己是否適合就要求上計算機專業(yè),更不考慮市場需求量?,F在進行畢業(yè)生跟蹤調查并與其他專業(yè)作比較,我們會發(fā)現有不少學生認為當初的專業(yè)選擇是錯誤的。
每年新生入學都要進行文化課和職業(yè)能力測試,如何科學地根據入學成績和本人的實際情況給出學生比較適合的專業(yè)建議,是職業(yè)教育工作的首要問題。本文中主要使用了k-平均聚類分析算法來分析學生情況,從而給出專業(yè)建議及指導。
表1所示的是某職業(yè)學校09級100名學生的入學成績(部分),為便于計算,考慮到多數專業(yè)對學生的數學、物理、化學基礎要求較高,而對語文、政治、英語要求相對較弱,因此對數據進行如下處理:
理科成績=(數學+理化)/2,文科成績=(語文+政治+英語)/3;
均分=理科成績×0.6+文科成績×0.4,處理后的成績見表2;
表1 某職業(yè)學校學生入學成績表(部分)
表2 經過數據處理的成績表(部分)
職業(yè)能力成績作為選報專業(yè)的參考成績。
根據表2的均分成績,按照k-平均聚類算法。若初始簇中心為 50、65、80、90,則劃分的結果,如表3所示。
表3 k-平均算法分類結果
類1基本對應于學習成績較好的一類學生,理科、文科、職業(yè)能力成績都比較高,這類學生比較適合的專業(yè)比較多,如機械加工、電工、數控、物業(yè)管理、市場營銷等。
類2基本對應理科成績較好的學生,比較適合的專業(yè)為機械加工、電工、數控等專業(yè)。
因為這些專業(yè)對數學、物理基礎要求較高,就業(yè)后有大量的故障分析和計算工作。
類3基本對應文科成績較好的學生,比較適合的專業(yè)為:物業(yè)管理、旅游管理、文秘等專業(yè)。
類4基本對應各科成績較差的學生,比較適合餐飲服務、市場營銷、藝術類等專業(yè)或初級工種的學習。
這樣在專業(yè)選擇的時候,我們可以根據學生的成績及個人特點,給學生提供較好的專業(yè)選擇建議。
通過對應用以上方法的09級100名學生實際專業(yè)選擇情況調查,我們發(fā)現由于近年來數控加工技術工人短缺,就業(yè)形式較好,再加上媒體的報道宣傳,這100名學生報數控加工專業(yè)的人數多達63人,與聚類分析結果有較大差別。經過這一年的學習,由于有數控編程、工程力學、加工工藝相關計算等課程難度較大,當初理科成績較低現在還沒有明顯提高的少部分學生要求更換專業(yè),給教學管理及正常教學工作的實施帶來了一定的難度和資源的浪費。因此在未來的新生專業(yè)設置、選報專業(yè)指導等工作中,在充分做好市場調研的基礎上,可以用聚類分析方法,結合學生興趣、特點等給出比較科學的專業(yè)選擇建議,幫助學生選擇好專業(yè)。
本文針對中等職業(yè)學校學生選擇專業(yè)的有關問題,側重在成績方面通過聚類分析得到的結果給出了專業(yè)選擇的建議,通過實際應用取得了預期效果。
[1]范明,范宏建等譯.數據挖掘導論[M].北京:人民郵電出版社,2006.223-260.
[2]范明,孟小峰等譯.數據挖掘概念與技術[M].北京:機械工業(yè)出版社,2001.355-397.
(責任編輯 李學斌)
TP311
A
1673-2014(2010)05-0068-03
2010—08—10
長治學院2007年校級資助項目(編號:20072007)。
王新龍(1964— ),男,山西沁水人,副教授,主要從事數據庫、數據挖掘、信息技術教學法研究。