吳梨梨
(1.福州大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院 福建 350000;2.福州英華職業(yè)學(xué)院計算機系 福建 350018)
從20世紀80年代高職教育起步開始,高職教育在將近三十年的時間中慢慢的普及開來,成為了高等教育結(jié)構(gòu)體系中不可缺少的一部分,對增進高等教育的普及起到了不可忽略的作用,也對社會培養(yǎng)高素質(zhì)的技能型人才發(fā)揮了重要作用。但是在高職學(xué)生畢業(yè)后跟蹤調(diào)查中,會發(fā)現(xiàn)有很大一部分的學(xué)生在畢業(yè)之后并沒有從事跟本專業(yè)相關(guān)的職業(yè)。這里面的原因是多方面的,但是有一個原因需要我們的關(guān)注,那就是學(xué)生對所就讀的專業(yè)不滿意。部分高職學(xué)生由于對專業(yè)陌生而削弱了對專業(yè)的認識與學(xué)習(xí);更多學(xué)生在選擇專業(yè)的時候完全是隨機或隨大流;還有一部分學(xué)生是缺乏學(xué)習(xí)某個專業(yè)所必須的某種技能,導(dǎo)致專業(yè)學(xué)習(xí)能力差,這些因素直接影響了對專業(yè)的學(xué)習(xí),影響了后續(xù)就業(yè)的職業(yè)發(fā)展。在這種情況下,合理地引導(dǎo)學(xué)生認識專業(yè)、喜愛專業(yè),是大學(xué)里教書育人的重要前提。同時我們也可以采用一些技術(shù)手段,對學(xué)生的專業(yè)傾向性進行分析,找出影響專業(yè)學(xué)習(xí)的因素,這樣就可以最大程度地避免在專業(yè)選擇上走彎路。
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又潛在有用的信息和知識的過程[1]。
數(shù)據(jù)挖掘最根本的任務(wù)就是從海量的原始數(shù)據(jù)之中對數(shù)據(jù)進行采集選擇,經(jīng)過預(yù)處理后對目標數(shù)據(jù)作出數(shù)據(jù)挖掘,并解釋評價所得出的知識、模式。圖1展示了數(shù)據(jù)挖掘的一般過程。
圖1 數(shù)據(jù)挖掘的一般過程
數(shù)據(jù)挖掘方法是由人工智能、機器學(xué)習(xí)的方法發(fā)展而來,結(jié)合傳統(tǒng)的統(tǒng)計分析方法、模糊數(shù)學(xué)方法及可視化技術(shù),以數(shù)據(jù)庫為研究對象,形成了數(shù)據(jù)挖掘的方法和技術(shù)[2]。包括:關(guān)聯(lián)規(guī)則方法、決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、粗糙集理論方法、遺傳算法、可視化技術(shù)等。
在本文中進行數(shù)據(jù)挖掘主要采用的是決策樹方法。決策樹具有分類直觀的優(yōu)點,它分類速度快、分類精度高,具有可靠性,容易讀懂的特點,很適合對大型數(shù)據(jù)集進行分類。決策樹的分析結(jié)果既可以顯示為樹形結(jié)構(gòu)的圖表形式,也可以被解讀為“IF→THEN”形式的規(guī)則,即使沒有算法基礎(chǔ)的使用者也可以很快理解它。
決策樹是由測試節(jié)點和終端節(jié)點組合成的集合。從圖形上看,決策樹首先是一個向下分支的樹形結(jié)構(gòu),在樹發(fā)起的頂端是整個用以分類的數(shù)據(jù)集,每一個分支出去的葉節(jié)點都對應(yīng)著某一類,或者是某一個劃分,它們是父節(jié)點按某種條件分類、劃分后形成的子集,也就是說每一個節(jié)點都對應(yīng)著某一個子集。決策樹的分枝是自上而下進行的,它尤其適合解決問題的分類或者對應(yīng)某些條件導(dǎo)出的規(guī)則等。每一個分支節(jié)點都能體現(xiàn)出在它之上進行的屬性測試,按測試結(jié)果繼續(xù)分枝,直到達到葉節(jié)點位置。
決策樹分類的過程是一個不斷重復(fù)并向下移動的過程,它包含分裂與剪枝兩個階段。
首先,決策樹根據(jù)訓(xùn)練數(shù)據(jù)集判定頂端根節(jié)點集合的存在,根據(jù)決策樹算法將節(jié)點中的數(shù)據(jù)元組經(jīng)由屬性測試劃分為該節(jié)點上個體類的最好方法與策略。在這其中,每一個內(nèi)部節(jié)點都有一個被標記的屬性,每一個葉節(jié)點都被表示為某一個類,同時每一個分支的弧都記錄一個相對于父節(jié)點的屬性值。分支過程是一個在N節(jié)點上不斷重復(fù)、不斷遞歸的過程。直到被分析數(shù)據(jù)集中的每個子集的記錄數(shù)據(jù)都屬于某一個類別或某一個類起壓倒性多數(shù)優(yōu)勢,決策樹的分類算法才算停止?;蛘?,當事先設(shè)定好決策樹的分類準則,當生成的決策樹能滿足中國分類準則時,決策樹的算法也會停止。最終,形成宛如樹形結(jié)構(gòu)的決策樹規(guī)則模型。
當決策樹生成后,可能因分類條件太多,而形成龐大的樹形結(jié)構(gòu),使用者一眼望去,觸目都是樹枝樹葉,難以分清主次、重要性。所以,當決策樹的分類完成后,要進行剪枝處理,把不明顯的、不能回答使用者問題的、由于噪聲而形成的分枝等枝葉剪出,得到清晰簡潔的樹形結(jié)構(gòu)。決策樹剪枝時,應(yīng)選擇分裂條件和修剪規(guī)則,以及控制參數(shù)——比如最小節(jié)點的大小,或最大輸?shù)纳疃鹊取獊硐拗茮Q策樹。這里應(yīng)注意的是,剪枝應(yīng)該適度,某些“噪聲點”反而有可能是被忽略的規(guī)則,剪枝應(yīng)慎重。
本文采用SPSS Clementine工具對某高職院校07-09級會計電算化專業(yè)的相關(guān)數(shù)據(jù)進行分析,得到影響學(xué)生的專業(yè)傾向性的因素。
SPSS Clementine工具軟件中的C5.0組件是基于ID3算法為內(nèi)核的。
ID3算法是由 Quinlan首先提出的一種經(jīng)典的決策樹分類算法對決策樹的其他算法有啟發(fā)意義與深遠的影響,有很多后來發(fā)展的決策樹算法就是在ID3算法的基礎(chǔ)上做的改進。
ID3算法以信息論為基礎(chǔ),在決策樹中引入了一個很重要的概念——熵。在決策樹的分枝時,劃分后的子集的熵越小越好。
決策樹的基本功能是能夠從數(shù)據(jù)中歸類出分類模型,是一種自頂向下的,基于貪心算法進行搜索訓(xùn)練的解法。另一個ID3算法的衡量標準是信息的增益度。決策樹在分枝時,在任意一個節(jié)點都評估各個屬性的信息增益。信息增益用以衡量熵的期望減少值。信息增益越大,熵的減少量也越大。以最大信息增益的那個屬性作為分枝屬性,以此來構(gòu)造決策樹。
一個ID3算法的定義如下:
(2):假如同時有n個互相獨立的可能結(jié)果存在,它們存在的概率相同,其概率分布為則有:
記為由該分布傳遞的信息量稱為P的熵。
同時,該事物所具有的不確定量H(X) 為:
該公式記為香農(nóng)信息量公式。一個等概率的二選一事件具有1比特的不確定性。任何一個事件能夠被分解為n個可能的二選一事件,因此它的信息量就是n比特。
(3)一顆決策樹能對一個例子做出正確類別判斷所需要的信息量記為:
(4)一個以屬性 A為根的決策樹中,A具有 v個值{v1,v2,…,vv},它將A分為v個子集{e1,e2,… ,ev},假設(shè)ei中含有pi個正例和ni各反例,那么子集di所需的信息期望是I(pi,ni),即以屬性A為根的信息增益公式為:
這一階段利用Clementine 用C5.0組件以專業(yè)傾向為目標進行建模。圖2展示對07-09級會計電算化專業(yè)學(xué)生的高考信息、分課程專業(yè)課成績等數(shù)據(jù)使用C5.0決策樹建模的結(jié)果。其中成績字段使用的是百分等級成績。
圖2 使用C5.0決策樹對07-09級會計電算化專業(yè)學(xué)生的信息建模的結(jié)果
總共生成4個有效的規(guī)則:
圖3 C5.0專業(yè)傾向規(guī)則集
生成的決策樹極其龐大,經(jīng)由75%剪枝后,得到?jīng)Q策樹如下:
圖4 c5.0經(jīng)由75%剪枝生成的決策樹
使用評估工具分析其正確性,得到的結(jié)果如圖5所示:
圖5 C5.0的正確性評估
模型的正確性在91.74%,結(jié)果較正確。
從C5.0的建模結(jié)果看到,有三門專業(yè)課對專業(yè)傾向性有極大影響,分別是財務(wù)管理、財務(wù)會計和會計電算化課程。相形之下高考分數(shù)、籍貫、科類、性別等入學(xué)信息并不占主導(dǎo)地位。
數(shù)據(jù)挖掘得到的知識并不是絕對,一般情況下是針對特定的領(lǐng)域的。本文通過某高職院校07-09級會計電算化專業(yè)的學(xué)生相關(guān)數(shù)據(jù)進行數(shù)據(jù)挖掘,得到了影響專業(yè)傾向性的相關(guān)因素。但是這個影響因素還不具備有廣泛的意義,想要得到對所有高職院校都有影響意義的結(jié)論,則加大參與數(shù)據(jù)挖掘的數(shù)據(jù),并且參與數(shù)據(jù)挖掘的方法也要多選用幾種。
[1]李云松,羅斌.基于數(shù)據(jù)挖掘的高職高專生源分析系統(tǒng)設(shè)計與實現(xiàn)[J].滁州職業(yè)技術(shù)學(xué)院學(xué)報,2011,(01),12-14.
[2]陳文偉.數(shù)據(jù)挖掘技術(shù)[M].第 1版.北京:北京工業(yè)大學(xué)出版社,2002.