黃春華
摘 要: 為了從歷年積累下來的大量招生數(shù)據(jù)中獲得有價值的信息,根據(jù)相關數(shù)據(jù)挖掘的理論知識,在目前現(xiàn)有的通用數(shù)據(jù)挖掘過程模型的基礎上,結合高職院校招生工作及其數(shù)據(jù)的特點,給出一個高職招生數(shù)據(jù)挖掘過程模型的構建思路。該數(shù)據(jù)挖掘的過程模型可以為接下來的高職招生數(shù)據(jù)挖掘工作提供宏觀上的指導和工程化的方法。
關鍵詞: 數(shù)據(jù)挖掘; 過程模型; 招生數(shù)據(jù); 高職院校
中圖分類號:TP311.13 文獻標志碼:A 文章編號:1006-8228(2015)08-78-03
Construct of higher vocational enrollment data mining process model
Huang Chunhua
(Talent International College, Qinzhou, Guangxi 535000, China)
Abstract: In order to obtain the valuable information from the massive enrollment data accumulated over the years, according to the related theory of data mining, on the basis of the currently universal data mining process model and combined with the characteristic of higher vocational enrollment work and related data, a construction idea of higher vocational enrollment data mining process model is proposed, which could provide the macro guidance and the processing method for the next higher vocational enrollment mining data work.
Key words: data mining; process model; enrollment data; higher vocational college
0 引言
招生工作一直是高職院校最重要的工作,因為生源是其生存之本。如何有針對性地開展招生工作,既能提高新生報到率,又能節(jié)省招生成本,一直是高職院校非常關心的問題之一。通過對學校歷年保存下來的招生數(shù)據(jù)進行挖掘與分析,從中找到有價值的信息,以此來指導學校的招生工作,讓學校將有限的人力物力用在能“產(chǎn)出”大量生源的地區(qū),達到招生效益最大化。
數(shù)據(jù)挖掘(Data Mining)又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery from Database,簡稱KDD),它是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復雜過程,簡單地講就是從大量數(shù)據(jù)中抽取或挖掘出知識[1]。為了確保數(shù)據(jù)挖掘工作能有條不紊地實施并取得成功,必須先明確挖掘過程將采取什么樣的步驟、每一步需要做什么、達到什么樣的目標等,即在實施數(shù)據(jù)挖掘工作之前必須先構建好數(shù)據(jù)挖掘的過程模型。本文根據(jù)相關數(shù)據(jù)挖掘的理論知識,在現(xiàn)有的通用數(shù)據(jù)挖掘的過程模型基礎上,結合高職招生工作及其數(shù)據(jù)的特點,給出一個高職招生數(shù)據(jù)挖掘過程模型的構建思路。
1 數(shù)據(jù)挖掘的過程模型
構建數(shù)據(jù)挖掘的過程模型旨在為接下來的數(shù)據(jù)挖掘工作提供宏觀上的指導和工程化的方法,以使人們能更好地研究、開發(fā)和使用數(shù)據(jù)挖掘技術。目前現(xiàn)有的數(shù)據(jù)挖掘系統(tǒng)大致分為兩種通用的過程模型,一種是1996年由Fayyad等人提出的Fayyad過程模型,另一種是1999年由歐盟機構聯(lián)合起草的CRISP-DM過程模型。
1.1 Fayyad過程模型
圖1 Fayyad數(shù)據(jù)挖掘的過程模型
Fayyad過程模型將數(shù)據(jù)庫中的知識發(fā)現(xiàn)看作是一個多階段的處理過程,它從數(shù)據(jù)集中識別出以模式的形式來表示的知識,在整個知識發(fā)現(xiàn)的過程中包含很多個處理步驟,各個步驟之間相互影響并反復調(diào)整,從而形成一個螺旋式的上升過程[1],如圖1所示。由圖1可知,F(xiàn)ayyad過程模型分為數(shù)據(jù)準備、數(shù)據(jù)挖掘以及結果表達和解釋三個階段。
Fayyad過程模型是一個從數(shù)據(jù)入手以知識結束的偏技術模型,在實際應用中該模型存在著兩個問題[1]。①該模型是從數(shù)據(jù)入手的,而忽略了具體業(yè)務問題的確定,即沒有明確對挖掘業(yè)務的認識和對數(shù)據(jù)的理解,而這是決定過程模型質量非常重要的一步。②該模型是結束于知識的,但對于知識應當怎么使用,如何支持決策等問題卻沒有得到反映。只有當挖掘出來的模型得到了一定的應用,才能更好地體現(xiàn)出數(shù)據(jù)挖掘的價值。
1.2 CRISP-DM過程模型
CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行業(yè)數(shù)據(jù)挖掘標準流程)過程模型是由歐洲幾家有著豐富的數(shù)據(jù)挖掘應用經(jīng)驗的公司共同籌劃和組織的一個特別興趣小組所提出的。該模型從商業(yè)的角度給出了對數(shù)據(jù)挖掘方法的理解,強調(diào)了完整的數(shù)據(jù)挖掘過程,不能僅針對數(shù)據(jù)整理、數(shù)據(jù)顯示、數(shù)據(jù)分析和構建模型,后期對模型的評價與模型的延伸應用都被納入到數(shù)據(jù)挖掘的構成中,從方法學的角度強調(diào)了數(shù)據(jù)挖掘項目的方法和步驟,同時獨立于每種具有數(shù)據(jù)挖掘算法和數(shù)據(jù)挖掘系統(tǒng)[2]。因為該模型注重數(shù)據(jù)挖掘技術的應用,所以能更好地解決Fayyad過程模型存在的兩個問題。目前數(shù)據(jù)挖掘系統(tǒng)的研制和開發(fā)大都遵循CRISP-DM標準,將典型的挖掘和模型的部署緊密結合。CRISP-DM過程模型的基本步驟包括業(yè)務理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建立模型、模型評價和模型實施,如圖2所示。
Fayyad過程模型和CRISP-DM過程模型都是數(shù)據(jù)挖掘步驟的具體表現(xiàn)。其中Fayyad過程模型從數(shù)據(jù)入手以知識結束,結構清晰,便于技術實現(xiàn),但沒有明確選擇數(shù)據(jù)的原因以及利用挖掘知識的方法;而CRISP-DM過程模型從面向商業(yè)應用的角度給出了數(shù)據(jù)挖掘過程的理解,將數(shù)據(jù)挖掘和商業(yè)應用緊密結合,但該模型僅適用于商業(yè)環(huán)境下的應用,在其他領域環(huán)境下存在著一定的應用局限性,且實施起來較為繁瑣[2]。
圖2 CRISP-DM數(shù)據(jù)挖掘的過程模型
2 高職招生數(shù)據(jù)挖掘的過程模型構建
由以上分析可知,F(xiàn)ayyad過程模型的邏輯結構清晰簡單,CRISP-DM過程模型注重數(shù)據(jù)挖掘與實際應用緊密結合,高職招生數(shù)據(jù)挖掘的過程模型就是在汲取了這兩個過程模型各自所具有的特點的基礎上建立的。構建的基本思路是針對Fayyad過程模型對數(shù)據(jù)挖掘知識應用上的不足,注重將得到的挖掘結果應用于高職招生數(shù)據(jù)的決策支持,并將CRISP-DM過程模型的應用范圍擴展到教育領域中招生數(shù)據(jù)的挖掘工作。
根據(jù)高職招生工作及數(shù)據(jù)的特點,將高職招生數(shù)據(jù)挖掘的過程模型分為招生業(yè)務理解、招生數(shù)據(jù)理解、招生數(shù)據(jù)準備、挖掘模型建立、挖掘結果分析和高職招生決策制定這六個階段。如圖3所示。
2.1 招生業(yè)務理解
高職招生數(shù)據(jù)挖掘過程就是從業(yè)務的角度去理解挖掘的目標與要求,并將這些理解知識轉化為數(shù)據(jù)挖掘問題的定義[3]而開始的,這是進行高職招生數(shù)據(jù)挖掘工作必須把握好的開始階段。根據(jù)高職招生的業(yè)務特點可以將招生業(yè)務理解分為招生業(yè)務背景理解、招生資源評價和挖掘目標確定三個部分。
招生業(yè)務背景理解是指去獲悉高職院校招生的相關基本情況,包括招生計劃人數(shù)、招生學科與專業(yè)、招生錄取成績以及歷年來這些信息的變化情況等。同時還需明確目前招生工作面臨的具體問題,比如生源不足、生源質量不高、新生報到率不高等。
招生資源評價一般從人員、數(shù)據(jù)和軟硬件這三方面進行評價。人員方面主要包括兩類人員,一類是指可以提供進行數(shù)據(jù)挖掘所需相關基礎數(shù)據(jù)的人員,比如學院招生辦的工作人員或老師;另一類是指提出挖掘目標、需要挖掘結果并得到?jīng)Q策支持信息的人員,比如學院分管招生工作的領導、各個院系的主任等。數(shù)據(jù)方面主要是指如何獲取挖掘所需的數(shù)據(jù)源,比如招生工作管理系統(tǒng)的數(shù)據(jù)庫。軟硬件方面主要是指進行數(shù)據(jù)挖掘工作所需的挖掘工具或其他相關軟件以及所應具備的硬件條件等。
挖掘目標確定主要是指將目前高職招生工作所面臨的具體問題轉化為數(shù)據(jù)挖掘問題的定義過程。例如,高職招生工作面臨的一個具體問題是“新生報到率不高”,那么可以將數(shù)據(jù)挖掘目標確定為“給定學院過去五年的招生數(shù)據(jù),挖掘生源結構與新生報到率的關系”。
2.2 招生數(shù)據(jù)理解
招生數(shù)據(jù)理解是對高職招生數(shù)據(jù)挖掘所需數(shù)據(jù)的全面調(diào)查。從原始數(shù)據(jù)收集開始,到數(shù)據(jù)描述,最后對數(shù)據(jù)質量進行檢驗,目的是熟悉數(shù)據(jù),鑒別數(shù)據(jù)質量問題并發(fā)現(xiàn)數(shù)據(jù)中的“灼見真知”。在原始數(shù)據(jù)收集階段,主要是思考所需數(shù)據(jù)可以從何處獲取以及獲取的方法,遇到問題以及解決問題的方法等。在數(shù)據(jù)描述階段,主要是對獲取到的數(shù)據(jù)細化到每一個數(shù)據(jù)源、數(shù)據(jù)表、字段等描述。而在最后的數(shù)據(jù)質量檢驗階段,主要是對數(shù)據(jù)是否正確、是否完整、是否有缺失值等方面進行檢驗,并對發(fā)現(xiàn)的數(shù)據(jù)質量問題找到可能解決的辦法。
2.3 招生數(shù)據(jù)準備
招生數(shù)據(jù)準備包括招生數(shù)據(jù)選擇和招生數(shù)據(jù)預處理兩個步驟。對招生數(shù)據(jù)進行選擇即是對數(shù)據(jù)挖掘所需的原始數(shù)據(jù)進行初步地約簡,一般而言原始數(shù)據(jù)的數(shù)據(jù)量是比較大的,涵蓋的范圍也比較廣,其中某些數(shù)據(jù)可能不僅與挖掘無任何關系,而且會給挖掘帶來不利影響,所以有必要把這些無用的數(shù)據(jù)先篩選掉,以避免造成挖掘資源的浪費及產(chǎn)生不良的挖掘效果。數(shù)據(jù)預處理是數(shù)據(jù)挖掘過程中一個重要的步驟,在此是指對經(jīng)過初步篩選后的招生數(shù)據(jù)進行清理、集成、轉換、離散和規(guī)約等一系列的處理工作[4]。經(jīng)過預處理后的數(shù)據(jù)才是真正的挖掘對象,此時數(shù)據(jù)的質量將會直接影響到數(shù)據(jù)挖掘的效果。
2.4 挖掘模型建立
挖掘模型建立實際上就是數(shù)據(jù)挖掘建模,是指為了解決實際問題而采用數(shù)據(jù)挖掘技術和工具進行數(shù)據(jù)挖掘模型建立的活動過程[5]。在高職招生數(shù)據(jù)挖掘模型建立過程中,首先根據(jù)要解決的實際招生問題及一定的數(shù)據(jù)挖掘目標,運用合適的數(shù)據(jù)挖掘技術和工具建立挖掘模型,并利用該挖掘模型提供優(yōu)化招生決策的過程。挖掘模型的建立一般分為挖掘任務明確、挖掘技術選擇、挖掘工具選擇、模型建立和模型評估五個步驟。
2.5 挖掘結果分析與高職招生決策制定
根據(jù)當初定義的高職招生業(yè)務問題,對所獲得的挖掘結果做進一步的分析,將有用的模式或有用的數(shù)據(jù)描述以可視化技術和知識表示技術展示出來,并對挖掘結果進行解釋。最后利用數(shù)據(jù)挖掘得出的結論,為高職招生策略的制定提供參考,進而為高職院校招生工作提供有力的決策支持。
3 總結
如何有效地對歷年招生數(shù)據(jù)進行挖掘,從中獲得有價值的信息,為高職院校招生工作提供有力的決策支持,從而達到既能提高新生報到率又能節(jié)省招生成本的目地。本文針對此問題,根據(jù)相關數(shù)據(jù)挖掘的理論知識,在目前現(xiàn)有的通用數(shù)據(jù)挖掘的過程模型基礎上,結合高職招生工作及其數(shù)據(jù)的特點,給出了一個高職招生數(shù)據(jù)挖掘過程模型的構建思路。該數(shù)據(jù)挖掘的過程模型可以為接下來的高職招生數(shù)據(jù)挖掘工作提供宏觀上的指導和工程化的方法。在高職招生數(shù)據(jù)和信息分析領域,數(shù)據(jù)挖掘技術還存在著許多有待進一步完善和發(fā)展的地方,比如構建一個招生數(shù)據(jù)倉庫,將歷年招生數(shù)據(jù)按年份分類存儲在其中,從而便于數(shù)據(jù)挖掘工作的開展,使招生數(shù)據(jù)挖掘更加高效和便捷;而在數(shù)據(jù)挖掘的方法和技術上,可以從不同角度或層次挖掘招生信息,嘗試更多不同的挖掘算法,以獲得更加全面而有力的招生決策支持。
參考文獻:
[1] 元昌安.數(shù)據(jù)挖掘原理與SPSS Clementine應用寶典[M].電子工業(yè)出
版社,2009.
[2] 郭鑫.基于CRISP-DM的流程可視化數(shù)據(jù)挖掘工具的研究與實現(xiàn)[D].
東華大學,2009.
[3] 于立紅,方志廣.數(shù)據(jù)挖掘過程常見模型剖析[J].太原城市職業(yè)技術
學院學報,2008.5:159-160
[4] 方洪鷹.數(shù)據(jù)挖掘中數(shù)據(jù)預處理的方法研究[D].西南大學,2009.
[5] 惠卉.數(shù)據(jù)挖掘在研究生招生信息分析中的研究與應用[D].首都經(jīng)濟
貿(mào)易大學,2012.