任鎖平
(陜西職業(yè)技術(shù)學(xué)院 教務(wù)處,陜西 西安 710100)
近年來(lái)隨著信息技術(shù)的快速發(fā)展,產(chǎn)生越來(lái)越多的數(shù)據(jù),然而這些數(shù)據(jù)中隱含著很多無(wú)法用眼睛觀察的信息,數(shù)據(jù)挖掘技術(shù)能夠通過(guò)對(duì)大量的數(shù)據(jù)進(jìn)行分析、挖掘,尋找數(shù)據(jù)背后的關(guān)系,幫助人們正確的進(jìn)行決策判斷。
而隨著國(guó)民經(jīng)濟(jì)的轉(zhuǎn)型,職業(yè)教育也迎來(lái)了良好的發(fā)展機(jī)遇,如何更好的實(shí)現(xiàn)職業(yè)教育的內(nèi)涵式發(fā)展,是每一位職教工作需要考慮的。高職教育質(zhì)量監(jiān)控評(píng)價(jià)系統(tǒng)正是在這個(gè)背景下誕生的一種評(píng)價(jià)工具。但是僅僅靠評(píng)價(jià)系統(tǒng)難以做到真實(shí)而有效的評(píng)價(jià),借助數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)對(duì)評(píng)價(jià)系統(tǒng)中產(chǎn)生的大量數(shù)據(jù)進(jìn)行挖掘、分析,探尋數(shù)據(jù)背后的隱含意義,并幫助管理部門進(jìn)行正確的決策和判斷,有效提升高職教育教學(xué)質(zhì)量,加快實(shí)現(xiàn)職業(yè)教育現(xiàn)代化。
近年來(lái)數(shù)據(jù)挖掘技術(shù)引起了廣泛關(guān)注,其主要原因在于信息技術(shù)與互聯(lián)網(wǎng)的迅猛發(fā)展,大量基礎(chǔ)數(shù)據(jù)的產(chǎn)生,人們需要了解這些數(shù)據(jù)背后的隱藏內(nèi)容,因而誕生了數(shù)據(jù)挖掘的概念及技術(shù)。
數(shù)據(jù)挖掘(Data Mining,DM)一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)[1]。同時(shí)它也被認(rèn)為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(KDD)的一個(gè)環(huán)節(jié),大多數(shù)情況下認(rèn)為數(shù)據(jù)挖掘比數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)是兩個(gè)等同概念,但數(shù)據(jù)挖掘更加注重于算法分析來(lái)探尋海量數(shù)據(jù)背后的隱含知識(shí)的目標(biāo)。數(shù)據(jù)挖掘結(jié)合了統(tǒng)計(jì)學(xué)、計(jì)算機(jī)學(xué)科等多學(xué)科,支持多種數(shù)據(jù)格式的挖掘,無(wú)論是結(jié)構(gòu)化的還是非結(jié)構(gòu)化的數(shù)據(jù)都可以通過(guò)處理后進(jìn)行數(shù)據(jù)挖掘,有較高的應(yīng)用價(jià)值。
數(shù)據(jù)挖掘的功能主要有兩方面:描述和預(yù)測(cè)[2]。描述功能主要是用來(lái)數(shù)據(jù)之間的共同特點(diǎn)及聯(lián)系,主要包括數(shù)據(jù)分類、聚類分析、匯總與歸納、偏差檢測(cè)等;而預(yù)測(cè)功能主要是通過(guò)對(duì)現(xiàn)有數(shù)據(jù)分析來(lái)預(yù)測(cè)未知的數(shù)據(jù),主要包括有統(tǒng)計(jì)方法、關(guān)聯(lián)規(guī)則、決策樹與回歸、序列模式等。
數(shù)據(jù)挖掘的過(guò)程主要包括:確定對(duì)象、數(shù)據(jù)準(zhǔn)備、模型建立、數(shù)據(jù)挖掘與結(jié)果分析等步驟,具體如圖1[3]所示。
數(shù)據(jù)挖掘過(guò)程中算法是其核心內(nèi)容,以SQL Server2008為例,如圖2所示。SQL Server2008中提供的數(shù)據(jù)挖掘算法主要有以下幾種:決策樹、聚類分析、Naive Bayes、關(guān)聯(lián)規(guī)則、順序分析和聚類分析、時(shí)序、神經(jīng)網(wǎng)絡(luò)、線性回歸、邏輯回歸等。
圖1 數(shù)據(jù)挖掘的一般過(guò)程Fig.1 The general process of data mining
圖2 SQL Server2008創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu)Fig.2 SQL Server2008 create data mining structure
隨著現(xiàn)代職業(yè)教育的快速發(fā)展,職業(yè)教育信息化也將成為助力現(xiàn)代職業(yè)教育快速發(fā)展的重要手段。2012年教育部成立職業(yè)院校信息化教學(xué)指導(dǎo)委員會(huì),也標(biāo)志著職業(yè)教育信息化步入快速發(fā)展的軌道,教育信息化包括很多方面,不僅僅是教學(xué)的信息化,還包括教育管理的信息化等,而現(xiàn)階段的職業(yè)教育信息化更多的進(jìn)行事務(wù)處理,利用數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)據(jù)分析還很少,利用數(shù)據(jù)挖掘進(jìn)行教育信息化數(shù)據(jù)進(jìn)行分析,將成為教育信息化發(fā)展的重要方向。
目前,數(shù)據(jù)挖掘在電子商務(wù)、醫(yī)療、金融、交通等方面取得了廣泛應(yīng)用,并促進(jìn)了其快速發(fā)展。而數(shù)據(jù)挖掘在職業(yè)教育方面也必將能夠解決教育教學(xué)管理中的問題,促進(jìn)職業(yè)教育信息化的快速發(fā)展,實(shí)現(xiàn)現(xiàn)代職業(yè)教育建設(shè)。
教學(xué)質(zhì)量監(jiān)控評(píng)價(jià)系統(tǒng)主要目的在于實(shí)現(xiàn)形成相互銜接的多元評(píng)價(jià)機(jī)制和質(zhì)量預(yù)警機(jī)制,依托數(shù)字化校園網(wǎng)絡(luò)平臺(tái),實(shí)現(xiàn)信息及時(shí)交換、傳輸、匯總、分析和反應(yīng),形成涵蓋人才培養(yǎng)全過(guò)程、全方位、多元參與的教學(xué)質(zhì)量監(jiān)控評(píng)價(jià)平臺(tái)。評(píng)價(jià)主體包括有政府、學(xué)校、教師、學(xué)生、行業(yè)企業(yè)、第三方、家長(zhǎng)等,各主體在登錄頁(yè)面通過(guò)身份驗(yàn)證進(jìn)行客觀評(píng)價(jià),最終通過(guò)對(duì)數(shù)據(jù)的挖掘分析,為提高教育教學(xué)質(zhì)量提供決策支持。詳細(xì)流程圖如圖3[4]所示。
圖3 教學(xué)質(zhì)量監(jiān)控評(píng)價(jià)系統(tǒng)流程圖Fig.3 Flow chart of evaluation system of teaching quality monitoring
2.2.1 功能需求概述
基于數(shù)據(jù)挖掘技術(shù)的高職教學(xué)質(zhì)量監(jiān)控評(píng)價(jià)系統(tǒng)具備不同用戶通過(guò)身份驗(yàn)證進(jìn)行系統(tǒng)登錄,實(shí)現(xiàn)數(shù)據(jù)的收集或評(píng)價(jià),系統(tǒng)門戶首頁(yè)包括登陸模塊、資源和課程的展示,各類大賽的視頻及資料展示,企業(yè)、行業(yè)、教師、政府等對(duì)學(xué)院課程、教材、人才培養(yǎng)方案、課程標(biāo)準(zhǔn)評(píng)價(jià)展示等。系統(tǒng)同時(shí)支持手機(jī)端訪問和使用,隨時(shí)隨地可使用系統(tǒng)進(jìn)行評(píng)價(jià)或者資源的使用。系統(tǒng)提供權(quán)限管理、信息上傳、下載、刪除、修改、更新、數(shù)據(jù)導(dǎo)出(提供多種類型的數(shù)據(jù)導(dǎo)出)項(xiàng)目添加等功能,同時(shí)為方便配合SQL Server2008數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘,對(duì)數(shù)據(jù)輸入進(jìn)行限定,方便后期數(shù)據(jù)處理。同時(shí)系統(tǒng)要實(shí)現(xiàn)數(shù)據(jù)自動(dòng)備份功能,提高系統(tǒng)安全性。
2.2.2 系統(tǒng)總體設(shè)計(jì)
基于數(shù)據(jù)挖掘技術(shù)的高職教學(xué)質(zhì)量監(jiān)控評(píng)價(jià)系統(tǒng)設(shè)計(jì)上充分考慮不同用戶的需求和條件,采用B/S模式架構(gòu),具有靈活性和方便性,對(duì)客戶端的硬件要求低等特點(diǎn)。數(shù)據(jù)庫(kù)采用SQL Server2008,由于它具備SQL Server Analysis Service組件,故而在數(shù)據(jù)挖掘方面減少了大量的數(shù)據(jù)采集和整理的工作,提高了工作效率。系統(tǒng)開發(fā)技術(shù)采用J2EE,開發(fā)語(yǔ)言采用JAVA。數(shù)據(jù)備份采用日、周、月策略進(jìn)行備份。具體如表1所示。
表1 系統(tǒng)主要實(shí)現(xiàn)技術(shù)Tab.1 System main implementation techniques
在硬件方面,考慮后期產(chǎn)生的數(shù)據(jù)量較大,為長(zhǎng)期實(shí)現(xiàn)系統(tǒng)正常運(yùn)行和使用,服務(wù)器配備了4*E7-4820的CPU,256GB內(nèi)存,8TB硬盤,完全能夠滿足系統(tǒng)正常運(yùn)行和要求。
本系統(tǒng)結(jié)構(gòu)設(shè)計(jì)融合了基于B/S模式的CMS(內(nèi)容管理系統(tǒng))系統(tǒng)和MIS(管理信息系統(tǒng))系統(tǒng),基于B/S的MIS系統(tǒng)是本系統(tǒng)結(jié)構(gòu)中設(shè)計(jì)中的重要部分,系統(tǒng)涉及的大部分功能均在MIS系統(tǒng)中實(shí)現(xiàn),同時(shí)由于其基于B/S模式,簡(jiǎn)化了操作流程和使用門檻,提高了系統(tǒng)的可用性和實(shí)用性。在CMS系統(tǒng)中主要設(shè)計(jì)了新聞通知、學(xué)院榮譽(yù)、行業(yè)、企業(yè)評(píng)價(jià)機(jī)構(gòu)簡(jiǎn)介、家長(zhǎng)評(píng)價(jià)等信息。而基于B/S模式的MIS中設(shè)計(jì)了各主體評(píng)價(jià)的評(píng)價(jià)內(nèi)容、評(píng)價(jià)標(biāo)準(zhǔn)、評(píng)價(jià)方法等設(shè)計(jì),同時(shí)針對(duì)高等職業(yè)教育的特色,添加了企業(yè)針對(duì)學(xué)生實(shí)習(xí)和帶隊(duì)教師的評(píng)價(jià)標(biāo)準(zhǔn)及方法。
數(shù)據(jù)庫(kù)設(shè)計(jì)是系統(tǒng)較為重要的部分,由于本系統(tǒng)設(shè)計(jì)中存在CMS和MIS兩個(gè)不同的管理系統(tǒng),因此在數(shù)據(jù)庫(kù)設(shè)計(jì)上也有所不同,而最重要的則是MIS系統(tǒng)中的數(shù)據(jù)庫(kù)設(shè)計(jì),文章以MIS系統(tǒng)中行業(yè)用戶的數(shù)據(jù)庫(kù)設(shè)計(jì)描述數(shù)據(jù)庫(kù)的實(shí)現(xiàn)。
行業(yè)用戶評(píng)價(jià)主要是針對(duì)學(xué)院人才培養(yǎng)方案的設(shè)計(jì)合理性進(jìn)行評(píng)價(jià),行業(yè)用戶名的基本信息用HY-Users用戶表來(lái)保存用戶基本信息,如單位名稱、用戶名、密碼、聯(lián)系電話、地址等。結(jié)構(gòu)如表2所示。
表2 用戶表Tab.2 Industry user table
其中單位名稱是指行業(yè)名稱,而聯(lián)系人則是指該行業(yè)評(píng)價(jià)學(xué)院人才培養(yǎng)方案的聯(lián)系人,用戶備注信息主要是備注該行業(yè)是針對(duì)某一院系或某一大類專業(yè)。
SQLServer2008數(shù)據(jù)庫(kù)中,數(shù)據(jù)挖掘主要是依靠Analysis Services來(lái)實(shí)現(xiàn)的。其中包含了數(shù)據(jù)挖掘解決方案中需要用到的大部分工具和模型。與其他數(shù)數(shù)據(jù)庫(kù)比較具有以下幾個(gè)特點(diǎn)[5],一是多個(gè)挖掘模型之間進(jìn)行交叉驗(yàn)證,在相同結(jié)果之間的模型之間進(jìn)行對(duì)比,有利于決策者做出更加明智的決斷,例如在高職教學(xué)質(zhì)量監(jiān)控評(píng)價(jià)系統(tǒng)中對(duì)學(xué)生成績(jī)分析,一般的分析往往只能看到結(jié)果,無(wú)法對(duì)原因進(jìn)行分心,通過(guò)交叉驗(yàn)證可以探尋具體的原因;二是算法上的改進(jìn),在時(shí)序算法中除了基于ARTxp算之外,新增加了一種基于ARIMA算法,兩種算法并無(wú)優(yōu)劣之分,前者適于短期預(yù)測(cè),后者適于長(zhǎng)期預(yù)測(cè);三是數(shù)據(jù)挖掘模型中實(shí)現(xiàn)鉆取,但鉆取功能有一定的限制,并非所有的算法都支持鉆取功能。
SQLServer2008數(shù)據(jù)庫(kù)在高職教學(xué)質(zhì)量監(jiān)控評(píng)價(jià)系統(tǒng)中進(jìn)行數(shù)據(jù)挖掘時(shí)需要根據(jù)實(shí)際情況進(jìn)行數(shù)據(jù)的收集、整理、模型選擇、分析等。以最常見的評(píng)教舉例,以往的評(píng)教僅僅是得到一個(gè)評(píng)教結(jié)果,其造成結(jié)果的原因無(wú)法知道。為了能夠發(fā)現(xiàn)教師本身素質(zhì)與學(xué)生評(píng)教結(jié)果之間的內(nèi)在聯(lián)系,選用關(guān)聯(lián)規(guī)則結(jié)構(gòu)進(jìn)行數(shù)據(jù)挖掘,其采用了Apriori算法進(jìn)行挖掘,探尋內(nèi)在聯(lián)系。具體的步驟分[6]為:首先準(zhǔn)備評(píng)教結(jié)果數(shù)據(jù),包含了評(píng)教結(jié)果與教師的各項(xiàng)基本信息,其次是進(jìn)行關(guān)聯(lián)規(guī)則挖掘,例如將準(zhǔn)備好的數(shù)據(jù)進(jìn)行教師學(xué)歷、職稱、分類,總評(píng)分為有、良、中、及格幾個(gè)等級(jí),采用基于Apriori算法對(duì)數(shù)據(jù)進(jìn)行處理,得出關(guān)聯(lián)規(guī)則,其中可設(shè)0.2位最小支持度,再次利用支持度算法求出每個(gè)子項(xiàng)集的支持度,最后在得出的頻繁項(xiàng)集,設(shè)置置信度為0.3,根據(jù)算法求出每一項(xiàng)關(guān)聯(lián)規(guī)則的置信度[7],并對(duì)結(jié)果進(jìn)行分析解釋,得出結(jié)論,用以改進(jìn)和提高教育教學(xué)質(zhì)量。
隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)的不斷成熟,基于數(shù)據(jù)挖掘技術(shù)來(lái)解決高職教學(xué)質(zhì)量監(jiān)控與評(píng)價(jià)系統(tǒng)將會(huì)為重要的教育管理評(píng)價(jià)技術(shù),為教育管理者提供決策判斷,也必將推動(dòng)現(xiàn)代職業(yè)教育的快速發(fā)展。
[1]百度百科.數(shù)據(jù)挖掘 [EB/OL].[2015-01-28].http://baike.baidu.com/view/7893.htm.
[2]鄭碧嶷.基于數(shù)據(jù)挖掘技術(shù)的高校輔助決策系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京工業(yè)大學(xué),2013.
[3]吳建蘭.基于數(shù)據(jù)倉(cāng)庫(kù)的教學(xué)質(zhì)量監(jiān)控評(píng)價(jià)系統(tǒng)[D].泉州:華僑大學(xué),2005.
[4]中國(guó)高職高專教育網(wǎng).陜西職業(yè)技術(shù)學(xué)院“國(guó)家示范性高等職業(yè)院校建設(shè)計(jì)劃”骨干高職院校建設(shè)方案.[EB/OL].[2014-12-28].http://61.164.87.131/web/articleview.aspx?id=20121225104748212&cata_id=gspf.
[5]IT專家網(wǎng).在SQL Server 2008 R2上實(shí)現(xiàn)人工智能數(shù)據(jù)挖掘[EB/OL].[2014-12-28]http://database.ctocio.com.cn/analysis/385/9416385.shtml.
[6]張震.基于數(shù)據(jù)挖掘技術(shù)的教學(xué)質(zhì)量評(píng)價(jià)系統(tǒng)研究[D].合肥:合肥工業(yè)大學(xué),2006.
[7]丁留寶.PQDIF文件生成方法及在多操作系統(tǒng)下的實(shí)現(xiàn)[J].陜西電力,2014(7):83-87.DING Liu-bao.The method and implementation of creating PQDIF file in different operating systems[J].Shaanxi Electric Power,2014(7):83-87.