郝勇智
(中北大學(xué) 計(jì)算機(jī)與控制工程學(xué)院,山西 太原 030051)
從上世紀(jì)九十年代初開始,數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)技術(shù)得到了迅猛發(fā)展和廣泛應(yīng)用,人們收集和使用這些信息,并將這些數(shù)據(jù)繼續(xù)用于管理,辦公,研發(fā)等生活的方方面面,且這一勢頭仍將持續(xù)發(fā)展下去。在信息爆炸這樣一個時代里,如何提高利用信息的效率,而不被浩瀚的信息海洋所淹沒已成為眾多研究領(lǐng)域的共同的研究熱點(diǎn)。在教育領(lǐng)域,開展教學(xué)評估是保障教學(xué)質(zhì)量的重要舉措,對高校而言,教學(xué)評價(jià)是改進(jìn)教學(xué)質(zhì)量的有效的工具。教學(xué)評價(jià)的目的是檢查教師的教學(xué)效果、教學(xué)過程對學(xué)生各個方面所產(chǎn)生的影響以及調(diào)查學(xué)生對教學(xué)手段的適應(yīng)性、教學(xué)組織和管理工作所產(chǎn)生的影響等,據(jù)此完善和改進(jìn)有缺陷的教學(xué)方法。隨著系統(tǒng)管理數(shù)據(jù)庫的廣泛應(yīng)用,在日常工作中收集了很多和教學(xué)相關(guān)的數(shù)據(jù),但數(shù)據(jù)背后隱含的信息并沒有被充分挖掘,教學(xué)管理部門不能從這些潛在的信息化管理教學(xué)中獲益。鑒于此,我們對數(shù)據(jù)挖掘方法在教學(xué)質(zhì)量評價(jià)系統(tǒng)中的應(yīng)用展開研究。
學(xué)者們對數(shù)據(jù)挖掘做了各種不同的定義。Fayyad 和Smyth 宣布,數(shù)據(jù)挖掘的過程實(shí)際上是發(fā)現(xiàn)特殊的、前所未有的、潛在有用的信息的過程。Curt 定義的數(shù)據(jù)挖掘是作為一個數(shù)據(jù)庫的轉(zhuǎn)化過程,其中信息是從無序的詞匯和數(shù)據(jù)轉(zhuǎn)化為有組織的數(shù)據(jù),之后演變?yōu)橹R并從其中可以做出決定。Fayyad 和Smyth 指出,數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)現(xiàn)有效的、全新的、潛在有用的、全面的模式的簡單過程。Hui 和Jha 定義的數(shù)據(jù)挖掘用于自動化和半自動化的分析發(fā)現(xiàn)數(shù)據(jù)庫中大量數(shù)據(jù)中蘊(yùn)含的有意義的關(guān)系和規(guī)則。Peacock 認(rèn)為數(shù)據(jù)挖掘可以分為狹義和廣義的。狹義的定義是限制于強(qiáng)調(diào)發(fā)現(xiàn)過程的使用人工智能的機(jī)器學(xué)習(xí)方法,如:神經(jīng)網(wǎng)絡(luò),關(guān)聯(lián)規(guī)則,決策樹算法和遺傳算法等。
只有根據(jù)數(shù)據(jù)自身的特點(diǎn)以及預(yù)計(jì)將實(shí)現(xiàn)的功能,同時選擇合適的算法,才可以得出的數(shù)據(jù)中所隱含的模型??蛇x擇的方法包括聚類,神經(jīng)網(wǎng)絡(luò),分類,決策樹,Web 挖掘,回歸分析,關(guān)聯(lián)規(guī)則等,它們各自側(cè)重于對數(shù)據(jù)進(jìn)行不同角度的分析和挖掘。
數(shù)據(jù)挖掘過程涉及以下步驟:
1)建立挖掘目標(biāo):利用領(lǐng)域知識來選擇相關(guān)研究目標(biāo)的數(shù)據(jù)。
2)選擇數(shù)據(jù):識別變量在可執(zhí)行挖掘上的特性。
3)數(shù)據(jù)預(yù)處理:去除噪聲和不完整的錯誤數(shù)據(jù)。
4)數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換為新格式以便能挖掘附加信息。
5)通過數(shù)據(jù)挖掘,發(fā)現(xiàn)變量之間的相關(guān)性并在此基礎(chǔ)上獲取有用知識。
6)評價(jià)挖掘的結(jié)果:闡述和評價(jià)結(jié)果。
總之,數(shù)據(jù)挖掘是獲取知識的過程。該過程的關(guān)鍵是能夠理解所研究的應(yīng)用,通過收集相關(guān)研究領(lǐng)域的數(shù)據(jù),構(gòu)造一個數(shù)據(jù)集,消除錯誤的數(shù)據(jù),補(bǔ)充丟失的數(shù)據(jù)以便凈化目標(biāo)數(shù)據(jù)庫中的數(shù)據(jù)。從而,簡化和轉(zhuǎn)換數(shù)據(jù)集,最后發(fā)現(xiàn)模式和在模式之間的數(shù)據(jù)并將它們作為有用的知識。
數(shù)據(jù)挖掘方法目前已經(jīng)有各種各樣的形式,究其原因是在數(shù)據(jù)挖掘的研究和發(fā)展過程中不斷將其他學(xué)科領(lǐng)域知識、技術(shù)和研究成果結(jié)合起來研究。從統(tǒng)計(jì)角度來看,就目前而言,統(tǒng)計(jì)分析方法應(yīng)用于數(shù)據(jù)挖掘的有最近鄰算法分析、時間序列分析、多變量分析、回歸分析、最近序列分析、非線形分析、線形分析、單變量分析、聚類分析等方法[1]。使用這些方法可識別出異常的數(shù)據(jù),然后再使用一系列數(shù)學(xué)或統(tǒng)計(jì)模型來解釋它們,揭示隱含在這些數(shù)據(jù)背后的潛在規(guī)則,模式和知識[2]。
完成整個數(shù)據(jù)挖掘過程后,用戶就可以得到他們需要的,有價(jià)值的知識。對知識的充分利用是發(fā)現(xiàn)知識的終極目標(biāo),合理運(yùn)用知識當(dāng)然是非常重要的。有兩種方法使用知識:一種是所發(fā)現(xiàn)的知識本身已經(jīng)說明了需要得到結(jié)果或關(guān)系,從而能夠提供直接決策支持;另一種是把所發(fā)現(xiàn)的知識應(yīng)用到全新的數(shù)據(jù)中,這可能會出現(xiàn)新問題,所以仍需要更深入的研究和優(yōu)化知識[3]。
所以,一個數(shù)據(jù)挖掘過程通常會需要進(jìn)行反復(fù)的循環(huán)執(zhí)行操作,其中任何一個步驟出現(xiàn)了與預(yù)期目標(biāo)不一致的情況都必須跳回到先前步驟進(jìn)行調(diào)整,再重新執(zhí)行。
數(shù)據(jù)挖掘在發(fā)展過程中結(jié)合了各種學(xué)科領(lǐng)域的研究成果,因此產(chǎn)生了種類眾多、多種多樣的數(shù)據(jù)挖掘方法。例如,主要用于知識發(fā)現(xiàn)中的數(shù)據(jù)挖掘方法有關(guān)聯(lián)規(guī)則、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、粗糙集、決策樹、遺傳算法等。
為了方便用戶選擇最能滿足他們需求的最合適的數(shù)據(jù)挖掘方法,我們需要對數(shù)據(jù)挖掘技術(shù)進(jìn)行分類,具體分類如下:
因?yàn)閿?shù)據(jù)庫本身可以按照不同類型的數(shù)據(jù),不同的場景和不同的模型等標(biāo)準(zhǔn)進(jìn)行分類,并且每個各自的類都可能需要不同的數(shù)據(jù)挖掘技術(shù),所以根據(jù)數(shù)據(jù)庫類型分類是概念清晰的。按照數(shù)據(jù)模型進(jìn)行分類,包括事務(wù)型和數(shù)據(jù)倉庫型、關(guān)系型、對象-關(guān)系型等。若按照數(shù)據(jù)類型進(jìn)行分類,則包括文本型、時間型、空間型、Web 型、流數(shù)據(jù)型、異構(gòu)型和多媒體型的數(shù)據(jù)挖掘方法[4]。
根據(jù)所挖掘的知識類型進(jìn)行分類也就是根據(jù)數(shù)據(jù)挖掘的功能進(jìn)行類別劃分,包括關(guān)聯(lián)分析、演變分析、聚類、預(yù)測、相關(guān)性分析、特征化、分類及離群點(diǎn)分析,一個全面的數(shù)據(jù)挖掘方法通常能夠同時包括以上的多種功能。而且數(shù)據(jù)挖掘還能夠按照抽象層次或者所需挖掘的知識的粒度分類,例如可分成原始數(shù)據(jù)層,即挖掘原始層的知識、高抽象層,即挖掘廣義知識以及同時考慮多個抽象層,即挖掘多層知識。良好的數(shù)據(jù)挖掘方法通常能夠完成多層次抽象層的知識發(fā)現(xiàn)。數(shù)據(jù)挖掘也可以按照其規(guī)則性和奇異性進(jìn)行分類。一般來講,數(shù)據(jù)的規(guī)則性可以通過聚類、分類、相關(guān)性分析、概念描述、關(guān)聯(lián)分析和預(yù)測等方法挖掘,也能夠起到檢測和排除噪聲的功能[4]。
數(shù)據(jù)挖掘采用的數(shù)據(jù)挖掘技術(shù)種類繁多,如統(tǒng)計(jì)學(xué)、模式識別、機(jī)器學(xué)習(xí)、面向數(shù)據(jù)倉庫的技術(shù)或面向數(shù)據(jù)庫[5]、神經(jīng)網(wǎng)絡(luò)[6]和可視化等,依據(jù)用戶所采用的數(shù)據(jù)分析方法不同可以將其分成人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、規(guī)則推導(dǎo)、聚類和決策樹等。大規(guī)模的數(shù)據(jù)挖掘系統(tǒng)通常綜合利用多種挖掘技術(shù),或者使用一些集成的方法從而綜合多種方法的優(yōu)勢。
數(shù)據(jù)挖掘也可以依據(jù)其應(yīng)用分類,不同的應(yīng)用場景具有它們自己的數(shù)據(jù)挖掘方法,已廣泛應(yīng)用數(shù)據(jù)挖掘方法的行業(yè),包括金融服務(wù),運(yùn)輸,通信,股票市場等。可以說,特定的應(yīng)用場景往往需要集成專門針對于該應(yīng)用特別有效的數(shù)據(jù)挖掘方法。
為了驗(yàn)證數(shù)據(jù)挖掘方法對教學(xué)質(zhì)量改革的作用,本文將決策森林方法應(yīng)用于一個具體實(shí)例。該文的測試數(shù)據(jù)來源于中北大學(xué)2013 學(xué)年本科生所開選修課課程的相關(guān)信息。我們定義了如下三個變量,這三個選定的變量間接反映了本文研究的目的。三個變量的特性如下:
1)課程類別:在工科類課程包括精密成型,工業(yè)電子,數(shù)控控制器;在商業(yè)和管理類課程包括企業(yè)資源規(guī)劃(ERP),市場營銷,人力資源;而信息管理包括計(jì)算機(jī)圖形設(shè)計(jì),Linux 網(wǎng)絡(luò)管理,網(wǎng)頁設(shè)計(jì),網(wǎng)絡(luò)設(shè)計(jì);語言課程有先進(jìn)的英語會話課程。
2)完成狀態(tài):這是通常的情況下,課程計(jì)劃可能會因?yàn)閷W(xué)生太少而關(guān)閉。此外,參與者有的往往無法完成課程。因此完成情況作為研究變量,分為兩組:參與者完成課程,和參與者沒有完成課程。
3)學(xué)生工作的行業(yè):我們只取最常見的制造業(yè)和服務(wù)業(yè)。屬于制造業(yè)包括五金行業(yè),橡膠工業(yè),電子制造業(yè),紡織業(yè)。屬于服務(wù)業(yè)包括信息服務(wù),醫(yī)療服務(wù),物流服務(wù)行業(yè)。
在應(yīng)用決策森林的方法前需要指定目標(biāo)變量并且定義預(yù)測變量。在這項(xiàng)研究中,課程類別,完成狀態(tài),以及這兩個變量的特征被選為預(yù)測變量,學(xué)生工作行業(yè)及其特點(diǎn)被選為目標(biāo)變量。該算法的目的是,找到課程偏好和課程完成率與不同的行業(yè)的完成狀態(tài)的關(guān)系。
在決策森林方法中,制造業(yè)和服務(wù)業(yè),基于行業(yè)特征聚集。每個部門,完成狀態(tài)的進(jìn)一步聚集取決于課程是否完成;完成狀態(tài)也可按課程類別聚集。聚類的預(yù)測變量持續(xù)到規(guī)則被發(fā)現(xiàn)。
對聚類的預(yù)測變量的細(xì)節(jié)分割取決于分割的標(biāo)準(zhǔn)值設(shè)置的高低。在這項(xiàng)研究中,分割的標(biāo)準(zhǔn)值設(shè)置為4 和5。當(dāng)該值被設(shè)置為4,聚類包括由實(shí)線和圖1 中的虛線包圍的區(qū)域。當(dāng)該值被設(shè)置為5,則聚類只涵蓋由圖1 中的實(shí)線包圍的區(qū)域。
圖1 完成狀態(tài)的概率
決策森林的應(yīng)用結(jié)果表明:1)選修了商業(yè)和管理課程的學(xué)生,且完成了語言和其他課程的學(xué)生,42.5%來自制造業(yè),57.5%來自服務(wù)業(yè);2)選修了信息管理與工程課程且完成了該課程的學(xué)生,51%來制造業(yè),49%來自服務(wù)業(yè);3)選修了信息管理等課程,但沒有完成課程的學(xué)生,5%來自制造業(yè),95%來自服務(wù)業(yè);4)選修了商業(yè)和管理課程,但語言和工程課程沒有完成的學(xué)生,44.9%來自制造業(yè),55.1%來自服務(wù)業(yè)。
決策森林表明參與者來自制造業(yè)主要選修課程為信息管理課程與工程課程,而來自服務(wù)業(yè)的參與者主要選修信息管理和其他課程。數(shù)據(jù)挖掘的應(yīng)用擁有可靠的分析結(jié)果,課程決策者能夠?qū)φn程結(jié)構(gòu)進(jìn)行調(diào)整,以便更好地服務(wù)于學(xué)生的個人需求和社會的公共需求。
該文應(yīng)用數(shù)據(jù)挖掘方法是用來尋找首選課程類別和學(xué)生職業(yè)之間的相關(guān)性的,使用決策森林方法發(fā)現(xiàn),來自不同行業(yè)的首選課程取決于該行業(yè)學(xué)生首選課程完成率的高低。該文將決策森林方法引入到教學(xué)質(zhì)量管理改革中,學(xué)校相關(guān)主管部門可以根據(jù)不同學(xué)生專業(yè)的需要來制定未來的課程計(jì)劃。接下來的一些工作:可以根據(jù)學(xué)生所選課程成績和教師實(shí)際教學(xué)效果之間的關(guān)系,探究教師教學(xué)方法與學(xué)生成績之間的關(guān)系。
[1]陸化普.數(shù)據(jù)挖掘技術(shù)在智能交通系統(tǒng)綜合信息平臺中的應(yīng)用[J].ITS 通訊,2004,3(1) :41-42.
[2]王桂芹,黃道.數(shù)據(jù)挖掘技術(shù)綜述[J].電腦應(yīng)用技術(shù),2007,3(69) :10-11.
[3]蔣暉.數(shù)據(jù)挖掘及其一種關(guān)聯(lián)規(guī)則算法[J].計(jì)算機(jī)與數(shù)字工程,2011,39(6) :38-42.
[4]Han J W,Kamber M.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2001.
[5]陳文偉,黃金才.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:人民郵電出版社,2004:137-139.
[6]寇雪芹.BP 人工神經(jīng)網(wǎng)絡(luò)在二傳感器數(shù)據(jù)融合處理中的應(yīng)用[J].計(jì)量技術(shù),2003,11(2) :27-28.