亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)挖掘方法在教學(xué)質(zhì)量評價(jià)中的應(yīng)用研究

2015-11-28 03:06:58郝勇智

山西電子技術(shù) 2015年5期

郝勇智

(中北大學(xué) 計(jì)算機(jī)與控制工程學(xué)院，山西太原 030051)

從上世紀(jì)九十年代初開始，數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)技術(shù)得到了迅猛發(fā)展和廣泛應(yīng)用，人們收集和使用這些信息，并將這些數(shù)據(jù)繼續(xù)用于管理，辦公，研發(fā)等生活的方方面面，且這一勢頭仍將持續(xù)發(fā)展下去。在信息爆炸這樣一個時代里，如何提高利用信息的效率，而不被浩瀚的信息海洋所淹沒已成為眾多研究領(lǐng)域的共同的研究熱點(diǎn)。在教育領(lǐng)域，開展教學(xué)評估是保障教學(xué)質(zhì)量的重要舉措，對高校而言，教學(xué)評價(jià)是改進(jìn)教學(xué)質(zhì)量的有效的工具。教學(xué)評價(jià)的目的是檢查教師的教學(xué)效果、教學(xué)過程對學(xué)生各個方面所產(chǎn)生的影響以及調(diào)查學(xué)生對教學(xué)手段的適應(yīng)性、教學(xué)組織和管理工作所產(chǎn)生的影響等，據(jù)此完善和改進(jìn)有缺陷的教學(xué)方法。隨著系統(tǒng)管理數(shù)據(jù)庫的廣泛應(yīng)用，在日常工作中收集了很多和教學(xué)相關(guān)的數(shù)據(jù)，但數(shù)據(jù)背后隱含的信息并沒有被充分挖掘，教學(xué)管理部門不能從這些潛在的信息化管理教學(xué)中獲益。鑒于此，我們對數(shù)據(jù)挖掘方法在教學(xué)質(zhì)量評價(jià)系統(tǒng)中的應(yīng)用展開研究。

1 背景知識

學(xué)者們對數(shù)據(jù)挖掘做了各種不同的定義。Fayyad 和Smyth 宣布，數(shù)據(jù)挖掘的過程實(shí)際上是發(fā)現(xiàn)特殊的、前所未有的、潛在有用的信息的過程。Curt 定義的數(shù)據(jù)挖掘是作為一個數(shù)據(jù)庫的轉(zhuǎn)化過程，其中信息是從無序的詞匯和數(shù)據(jù)轉(zhuǎn)化為有組織的數(shù)據(jù)，之后演變?yōu)橹R并從其中可以做出決定。Fayyad 和Smyth 指出，數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)現(xiàn)有效的、全新的、潛在有用的、全面的模式的簡單過程。Hui 和Jha 定義的數(shù)據(jù)挖掘用于自動化和半自動化的分析發(fā)現(xiàn)數(shù)據(jù)庫中大量數(shù)據(jù)中蘊(yùn)含的有意義的關(guān)系和規(guī)則。Peacock 認(rèn)為數(shù)據(jù)挖掘可以分為狹義和廣義的。狹義的定義是限制于強(qiáng)調(diào)發(fā)現(xiàn)過程的使用人工智能的機(jī)器學(xué)習(xí)方法，如:神經(jīng)網(wǎng)絡(luò)，關(guān)聯(lián)規(guī)則，決策樹算法和遺傳算法等。

只有根據(jù)數(shù)據(jù)自身的特點(diǎn)以及預(yù)計(jì)將實(shí)現(xiàn)的功能，同時選擇合適的算法，才可以得出的數(shù)據(jù)中所隱含的模型?？蛇x擇的方法包括聚類，神經(jīng)網(wǎng)絡(luò)，分類，決策樹，Web 挖掘，回歸分析，關(guān)聯(lián)規(guī)則等，它們各自側(cè)重于對數(shù)據(jù)進(jìn)行不同角度的分析和挖掘。

數(shù)據(jù)挖掘過程涉及以下步驟:

1)建立挖掘目標(biāo):利用領(lǐng)域知識來選擇相關(guān)研究目標(biāo)的數(shù)據(jù)。

2)選擇數(shù)據(jù):識別變量在可執(zhí)行挖掘上的特性。

3)數(shù)據(jù)預(yù)處理:去除噪聲和不完整的錯誤數(shù)據(jù)。

4)數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換為新格式以便能挖掘附加信息。

5)通過數(shù)據(jù)挖掘，發(fā)現(xiàn)變量之間的相關(guān)性并在此基礎(chǔ)上獲取有用知識。

6)評價(jià)挖掘的結(jié)果:闡述和評價(jià)結(jié)果。

總之，數(shù)據(jù)挖掘是獲取知識的過程。該過程的關(guān)鍵是能夠理解所研究的應(yīng)用，通過收集相關(guān)研究領(lǐng)域的數(shù)據(jù)，構(gòu)造一個數(shù)據(jù)集，消除錯誤的數(shù)據(jù)，補(bǔ)充丟失的數(shù)據(jù)以便凈化目標(biāo)數(shù)據(jù)庫中的數(shù)據(jù)。從而，簡化和轉(zhuǎn)換數(shù)據(jù)集，最后發(fā)現(xiàn)模式和在模式之間的數(shù)據(jù)并將它們作為有用的知識。

數(shù)據(jù)挖掘方法目前已經(jīng)有各種各樣的形式，究其原因是在數(shù)據(jù)挖掘的研究和發(fā)展過程中不斷將其他學(xué)科領(lǐng)域知識、技術(shù)和研究成果結(jié)合起來研究。從統(tǒng)計(jì)角度來看，就目前而言，統(tǒng)計(jì)分析方法應(yīng)用于數(shù)據(jù)挖掘的有最近鄰算法分析、時間序列分析、多變量分析、回歸分析、最近序列分析、非線形分析、線形分析、單變量分析、聚類分析等方法［1］。使用這些方法可識別出異常的數(shù)據(jù)，然后再使用一系列數(shù)學(xué)或統(tǒng)計(jì)模型來解釋它們，揭示隱含在這些數(shù)據(jù)背后的潛在規(guī)則，模式和知識［2］。

完成整個數(shù)據(jù)挖掘過程后，用戶就可以得到他們需要的，有價(jià)值的知識。對知識的充分利用是發(fā)現(xiàn)知識的終極目標(biāo)，合理運(yùn)用知識當(dāng)然是非常重要的。有兩種方法使用知識:一種是所發(fā)現(xiàn)的知識本身已經(jīng)說明了需要得到結(jié)果或關(guān)系，從而能夠提供直接決策支持;另一種是把所發(fā)現(xiàn)的知識應(yīng)用到全新的數(shù)據(jù)中，這可能會出現(xiàn)新問題，所以仍需要更深入的研究和優(yōu)化知識［3］。

所以，一個數(shù)據(jù)挖掘過程通常會需要進(jìn)行反復(fù)的循環(huán)執(zhí)行操作，其中任何一個步驟出現(xiàn)了與預(yù)期目標(biāo)不一致的情況都必須跳回到先前步驟進(jìn)行調(diào)整，再重新執(zhí)行。

2 數(shù)據(jù)挖掘的分類

數(shù)據(jù)挖掘在發(fā)展過程中結(jié)合了各種學(xué)科領(lǐng)域的研究成果，因此產(chǎn)生了種類眾多、多種多樣的數(shù)據(jù)挖掘方法。例如，主要用于知識發(fā)現(xiàn)中的數(shù)據(jù)挖掘方法有關(guān)聯(lián)規(guī)則、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、粗糙集、決策樹、遺傳算法等。

為了方便用戶選擇最能滿足他們需求的最合適的數(shù)據(jù)挖掘方法，我們需要對數(shù)據(jù)挖掘技術(shù)進(jìn)行分類，具體分類如下:

2.1 按數(shù)據(jù)庫類型分類

因?yàn)閿?shù)據(jù)庫本身可以按照不同類型的數(shù)據(jù)，不同的場景和不同的模型等標(biāo)準(zhǔn)進(jìn)行分類，并且每個各自的類都可能需要不同的數(shù)據(jù)挖掘技術(shù)，所以根據(jù)數(shù)據(jù)庫類型分類是概念清晰的。按照數(shù)據(jù)模型進(jìn)行分類，包括事務(wù)型和數(shù)據(jù)倉庫型、關(guān)系型、對象-關(guān)系型等。若按照數(shù)據(jù)類型進(jìn)行分類，則包括文本型、時間型、空間型、Web 型、流數(shù)據(jù)型、異構(gòu)型和多媒體型的數(shù)據(jù)挖掘方法［4］。

2.2 按知識類型分類

根據(jù)所挖掘的知識類型進(jìn)行分類也就是根據(jù)數(shù)據(jù)挖掘的功能進(jìn)行類別劃分，包括關(guān)聯(lián)分析、演變分析、聚類、預(yù)測、相關(guān)性分析、特征化、分類及離群點(diǎn)分析，一個全面的數(shù)據(jù)挖掘方法通常能夠同時包括以上的多種功能。而且數(shù)據(jù)挖掘還能夠按照抽象層次或者所需挖掘的知識的粒度分類，例如可分成原始數(shù)據(jù)層，即挖掘原始層的知識、高抽象層，即挖掘廣義知識以及同時考慮多個抽象層，即挖掘多層知識。良好的數(shù)據(jù)挖掘方法通常能夠完成多層次抽象層的知識發(fā)現(xiàn)。數(shù)據(jù)挖掘也可以按照其規(guī)則性和奇異性進(jìn)行分類。一般來講，數(shù)據(jù)的規(guī)則性可以通過聚類、分類、相關(guān)性分析、概念描述、關(guān)聯(lián)分析和預(yù)測等方法挖掘，也能夠起到檢測和排除噪聲的功能［4］。

2.3 按技術(shù)類型分類

數(shù)據(jù)挖掘采用的數(shù)據(jù)挖掘技術(shù)種類繁多，如統(tǒng)計(jì)學(xué)、模式識別、機(jī)器學(xué)習(xí)、面向數(shù)據(jù)倉庫的技術(shù)或面向數(shù)據(jù)庫［5］、神經(jīng)網(wǎng)絡(luò)［6］和可視化等，依據(jù)用戶所采用的數(shù)據(jù)分析方法不同可以將其分成人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、規(guī)則推導(dǎo)、聚類和決策樹等。大規(guī)模的數(shù)據(jù)挖掘系統(tǒng)通常綜合利用多種挖掘技術(shù)，或者使用一些集成的方法從而綜合多種方法的優(yōu)勢。

2.4 按應(yīng)用分類

數(shù)據(jù)挖掘也可以依據(jù)其應(yīng)用分類，不同的應(yīng)用場景具有它們自己的數(shù)據(jù)挖掘方法，已廣泛應(yīng)用數(shù)據(jù)挖掘方法的行業(yè)，包括金融服務(wù)，運(yùn)輸，通信，股票市場等。可以說，特定的應(yīng)用場景往往需要集成專門針對于該應(yīng)用特別有效的數(shù)據(jù)挖掘方法。

3 數(shù)據(jù)挖掘的應(yīng)用

為了驗(yàn)證數(shù)據(jù)挖掘方法對教學(xué)質(zhì)量改革的作用，本文將決策森林方法應(yīng)用于一個具體實(shí)例。該文的測試數(shù)據(jù)來源于中北大學(xué)2013 學(xué)年本科生所開選修課課程的相關(guān)信息。我們定義了如下三個變量，這三個選定的變量間接反映了本文研究的目的。三個變量的特性如下:

1)課程類別:在工科類課程包括精密成型，工業(yè)電子，數(shù)控控制器;在商業(yè)和管理類課程包括企業(yè)資源規(guī)劃(ERP)，市場營銷，人力資源;而信息管理包括計(jì)算機(jī)圖形設(shè)計(jì)，Linux 網(wǎng)絡(luò)管理，網(wǎng)頁設(shè)計(jì)，網(wǎng)絡(luò)設(shè)計(jì);語言課程有先進(jìn)的英語會話課程。

2)完成狀態(tài):這是通常的情況下，課程計(jì)劃可能會因?yàn)閷W(xué)生太少而關(guān)閉。此外，參與者有的往往無法完成課程。因此完成情況作為研究變量，分為兩組:參與者完成課程，和參與者沒有完成課程。

3)學(xué)生工作的行業(yè):我們只取最常見的制造業(yè)和服務(wù)業(yè)。屬于制造業(yè)包括五金行業(yè)，橡膠工業(yè)，電子制造業(yè)，紡織業(yè)。屬于服務(wù)業(yè)包括信息服務(wù)，醫(yī)療服務(wù)，物流服務(wù)行業(yè)。

在應(yīng)用決策森林的方法前需要指定目標(biāo)變量并且定義預(yù)測變量。在這項(xiàng)研究中，課程類別，完成狀態(tài)，以及這兩個變量的特征被選為預(yù)測變量，學(xué)生工作行業(yè)及其特點(diǎn)被選為目標(biāo)變量。該算法的目的是，找到課程偏好和課程完成率與不同的行業(yè)的完成狀態(tài)的關(guān)系。

在決策森林方法中，制造業(yè)和服務(wù)業(yè)，基于行業(yè)特征聚集。每個部門，完成狀態(tài)的進(jìn)一步聚集取決于課程是否完成;完成狀態(tài)也可按課程類別聚集。聚類的預(yù)測變量持續(xù)到規(guī)則被發(fā)現(xiàn)。

對聚類的預(yù)測變量的細(xì)節(jié)分割取決于分割的標(biāo)準(zhǔn)值設(shè)置的高低。在這項(xiàng)研究中，分割的標(biāo)準(zhǔn)值設(shè)置為4 和5。當(dāng)該值被設(shè)置為4，聚類包括由實(shí)線和圖1 中的虛線包圍的區(qū)域。當(dāng)該值被設(shè)置為5，則聚類只涵蓋由圖1 中的實(shí)線包圍的區(qū)域。

圖1 完成狀態(tài)的概率

決策森林的應(yīng)用結(jié)果表明:1)選修了商業(yè)和管理課程的學(xué)生，且完成了語言和其他課程的學(xué)生，42.5%來自制造業(yè)，57.5%來自服務(wù)業(yè);2)選修了信息管理與工程課程且完成了該課程的學(xué)生，51%來制造業(yè)，49%來自服務(wù)業(yè);3)選修了信息管理等課程，但沒有完成課程的學(xué)生，5%來自制造業(yè)，95%來自服務(wù)業(yè);4)選修了商業(yè)和管理課程，但語言和工程課程沒有完成的學(xué)生，44.9%來自制造業(yè)，55.1%來自服務(wù)業(yè)。

決策森林表明參與者來自制造業(yè)主要選修課程為信息管理課程與工程課程，而來自服務(wù)業(yè)的參與者主要選修信息管理和其他課程。數(shù)據(jù)挖掘的應(yīng)用擁有可靠的分析結(jié)果，課程決策者能夠?qū)φn程結(jié)構(gòu)進(jìn)行調(diào)整，以便更好地服務(wù)于學(xué)生的個人需求和社會的公共需求。

4 結(jié)論

該文應(yīng)用數(shù)據(jù)挖掘方法是用來尋找首選課程類別和學(xué)生職業(yè)之間的相關(guān)性的，使用決策森林方法發(fā)現(xiàn)，來自不同行業(yè)的首選課程取決于該行業(yè)學(xué)生首選課程完成率的高低。該文將決策森林方法引入到教學(xué)質(zhì)量管理改革中，學(xué)校相關(guān)主管部門可以根據(jù)不同學(xué)生專業(yè)的需要來制定未來的課程計(jì)劃。接下來的一些工作:可以根據(jù)學(xué)生所選課程成績和教師實(shí)際教學(xué)效果之間的關(guān)系，探究教師教學(xué)方法與學(xué)生成績之間的關(guān)系。

［1］陸化普.數(shù)據(jù)挖掘技術(shù)在智能交通系統(tǒng)綜合信息平臺中的應(yīng)用［J］.ITS 通訊，2004，3(1) ：41－42.

［2］王桂芹，黃道.數(shù)據(jù)挖掘技術(shù)綜述［J］.電腦應(yīng)用技術(shù)，2007，3(69) ：10－11.

［3］蔣暉.數(shù)據(jù)挖掘及其一種關(guān)聯(lián)規(guī)則算法［J］.計(jì)算機(jī)與數(shù)字工程，2011，39(6) ：38－42.

［4］Han J W，Kamber M.數(shù)據(jù)挖掘概念與技術(shù)［M］.范明，孟小峰，譯.北京：機(jī)械工業(yè)出版社，2001.

［5］陳文偉，黃金才.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘［M］.北京：人民郵電出版社，2004：137－139.

［6］寇雪芹.BP 人工神經(jīng)網(wǎng)絡(luò)在二傳感器數(shù)據(jù)融合處理中的應(yīng)用［J］.計(jì)量技術(shù)，2003，11(2) ：27－28.