郭 鑫
(哈爾濱廣廈學(xué)院,黑龍江 哈爾濱 150025)
在高校的教學(xué)管理工作中,教學(xué)質(zhì)量評(píng)價(jià)是較為重要的環(huán)節(jié)。而如何科學(xué)又合理地對(duì)教師教學(xué)質(zhì)量進(jìn)行總結(jié),一直是高校教學(xué)管理者研討的熱門課題。筆者所在的哈爾濱廣廈學(xué)院是一所民辦三表本科院校,學(xué)生的基礎(chǔ)較薄弱,學(xué)習(xí)的主動(dòng)性相對(duì)較差,因而本校教師在日常教學(xué)工作中均要付出更大的努力才能激起學(xué)生的學(xué)習(xí)興趣。廣廈學(xué)院每學(xué)期期中教學(xué)檢查都要進(jìn)行教學(xué)質(zhì)量評(píng)估,如果利用數(shù)據(jù)挖掘技術(shù)中的相關(guān)規(guī)則對(duì)其進(jìn)行挖掘,便能清晰地發(fā)現(xiàn)教學(xué)質(zhì)量的好壞與教師的年齡、職稱、學(xué)歷以及其采用的教學(xué)方法之間的關(guān)系,從而合理地配置不同班級(jí)的上課教師,更大程度地激發(fā)學(xué)生的學(xué)習(xí)熱情[1]。
(一)數(shù)據(jù)挖掘產(chǎn)生的背景。隨著通信和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,計(jì)算機(jī)技術(shù)在各行各業(yè)的應(yīng)用更加廣泛,日常生活中產(chǎn)生的數(shù)據(jù),以前所未有的速度積累。與客戶創(chuàng)造交易或互動(dòng)而產(chǎn)生的一些大量的公司記錄,如通訊記錄,銀行記錄,交通運(yùn)輸記錄,和零售商記錄等。這些數(shù)據(jù)對(duì)于企業(yè)是非常重要的,并且許多公司已經(jīng)開始利用這些數(shù)據(jù)記錄并識(shí)別客戶最終為公司獲得收益。然而,從大量的數(shù)據(jù)和復(fù)雜的信息中要提取有用的內(nèi)容,可能是我們正面臨著的一個(gè)重大的挑戰(zhàn)。在迎接這一挑戰(zhàn)中,數(shù)據(jù)挖掘技術(shù)的出現(xiàn),給我們提供了很大的技術(shù)支持。
(二)數(shù)據(jù)挖掘的基本概念。在計(jì)算機(jī)技術(shù)的飛速發(fā)展中,先進(jìn)的數(shù)據(jù)庫(kù)技術(shù),使得數(shù)據(jù)存儲(chǔ)容量超出想象,在大量的數(shù)據(jù)中,有一些數(shù)據(jù)也非常重要,但是這些數(shù)據(jù)是隱藏在大量的數(shù)據(jù)庫(kù)中,如果能從數(shù)據(jù)庫(kù)中將需要的信息提取出來(lái),從中找出一定規(guī)律和規(guī)則,這些規(guī)律和規(guī)則將會(huì)給管理者提供重要幫助,最大限度的降低決策風(fēng)險(xiǎn),潛在的創(chuàng)造了一定價(jià)值,而這種從海量數(shù)據(jù)庫(kù)中進(jìn)行挖掘信息的技術(shù),俗稱為數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是一個(gè)基于多學(xué)科領(lǐng)域的交集,擁有強(qiáng)大的生命力和發(fā)展前景[2]。數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,挖掘隱含在內(nèi)的、事先不知道的、但是內(nèi)在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘的主要特點(diǎn)是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和建模工作以獲取決策的關(guān)鍵信息。
(三)數(shù)據(jù)挖掘的方法
(1)Apriori算法。在關(guān)聯(lián)規(guī)則的挖掘算法中,Apriori算法(包含AprioriTid和AprioriHybrid算法)由R.Agrawal等人提出的最為著名,Apriori算法是一種最具影響力的關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。逐層搜索迭代是Apriori算法的核心方法,將關(guān)聯(lián)規(guī)則的挖掘分為如下兩個(gè)步驟:第一步,尋找頻繁項(xiàng)目集;第二步,產(chǎn)生關(guān)聯(lián)規(guī)則。
(2)決策樹算法。 最早在 CLS(Concept Learning System)[3]中出現(xiàn)了決策樹的概念。決策樹分類是用屬性值對(duì)樣本集逐級(jí)劃分,直到一個(gè)節(jié)點(diǎn)僅含有同一類的樣本為止。分類的最終目的是生成一個(gè)分類器,此模型采用映射思想,數(shù)據(jù)項(xiàng)為映射原點(diǎn),給定類別為映射目的地。作為分類算法的一種,決策樹算法歸納是其中較為經(jīng)典的之一。
(3)粗糙集算法。在21世紀(jì)70年代,波蘭著名學(xué)者、數(shù)學(xué)家Z.Paw lak提出了粗糙集理論,該理論定義了模糊性和不確定性的概念,是一種分析數(shù)據(jù)的數(shù)學(xué)理論。粗糙集所能處理的數(shù)據(jù)包括確定性的、非確定性的、數(shù)值的、非數(shù)值的、不精確的、不完整的、多變量的、部分?jǐn)?shù)據(jù)矛盾的等,其典型特點(diǎn)是僅依賴數(shù)據(jù)本身,而一些先驗(yàn)或主觀數(shù)據(jù)對(duì)粗糙集沒(méi)有任何影響。
(4)遺傳算法。該算法是一類借鑒自然界的進(jìn)化規(guī)律演化而來(lái)的隨機(jī)化搜索方法稱為遺傳算法(GeneticAlgorithm)[4],遺傳算法是一種基于仿生學(xué)的計(jì)算方法。通過(guò)選擇與染色體之間的交叉和變異的方式模仿生物進(jìn)化的過(guò)程,1969年美國(guó)Michigan(密西根)大學(xué)Holland教授提出遺傳算法的概念。
(5)貝葉斯分類算法。貝葉斯分類算法是一種基于數(shù)學(xué)領(lǐng)域中概率統(tǒng)計(jì)知識(shí)的算法,該算法是一種統(tǒng)計(jì)學(xué)分類方法。通常,貝葉斯算法分為兩大類:樸素貝葉斯算法和TAN算法。貝葉斯分類算法的優(yōu)勢(shì)在于其可應(yīng)用到大型數(shù)據(jù)庫(kù)中且簡(jiǎn)單易行。
(一)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的一個(gè)經(jīng)典的例子就是在超市對(duì)顧客購(gòu)買物品的分析。通過(guò)顧客購(gòu)買各種商品總結(jié)發(fā)現(xiàn)物品與物品之間的關(guān)系,分析顧客在購(gòu)買過(guò)程中的習(xí)慣與心理。什么樣的商品被購(gòu)買者頻繁地同時(shí)購(gòu)買,商家可以根據(jù)購(gòu)買情況制定營(yíng)銷策略。關(guān)聯(lián)規(guī)則問(wèn)題是R.Agrawal等人在1993年提出的,隨后關(guān)聯(lián)規(guī)則的挖掘問(wèn)題被研究人員進(jìn)行了大量的研究與討論。關(guān)聯(lián)規(guī)則的計(jì)算依賴于發(fā)現(xiàn)相關(guān)數(shù)據(jù)中頻繁出現(xiàn)的數(shù)據(jù)項(xiàng),尋找數(shù)據(jù)子集間的關(guān)聯(lián)關(guān)系。
(1)Apriori算法。 1994 年,Agrawal等提出了 Apriori算法用于發(fā)現(xiàn)數(shù)據(jù)庫(kù)中的頻繁項(xiàng)集,主要使用逐層搜索的迭代算法,通過(guò)掃描數(shù)據(jù)庫(kù)得出頻繁項(xiàng)集,一般來(lái)說(shuō),約定第n次掃描得頻繁k-項(xiàng)集,記為L(zhǎng)k,首先對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行第一次掃描,找出候選頻繁1-項(xiàng)集,記為L(zhǎng)1,然后調(diào)用Apriori-Gen(L1)來(lái)產(chǎn)生候選項(xiàng)集C2,對(duì)C2中的項(xiàng)進(jìn)行挖掘出L2,即頻繁2-項(xiàng)集,一直重復(fù)循環(huán),直到無(wú)法發(fā)現(xiàn)更多的頻繁k-項(xiàng)集為止。Apriori算法每挖掘一層Lk就需要對(duì)整個(gè)數(shù)據(jù)庫(kù)進(jìn)行掃描。如果在求解過(guò)程中某次計(jì)算Lk為空時(shí),那么整個(gè)算法的求解過(guò)程自然結(jié)束。
(2)基于矩陣的改進(jìn)算法。通過(guò)對(duì)Apriori算法的分析,我們能夠得出結(jié)論,Apriori算法存在著兩個(gè)弊端,一是每次找到頻繁項(xiàng)集和候選項(xiàng)集時(shí)都要掃描數(shù)據(jù)庫(kù)。二是事務(wù)數(shù)據(jù)庫(kù)D事務(wù)量較大時(shí),產(chǎn)生的頻繁項(xiàng)集和候選項(xiàng)集數(shù)量也會(huì)很龐大。本文是基于矩陣的改進(jìn)算法的基礎(chǔ)上,提出了一種新的基于矩陣的改進(jìn)算法我們暫叫為Apriori-X,在關(guān)聯(lián)規(guī)則中有些規(guī)則能夠產(chǎn)生規(guī)則,頻繁項(xiàng)目集和候選項(xiàng)目集并不需要全部生成,而是在保證不丟失頻繁項(xiàng)目集和規(guī)則的基礎(chǔ)上生成最小的關(guān)聯(lián)規(guī)則集。Apriori-X算法是在利用基于矩陣的改進(jìn)算法生成最小的關(guān)聯(lián)規(guī)則集,并且不丟失任一個(gè)關(guān)聯(lián)規(guī)則。Apriori-X算法基本思想是事務(wù)數(shù)據(jù)庫(kù)中的每一個(gè)事務(wù)作為初始矩陣的行,具體事務(wù)值作為初始矩陣的列,某一事務(wù)的事務(wù)值存在則矩陣表中相應(yīng)行列處的值為1,否則為0。
(二)關(guān)聯(lián)規(guī)則在教學(xué)質(zhì)量評(píng)價(jià)系統(tǒng)中的應(yīng)用
(1)數(shù)據(jù)采集。本文是將哈爾濱廣廈學(xué)院2012年度的評(píng)教表作為原始數(shù)據(jù)表進(jìn)行數(shù)據(jù)挖掘,數(shù)據(jù)源中的數(shù)據(jù)由廣廈學(xué)院教務(wù)處提供,在教學(xué)管理系統(tǒng)中導(dǎo)出教師表和學(xué)生評(píng)教表2個(gè)Excel文件合并形成教師評(píng)估表,教師達(dá)189人次,學(xué)生評(píng)教記錄數(shù)3080條。
(2)數(shù)據(jù)轉(zhuǎn)換。本例中采用對(duì)每個(gè)字段進(jìn)行離散型數(shù)據(jù),對(duì)年齡字段小于35歲的置1,否則為0,對(duì)于職稱字段為講師置1,否則為0,學(xué)歷/學(xué)位字段本科以上(不含本科)置1,否則為0,根據(jù)評(píng)教表教學(xué)方法多樣的置1,否則置,評(píng)教分?jǐn)?shù)大于90分置1,否則為0。
(3)結(jié)果分析。利用關(guān)聯(lián)規(guī)則改進(jìn)算法進(jìn)行挖掘,本例將最低條件支持度設(shè)置為50%,最小規(guī)則置信度設(shè)置為70%。根據(jù)關(guān)聯(lián)結(jié)果不難看出,在本院上課的老師,(教學(xué)方法多樣的,職稱=講師)=>評(píng)教分?jǐn)?shù)=優(yōu),支持度為64.319%,置信度89.836%,(年齡35歲以下,職稱=講師)=>評(píng)教分?jǐn)?shù)=優(yōu),支持度為59.624%,置信度86.614%,評(píng)教分?jǐn)?shù)=優(yōu)=>(職稱=講師,學(xué)歷/學(xué)位=研究生或碩士),支持度為59.624%,置信度85.827%,教學(xué)方法多樣=>(職稱為講師,評(píng)教分?jǐn)?shù)為優(yōu))支持度為69.674%,置信度81.548%,(教學(xué)方法多樣的,職稱=講師,評(píng)教分?jǐn)?shù)=優(yōu))=>年齡為35歲以下,支持度為71.596%,置信度77.976%,從結(jié)果中看到,由于本院建校剛剛十幾年,廣廈學(xué)院大部分骨干教師都是35歲以下且職稱為講師為主,根據(jù)評(píng)教分?jǐn)?shù)為優(yōu)的結(jié)果來(lái)看,教師的教學(xué)效果得到了本系大部分學(xué)生的認(rèn)可,可以斷定,計(jì)算機(jī)是一個(gè)高速發(fā)展的學(xué)科,當(dāng)今的學(xué)生喜歡的教師也具有一定的方向性,在培養(yǎng)應(yīng)用型本科人才的院校中學(xué)生不一定會(huì)喜歡學(xué)者型的、研究型的教師,特別是在民辦普通高等學(xué)校,此類學(xué)校中學(xué)生的基礎(chǔ)不好,但思維非?;钴S,大部分學(xué)生主動(dòng)學(xué)習(xí)意識(shí)比較薄弱,而年輕的青年教師,縮短與學(xué)生之間的代溝和差距,更容易受到學(xué)生的認(rèn)可與歡迎。
隨著高等教育規(guī)模的擴(kuò)大,各大高校的常規(guī)教學(xué)管理及學(xué)生就業(yè)管理中越來(lái)越多地積累了大量數(shù)據(jù),而這些數(shù)據(jù)的有效分析將對(duì)學(xué)院的長(zhǎng)遠(yuǎn)發(fā)展起到一定的推動(dòng)作用。數(shù)據(jù)挖掘技術(shù)還在不斷成長(zhǎng)之中。相信隨著社會(huì)的進(jìn)步,科技的發(fā)展,數(shù)據(jù)挖掘技術(shù)將對(duì)社會(huì)的各個(gè)領(lǐng)域產(chǎn)生卓越的影響,在新世紀(jì)的科技創(chuàng)新中扮演重要的角色。
[1]吳瑕.數(shù)據(jù)挖掘及在教學(xué)管理中的應(yīng)用研究.哈爾濱工程大學(xué)碩士論文,2007:27~29
[2]張峰.基于數(shù)據(jù)挖掘技術(shù)的教學(xué)管理應(yīng)用研究.合肥工業(yè)大學(xué)碩士論文,2010:5~8
[3]宋春景,鄧志文.基于關(guān)聯(lián)規(guī)則算法的教務(wù)管理數(shù)據(jù)挖掘.科技信息,2012:432
[4]賀愛(ài)香.決策樹在應(yīng)用型本科高校就業(yè)管理中應(yīng)用研究.安徽大學(xué)碩士論文,2011:24~29