摘 要:隨著高校信息化建設(shè)的逐年投入,在校園網(wǎng)絡(luò)中運行的各種應(yīng)用系統(tǒng)中積累的數(shù)據(jù)在急劇增加,如何從大量的數(shù)據(jù)中發(fā)掘出有價值的信息,最大限度的發(fā)揮數(shù)據(jù)價值,成為高校亟待解決的問題。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;信息化
中圖分類號:TP311.13
隨著信息技術(shù)的發(fā)展,各高校建立了必要的基礎(chǔ)設(shè)施和應(yīng)用系統(tǒng),利用先進的現(xiàn)代信息技術(shù)、手段和工具實現(xiàn)了校園內(nèi)部各項資源的信息化,形成了一個完整的、獨立的信息化空間,使得現(xiàn)實校園在時間和空間上延伸開來。由于高校內(nèi)部不同行政管理部門之間的協(xié)調(diào)問題,在高校中運行了紛繁復(fù)雜的系統(tǒng),不同應(yīng)用系統(tǒng)之間數(shù)據(jù)存在千絲萬縷的聯(lián)系,導(dǎo)致出現(xiàn)許多冗余數(shù)據(jù),數(shù)據(jù)質(zhì)量不高消弱了數(shù)據(jù)利用的價值。這就必須借助數(shù)據(jù)挖掘技術(shù)去發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律,為知識管理決策提供科學(xué)依據(jù)和更有效的支持。
1 數(shù)據(jù)挖掘定義及挖掘過程
1.1 數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘(Data Mining,DM),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中揭示隱含的、先前未知的并有潛在價值的信息和知識的過程。數(shù)據(jù)挖掘過程不是線性的,而是反復(fù)循環(huán)的。從大量數(shù)據(jù)中發(fā)現(xiàn)有用的信息、規(guī)則等知識是一個系統(tǒng)的過程。
1.2 數(shù)據(jù)挖掘的一般過程
數(shù)據(jù)挖掘的過程可描述為,在確定了數(shù)據(jù)挖掘的目的之后,在各類相關(guān)的信息中選擇適于數(shù)據(jù)挖掘的數(shù)據(jù),接著對數(shù)據(jù)進行初步處理,然后針對某一數(shù)據(jù)挖掘算法建立分析模型,選擇合適的挖掘算法進行數(shù)據(jù)挖掘。主要包括數(shù)據(jù)準備、數(shù)據(jù)挖掘、評價和解釋等幾個階段。
(1)數(shù)據(jù)準備
熟悉背景知識,弄清用戶的需求,明確定義要解決的問題,針對性的從已存在的數(shù)據(jù)倉庫中提取相關(guān)數(shù)據(jù),進行數(shù)據(jù)收集,建立數(shù)據(jù)挖掘庫。
(2)數(shù)據(jù)挖掘
從數(shù)據(jù)中找出相關(guān)規(guī)律和相應(yīng)的趨勢,發(fā)現(xiàn)各因素間的相關(guān)性,選擇數(shù)據(jù)挖掘算法,如關(guān)聯(lián)規(guī)則、分類預(yù)測、聚類規(guī)則等對數(shù)據(jù)進行深入調(diào)查,進一步明確和量化問題解決的要求,根據(jù)問題的需求對數(shù)據(jù)進行增刪,甚至形成新變量以對狀態(tài)進行有效的描述,通過采用數(shù)據(jù)挖掘中的相應(yīng)分析方法來建立模型。
(3)評價和解釋
通過評估來確定有效的、有用的模型。因為數(shù)據(jù)挖掘得到的模型可能會是沒有實際意義或沒有使用價值的,也可能是不能準確反映數(shù)據(jù)真實意義的模型,甚至有可能是一些與事實相反的模型,因此需要對所得到的的挖掘結(jié)果進行評價,以去除無效的模型。
2 主要的數(shù)據(jù)挖掘方法
2.1 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的關(guān)系規(guī)則,即根據(jù)一個事務(wù)中某些項的出現(xiàn)可導(dǎo)出另一些項在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。它們經(jīng)常被表達為如下形式的蘊含或規(guī)則形式:X=>Y,可以解釋為滿足X的數(shù)據(jù)庫元組也可能會滿足Y。在客戶關(guān)系管理中,通過對企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場營銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價與定制客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預(yù)測等決策支持提供參考依據(jù)。
2.2 分類與預(yù)測
分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,構(gòu)造出一個分類模型,該模型能夠把數(shù)據(jù)庫中的數(shù)據(jù)記錄映射到給定類別中的某一個,從而可以應(yīng)用于數(shù)據(jù)預(yù)測。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預(yù)測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機會。
2.3 聚類規(guī)則
聚類分析是把一組數(shù)據(jù)按照相似性和差異性分成幾個類別,這主要是把一組按照相似性歸納成若干類別,也就是“物以類聚”。其目的是讓同一類別的數(shù)據(jù)間的相似性盡可能增大,不同類別中的數(shù)據(jù)間的相似性盡可能減少。
3 數(shù)據(jù)挖掘技術(shù)在高校信息化建設(shè)中的應(yīng)用
3.1 利用數(shù)據(jù)挖掘技術(shù)促進知識管理
學(xué)校在長期的信息化建設(shè)中形成了大量數(shù)據(jù)資料,由于不同工作部門之間工作協(xié)作關(guān)系,導(dǎo)致積累了大量的冗余信息,利用數(shù)據(jù)挖掘技術(shù)從紛繁復(fù)雜的數(shù)據(jù)中挖掘有價值的知識,建立充分利用這些數(shù)據(jù)的意識,通過數(shù)據(jù)總結(jié)、數(shù)據(jù)分類、數(shù)據(jù)聚類和關(guān)聯(lián)規(guī)則發(fā)現(xiàn)學(xué)校中的隱式知識和顯式知識,推進對知識的創(chuàng)新、獲取、加工、存儲、傳播和應(yīng)用的管理,建立以數(shù)據(jù)為中心的知識管理模型。
3.2 利用數(shù)據(jù)挖掘技術(shù)促進課程體系建設(shè)
根據(jù)職業(yè)人成長的規(guī)律,各專業(yè)課程的設(shè)置是循序漸進的,課程與課程之間也是有一定的關(guān)聯(lián)和前后順序關(guān)系。學(xué)一門較高級課程之前,必須要先修一些先行課程,例如計算機專業(yè)學(xué)生在學(xué)習數(shù)據(jù)結(jié)構(gòu)這門課程之前,需要先學(xué)習語言程序設(shè)計等等課程。一旦先行課程沒有學(xué)好,則會影響后續(xù)課程的學(xué)習。另外,同年級學(xué)習相同課程的不同班級,由于授課教師、班級文化的不同,班內(nèi)學(xué)生的總體成績也會有所差異。每個學(xué)期安排課程的多少,也會影響學(xué)生學(xué)習效果。我們可以利用學(xué)生的學(xué)習成績數(shù)據(jù)庫中存放的歷屆學(xué)生各門學(xué)科的考試成績,結(jié)合數(shù)據(jù)挖掘的關(guān)聯(lián)分析與實踐序列分析等相關(guān)功能,從這些海量數(shù)據(jù)中挖掘出有用的信息,幫助分析這些數(shù)據(jù)之間的相關(guān)性、回歸性等性質(zhì),得出一些很有價值的規(guī)則和信息,找到影響學(xué)生成績的原因,并在此基礎(chǔ)上對課程設(shè)計做出更加合理的安排。
3.3 利用數(shù)據(jù)挖掘技術(shù)改進教學(xué)評價方法
教學(xué)質(zhì)量是整個教學(xué)過程的中心環(huán)節(jié),是人才培養(yǎng)質(zhì)量的重要保證,是對學(xué)校辦學(xué)水平進行綜合評價的重要組成部分。教學(xué)質(zhì)量高低是教學(xué)活動的成效性外在表現(xiàn)形式,而良好的教學(xué)評價對教學(xué)質(zhì)量有導(dǎo)向、促進、激勵及調(diào)控功能,是學(xué)校教學(xué)管理工作的重要組成部分,是評價教學(xué)工作成績的主要手段,對教師的客觀評價體現(xiàn)了教師在教學(xué)過程中的綜合能力。教學(xué)質(zhì)量評價是一個多維性評價指標體系,包括課程組織、行為管理、學(xué)生成績評定和師生關(guān)系等。教學(xué)質(zhì)量評價指標體系具有多因素性、模糊性、多樣性以及評估功能的鑒定性和診斷性等特點。如何從現(xiàn)有的大量評價數(shù)據(jù)中挖掘出內(nèi)涵的、潛在的、有用的數(shù)據(jù)非常重要,并對這些數(shù)據(jù)進行準確地、科學(xué)的分析,是一個復(fù)雜的系統(tǒng)工程。利用數(shù)據(jù)挖掘算法從教學(xué)評價數(shù)據(jù)中進行挖掘,分析各種因素之間隱藏的內(nèi)在聯(lián)系,探索教學(xué)效果的好壞與教師的年齡結(jié)構(gòu)、職稱結(jié)構(gòu)、學(xué)歷結(jié)構(gòu)之間的關(guān)系,課堂教學(xué)效果與教師整體水平的關(guān)系,正確、有效地利用這些數(shù)據(jù)評價教學(xué)質(zhì)量和教學(xué)效果,進而建立行之有效的教學(xué)評價模型,更好的為學(xué)校專業(yè)教學(xué)評估和日常教學(xué)工作服務(wù)。
4 結(jié)束語
在高校信息化管理中,通過數(shù)據(jù)挖掘技術(shù)能使管理者獲取有價值的關(guān)鍵性數(shù)據(jù),為科學(xué)決策提供依據(jù)。因此,采取科學(xué)的數(shù)據(jù)挖掘技術(shù)對智慧型校園建設(shè)具有重要的作用。
參考文獻:
[1]譚建豪.數(shù)據(jù)挖掘技術(shù)[M].北京:中國水利水電出版社,2009.
[2]王樹利.基于數(shù)據(jù)挖掘技術(shù)的高校教學(xué)管理信息化研究[J].江蘇科技大學(xué)學(xué)報(社會科學(xué)版),2009.
[3]胡春紅.數(shù)據(jù)挖掘技術(shù)在高校信息化管理中的應(yīng)用[J].長江大學(xué)學(xué)報(自然科學(xué)版),2010.
[4]曹路舟.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用初探[J].科學(xué)文匯(下旬刊),2012.
[5]趙映川.大數(shù)據(jù)時代院校研究的發(fā)展與突破[J].高校教育管理,2013.
作者簡介:侯宇(1983.03-),男,苗族,貴州銅仁人,講師,研究生,研究方向:計算機網(wǎng)絡(luò)安全方面。
作者單位:銅仁職業(yè)技術(shù)學(xué)院,貴州銅仁 554300