馬紅娟,趙秀蘭,孫亞萍,鄭喜英
(1.黃河科技學(xué)院 信息工程學(xué)院,鄭州 450063;2.鄭州城軌交通中等專業(yè)學(xué)校,鄭州 450000)
高速發(fā)展的信息技術(shù)產(chǎn)生了大量的數(shù)據(jù),人們收集這些數(shù)據(jù),在給我們生活提供方便的同時,帶來一些問題。由于收集的數(shù)據(jù)不斷增多,在對數(shù)據(jù)進行挖掘的過程中對所隱藏的數(shù)據(jù)知道的方法比較少,使得數(shù)據(jù)囤積量增大,由于數(shù)據(jù)庫里的量,在以幾何形式不斷增長,要在數(shù)據(jù)庫中對信息去偽存真、去粗存精,靠傳統(tǒng)方法是不夠的,要想高效地組織、管理這些數(shù)據(jù)進行分析和應(yīng)用,數(shù)據(jù)挖掘是對計算機系統(tǒng)提供更高層次數(shù)據(jù)分析的最有效的方法。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的核心部分,從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的游泳信息的非平凡過程,表現(xiàn)形式為:概念、規(guī)則、模式及規(guī)律等。數(shù)據(jù)挖掘融合了統(tǒng)計學(xué)、模式識別、數(shù)據(jù)庫、神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)、空間數(shù)據(jù)、數(shù)據(jù)可視化、人工智能、信息檢索、高性能計算等多個領(lǐng)域的理論和技術(shù),是一門交叉學(xué)科。
在民辦高校概率論與數(shù)理統(tǒng)計教學(xué)實踐中,學(xué)生是主體,存在著教師對學(xué)生課程管理、成績管理、教學(xué)儀器管理、學(xué)生管理等各種數(shù)據(jù)系統(tǒng)。在這些數(shù)據(jù)庫中存儲了大量的數(shù)據(jù),隱藏在這些數(shù)據(jù)背后的信息一直未得到開發(fā)應(yīng)用。學(xué)生是民辦高校的核心,學(xué)生的概率統(tǒng)計學(xué)習(xí)成績作為一種總結(jié)性評價,能反映出他們的概率統(tǒng)計知識技能的獲得情況和相應(yīng)概率統(tǒng)計知識掌握情況,概率統(tǒng)計學(xué)習(xí)成績是一個加權(quán)的綜合數(shù)值,不僅包括概率統(tǒng)計書面的考試成績,而且還包括一些人文的考核項目,比如出勤率、課題表現(xiàn)、各種活動等。學(xué)生概率統(tǒng)計成績不僅對學(xué)生的概率統(tǒng)計學(xué)習(xí)效果和教師的概率統(tǒng)計教學(xué)效果具有檢驗作用,而且還能反饋教學(xué)活動,反作用于學(xué)生的學(xué)和教師的教。一般對學(xué)生成績的評定分為兩種:一種是定性評價,一種是定量評價。定性評價一般分為優(yōu)、良、中、差等四個級別,定量評價是概率統(tǒng)計課程考了多少分。僅僅從單獨一門概率統(tǒng)計課程進行分析,很少關(guān)注到學(xué)生取得這些概率統(tǒng)計成績背后的影響因素和原因。數(shù)據(jù)庫是從定性分析的角度分析學(xué)生,缺點是結(jié)果不精確;數(shù)據(jù)倉庫是從定量的角度分析,能精確得到各個方面的數(shù)據(jù)。使用數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)倉庫對學(xué)生概率統(tǒng)計成績進行深層的分析,挖掘出隱藏在數(shù)據(jù)背后的模式或規(guī)律,根據(jù)數(shù)據(jù)挖掘結(jié)果提出一些指導(dǎo)性建議,更好地指導(dǎo)概率統(tǒng)計教師的教學(xué),提高概率統(tǒng)計教學(xué)效率,有效地提高學(xué)生概率統(tǒng)計成績。
數(shù)據(jù)挖掘技術(shù)主要有遺傳算法、決策樹法、集合論法、神經(jīng)網(wǎng)絡(luò)法等。決策樹法分為CLS算法、ID3算法、IBLE算法等。ID3算法是由Quinlan首先提出的,該算法以信息論為基礎(chǔ),以信息增益度和信息熵為衡量標(biāo)準(zhǔn),從而實現(xiàn)對數(shù)據(jù)的歸納分類。
已知有C個結(jié)果的訓(xùn)練集S:
Entropy(S)=∑-p(I)log2p(I) (1)
這里:p(I)是屬于類I的S的比例。∑是對C求和。log2以2為底的自然對數(shù)。
如果所有S屬于相同的類,熵為0(數(shù)據(jù)分類完畢)。熵的范圍是0(分類完畢)到1(完全隨機)。
注意:S不但是屬性而且也是整個樣本集(這一點剛開始可能有點混淆)。
Entropy(S,A)=∑(|Sv|/|S|)*Entropy(Sv) (2)
這里:∑是屬性A的所有可能的值v;Sv=屬性A有v值的S的子集;|Sv|=Sv中元素個數(shù);|S|=S中元素個數(shù)。
Gain(S,A)是屬性A在集S上的信息增益,定義為:
Gain(S,A)=Entropy(S)-Entropy(S,A) (3)
Gain(S,A)是指已知屬性A的值后導(dǎo)致熵的減少。Gain(S,A)越大,說明選擇檢測屬性A對分類提供的信息越多。
通過對概率統(tǒng)計課程學(xué)生成績評定的典型案例,說明數(shù)據(jù)挖掘的步驟和決策樹方法在概率統(tǒng)計教學(xué)實踐中的應(yīng)用。
概率論與數(shù)理統(tǒng)計課程每學(xué)年考核一次,考核分為三個部分:一是概率統(tǒng)計課內(nèi)教學(xué);二是概率統(tǒng)計課后作業(yè);三是每學(xué)年期末概率統(tǒng)計考核。整個概率統(tǒng)計課程主要依據(jù)在規(guī)定時間內(nèi)完成的概率統(tǒng)計課后作業(yè)的質(zhì)量和期末概率統(tǒng)計考核成績來決定,概率統(tǒng)計實驗課作為較次要的考核內(nèi)容。上述概率統(tǒng)計教學(xué)內(nèi)容之間的關(guān)系,可以建立一個數(shù)據(jù)模型:學(xué)生狀況數(shù)據(jù)庫,包含學(xué)號、性別、作業(yè)、實驗課、期末考核、平均成績、名次等項目。
選擇兩個不同的班,每班30人,兩班60人,對學(xué)生狀況數(shù)據(jù)庫進行如下的量化、轉(zhuǎn)換、清理、集成等處理工作,得到相應(yīng)的數(shù)據(jù)倉庫(如表1所示),方便下一步數(shù)據(jù)挖掘的工作。
表1 學(xué)生狀況數(shù)據(jù)庫
學(xué)號字段定義為1—60;性別字段定義為:男或女;作業(yè)加分定義為:0表示作業(yè)錯誤,0.5表示作業(yè)正確一部分,1表示作業(yè)全部正確;實驗加分定義為:0表示基本不上概率統(tǒng)計實驗課,0.5表示適當(dāng)上實驗課,1表示按期上實驗課;期末加分定義為:0表示基本不參加概率統(tǒng)計期末考核,0.5表示參加期末考核取得了較好的成績;平均分定義為:學(xué)習(xí)成績總體情況,字段值為0-100(%);名次定義為1-60,且記錄按名次從高到低排列。
應(yīng)用ID3算法建立相應(yīng)的決策樹,確定正例個數(shù)p和反例個數(shù)n。將名次排在前20名成績好的學(xué)生定義為正例,后40名成績不好的學(xué)生定義為反例,即p=20,n=40。
∴gain(作業(yè)加分)=I(p,n)-E(作加)=0.881-0.616=0.265同理,gain(實驗加分)=I(p,n)-E(課加)=0.881-0.801=0.08 gain(期末加分)=I(p,n)-E(測加)=0.881-0.879=0.002通過計算可知,作業(yè)加分具有最大的信息增益,故將作業(yè)加分選為根節(jié)點并向下擴展,最終生成決策樹(如圖1所示)。
圖1 成績分析決策樹
結(jié)合上頁圖1決策樹,經(jīng)過分析可以得到以下結(jié)論:
(1)學(xué)生上完概率統(tǒng)計課后,如按期并且獨立保質(zhì)保量按時完成概率統(tǒng)計作業(yè),成績均較好。
(2)學(xué)生概率統(tǒng)計作業(yè)完成的較好的,也就是在概率統(tǒng)計課堂上思考能力較強,善于思考和分析,可以看出他們在概率統(tǒng)計的基礎(chǔ)上較為重視歸納和總結(jié),均沒有過重的課內(nèi)壓力,其中概率統(tǒng)計課內(nèi)安排適度的學(xué)生學(xué)習(xí)成績也好。
(3)對于剛通過概率統(tǒng)計測評的學(xué)生,情況較為復(fù)雜,具體情況具體分析,一方面學(xué)生的概率統(tǒng)計作業(yè)、課內(nèi)實驗、期末考核安排合理時學(xué)習(xí)成績也好,另一方面,如果學(xué)生經(jīng)常不參加概率統(tǒng)計課程講授或不參加概率統(tǒng)計期末考核時,也會影響到學(xué)習(xí)成績,造成學(xué)習(xí)成績不好。
根據(jù)P221表1和圖1,對學(xué)生情況數(shù)據(jù)庫所建決策樹進行分析,可以初步判別:概率統(tǒng)計作業(yè)、概率統(tǒng)計實驗課、概率統(tǒng)計期末考核是相輔相成的,相互影響和制約,一般來說,學(xué)習(xí)成績較好的學(xué)生,也是概率統(tǒng)計實驗課和期末考試積極參加者。
這樣,教概率統(tǒng)計的老師可以針對不同的學(xué)生,對學(xué)生進行事先概率統(tǒng)計輔導(dǎo),使教學(xué)內(nèi)容在時間上得到延伸,學(xué)生能夠提前預(yù)習(xí)和掌握概率統(tǒng)計教學(xué)內(nèi)容,可以減輕學(xué)生在上概率統(tǒng)計課的壓力,既緊張又輕松完成預(yù)期概率統(tǒng)計課程。同時,也要看到,如果僅重視上概率統(tǒng)計課和參加期末考試而不重視概率統(tǒng)計作業(yè)同樣也會影響到自身的學(xué)習(xí)成績,對于概率統(tǒng)計這門課程,學(xué)習(xí)成績好的學(xué)生,他們的上進心、責(zé)任心也相對較強,能夠很好地處理上述三者之間的關(guān)系;反之,對自己約束能力較差,經(jīng)常不上概率統(tǒng)計課,或不認(rèn)真完成概率統(tǒng)計作業(yè)的學(xué)生,學(xué)習(xí)成績自然就較差。
隨著越來越多的業(yè)務(wù)需求被不斷開拓,除上述在高等民辦院校概率統(tǒng)計課程教學(xué)實踐中的應(yīng)用外,數(shù)據(jù)挖掘技術(shù)已成功地應(yīng)用于醫(yī)學(xué)、商業(yè)、科學(xué)研究等領(lǐng)域,有很多成功的應(yīng)用案例。多種理論與方法的合理整合式大多數(shù)研究者采用的有效技術(shù),下面是數(shù)據(jù)挖掘技術(shù)發(fā)展趨勢:(1)數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化描述:標(biāo)準(zhǔn)的數(shù)據(jù)挖掘語言有助于數(shù)據(jù)挖掘的系統(tǒng)化開發(fā)。改進多個數(shù)據(jù)挖掘系統(tǒng)和功能間的互操作,促進在企業(yè)和社會中的應(yīng)用。
(2)尋求數(shù)據(jù)挖掘過程中的可視化方法:可視化要求已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)中不可少的技術(shù)。通過人機界面可以在發(fā)現(xiàn)知識的過程中進行很好的人機交互。數(shù)據(jù)的可視化推動人們主動進行知識發(fā)現(xiàn)的作用。
(3)與特定數(shù)據(jù)存儲類型的適應(yīng)問題:根據(jù)不同的數(shù)據(jù)存儲類型的特點,進行針對性的研究是必須面對的問題。
(4)網(wǎng)絡(luò)與分布式環(huán)境下的KDD問題:隨著網(wǎng)絡(luò)不斷發(fā)展,網(wǎng)絡(luò)資源日漸豐富,需要獨立的技術(shù)人員各自獨立地處理分離數(shù)據(jù)庫的工作??紤]適應(yīng)分布式與網(wǎng)絡(luò)環(huán)境的關(guān)系,技術(shù)及系統(tǒng)將是數(shù)據(jù)挖掘中一個最為重要和繁榮的子領(lǐng)域。
(5)應(yīng)用的探索:隨著數(shù)據(jù)挖掘的日益普通,應(yīng)用范圍日益擴大,如電信業(yè)、零售業(yè)、生物醫(yī)學(xué)等領(lǐng)域。由于數(shù)據(jù)挖掘在處理特定應(yīng)用問題時存在局限性,目前的研究趨勢是開發(fā)針對于特定應(yīng)用的數(shù)據(jù)挖掘系統(tǒng)。
(6)數(shù)據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)以及Web數(shù)據(jù)庫系統(tǒng)的集成:數(shù)據(jù)庫系統(tǒng)和Web數(shù)據(jù)庫已經(jīng)成為信息處理系統(tǒng)的主流。數(shù)據(jù)挖掘系統(tǒng)的理想體系結(jié)構(gòu)是與數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng)的緊密結(jié)合。
數(shù)據(jù)挖掘技術(shù)作為一種新興的數(shù)據(jù)分析技術(shù),經(jīng)過了十幾年的充實和發(fā)展,到目前為止已經(jīng)成功地運用在各個不同的領(lǐng)域。伴隨著科學(xué)技術(shù)的不斷發(fā)展和信息量的海量增加,比如依靠傳統(tǒng)的方法要在龐大的數(shù)據(jù)庫中找到具有科學(xué)決策的信息是非常困難的,數(shù)據(jù)挖掘技術(shù)就是從大量的數(shù)據(jù)中發(fā)現(xiàn)有用的知識和線索,借助于數(shù)據(jù)挖掘本身的技術(shù)去挖掘蘊藏在數(shù)據(jù)庫中的客觀規(guī)律,從而為科學(xué)合理的決策提供有力的支持。將數(shù)據(jù)挖掘技術(shù)引入到概率統(tǒng)計教學(xué)中,有助于在日常概率統(tǒng)計教學(xué)管理中不斷獲得有規(guī)律的信息,為民辦高校管理層提供決策依據(jù),從而不斷提高概率統(tǒng)計教學(xué)質(zhì)量。本文通過對概率統(tǒng)計課程學(xué)生成績的評定的案例分析,闡述了數(shù)據(jù)挖掘技術(shù)在分析影響學(xué)生學(xué)習(xí)成績因素中的重要意義,目的是推廣數(shù)據(jù)挖掘技術(shù)在民辦高校教學(xué)實踐中的應(yīng)用,使數(shù)據(jù)挖掘技術(shù)在民辦高校得到進一步發(fā)展。
[1]盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計:4版[M].北京:高等教育出版社,2010.
[2]譚旭,王麗珍,卓明.利用決策樹挖掘分類規(guī)則的算法研究[J].云南大學(xué)學(xué)報,2000,(6):415-419.
[3]路延.數(shù)據(jù)挖掘技術(shù)在高等學(xué)校教學(xué)中的應(yīng)用研究[J].科技教育,2013,(13):201.
[4]朱迪茨.實用數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2004:77-79.