遼寧石化職業(yè)技術(shù)學(xué)院 楊 迪
基于距離的孤立點(diǎn)挖掘改進(jìn)算法在教務(wù)管理中的應(yīng)用
遼寧石化職業(yè)技術(shù)學(xué)院 楊 迪
目前,國內(nèi)高校的在校生人數(shù)都已達(dá)到上萬的規(guī)模,并且運(yùn)行著成績管理等各種各樣的軟件系統(tǒng),這些系統(tǒng)中的數(shù)據(jù)庫積累了大量的數(shù)據(jù)。利用這些數(shù)據(jù)理性地分析學(xué)校各方面工作的成效特別是在學(xué)生培養(yǎng)過程中的得失變得十分重要。本文通過對經(jīng)典的基于距離的孤立點(diǎn)挖掘算法的分析與研究,提出了一種改進(jìn)的孤立點(diǎn)挖掘算法,并將該挖掘模型應(yīng)用到教務(wù)管理系統(tǒng)學(xué)生成績歷史數(shù)據(jù)的挖掘中。
數(shù)據(jù)挖掘;孤立點(diǎn);教務(wù)管理;學(xué)生成績
(1)數(shù)據(jù)預(yù)處理
本文選取數(shù)據(jù)對象為遼寧石化職業(yè)技術(shù)學(xué)院石油化工生產(chǎn)技術(shù)專業(yè)2013級學(xué)生。選取該專業(yè)167名學(xué)生入學(xué)后三個學(xué)期考試成績作為實(shí)驗(yàn)的數(shù)據(jù)集,在數(shù)據(jù)預(yù)處理過程中,將考試成績不及格的學(xué)生成績統(tǒng)一記為50分,以便能夠參照學(xué)生平均績點(diǎn)公式計(jì)算。
(2)平均績點(diǎn)計(jì)算公式其中,Si為第i門課程的分?jǐn)?shù),Ci為第i門課程的學(xué)分,n為課程門數(shù)。(3)孤立點(diǎn)定義
文中以學(xué)生平均績點(diǎn)分析為例,選取數(shù)據(jù)對象同上,將三個學(xué)期的學(xué)分績點(diǎn)看做檢測屬性,該問題歸屬于多變量的孤立點(diǎn)檢測問題。經(jīng)過數(shù)據(jù)分析,通過孤立點(diǎn)挖掘算法檢測學(xué)習(xí)成績,其中上升、下降幅度變化較大的即為孤立點(diǎn)。
(1)系統(tǒng)結(jié)構(gòu)
經(jīng)過改良的挖掘算法與傳統(tǒng)的基于距離的孤立點(diǎn)檢測算法相比,首先能夠查找出相似的孤立點(diǎn),并明確了孤立點(diǎn)的程度,去掉了設(shè)置參數(shù)p和d;其次,引入關(guān)鍵屬性后,數(shù)據(jù)集中非關(guān)鍵屬性的數(shù)據(jù)可以在數(shù)據(jù)預(yù)處理階段中刪除掉,以便提高效率;再次,通過距離度量的改進(jìn),可降低錯誤的概率。本文將遼寧石化職業(yè)技術(shù)學(xué)院教務(wù)管理系統(tǒng)中的數(shù)據(jù)用改進(jìn)后的算法計(jì)算,對學(xué)生的平均績點(diǎn)進(jìn)行孤立點(diǎn)挖掘,嘗試挖掘出“其他的”但是有用的信息,以便管理者和教育決策者做決策。程序框圖如圖1所示:
圖1 程序框圖
(2)關(guān)鍵屬性的確定
針對學(xué)生的平均績點(diǎn),可求出相應(yīng)的屬性隸屬度,分別為λ1=0.137932,λ2=0.279831,λ3=0.036037,可以看出λ2>λ1>λ3,λ2即為關(guān)鍵屬性。因此在數(shù)據(jù)預(yù)處理階段,可刪除屬性1和屬性3的數(shù)據(jù),使孤立點(diǎn)挖掘的效率提高。
(3)改進(jìn)距離度量
本文采用了基于改進(jìn)距離度量的方法,降低數(shù)據(jù)分布不均勻給孤立點(diǎn)挖掘結(jié)果帶來的影響。
(4)孤立點(diǎn)挖掘程序代碼
通過結(jié)果數(shù)據(jù)比較得出,在遼寧石化職業(yè)技術(shù)學(xué)院石油化工生產(chǎn)技術(shù)專業(yè)2013級157名學(xué)生數(shù)據(jù)中挖掘出11個孤立點(diǎn),大部分是成績不穩(wěn)定的同學(xué),比如吳皓、張強(qiáng)、劉晶晶等,成績上升的有張華軍,成績下降的學(xué)生有劉瑤、田梓萌等。結(jié)果數(shù)據(jù)可以作為教育管理者制定人才培養(yǎng)方案和教學(xué)計(jì)劃時的參考依據(jù),可以為教育者提供專業(yè)的“特殊”學(xué)生,尤其是成績下降幅度大的學(xué)生,班主任以及任課教師可以有針對性的進(jìn)行輔導(dǎo)和幫助,從而能夠在短時間內(nèi)將學(xué)生的成績提高上去。
此外,在改進(jìn)算法中引進(jìn)關(guān)鍵屬性概念,使非關(guān)鍵屬性的數(shù)據(jù)不參加計(jì)算,以提高了算法效率。通過結(jié)果數(shù)據(jù)對比,孤立點(diǎn)的挖掘結(jié)果基本一致,只在順序上略有不同,可忽略不計(jì)。與傳統(tǒng)的孤立點(diǎn)挖掘方法相比,上文采用的算法取消設(shè)置參數(shù)p和d,使用者只需指定需要挖掘出的孤立點(diǎn)個數(shù),即j值,就可以檢測出j個孤立點(diǎn)。在時間復(fù)雜度上,本文采用的算法也優(yōu)于其他算法。
[1]張京民等.?dāng)?shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:電子工業(yè)出版社,2002.
[2]孟浩.孤立點(diǎn)挖掘技術(shù)在入侵檢測中的應(yīng)用研究[D].大連海事大學(xué)碩士學(xué)位論文,2007.
[3]黃浩,王建軍.WEB使用挖掘研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2008(1):125-128.
[4]曾春,邢春曉,周立柱.個性化服務(wù)技術(shù)綜述[J].軟件學(xué)報,2002, 13(10):1952-1961.
楊迪(1980—),男,滿族,遼寧錦州人,碩士,講師,主要從事應(yīng)用數(shù)學(xué)及圖論的研究。