摘 要 通過對經(jīng)典的基于距離的孤立點挖掘算法的分析與研究,引入“關鍵屬性”,即減少了挖掘數(shù)據(jù)量,提高了孤立點挖掘的效率,并將該挖掘模型應用到教務管理系統(tǒng)學生成績歷史數(shù)據(jù)的挖掘中,從而實現(xiàn)了該系統(tǒng)的設計。
關鍵詞 教務管理系統(tǒng);孤立點;數(shù)據(jù)挖掘
中圖分類號:TP311 文獻標識碼:A 文章編號:1671-7597(2014)08-0052-02
教務管理系統(tǒng)是一個面向學校教務管理人員,為其提供服務的綜合管理系統(tǒng)。教務人員通過本系統(tǒng)完成日常教務工作。從學生入學開始到畢業(yè)離校,其在學校內(nèi)的所有和教務相關的數(shù)據(jù)都通過教務系統(tǒng)進行管理。目前,這些數(shù)據(jù)還未得到有效利用,只是一個待開發(fā)的“寶藏”。鑒于社會對高等學校發(fā)展的需求和目前高校數(shù)據(jù)管理現(xiàn)狀,利用這些數(shù)據(jù)理性地分析學校各方面工作的成效以及學生培養(yǎng)過程中的得失變得十分重要。
目前,教務管理系統(tǒng)中的數(shù)據(jù)挖掘大多利用關聯(lián)分析或分類分析,以發(fā)現(xiàn)一些大的模式。但關聯(lián)規(guī)則在發(fā)現(xiàn)大的規(guī)則的同時也會忽略那些不經(jīng)常出現(xiàn)的情況,有時這些例外情況更應該引起教育決策者和管理者的注意。本文嘗試利用孤立點挖掘技術,對遼寧石化職業(yè)技術學院教務管理系統(tǒng)中積累的數(shù)據(jù)進行分析,發(fā)現(xiàn)那些值得注意的例外對象,為教學管理者和學生管理者提供有用的信息。
1 應用模型的建立
1.1 數(shù)據(jù)預處理
本文選取的是遼寧石化職業(yè)技術學院石油化工生產(chǎn)技術專業(yè)08級57名學生在入學后的三個學期的基礎必修課和專業(yè)必修課的考試分數(shù)作為實驗應用的數(shù)據(jù)集,在數(shù)據(jù)預處理階段,為了在下面的學生平均績點能夠參照公式計算,所以將考試分數(shù)小于60分的學生成績均修改為50分,因為在公式中如果不及格的分數(shù)除以10再減5則就是負數(shù),但是學生的學分績點不可能為負。
1.2 孤立點定義
圖1 學生成績平均績點圖
本文中以學生成績績點分析為例,選取遼寧石化職業(yè)技術學院石油化工生產(chǎn)技術專業(yè)10級57人的第一、二、三學期的學生考試分數(shù)作為原始數(shù)據(jù),三個學期的學分績點作為檢測屬性,屬于多變量的孤立點檢測問題。通過對數(shù)據(jù)的分析,利用孤立點挖掘算法可以檢測出學生的學習成績下降、上升幅度大的和成績不穩(wěn)定的即為孤立點。經(jīng)過數(shù)據(jù)預處理后的學生平均績點如圖1所示。
2 孤立點數(shù)據(jù)挖掘過程
2.1 系統(tǒng)結構
相對于傳統(tǒng)的基于距離的孤立點檢測算法,經(jīng)過改進的挖掘算法同樣可以尋找出相似的孤立點,并給定了孤立點的程度,取消了設置參數(shù)p和d的要求;同時通過引入關鍵屬性,可以在數(shù)據(jù)預處理階段刪除數(shù)據(jù)集中非關鍵屬性的數(shù)據(jù),從而提高了效率;第三通過改進距離度量,可以降低將正常點誤認為是孤立點的概率。在本文中,將改進后的數(shù)據(jù)挖掘算法應用在遼寧石化職業(yè)技術學院教務管理系統(tǒng)中,對學生成績的平均績點進行孤立點挖掘,以期挖掘出“例外的”但是有用的信息,提供給教育管理者做決策。數(shù)據(jù)挖掘的程序框圖如圖2所示。
2.2 確定關鍵屬性
對于圖1中的學生三個學期的成績平均績點,可以計算出相應的屬性隸屬度,分別為λ1=0.142253,λ1=0.288887,λ3=0.035729,可以看出λ2>λ1>λ3,λ2即為關鍵屬性。所以在數(shù)據(jù)預處理階段,可以將屬性1和3的數(shù)據(jù)刪除,提高了孤立點挖掘的效率。
2.3 距離度量改進
圖3 對于圖3.1的挖掘結果圖
為了降低數(shù)據(jù)分布不均勻給孤立點挖掘結果帶來的影響,即把正常點誤認為孤立點,本文中采用了基于改進距離度量的方法來降低這種影響,挖掘結果如圖3所示。
3 結果分析
程序運行結果如圖4所示。
圖4 基于所有屬性的孤立點挖掘結果圖
通過圖4可以發(fā)現(xiàn),在遼寧石化職業(yè)技術學院石油化工生產(chǎn)技術專業(yè)57人中挖掘出的8個孤立點,絕大多數(shù)是成績不穩(wěn)定的學生,比如王文濤、楊恒等,成績下降的學生有彭海州、劉強等,成績上升的有呂澤華,這給教育管理者提供了很好的工作參考信息,能夠使教育者抓住班級的特例學生,特別是成績下降很快的學生,老師可以經(jīng)常關注他們的學習,以使學生能夠在短時間內(nèi)將成績提高上來。
另外,在算法改進的過程中,對于引進關鍵屬性的概念,可以將非關鍵屬性的數(shù)據(jù)不做計算,提高了算法的效率,節(jié)約了時間。如圖5、6所示。
圖5 基于λ2的孤立點挖掘結果圖
由圖4-6相比較來看,孤立點的挖掘結果基本相同,只是在順序上略有差別,但這點兒差別對于教育工作者來講并不會受到影響,所以在數(shù)據(jù)預處理階段,本文通過計算出的屬性隸
圖6 基于λ1和λ2的孤立點挖掘結果圖
屬度,確定出關鍵屬性,在之后的孤立點挖掘算法中只對關鍵屬性的數(shù)據(jù)進行挖掘,在挖掘結果中也保留了記錄的全部屬性,這樣就給出了孤立點孤立程度的量的表示。
與傳統(tǒng)的孤立點挖掘方法相比,本文采用的算法消除了對參數(shù)p和d的設置,用戶只需指定需要挖掘出的孤立點個數(shù),即k值,就可以檢測出k個孤立點。在時間復雜度上,本文采用的算法為o(n2),稍優(yōu)于基于索引o(kn2)的挖掘算法。
參考文獻
[1]楊永銘,王喆.孤立點挖掘算法研究[J].計算機與數(shù)字工程,2008,1(36):11-14.
[2]韋佳,彭宏,林毅申.基于改進距離的孤立點檢測方法[J].華南理工大學學報(自然科學版),2008,36(9):26-27.
[3]邵峰晶.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[4]劉同明.數(shù)據(jù)挖掘技術及其應用[M].北京:國防工業(yè)出版社,2001.
[5]C.Gerior.Software Data mining.DATAMATION,1996.
[6]任承業(yè).校園信息系統(tǒng)中數(shù)據(jù)挖掘的研究與應用[J].2003.
[7]陶蘭,王寶迎,呂建軍.數(shù)據(jù)挖掘技術在高等學校決策支持中的應用[J].中國農(nóng)業(yè)大學學報,2003(1):82-84.
作者簡介
牛永鑫(1969-),男,漢族,遼寧錦州人,副教授,碩士,主要從事計算機網(wǎng)絡,數(shù)據(jù)挖掘,計算機應用設計。endprint
摘 要 通過對經(jīng)典的基于距離的孤立點挖掘算法的分析與研究,引入“關鍵屬性”,即減少了挖掘數(shù)據(jù)量,提高了孤立點挖掘的效率,并將該挖掘模型應用到教務管理系統(tǒng)學生成績歷史數(shù)據(jù)的挖掘中,從而實現(xiàn)了該系統(tǒng)的設計。
關鍵詞 教務管理系統(tǒng);孤立點;數(shù)據(jù)挖掘
中圖分類號:TP311 文獻標識碼:A 文章編號:1671-7597(2014)08-0052-02
教務管理系統(tǒng)是一個面向學校教務管理人員,為其提供服務的綜合管理系統(tǒng)。教務人員通過本系統(tǒng)完成日常教務工作。從學生入學開始到畢業(yè)離校,其在學校內(nèi)的所有和教務相關的數(shù)據(jù)都通過教務系統(tǒng)進行管理。目前,這些數(shù)據(jù)還未得到有效利用,只是一個待開發(fā)的“寶藏”。鑒于社會對高等學校發(fā)展的需求和目前高校數(shù)據(jù)管理現(xiàn)狀,利用這些數(shù)據(jù)理性地分析學校各方面工作的成效以及學生培養(yǎng)過程中的得失變得十分重要。
目前,教務管理系統(tǒng)中的數(shù)據(jù)挖掘大多利用關聯(lián)分析或分類分析,以發(fā)現(xiàn)一些大的模式。但關聯(lián)規(guī)則在發(fā)現(xiàn)大的規(guī)則的同時也會忽略那些不經(jīng)常出現(xiàn)的情況,有時這些例外情況更應該引起教育決策者和管理者的注意。本文嘗試利用孤立點挖掘技術,對遼寧石化職業(yè)技術學院教務管理系統(tǒng)中積累的數(shù)據(jù)進行分析,發(fā)現(xiàn)那些值得注意的例外對象,為教學管理者和學生管理者提供有用的信息。
1 應用模型的建立
1.1 數(shù)據(jù)預處理
本文選取的是遼寧石化職業(yè)技術學院石油化工生產(chǎn)技術專業(yè)08級57名學生在入學后的三個學期的基礎必修課和專業(yè)必修課的考試分數(shù)作為實驗應用的數(shù)據(jù)集,在數(shù)據(jù)預處理階段,為了在下面的學生平均績點能夠參照公式計算,所以將考試分數(shù)小于60分的學生成績均修改為50分,因為在公式中如果不及格的分數(shù)除以10再減5則就是負數(shù),但是學生的學分績點不可能為負。
1.2 孤立點定義
圖1 學生成績平均績點圖
本文中以學生成績績點分析為例,選取遼寧石化職業(yè)技術學院石油化工生產(chǎn)技術專業(yè)10級57人的第一、二、三學期的學生考試分數(shù)作為原始數(shù)據(jù),三個學期的學分績點作為檢測屬性,屬于多變量的孤立點檢測問題。通過對數(shù)據(jù)的分析,利用孤立點挖掘算法可以檢測出學生的學習成績下降、上升幅度大的和成績不穩(wěn)定的即為孤立點。經(jīng)過數(shù)據(jù)預處理后的學生平均績點如圖1所示。
2 孤立點數(shù)據(jù)挖掘過程
2.1 系統(tǒng)結構
相對于傳統(tǒng)的基于距離的孤立點檢測算法,經(jīng)過改進的挖掘算法同樣可以尋找出相似的孤立點,并給定了孤立點的程度,取消了設置參數(shù)p和d的要求;同時通過引入關鍵屬性,可以在數(shù)據(jù)預處理階段刪除數(shù)據(jù)集中非關鍵屬性的數(shù)據(jù),從而提高了效率;第三通過改進距離度量,可以降低將正常點誤認為是孤立點的概率。在本文中,將改進后的數(shù)據(jù)挖掘算法應用在遼寧石化職業(yè)技術學院教務管理系統(tǒng)中,對學生成績的平均績點進行孤立點挖掘,以期挖掘出“例外的”但是有用的信息,提供給教育管理者做決策。數(shù)據(jù)挖掘的程序框圖如圖2所示。
2.2 確定關鍵屬性
對于圖1中的學生三個學期的成績平均績點,可以計算出相應的屬性隸屬度,分別為λ1=0.142253,λ1=0.288887,λ3=0.035729,可以看出λ2>λ1>λ3,λ2即為關鍵屬性。所以在數(shù)據(jù)預處理階段,可以將屬性1和3的數(shù)據(jù)刪除,提高了孤立點挖掘的效率。
2.3 距離度量改進
圖3 對于圖3.1的挖掘結果圖
為了降低數(shù)據(jù)分布不均勻給孤立點挖掘結果帶來的影響,即把正常點誤認為孤立點,本文中采用了基于改進距離度量的方法來降低這種影響,挖掘結果如圖3所示。
3 結果分析
程序運行結果如圖4所示。
圖4 基于所有屬性的孤立點挖掘結果圖
通過圖4可以發(fā)現(xiàn),在遼寧石化職業(yè)技術學院石油化工生產(chǎn)技術專業(yè)57人中挖掘出的8個孤立點,絕大多數(shù)是成績不穩(wěn)定的學生,比如王文濤、楊恒等,成績下降的學生有彭海州、劉強等,成績上升的有呂澤華,這給教育管理者提供了很好的工作參考信息,能夠使教育者抓住班級的特例學生,特別是成績下降很快的學生,老師可以經(jīng)常關注他們的學習,以使學生能夠在短時間內(nèi)將成績提高上來。
另外,在算法改進的過程中,對于引進關鍵屬性的概念,可以將非關鍵屬性的數(shù)據(jù)不做計算,提高了算法的效率,節(jié)約了時間。如圖5、6所示。
圖5 基于λ2的孤立點挖掘結果圖
由圖4-6相比較來看,孤立點的挖掘結果基本相同,只是在順序上略有差別,但這點兒差別對于教育工作者來講并不會受到影響,所以在數(shù)據(jù)預處理階段,本文通過計算出的屬性隸
圖6 基于λ1和λ2的孤立點挖掘結果圖
屬度,確定出關鍵屬性,在之后的孤立點挖掘算法中只對關鍵屬性的數(shù)據(jù)進行挖掘,在挖掘結果中也保留了記錄的全部屬性,這樣就給出了孤立點孤立程度的量的表示。
與傳統(tǒng)的孤立點挖掘方法相比,本文采用的算法消除了對參數(shù)p和d的設置,用戶只需指定需要挖掘出的孤立點個數(shù),即k值,就可以檢測出k個孤立點。在時間復雜度上,本文采用的算法為o(n2),稍優(yōu)于基于索引o(kn2)的挖掘算法。
參考文獻
[1]楊永銘,王喆.孤立點挖掘算法研究[J].計算機與數(shù)字工程,2008,1(36):11-14.
[2]韋佳,彭宏,林毅申.基于改進距離的孤立點檢測方法[J].華南理工大學學報(自然科學版),2008,36(9):26-27.
[3]邵峰晶.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[4]劉同明.數(shù)據(jù)挖掘技術及其應用[M].北京:國防工業(yè)出版社,2001.
[5]C.Gerior.Software Data mining.DATAMATION,1996.
[6]任承業(yè).校園信息系統(tǒng)中數(shù)據(jù)挖掘的研究與應用[J].2003.
[7]陶蘭,王寶迎,呂建軍.數(shù)據(jù)挖掘技術在高等學校決策支持中的應用[J].中國農(nóng)業(yè)大學學報,2003(1):82-84.
作者簡介
牛永鑫(1969-),男,漢族,遼寧錦州人,副教授,碩士,主要從事計算機網(wǎng)絡,數(shù)據(jù)挖掘,計算機應用設計。endprint
摘 要 通過對經(jīng)典的基于距離的孤立點挖掘算法的分析與研究,引入“關鍵屬性”,即減少了挖掘數(shù)據(jù)量,提高了孤立點挖掘的效率,并將該挖掘模型應用到教務管理系統(tǒng)學生成績歷史數(shù)據(jù)的挖掘中,從而實現(xiàn)了該系統(tǒng)的設計。
關鍵詞 教務管理系統(tǒng);孤立點;數(shù)據(jù)挖掘
中圖分類號:TP311 文獻標識碼:A 文章編號:1671-7597(2014)08-0052-02
教務管理系統(tǒng)是一個面向學校教務管理人員,為其提供服務的綜合管理系統(tǒng)。教務人員通過本系統(tǒng)完成日常教務工作。從學生入學開始到畢業(yè)離校,其在學校內(nèi)的所有和教務相關的數(shù)據(jù)都通過教務系統(tǒng)進行管理。目前,這些數(shù)據(jù)還未得到有效利用,只是一個待開發(fā)的“寶藏”。鑒于社會對高等學校發(fā)展的需求和目前高校數(shù)據(jù)管理現(xiàn)狀,利用這些數(shù)據(jù)理性地分析學校各方面工作的成效以及學生培養(yǎng)過程中的得失變得十分重要。
目前,教務管理系統(tǒng)中的數(shù)據(jù)挖掘大多利用關聯(lián)分析或分類分析,以發(fā)現(xiàn)一些大的模式。但關聯(lián)規(guī)則在發(fā)現(xiàn)大的規(guī)則的同時也會忽略那些不經(jīng)常出現(xiàn)的情況,有時這些例外情況更應該引起教育決策者和管理者的注意。本文嘗試利用孤立點挖掘技術,對遼寧石化職業(yè)技術學院教務管理系統(tǒng)中積累的數(shù)據(jù)進行分析,發(fā)現(xiàn)那些值得注意的例外對象,為教學管理者和學生管理者提供有用的信息。
1 應用模型的建立
1.1 數(shù)據(jù)預處理
本文選取的是遼寧石化職業(yè)技術學院石油化工生產(chǎn)技術專業(yè)08級57名學生在入學后的三個學期的基礎必修課和專業(yè)必修課的考試分數(shù)作為實驗應用的數(shù)據(jù)集,在數(shù)據(jù)預處理階段,為了在下面的學生平均績點能夠參照公式計算,所以將考試分數(shù)小于60分的學生成績均修改為50分,因為在公式中如果不及格的分數(shù)除以10再減5則就是負數(shù),但是學生的學分績點不可能為負。
1.2 孤立點定義
圖1 學生成績平均績點圖
本文中以學生成績績點分析為例,選取遼寧石化職業(yè)技術學院石油化工生產(chǎn)技術專業(yè)10級57人的第一、二、三學期的學生考試分數(shù)作為原始數(shù)據(jù),三個學期的學分績點作為檢測屬性,屬于多變量的孤立點檢測問題。通過對數(shù)據(jù)的分析,利用孤立點挖掘算法可以檢測出學生的學習成績下降、上升幅度大的和成績不穩(wěn)定的即為孤立點。經(jīng)過數(shù)據(jù)預處理后的學生平均績點如圖1所示。
2 孤立點數(shù)據(jù)挖掘過程
2.1 系統(tǒng)結構
相對于傳統(tǒng)的基于距離的孤立點檢測算法,經(jīng)過改進的挖掘算法同樣可以尋找出相似的孤立點,并給定了孤立點的程度,取消了設置參數(shù)p和d的要求;同時通過引入關鍵屬性,可以在數(shù)據(jù)預處理階段刪除數(shù)據(jù)集中非關鍵屬性的數(shù)據(jù),從而提高了效率;第三通過改進距離度量,可以降低將正常點誤認為是孤立點的概率。在本文中,將改進后的數(shù)據(jù)挖掘算法應用在遼寧石化職業(yè)技術學院教務管理系統(tǒng)中,對學生成績的平均績點進行孤立點挖掘,以期挖掘出“例外的”但是有用的信息,提供給教育管理者做決策。數(shù)據(jù)挖掘的程序框圖如圖2所示。
2.2 確定關鍵屬性
對于圖1中的學生三個學期的成績平均績點,可以計算出相應的屬性隸屬度,分別為λ1=0.142253,λ1=0.288887,λ3=0.035729,可以看出λ2>λ1>λ3,λ2即為關鍵屬性。所以在數(shù)據(jù)預處理階段,可以將屬性1和3的數(shù)據(jù)刪除,提高了孤立點挖掘的效率。
2.3 距離度量改進
圖3 對于圖3.1的挖掘結果圖
為了降低數(shù)據(jù)分布不均勻給孤立點挖掘結果帶來的影響,即把正常點誤認為孤立點,本文中采用了基于改進距離度量的方法來降低這種影響,挖掘結果如圖3所示。
3 結果分析
程序運行結果如圖4所示。
圖4 基于所有屬性的孤立點挖掘結果圖
通過圖4可以發(fā)現(xiàn),在遼寧石化職業(yè)技術學院石油化工生產(chǎn)技術專業(yè)57人中挖掘出的8個孤立點,絕大多數(shù)是成績不穩(wěn)定的學生,比如王文濤、楊恒等,成績下降的學生有彭海州、劉強等,成績上升的有呂澤華,這給教育管理者提供了很好的工作參考信息,能夠使教育者抓住班級的特例學生,特別是成績下降很快的學生,老師可以經(jīng)常關注他們的學習,以使學生能夠在短時間內(nèi)將成績提高上來。
另外,在算法改進的過程中,對于引進關鍵屬性的概念,可以將非關鍵屬性的數(shù)據(jù)不做計算,提高了算法的效率,節(jié)約了時間。如圖5、6所示。
圖5 基于λ2的孤立點挖掘結果圖
由圖4-6相比較來看,孤立點的挖掘結果基本相同,只是在順序上略有差別,但這點兒差別對于教育工作者來講并不會受到影響,所以在數(shù)據(jù)預處理階段,本文通過計算出的屬性隸
圖6 基于λ1和λ2的孤立點挖掘結果圖
屬度,確定出關鍵屬性,在之后的孤立點挖掘算法中只對關鍵屬性的數(shù)據(jù)進行挖掘,在挖掘結果中也保留了記錄的全部屬性,這樣就給出了孤立點孤立程度的量的表示。
與傳統(tǒng)的孤立點挖掘方法相比,本文采用的算法消除了對參數(shù)p和d的設置,用戶只需指定需要挖掘出的孤立點個數(shù),即k值,就可以檢測出k個孤立點。在時間復雜度上,本文采用的算法為o(n2),稍優(yōu)于基于索引o(kn2)的挖掘算法。
參考文獻
[1]楊永銘,王喆.孤立點挖掘算法研究[J].計算機與數(shù)字工程,2008,1(36):11-14.
[2]韋佳,彭宏,林毅申.基于改進距離的孤立點檢測方法[J].華南理工大學學報(自然科學版),2008,36(9):26-27.
[3]邵峰晶.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[4]劉同明.數(shù)據(jù)挖掘技術及其應用[M].北京:國防工業(yè)出版社,2001.
[5]C.Gerior.Software Data mining.DATAMATION,1996.
[6]任承業(yè).校園信息系統(tǒng)中數(shù)據(jù)挖掘的研究與應用[J].2003.
[7]陶蘭,王寶迎,呂建軍.數(shù)據(jù)挖掘技術在高等學校決策支持中的應用[J].中國農(nóng)業(yè)大學學報,2003(1):82-84.
作者簡介
牛永鑫(1969-),男,漢族,遼寧錦州人,副教授,碩士,主要從事計算機網(wǎng)絡,數(shù)據(jù)挖掘,計算機應用設計。endprint