李春生,劉 濤,于 澍,張可佳
(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)
研究生入學成績作為學生在畢業(yè)學校期間表現(xiàn)好壞的重要評價標準之一,是學生檢測之前學習狀態(tài)、學習態(tài)度的依據(jù),是學校之間相互了解的重要參考標準,然而大多數(shù)學校對于學生的入學成績僅僅停留在登記、分類、儲存等表面的工作,缺乏對學生入學成績背后潛在信息的深入分析,從而造成了教學資源的浪費。通過對研究生入學成績的分析,可以幫助導師了解學生的學習能力、學習風格,幫助學生制定個性化培養(yǎng)方案。同時,學生的入學成績反映出學生畢業(yè)學校的辦學條件,教學水平,人才培養(yǎng)的質量。因此,對研究生入學成績進行合理有效的深度挖掘,可以更好地幫助學生進行研究方向的選擇,幫助其找到適合自己發(fā)展的方向,實現(xiàn)研究生的個性化教育和培養(yǎng)。
應用聚類分析算法對研究生入學成績進行分析,能夠發(fā)現(xiàn)學生成績分布的特點,找出成績之間的關系,彌補傳統(tǒng)分析方法對研究生入學成績分析的不足,為教學管理者提供了決策指導。
聚類分析屬于探索性、無監(jiān)督的數(shù)據(jù)分析方法,即將給定的數(shù)據(jù)元素進行劃分,使高相似性的數(shù)據(jù)元素歸為一類,低相似性的數(shù)據(jù)元素歸為不同類。相似度的高低是通過計算兩個數(shù)據(jù)元素之間的距離來判斷的[1]。歐幾里得公式是常用的距離計算公式,表示如下:
(1)
主要的聚類分析算法包括層次聚類算法、基于密度的聚類算法、基于網格的聚類算法、基于模型的聚類算法和劃分聚類算法[2]。
層次聚類算法是運用層次分解的方法將給定的數(shù)據(jù)集合形成滿足某種條件的聚類樹。層次聚類算法具有很高的聚類精度,但其時間復雜度和空間復雜度較高的缺點依舊無法避免[3]。隨著研究生人數(shù)的迅速增長,入學成績數(shù)據(jù)量的增大,層次聚類算法因其自身的缺點,無法高效地實現(xiàn)對研究生入學成績的分析。
基于密度的聚類算法給定密度閾值,將密度超過閾值的區(qū)域連接,形成相同密度區(qū)[4]。使用該算法的基礎是數(shù)據(jù)分布的密度差距較大,由于研究生入學成績首先要超過國家分數(shù)線,研究生入學成績的分布很難出現(xiàn)密度差距較大的區(qū)域,因此基于密度的聚類算法不適用于研究生入學成績的分析。
基于網格的聚類算法將給定的數(shù)據(jù)元素劃分成若干網格單元,然后進行網格單元的凝聚和分裂[5]?;诰W格的聚類算法優(yōu)缺點明顯,優(yōu)點是聚類速度快,缺點是無法處理分布不規(guī)則的數(shù)據(jù)。研究生入學成績在空間上分為多個維度,數(shù)據(jù)的分布具有隨機性易形成不規(guī)則分布,因此基于網格的聚類算法對于研究生入學成績的分析缺乏精確性。
基于模型的聚類算法將每個聚類構想成數(shù)學模型,然后通過聚類使數(shù)據(jù)元素找到自己的對應模型,用統(tǒng)計法得到類個數(shù)的過程。常見的算法有統(tǒng)計學方法和神經網絡方法。該算法復雜度較高,執(zhí)行效率緩慢,因此也不適用于對研究生入學成績進行分析。
劃分聚類算法運用分裂的方法將數(shù)據(jù)集進行分類,分組的結果使同類元素之間的相似性高,異類元素之間相似性低,并且保證每一類中都包含一個或多個數(shù)據(jù)元素,每個數(shù)據(jù)元素只屬于一個類。劃分聚類算法具有算法簡單、復雜性低、收斂速度快、聚類效果較好等特點,加之研究生入學成績有復試分數(shù)線作為“基礎分數(shù)”,沒有明顯的噪聲點的影響,因此適用于研究生入學成績的分析。常見的算法有K-means算法、K-medoids算法及CLARANS算法等[6],其中典型的代表算法就是K-means聚類算法。
K-means算法是劃分聚類算法中一種經典的聚類方法,在生物應用、圖像分析、市場調查等領域中應用廣泛[7-9]。以K-means算法為關鍵字在中國知網上進行搜索,發(fā)現(xiàn)對于K-means算法的研究雖然在某個年份中有略微的下降趨勢,但其總體上是持續(xù)上升的,如圖1所示(2018年為預測數(shù)值)。
K-means聚類的算法思想為,給定包含X個d維數(shù)據(jù)的數(shù)據(jù)集M={m1,m2,…,mn}(mi∈Rd),及將要生成數(shù)據(jù)的子集數(shù)目K,K-means算法將給定的數(shù)據(jù)集分為K組[10-11]。每個分組為一個類C={Ck,i=1,2,…,K},每個類Ck都有一個中心Oi。以歐氏距離作為數(shù)據(jù)之間相似性的判斷標準,計算類中數(shù)據(jù)點到聚類中心Oi的距離平方和,計算公式為:
(2)
聚類的最終的目的是使同類中所有數(shù)據(jù)元素到其聚類中心距離的平方和J(C)值最小[12]。
(3)
(4)
算法流程如圖2所示。
K-means聚類算法可以對大型的數(shù)據(jù)集進行高效的分類、聚類,其復雜度是O(nkt),其中n為數(shù)據(jù)元素的個數(shù),k為聚類個數(shù),t為迭代次數(shù)[13]。
圖2 K-means聚類算法流程
本次實驗用統(tǒng)計分析軟件SPSS對數(shù)據(jù)進行分析。
實驗數(shù)據(jù)來源某高校2013年、2014年馬克思主義理論專業(yè)研究生入學成績。馬克思主義理論專業(yè)學生共115人,其中2013年學生66人,2014年49人。
實驗中對于數(shù)據(jù)的處理采用忽略元組的方法,刪除外語考試為非英語一、免試入學、專業(yè)課考試為中國近代史的學生共31人,得到最終實驗數(shù)據(jù)情況為:馬克思主義理論學生總人數(shù)為104人,其中2013年學生62人,2014年42人。預處理結果(部分)如表1所示。
表1 馬克思主義理論專業(yè)研究生入學成績
續(xù)表1
將處理過后的數(shù)據(jù)導入SPSS軟件,利用K-均值聚類。首先,將2013年馬克思主義原理專業(yè)研究生的入學的成績分別進行分析,初始的聚類中心隨機產生,聚類數(shù)目定為5。當?shù)螖?shù)為6時,任何中心的最大絕對坐標更改為0,初始中心間的最小距離則為29.563。其次,對2014年馬克思主義原理專業(yè)研究生入學成績進行分析,K=5得到的初始中心間的最小距離為41.061。
最終聚類中心與每個聚類中的案例數(shù)如表2和表3所示。
表2 2013年最終聚類中心及案例數(shù)
由表2分析可知,第一類學生共13人,占總學生人數(shù)的21%,總體成績狀況較差,低分出現(xiàn)概率最高區(qū)域,專業(yè)課能力相對較好,英語成績水平有待提高,培養(yǎng)方案中應加強對英語能力的培養(yǎng);第二類學生共6人,占總學生人數(shù)的9.7%,其中馬克思主義原理成績較低,其他成績相對較好,表明該類學生馬克思主義原理的知識結構相對匱乏,應加強對于專業(yè)課能力的培養(yǎng),研究方向可考慮中國化馬克思主義相關領域;第三類學生共11人,占總學生人數(shù)的17.8%,這類學生成績處于中間水平,專業(yè)課能力有待提高;第四類學生共9人,占總學生人數(shù)的14.5%,這類學生的總體情況穩(wěn)定,成績較為優(yōu)秀,沒有弱科情況;第5類學生共23人,占總學生人數(shù)的37%,這類學生成績相對較好,但相比較其他學科來說英語較弱。
表3 2014年最終聚類中心及案例數(shù)
由表3分析可知,第一類學生共1人,占總學生人數(shù)的2.4%,總體成績狀況較好,政治理論成績較低,英語成績突出,專業(yè)課能力相對較好,培養(yǎng)方案中應加強對政治理論能力的培養(yǎng);第二類學生共14人,占總學生人數(shù)的33.3%,其中英語和馬克思主義原理成績較低,其他成績相對較好,應加強英語以及馬克思主義理論方面的研究培養(yǎng),研究方向應趨向于中國化馬克思主義相關領域;第三類學生共11人,占總學生人數(shù)的26.2%,這類學生英語和中國化馬克思主義成績相對較弱,應加強這兩方面能力的培養(yǎng),但這類馬克思主義原理成績突出,研究方向應趨向于此研究領域;第四類學生共4人,占總學生人數(shù)的9.5%,這類學生中國化馬克思主義成績較低,其他成績相對較好應加強關于馬克思主義中國化的研究;第5類學生共12人,占總學生人數(shù)的28.6%,這類學生成績相對較好,英語成績相比較低,專業(yè)課水平較高,基礎扎實。
將2013年和2014年聚類情況表進行縱向分析,如圖3所示,其中純色填充表示2013年情況,寬上對角線填充表示2014年情況。
由圖3可得,除英語最低聚類中心2013年為44分,而2014年為48分,2013年略低以外,其他科目成績的最高值均在2013年,成績最低值均在2014年,說明了2013年學生的學習能力,專業(yè)課功底相對高于2014年的學生。
聚類分析作為數(shù)據(jù)挖掘中的一種重要的技術手段和方法,已經廣泛應用于各個領域。在教育信息化[14]的發(fā)展趨勢下,數(shù)據(jù)挖掘技術應用于教育領域已經成為必然。文中通過列舉法對幾種常見的聚類分析算法在研究生入學成績領域的適用性進行說明,得出劃分聚類算法應用于研究生入學成績中效果最優(yōu)的結論,并運用劃分聚類算法中的典型算法K-means進行論證,以實例證明了K-means算法對研究生入學成績進行分析的可行性。分析結果科學合理地反映了學生的學習狀態(tài)及學習能力,為研究生的培養(yǎng),專業(yè)培養(yǎng)方案的制定提供了有利的依據(jù)。