亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進的模糊K—Prototypes聚類算法在研究生培養(yǎng)質量評估中的應用

        2018-05-27 08:33:48喬秀峰張德珍吳迅張俊
        中國管理信息化 2018年7期
        關鍵詞:質量學生

        喬秀峰 張德珍 吳迅 張俊

        [摘 要] 研究生教育在從追求招生數(shù)量到重視培養(yǎng)質量的背景下,如何有效而準確地評估研究生培養(yǎng)質量,成為當前各高校面臨的重要課題。文章提出一種改進的模糊K-Prototypes聚類算法,可準確分析研究生培養(yǎng)質量情況。該算法首先提取相應的研究生培養(yǎng)質量影響因素屬性,構建研究生培養(yǎng)質量評估指標,從而形成分析數(shù)據(jù)集;其次,為了解決研究生培養(yǎng)數(shù)據(jù)密度不均的問題,提出改進算法;最后利用改進的聚類算法對分析數(shù)據(jù)集進行聚類分析。以一所具體高校為例,驗證提出算法的有效性和改進后聚類效果,為科學有效的研究生培養(yǎng)質量評估提供輔助決策方法支持。

        [關鍵詞] 研究生教育; 培養(yǎng)質量評估; 模糊K-Prototypes聚類

        doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 07. 077

        [中圖分類號] G647 [文獻標識碼] A [文章編號] 1673 - 0194(2018)07- 0185- 06

        1 引 言

        提高研究生培養(yǎng)質量是高等教育改革最核心的任務[1],而如何對培養(yǎng)質量進行客觀科學的評估則是任務的難點所在。一些學者進行了探索性研究,對高校研究生培養(yǎng)質量評估,采用了主成分分析方法、層次分析評價模型、模糊綜合評價模型等傳統(tǒng)方法,如Chen等人在文獻[2]中提出了改進的層次分析方法構建的教育質量評價模型的理論與應用; Liu等人在文獻[3]中采用層次分析及模糊的方法對研究生培養(yǎng)質量評估中學生綜合職業(yè)能力方面的評價作了研究;Hu等人在文獻中提出用主成分分析和Elman神經(jīng)網(wǎng)絡對研究生培養(yǎng)質量中關于教學質量方面的評估進行了研究。這些文獻分別提出基于模糊綜合評價的高等職業(yè)教育評價模型和基于模糊綜合評價法的高等工程教育綜合評估研究。上述方法有其積極有效的一面,但一般通過專家為評估對象打分,評估結果主觀性較強,往往不能較好反映實際值。

        針對研究生培養(yǎng)質量數(shù)據(jù)類型多樣化及數(shù)據(jù)具有模糊邊界特征的特點,將模糊K-Prototypes聚類算法應用于研究生培養(yǎng)質量評估中,同時,由于研究生培養(yǎng)質量數(shù)據(jù)呈現(xiàn)密度不均現(xiàn)象,提出了改進的模糊K-Prototypes聚類算法,采用密度與最大最小距離方法以及高密度點的方法,將數(shù)據(jù)集劃分成不同的密度區(qū)域,從而得到數(shù)值屬性與分類屬性的初始聚類中心,以此提高聚類結果的準確性。以武漢理工大學2015級研究生培養(yǎng)質量相關的數(shù)據(jù)集為實驗數(shù)據(jù),對其進行聚類分析,獲得關于影響研究生培養(yǎng)質量的主要因素,從而為研究生培養(yǎng)質量評估提供有效的決策支持方法。

        2 研究生培養(yǎng)質量評估指標

        武漢理工大學的研究生教育綜合管理系統(tǒng)經(jīng)過多年系統(tǒng)性建設,涵蓋了研究生從入學到畢業(yè)整個培養(yǎng)過程信息,是研究生培養(yǎng)質量聚類分析的基礎。該系統(tǒng)數(shù)據(jù)庫包含了學生的學籍、課業(yè)、學術論文發(fā)表、科研、指導教師基本信息及其論文發(fā)表、科研項目、科研成果等詳細數(shù)據(jù),而不同屬性之間又可能存在關聯(lián)性,特征屬性的選取,將直接影響聚類結果??紤]到本文的目標是對研究生培養(yǎng)質量數(shù)據(jù)進行聚類分析,參考已有文獻研究成果,影響研究生培養(yǎng)質量的主要因素,包括研究生的分析能力、創(chuàng)造力、實踐能力、綜合能力、科研成果情況、學習成績、學位論文情況、導師因素、學術氛圍環(huán)境等。

        基于上述特征屬性集,結合武漢理工大學對于研究生培養(yǎng)質量評估的實際需求,本文構建了如下多因素多層次的研究生培養(yǎng)質量評估指標體系。

        本文將基于改進模糊K-Prototypes聚類算法構建研究生培養(yǎng)質量聚類分析模型,本研究將所評估指標作為模型的輸入變量,對研究生培養(yǎng)質量進行聚類分析,從中獲取每類研究生培養(yǎng)質量的整體特征,進而發(fā)現(xiàn)影響研究生培養(yǎng)質量的主要影響因素。

        3 模糊K-prototypes 聚類算法

        假設混合屬性數(shù)據(jù)集為X={X1,X2,…,Xn},其中有n個樣本數(shù)據(jù),每個樣本數(shù)據(jù)有m個屬性,則混合屬性集合中的每個樣本數(shù)據(jù)可以記為Xi={x■■x■■,…,x■■,x■■,…,x■■},前p個屬性表示數(shù)值型數(shù)據(jù),后m-p個屬性表示分類型數(shù)據(jù)。

        定義1相異度度量:假定X與Y表示兩個樣本,則數(shù)值屬性的相異度與分類屬性相異度計算公式分別為式(1)和式(3)。

        對于數(shù)值型屬性,采用傳統(tǒng)的方法歐氏距離來計算,則兩個樣本相異度定義如下:

        d1(Xi,Yj)=■(c■■-x■■)2,1≤r≤p(1)

        對于分類型屬性,采用海明距離來計算兩個樣本的相異度定義為:

        ?啄(x■■-y■■)=0,x■■=y■■1,x■■≠y■■(2)

        d2(Xi,Yj)=■?啄(x■■-y■■),p+1≤r≤m(3)

        則每個樣本數(shù)據(jù)間的相異度計算方法定義為:

        d(X,Y)=■(x■■-y■■)2+γ·■?啄(x■■-y■■)(4)

        定義2聚類中心:從數(shù)據(jù)集X中選擇K個樣本對象作為初始聚類中心點,每次迭代更新的聚類中心可表示為Z={Z1,Z2,Z3,…,Zk},每個樣本對象到聚類中心的距離記為d(Xi,Zj)。在聚類的過程中,樣本對象會被劃分到離聚類中心最近的類中,則最終會被劃分成K個聚類集合。

        (1)數(shù)值屬性的聚類中心計算公式為:

        z■■=■(wil)α·x■■/■(wil)α(5)

        若Xi=Zl,則wij=1;

        若Xi=Zl且j≠l,則wij=0;

        若Xi≠Zl,則

        wij=■(d(Xi,Zj)/d(Xi,Zl))■■(6)

        其中1≤l≤k且1≤j≤p。

        (2)分類屬性的聚類中心選擇特征值密度最大值作為聚類中心,滿足如下定義:

        z■■=Clj/Nt,1≤l≤k且1≤j≤p(7)

        其中參數(shù)Clj表示第t個劃分類中屬性j的每個特征值的頻率數(shù),參數(shù)Nt表示第t個劃分類的樣本數(shù)。

        則模糊K-prototypes聚類算法的目標函數(shù)F(W,Z)定義如下:

        F(W,Z)=■■(wij)α(d1(Xi,Yj)+γ·d2(Xi,Yj))=

        ■■(wij)α■(x■■-z■■)2+γ·■?啄(x■■,z■■) (8)

        其中W=(wij)n×k是一個n×k的模糊劃分矩陣,滿足:0≤wij≤1且■wij=1,參數(shù)γ來調節(jié)數(shù)值屬性和分類屬性的權重比例的大小,α為模糊系數(shù),且滿足α∈[1,∞)。

        模糊K-prototypes均值聚類算法以下列具體步驟進行迭代:

        輸入:混合屬性數(shù)據(jù)集為X,基本參數(shù)分別為最大迭代次數(shù)T,聚類數(shù)目K,誤差閾,模糊系數(shù)α,權重系數(shù)γ;

        輸出:K個聚類集合。

        步驟 1:從數(shù)據(jù)集中隨機選取個初始聚類中心;

        步驟2:用式(4)計算每個樣本數(shù)據(jù)與初始聚類中心的相異度,然后將樣本數(shù)據(jù)劃分到最近的聚類中心中;

        步驟3:用式(6)計算模糊劃分矩陣W;

        步驟4:更新數(shù)值屬性與分類屬性的聚類中心。對于數(shù)值型屬性,采用式(5)和(6)進行計算,對于分類型屬性,采用式(7)進行計算;

        步驟5:采用式(8)計算目標函數(shù)值;

        步驟6:如果新的目標函數(shù)值與原來的目標函數(shù)值之差的絕對值小于誤差閾,且迭代次數(shù)大于T,則停止并輸出聚類結果,否則,再次更新迭代次數(shù)T=T+1,并轉步驟3。

        4 算法的改進

        由于初始聚類中心的隨機選擇,容易使聚類結果隨著不同的選擇而變化,導致結果不穩(wěn)定,同時模糊K-Prototypes聚類算法不易發(fā)現(xiàn)密度不均的數(shù)據(jù)集。針對以上問題,本文對數(shù)值屬性與分類屬性分別采用不同的方法進行初始聚類中心的選擇,假設樣本數(shù)據(jù)集為X,聚類數(shù)目是K,則具體選擇原則如下:

        (1)數(shù)值屬性。采取密度與最大最小距離的方法對數(shù)值屬性進行初始聚類中心的選擇,首先選擇數(shù)據(jù)集中最大的密集點,作為第一個初始聚類中心點,其次再選擇距離第一個初始聚類中心點最遠的點作為第二個初始點,因此得到相距最遠的兩個點Xi與Yj,然后再計算每個樣本點與已確定的每個初始聚類中心的距離,從中選取最小距離的樣本數(shù)據(jù),最后再從最小距離的樣本數(shù)據(jù)中尋找最大距離的樣本點作為聚類中心,直到滿足設定的聚類數(shù)目。

        根據(jù)以上相關描述給出密度與最大最小距離算法:

        Input:A set of numerical data:X, Number of Clusters:K

        Output:Clusters

        1.X={X1,X2,…,Xn},P={P1,P2,…,Pn}

        2.R←■■d(Xi,Yi)/■i

        3.For Xi in X DO

        4.For XJ in X DO

        5.If d(Xi,Yi)≤R Then

        6.Pi=Pi+1

        7.End for

        8.End for

        9.Z1←numerical data of Max(Pi)

        10.Clusters= Clusters U{Z1}

        11.For Xi in X DO

        12.dist ←d(Xi,Z1)

        13.End for

        14.Z2←numerical data of Max(dist)

        15.Clusters= Clusters U{Z2},already← the size of

        Clusters

        16.For i= already to K

        17.For Zi in Clusters

        18.For Xi in X

        19./*dmin is a set of Minimum distance*/

        20.dmin←Min(d(Z1,Xi),…,d(Zi,Xi))

        21.End for

        22.End for

        23.Zi←numerical data of Max(dmin)

        24.Clusters=Clusters U{Zi},i=i+1

        25.End for

        26.Return Clusters

        (2)分類屬性。借鑒文獻Bai提出的分類屬性初始聚類中心選擇的方法,主要思想為:首先選擇一個高密度點,作為第一個初始聚類中心,其次再選擇一個密度高并且距離第一個初始聚類中心遠的點作為初始聚類中心的標本,然后根據(jù)該標本構建初始聚類中心的候選集,最后從候選集中選擇初始聚類中心,直到滿足設定的聚類數(shù)目。

        根據(jù)以上相關描述給出高密度點的算法:

        Input:A set of categorical data:X,Number of categorical data: n,Number of Clusters:K,A set of attribute:A

        Output:Clusters

        1. For Xi in X

        2.For Ai in A

        3./*VAi is the value set of attribute Ai*/

        4.For qj in VAi

        5.If F(Xi,Ai)==qj Then

        6.frij=frij+1

        7.End for

        8.End for

        9.End for

        10.For Xi in X

        11.dens(Xi) ←■(frij/n-1)

        12.End for

        13.Z←categorical data of Max(dens(Xi))

        14.For i= 1 to K

        15.For Xi in X

        16.exemplar(Xi)←dens(Xi)+d(Xi,Z)

        17.End for

        18.U←categorical data of Max(exemplar(Xi))

        19.For Xi in X

        20.t←d(Xi,U)

        21.St=St U{Xi}

        22.End for

        23.Zi←■(Den(y)+d(y,Z)-d(y,U))

        24.Clusters=Clusters U{Zi},i=i+1

        25.End for

        26.Return Clusters

        在改進的模糊K-Prototypes聚類算法中,參數(shù)的選擇對于聚類效果至關重要,其中模糊系數(shù)以及權重比例系數(shù)取值的選取,至今仍是一個未定論的問題,參考已有學者研究成果,本文最終確定α選取為2,γ選取為1.1。

        5 實驗與分析

        從武漢理工大學研究生綜合管理系統(tǒng)數(shù)據(jù)庫中選取2015級共1 028名研究生作為樣本數(shù)據(jù),對于每個研究生的培養(yǎng)質量情況,參考該高校的終期考核結果,將研究生分為優(yōu)秀、良好、中等、差四個類別。對所改進的模糊K-Prototypes算法使用C#語言編程實現(xiàn),開發(fā)環(huán)境為Microsoft VS2010。

        5.1 數(shù)據(jù)預處理

        由于提出的算法適用于混合屬性,因此為了使不同數(shù)值數(shù)據(jù)相對有意義且減少數(shù)據(jù)之間的差異,采用最小最大規(guī)范化,對每個樣本的數(shù)值屬性用如下公式進行規(guī)范化。

        X■■=■(9)

        其中,X■■為樣本對象中某一屬性歸一化后的值,Xij為歸一化前的值,Ximin表示同一屬性中所有樣本數(shù)據(jù)的最小值,Ximax表示同一屬性中所有樣本數(shù)據(jù)的最大值。

        5.2 實驗過程

        將提出的改進模糊K-Prototypes聚類算法應用到研究生培養(yǎng)質量評估中,具體的聚類過程如下:

        第一步,將每個研究生個體看作一個樣本對象,根據(jù)篩選得到的特征屬性,從數(shù)據(jù)庫中提取相應的分析數(shù)據(jù)集,其中包含了數(shù)值型屬性的數(shù)據(jù)以及分類型屬性的數(shù)據(jù),如表1至表2所示,從表1中可以看出數(shù)值屬性之間數(shù)據(jù)的差異較大,因此對數(shù)值型屬性進行歸一化,得到歸一化后數(shù)據(jù)的部分結果如下表3所示。

        第二步:聚類算法中涉及到的基本參數(shù)分別取值為:K=4,α=2,γ=1.1,采用提出改進的初始聚類中心方法;

        第三步:根據(jù)上一步得到的初始聚類中心,在此基礎上逐個計算樣本對象與初始聚類中心之間的相異度,根據(jù)相異度的大小,對不同的樣本對象進行劃分,最終得到不同的類,每個類中包含特征相似的對象。

        5.3 聚類結果分析

        本文采用正確率(Accuracy)來評估算法的聚類質量,設樣本集的樣本數(shù)為n,Ai表示樣本正確分到i類的樣本數(shù),K為聚類數(shù)目,則正確率的計算公式表示如下:

        Accuracy=■Ai/n,1≤i≤k(10)

        由于不同的權重系數(shù)會影響聚類效果,選取不同的值對改進的模糊K-Prototypes聚類算法進行實驗分析,實驗結果如下表5所示。

        從表4中可以看出,當權重系數(shù)為0.9時,改進的模糊K-Prototypes聚類算法達到最佳的聚類結果,同時驗證了改進算法在研究生培養(yǎng)質量評估應用中的有效性。

        對模糊K-Prototypes聚類算法和改進后的聚類算法進行對比實驗,由于模糊K-Prototypes聚類算法的初始聚類中心是隨機選擇的,不同的初始聚類中心對算法會產(chǎn)生不同的聚類效果,因此對權重系數(shù)選取不同的取值,同時選取相同的實驗次數(shù)進行實驗,最終得到平均正確率,改進前后模糊K-Prototypes聚類算法的聚類效果對比。當權重系數(shù)為1.3時,模糊K-Prototypes聚類算法的正確率達到最高,然而通過對比分析實驗結果,在不同權重系數(shù)的取值下,改進后的模糊K-Prototypes聚類算法正確率都高于未改進前的算法,由此,體現(xiàn)了改進算法的優(yōu)越性。

        5.4 實例結果分析與評估

        由上述的聚類實驗結果可知,改進的模糊K-Prototypes聚類算法在研究生培養(yǎng)質量評估的應用中最高正確率達到78.54%,則本文以最好的聚類效果為例,對每類中研究生所體現(xiàn)出的共性特征進行描述分析。從學生的整體成績水平、答辯情況、論文情況、綜合技能、參與科研項目情況以及學生導師的學術水平情況等多個方面進行對比分析,通過整理和統(tǒng)計數(shù)據(jù),得到部分相關統(tǒng)計。為了更清楚地顯示各個類之間的群體特征,則研究生培養(yǎng)質量數(shù)據(jù)聚類統(tǒng)計結果如表5所示,得到如下結論。

        (1)第一類中一共有162名研究生。通過整體的共同特征可以看出,整體的平均成績處于中等偏上,但是答辯成績都低于其他類中的整體水平,而且發(fā)現(xiàn)該類學生98.2%沒有發(fā)表論文,同時94.5%的學生科研成果情況較差,在綜合技能方面,40.9%的同學處于較差的水平,學生的導師學術水平較其他類偏低,導師類別博導占63.6%??偟膩碚f,這類研究生的培養(yǎng)質量較差。

        (2)第二類中一共有87名研究生。該類學生的整體平均成績與答辯成績都高于其他類的整體水平,在發(fā)表論文方面,83.9%的研究生發(fā)表過一類等級的論文,發(fā)表論文較為優(yōu)秀,發(fā)表論文的檢索等級多為SCI,同時均已發(fā)表過兩篇或多篇EI級別的論文,其中發(fā)表3篇以上論文的學生占4.6%,在學生科研成果情況方面,48.6%的學生處于中等水平,但是在綜合技能方面卻一般,這類學生的導師水平較高,且88.6%的導師是博導。總的來說,這類研究生的培養(yǎng)質量較優(yōu)秀。

        (3)第三類中一共有367名研究生。該類學生的整體平均成績與答辯成績都處于中等偏上水平,在校期間69.5%的學生發(fā)表過二類等級以上的論文,其中發(fā)表3篇以上的占1.09%,但是在科研成果以及綜合技能方面,研究生都處于較差的水平,學生的導師學術水平處于中等偏上,且75.6%的導師是博導??偟膩碚f,這類研究生的培養(yǎng)質量良好。

        (4)第四類中一共有412名研究生。從學生的平均成績來看,該類學生整體成績處于中等偏下的水平,學生整體答辯情況處于中等水平,發(fā)表論文方面,29.4%的學生發(fā)表過論文,且23.54%的研究生發(fā)表情況一般,發(fā)表過三類等級的論文,在校期間,整體科研情況處于中等水平,但56.5%的研究生綜合技能較差,學生的導師學術水平處于中等水平,且該類學生大多數(shù)導師是博導??偟膩碚f,這類研究生的培養(yǎng)質量處于中等。

        由此,根據(jù)上述結論得出以下建議:

        (1)導師的學術水平是影響研究生培養(yǎng)質量的重要因素,因此,學校要加強對導師的定期考核,不斷促進導師自身的學術水平。

        (2)發(fā)表論文情況與學生答辯情況成正相關,因此,學校要鼓勵學生積極發(fā)表高質量水平的論文,為學位論文的撰寫打下堅實的基礎。

        (3)學生的綜合技能水平都較差,學校應該培養(yǎng)學生的綜合素質,從側面引導學生的主動性與創(chuàng)造能力,從而有效地促進研究生培養(yǎng)質量的提高。

        6 結 語

        針對研究生培養(yǎng)質量數(shù)據(jù)的特點,提出了改進的模糊K-Prototypes聚類算法,并將該算法應用到研究生培養(yǎng)質量評估中,同時構建了研究生培養(yǎng)質量評估指標,實驗結果表明,不僅驗證了算法的有效性,而且體現(xiàn)了改進后算法的優(yōu)越性。使用該算法,對研究生培養(yǎng)質量進行聚類分析之后,將其劃分成不同類別的研究生,從中獲得每類研究生群體培養(yǎng)質量的特征,找到影響研究生培養(yǎng)質量的主要因素,為高校管理部門提供決策支持,同時起到監(jiān)控、監(jiān)督的作用。

        主要參考文獻

        [1]金麗,萬洪英,劉海清,等.研究生培養(yǎng)過程監(jiān)控和預警系統(tǒng)應用初探[J].研究生教育研究,2011,5(3):31-36.

        [2]張鈺莎.數(shù)據(jù)挖掘技術在教學質量評估中的應用研究[D].廣州:暨南大學,2012.

        [3]蔡捷.數(shù)據(jù)挖掘聚類算法的研究及其在研究生培養(yǎng)質量評估中的應用[D].南京:東南大學,2014.

        猜你喜歡
        質量學生
        “質量”知識鞏固
        快把我哥帶走
        質量守恒定律考什么
        做夢導致睡眠質量差嗎
        《李學生》定檔8月28日
        電影(2018年9期)2018-11-14 06:57:21
        趕不走的學生
        關于質量的快速Q&A
        學生寫話
        學生寫的話
        質量投訴超六成
        汽車觀察(2016年3期)2016-02-28 13:16:26
        亚洲中文字幕熟女五十| 中文字幕无码日韩专区免费| 亚洲国产精品日韩av不卡在线| 精品国产aⅴ无码一区二区| 国产在线91观看免费观看| 日本av一区二区播放| 街拍丝袜美腿美女一区| 丝袜美腿亚洲一区二区| 黑人巨大av在线播放无码| 中文字幕在线观看国产双飞高清 | 亚洲亚洲网站三级片在线| 国产真实夫妇交换视频| 麻豆高清免费国产一区| 最新精品国偷自产在线婷婷| 国产一区二区三区免费在线播放| 亚洲一区二区三区av天堂| 日本一区二区三区视频网站| 精品人无码一区二区三区| 老熟妇仑乱视频一区二区| 久久精品国产精品亚洲毛片| 亚洲AV无码乱码一区二区三区| 成年女人片免费视频播放A| 91国产自拍精品视频| 丰满少妇人妻无码专区| 亚洲av男人的天堂在线观看| 久久亚洲AV无码精品色午夜| 97超碰国产一区二区三区| 久久精品99国产精品日本| 免费观看黄网站| 亚洲av永久青草无码精品| 亚洲精品国产av日韩专区| 又黄又爽又无遮挡免费的网站| 中文字幕av无码一区二区三区| 亚洲AⅤ无码日韩AV中文AV伦| 蜜桃av夺取一区二区三区| 亚洲中文字幕在线综合| 精品亚洲成a人无码成a在线观看| 亚洲精品无码久久久久sm| 午夜久久精品国产亚洲av| 日本中文字幕有码在线播放| 欧美老熟妇乱xxxxx|