劉能現(xiàn), 姜云飛(福州大學(xué) 研究生院,福建 福州 350116)
博士研究生教育作為國民教育的頂端,其教育的質(zhì)量和數(shù)量是衡量一個(gè)國家高等教育水平的重要指標(biāo),一流的博士研究生教育是“雙一流”建設(shè)的重要內(nèi)容。隨著我國經(jīng)濟(jì)社會(huì)發(fā)展進(jìn)入新常態(tài),對(duì)提高博士研究生教育質(zhì)量提出了新任務(wù)。2017年1月國務(wù)院學(xué)位委員會(huì)第三十三次會(huì)議上劉延?xùn)|副總理指出質(zhì)量是研究生教育的生命線,要加強(qiáng)質(zhì)量保障體系建設(shè),強(qiáng)化培養(yǎng)單位質(zhì)量意識(shí),抓好質(zhì)量監(jiān)控,著力提高博士生培養(yǎng)質(zhì)量。博士學(xué)位論文是博士生獲得博士學(xué)位時(shí)最具代表性的研究成果,是衡量博士生能否畢業(yè)和授予學(xué)位的一個(gè)重要依據(jù),是博士生學(xué)習(xí)階段學(xué)術(shù)水平與研究能力的集中體現(xiàn),是衡量博士生培養(yǎng)質(zhì)量的重要指標(biāo)[1]。
數(shù)據(jù)挖掘技術(shù)可以從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式與知識(shí), 目前已成功應(yīng)用在金融、生物醫(yī)學(xué)和電子商務(wù)等廣泛的領(lǐng)域。近年來,在教育信息化、遠(yuǎn)程教育及在線學(xué)習(xí)系統(tǒng)等應(yīng)用的帶動(dòng)下,教育數(shù)據(jù)挖掘開始受到越來越多的研究者的關(guān)注[2]。教育數(shù)據(jù)挖掘是指應(yīng)用數(shù)據(jù)挖掘方法從教育數(shù)據(jù)中提取出有意義的信息的過程,在大數(shù)據(jù)時(shí)代,對(duì)教育數(shù)據(jù)進(jìn)行挖掘分析可以幫助發(fā)現(xiàn)和解決教育中的各類問題,如為管理人員提供輔助決策依據(jù)、幫助教師改進(jìn)課程、提升教學(xué)效果以及提高學(xué)生的學(xué)習(xí)效率等。
本文基于數(shù)據(jù)挖掘中的聚類算法,對(duì)福州大學(xué)2015—2017學(xué)年畢業(yè)的306位博士研究生的學(xué)位論文相關(guān)數(shù)據(jù)進(jìn)行聚類分析與挖掘,找出影響博士學(xué)位論文質(zhì)量的主要因素,為提高博士學(xué)位論文質(zhì)量提供參考依據(jù)。
聚類分析[3]是一種重要的數(shù)據(jù)分析方法,就是將數(shù)據(jù)對(duì)象分成類或簇的過程,使同一個(gè)類中的對(duì)象之間具有較高的相似性,而不同類中的對(duì)象具有較大的差異性。聚類分析數(shù)據(jù)挖掘過程可
概括為三部分:數(shù)據(jù)準(zhǔn)備、聚類分析及結(jié)果的解釋和評(píng)估。
目前,聚類分析的算法[4-5]大致可分為層次聚類算法、劃分式聚類算法、基于密度和網(wǎng)格的聚類算法和其他聚類算法。在眾多的聚類算法中,K均值聚類(K-means)是最經(jīng)典、最方便快速的算法之一。
K均值聚類算法[6]的過程概述如下:
(1)從N個(gè)樣本數(shù)據(jù)中隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心;
(2)分別計(jì)算每個(gè)樣本到各個(gè)聚類中心的距離,將對(duì)象分配到距離最近的聚類中;
(3)所有對(duì)象分配完成后,重新計(jì)算K個(gè)聚類中心;
(4)與前一次計(jì)算得到的K個(gè)聚類中心比較,若聚類中心發(fā)生變化,轉(zhuǎn)(2),否則轉(zhuǎn)(5);
(5)當(dāng)聚類中心不發(fā)生變化時(shí),停止并輸出聚類結(jié)果。
福州大學(xué)的研究生教育管理系統(tǒng)記錄了研究生從招生入學(xué)到畢業(yè)授學(xué)位的全過程的培養(yǎng)信息,為有效進(jìn)行博士學(xué)位論文數(shù)據(jù)聚類分析提供了基礎(chǔ)。該系統(tǒng)數(shù)據(jù)庫主要包括學(xué)生基本信息、導(dǎo)師信息、課程信息、學(xué)習(xí)成績信息、獎(jiǎng)學(xué)金信息、開題情況、中期考核、發(fā)表論文登記信息、論文送審以及答辯成績等數(shù)據(jù)表。但是這些數(shù)據(jù)表涉及很多屬性,哪些字段屬性被用于聚類算法,直接影響到最終的聚類效果。本文目標(biāo)是對(duì)博士學(xué)位論文質(zhì)量進(jìn)行聚類分析,經(jīng)查閱相關(guān)文獻(xiàn)[7-8],論文質(zhì)量的主要影響因素包括博士生招生政策、博士生生源質(zhì)量、導(dǎo)師學(xué)術(shù)水平、學(xué)科建設(shè)水平、科研條件、培養(yǎng)管理機(jī)制、學(xué)位論文的評(píng)審與答辯制度等。因此,選取了學(xué)號(hào)、攻讀方式、學(xué)習(xí)方式、導(dǎo)師稱謂、學(xué)科、課程成績、獲獎(jiǎng)情況、論文選題來源、發(fā)表論文情況、論文送審成績、答辯成績等字段作為挖掘的屬性。
為了讓數(shù)據(jù)滿足挖掘要求和提高聚類算法的效率,對(duì)數(shù)據(jù)使用下列規(guī)則進(jìn)行預(yù)處理。
(1)學(xué)生基本信息處理,將屬性攻讀方式分為公開招考、提前攻博和碩博連讀,將屬性學(xué)習(xí)方式分為全日制學(xué)習(xí)和非全日制學(xué)習(xí),將屬性導(dǎo)師稱謂分為國家級(jí)人才(如院士、長江學(xué)者、國家杰出青年基金獲得者等)和非國家級(jí)人才。
(2)課程學(xué)習(xí)成績處理,每個(gè)學(xué)生根據(jù)研究方向的不同可能選修不一樣的課程和學(xué)分,為公平衡量學(xué)生學(xué)習(xí)成績,采用學(xué)位課加權(quán)成績作為學(xué)生綜合成績,即學(xué)生綜合成績等于所有學(xué)位課程的成績乘以課程學(xué)分之和除以所有學(xué)位課程的學(xué)分之和。為更好地進(jìn)行聚類,采用等頻分箱法進(jìn)一步對(duì)成績進(jìn)行離散化處理,即將計(jì)算的成績按從大到小進(jìn)行排序,并將學(xué)生成績等分為四部分,分別標(biāo)記為A、B、C和D四個(gè)等級(jí)。
(3)獎(jiǎng)學(xué)金信息處理,分為有獲獎(jiǎng)學(xué)金和未獲獎(jiǎng)學(xué)金并分別標(biāo)記為是和否。
(4)論文選題來源信息處理,博士學(xué)位論文選題可能來自導(dǎo)師不同級(jí)別的科研項(xiàng)目或自選課題,為便于聚類把論文選題來源分為國家級(jí)項(xiàng)目、省部級(jí)項(xiàng)目、其他項(xiàng)目和其他。
(5)發(fā)表論文情況,根據(jù)學(xué)校博士生在讀期間發(fā)表論文要求規(guī)定,博士生至少要發(fā)表1篇一類論文才能申請畢業(yè),因此根據(jù)博士生在讀期間發(fā)表一類期刊論文數(shù)量將發(fā)表論文情況分為4個(gè)等級(jí),發(fā)表1篇一類期刊論文的標(biāo)記為1,發(fā)表2篇一類期刊論文的標(biāo)記為2,發(fā)表3篇一類期刊論文的標(biāo)記為3,發(fā)表4篇及以上一類期刊論文的標(biāo)記為4。
(6)學(xué)位論文信息處理,根據(jù)論文送審和答辯成績確定博士學(xué)位論文質(zhì)量等級(jí),首先根據(jù)論文答辯成績把學(xué)位論文等級(jí)分為優(yōu)、良、中、差4個(gè)等級(jí),根據(jù)實(shí)際情況,論文答辯成績一般會(huì)好于送審成績,考慮到論文送審采用匿名盲審方式,送審成績能比較客觀地體現(xiàn)論文質(zhì)量,因此,把送審成績出現(xiàn)及格及以下而答辯成績?yōu)橹屑耙陨系恼撐牡燃?jí)定為差。
利用Microsoft SQL Server Analysis Services (SSAS)數(shù)據(jù)挖掘平臺(tái)作為實(shí)驗(yàn)平臺(tái)。在該平臺(tái)上建立博士學(xué)位論文質(zhì)量聚類分析挖掘模型,主要包括以下步驟:(1)創(chuàng)建Analysis Services 項(xiàng)目;(2)創(chuàng)建數(shù)據(jù)源;(3)創(chuàng)建數(shù)據(jù)源視圖;(4)創(chuàng)建挖掘結(jié)構(gòu)模型和設(shè)置算法參數(shù),本文選擇聚類分析中K-means算法,經(jīng)過多次反復(fù)實(shí)驗(yàn),當(dāng)參數(shù)聚類數(shù)設(shè)為4時(shí),能得到具有明顯特征的數(shù)據(jù)聚類結(jié)果;(5)部署和處理挖掘模型。在Visual Studio 2008中創(chuàng)建的挖掘模型如圖1所示。
圖1 博士學(xué)位論文質(zhì)量聚類分析挖掘示意圖
對(duì)福州大學(xué)2015至2017學(xué)年畢業(yè)的306位博士研究生的學(xué)位論文相關(guān)數(shù)據(jù),執(zhí)行博士學(xué)位論文質(zhì)量聚類分析挖掘模型,得到聚類分析結(jié)果,如表1所示。從聚類結(jié)果可以看出,數(shù)據(jù)被劃分為4類:
第一類包括103名學(xué)生,占總數(shù)的33.7%,該類主要特征包括攻讀方式以公開招考為主,學(xué)習(xí)方式以非全日制為主,導(dǎo)師中國家級(jí)人才占0.9%,學(xué)科門類中理學(xué)和工學(xué)占61.6%,其他學(xué)科占38.4%,課程成績處于A、B等級(jí)的占38.4%,課程成績處于C、D等級(jí)的占61.6%,在學(xué)期間只有0.9%的學(xué)生獲得了獎(jiǎng)學(xué)金,在學(xué)期間58.9%的學(xué)生只發(fā)表了1篇一類期刊論文,發(fā)表論文情況較一般,論文選題有43.8%獲得國家級(jí)項(xiàng)目支持,論文選題有28.6%未獲得項(xiàng)目支持,論文質(zhì)量優(yōu)良率為62.5%。總得來說,該類學(xué)生在學(xué)期間表現(xiàn)相對(duì)較差,主要原因包括該類學(xué)生中大部分為非全日制學(xué)生、有較多的學(xué)位論文未獲得項(xiàng)目的支持和法學(xué)等非優(yōu)勢學(xué)科占比較大。
第二類包括109名研究生,占總數(shù)的35.6%,該類主要特征包括攻讀方式以提前攻博和碩博連讀為主,學(xué)習(xí)方式以全日制為主,導(dǎo)師中國家級(jí)人才占18.9%,學(xué)科門類中理學(xué)和工學(xué)占94.4%,其他學(xué)科占5.6%,課程成績處于A、B等級(jí)的占58.5%,課程成績處于C、D等級(jí)的占41.5%,在學(xué)期間有85.8%的學(xué)生獲得了獎(jiǎng)學(xué)金,在學(xué)期間65.1%的學(xué)生發(fā)表了3篇以上一類期刊論文,發(fā)表論文情況較好,論文選題有89.6%獲得國家級(jí)項(xiàng)目支持,論文選題只有3.8%未獲得項(xiàng)目支持,論文質(zhì)量優(yōu)良率為90.6%,其中優(yōu)占73.6%??偟脕碚f,該類學(xué)生在學(xué)期間表現(xiàn)較為優(yōu)秀,主要得益于該類中大部分學(xué)生為提前攻博和碩博連讀的優(yōu)秀全日制學(xué)生、有較多的學(xué)位論文獲得國家級(jí)項(xiàng)目的支持和理學(xué)等優(yōu)勢學(xué)科占比較大。
第三類包括62名研究生,占總數(shù)的20.3%,該類主要特征包括攻讀方式以公開招考為主,學(xué)習(xí)方式全日制占57.4%,非全日制占42.6%,導(dǎo)師中國家級(jí)人才占1.9%,學(xué)科門類中理學(xué)和工學(xué)占81.5%,其他學(xué)科占18.5%,課程成績處于A、B等級(jí)的占46.3%,課程成績處于C、D等級(jí)的占53.7%,在學(xué)期間有11.1%的學(xué)生獲得了獎(jiǎng)學(xué)金,在學(xué)期間64.8%的學(xué)生發(fā)表了2篇一類期刊論文,發(fā)表論文情況較一般,論文選題有22.2%獲得國家級(jí)項(xiàng)目支持,有33.3%獲得省級(jí)項(xiàng)目支持,有24.1%未獲得項(xiàng)目支持,論文質(zhì)量優(yōu)良率為66.6%??偟脕碚f,該類學(xué)生在學(xué)期間表現(xiàn)相對(duì)一般。
第四類包括32名研究生,占總數(shù)的10.4%,該類主要特征包括攻讀方式以公開招考為主,學(xué)習(xí)方式以全日制為主,導(dǎo)師中國家級(jí)人才占77.4%,學(xué)科門類中理學(xué)和工學(xué)占71.1%,其他學(xué)科占29%,課程成績處于A、B等級(jí)的占74.2%,課程成績處于C、D等級(jí)的占35.8%,在學(xué)期間有74.2%的學(xué)生獲得了獎(jiǎng)學(xué)金,在學(xué)期間42%的學(xué)生發(fā)表了3篇以上一類期刊論文,發(fā)表論文情況較好,論文選題有87.1%獲得國家級(jí)項(xiàng)目支持,論文選題只有6.5%未獲得項(xiàng)目支持,論文質(zhì)量優(yōu)良率為90.3%,其中優(yōu)占61.3%。總得來說,該類學(xué)生在學(xué)期間表現(xiàn)較好,雖然該類學(xué)生以公開招考的普通全日制學(xué)生為主,但該類中導(dǎo)師為國家級(jí)人才比例及學(xué)位論文獲國家級(jí)項(xiàng)目支持比例都較高,所以該類學(xué)生表現(xiàn)也較好。
表1 數(shù)據(jù)聚類分析結(jié)果統(tǒng)計(jì)表
根據(jù)聚類分析結(jié)果,可以得出以下結(jié)論及建議:
(1)生源質(zhì)量是影響學(xué)位論文質(zhì)量的源頭,學(xué)校應(yīng)深化招生體制改革,提高全日制博士生的比例,特別是提高碩博連讀和提前攻博學(xué)生的比例,逐漸減少在職人員的招生比例,同時(shí)學(xué)校應(yīng)加強(qiáng)學(xué)科建設(shè),提高學(xué)校吸引力,千方百計(jì)提高生源質(zhì)量。
(2)在學(xué)期間參與科研項(xiàng)目是影響學(xué)位論文質(zhì)量的重要因素,參與科研項(xiàng)目能夠鍛煉博士生科研能力。因此,要鼓勵(lì)博士生在學(xué)期間多參與科研項(xiàng)目,同時(shí)學(xué)校在博士研究生招生指標(biāo)分配時(shí)應(yīng)向有國家級(jí)科研項(xiàng)目的導(dǎo)師傾斜。
(3)導(dǎo)師學(xué)術(shù)水平是產(chǎn)出高質(zhì)量學(xué)位論文的重要因素,學(xué)校應(yīng)加強(qiáng)博士生導(dǎo)師隊(duì)伍建設(shè),深化博士生導(dǎo)師遴選和聘任上崗改革,學(xué)校在博士研究生招生指標(biāo)分配時(shí)應(yīng)向?qū)W術(shù)水平較高的導(dǎo)師傾斜,同時(shí)對(duì)考核不合格的導(dǎo)師進(jìn)行停招處理。
(4)在學(xué)期間發(fā)表論文情況和博士學(xué)位論文質(zhì)量是正相關(guān)的,因此,要鼓勵(lì)博士研究生在學(xué)期間積極撰寫發(fā)表高質(zhì)量的學(xué)術(shù)論文,為撰寫學(xué)位論文打下堅(jiān)實(shí)的基礎(chǔ),從而有效地提高學(xué)位論文質(zhì)量。
(5)獎(jiǎng)學(xué)金和博士學(xué)位論文質(zhì)量也是正相關(guān)的,學(xué)校應(yīng)加大對(duì)博士研究生的獎(jiǎng)助力度,減輕他們的生活經(jīng)濟(jì)壓力,發(fā)揮獎(jiǎng)學(xué)金激勵(lì)作用,不斷調(diào)動(dòng)博士研究生的研究積極性和激發(fā)他們的科研創(chuàng)新能力,從而促進(jìn)學(xué)位論文質(zhì)量進(jìn)一步提高。
博士學(xué)位論文是衡量博士研究生培養(yǎng)質(zhì)量的重要指標(biāo),博士學(xué)位論文質(zhì)量受生源質(zhì)量、導(dǎo)師學(xué)術(shù)水平、科研條件等諸多因素影響。本文通過對(duì)福州大學(xué)博士研究生的學(xué)位論文相關(guān)數(shù)據(jù)進(jìn)行聚類分析,探討博士生招生政策、博士生生源質(zhì)量、導(dǎo)師學(xué)術(shù)水平、學(xué)科建設(shè)水平、科研條件、培養(yǎng)管理機(jī)制、學(xué)位論文的評(píng)審與答辯制度等因素與博士學(xué)位論文質(zhì)量的關(guān)聯(lián)關(guān)系。聚類結(jié)果表明,博士學(xué)位論文質(zhì)量主要與攻讀方式有關(guān),其他因素也有一定關(guān)系,但作用較小。從提高生源質(zhì)量、鼓勵(lì)多參與科研項(xiàng)目、加強(qiáng)博士生導(dǎo)師隊(duì)伍建設(shè)、鼓勵(lì)在學(xué)期間發(fā)表高質(zhì)量論文、加大獎(jiǎng)學(xué)金資助力度等方面為學(xué)校提高博士學(xué)位論文質(zhì)量及博士研究生培養(yǎng)質(zhì)量提供參考依據(jù)。
參考文獻(xiàn):
[1]李艷,馬陸亭,趙世奎.博士學(xué)位論文質(zhì)量及其影響因素研究[J].江蘇高教,2015(2):105-109.
[2]周慶,牟超,楊丹.教育數(shù)據(jù)挖掘研究進(jìn)展綜述[J].軟件學(xué)報(bào),2015,11(26) : 3026-3042.
[3]韓家煒. 數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.
[4]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報(bào),2008(1) :48-61.
[5]姜云飛. 基于聚類的博士生源選拔方法探析[J].長春大學(xué)學(xué)報(bào),2014,24(2) :238-240.
[6]張良均,樊哲,趙云龍,等. Hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M]. 北京:機(jī)械工業(yè)出版社,2017:84.
[7]孔令夷. 基于解釋結(jié)構(gòu)模型的博士學(xué)位論文質(zhì)量關(guān)鍵影響因素分析[J].中國高教研究,2012(4):51-55.
[8]郭巍,鄭舒婷.博士學(xué)位論文質(zhì)量影響因素及保障體系建設(shè)[J].沈陽師范大學(xué)學(xué)報(bào),2014,38(3): 146-148.