秦 勤,段秋紅,何永強
(1.河南工程學(xué)院 計算機科學(xué)與工程系,河南 鄭州 451191;2.河南商業(yè)高等??茖W(xué)校 人事處,河南 鄭州 450044)
多年來,高校在科研管理中積累了很多數(shù)據(jù),但這些數(shù)據(jù)是通過統(tǒng)計或排序的數(shù)據(jù)信息,在高校的科研決策中并沒有得到充分利用,幾乎是停留在傳統(tǒng)的管理水平上.如何充分利用這些數(shù)據(jù),為科研管理部門和學(xué)校管理者提供決策支持,是當前科研管理領(lǐng)域亟待解決的問題[1].數(shù)據(jù)挖掘技術(shù)能夠從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)有用知識,通過客觀公正的統(tǒng)計與分析,發(fā)現(xiàn)隱藏在數(shù)據(jù)中的規(guī)律,找出隱含的模式,準確掌握未來的動態(tài).因此,可以考慮將數(shù)據(jù)挖掘技術(shù)引入科研管理領(lǐng)域,進行科研績效評估,從科研績效評估數(shù)據(jù)中提取出隱藏在數(shù)據(jù)之中的有用信息.將關(guān)聯(lián)規(guī)則分析法應(yīng)用于科研績效評估中,來進一步探討影響科研績效的主要因素以及科研績效與科研人員的教育背景、學(xué)歷、職稱之間的聯(lián)系,從而合理配置科研團隊,引導(dǎo)科研人員更好地開展科研工作,提高科研能力,為科研決策提供依據(jù).
根據(jù)績效評估模型,使用科學(xué)的測量和評價方法,是確保量化評價結(jié)果準確性的基礎(chǔ).結(jié)合多所高校的科研績效評估實際,通過調(diào)研、分析和討論,確定其主要量化指標為:學(xué)術(shù)論文、科技獎勵、科研成果、專利授權(quán)及相關(guān)知識產(chǎn)權(quán)、學(xué)術(shù)著作、科研經(jīng)費與項目、科研交流與活動、人才隊伍、科研平臺、學(xué)科建設(shè)和人才培養(yǎng).
科研人員績效評估指標可以由多個指標“類”構(gòu)成,這些“類”又可以分解為若干個“項”,每個“項”還可根據(jù)需要進一步細分,如此可層層分解下去.因此,量化評價系統(tǒng)具有不確定多屬性評價的一般特點.為了便于分析和描述,本文將這種具有多層次遞階結(jié)構(gòu)的評價框架進一步抽象成一般的多屬性量化評價模型,如圖1所示.理論上講,每個屬性都可以分解成無限多個層次水平,層次的多少以繼續(xù)分解不能帶來更多的精確性、而分解太少又容易造成評價中的主觀性和不精確性為界定原則.在量化評價中,處于同一層次上的屬性可以具有不同的重要性[2].
圖1 多屬性量化評價模型Fig.1 Multi-attribute quantitative evaluation model
以往對科研人員績效評估的指標都是定性的描述,根據(jù)量化評價的特點,為了更好地描述科研成果的定性特征,需要把定性描述轉(zhuǎn)化為定量數(shù)據(jù).同時,對于科研成果不能單純地考慮數(shù)量,還要考慮到科研人員在科研成果中的排名.排名順序?qū)蒲腥藛T的績效評估起著至關(guān)重要的作用,為了科學(xué)、客觀地進行評價,根據(jù)科研人員在科研成果中的排名順序?qū)蒲谐晒麑嶋H數(shù)量和標準數(shù)量進行了換算.
因此,量化模型定義為:
(1)
其中,A為科研人員績效評估的量化得分,th,sh分別為某科研人員符合量化指標Kij…x的科研活動h中人員數(shù)和排序,Kij…x為某科研人員滿足量化指標Kij…x的科研成果的實際數(shù)量,Wij…x為某科研人員滿足量化指標Kij…x的量化指標值.
數(shù)據(jù)選擇就是確定發(fā)現(xiàn)任務(wù)的操作對象,根據(jù)用戶需要,從原始積累的數(shù)據(jù)庫中提取相關(guān)數(shù)據(jù),進一步形成目標數(shù)據(jù).科研績效評估是根據(jù)科研目標和效果,系統(tǒng)地收集信息,對科研過程和結(jié)果給予價值判斷的過程.科研績效評估數(shù)據(jù)的分析與挖掘主要針對科研成果和科研效果展開,再結(jié)合人員的檔案數(shù)據(jù),重點選擇科研人員的教育背景、學(xué)歷、職稱等信息,結(jié)合科研績效評估結(jié)果進行分析,充分挖掘這些數(shù)據(jù)中隱含的有用信息,為推進科研團隊建設(shè)、提高科研能力提供幫助.
數(shù)據(jù)預(yù)處理是對數(shù)據(jù)選擇所提取的數(shù)據(jù)進行簡單處理,使之符合數(shù)據(jù)挖掘的要求.數(shù)據(jù)預(yù)處理的主要工作有檢查數(shù)據(jù)拼寫錯誤、去掉數(shù)據(jù)重復(fù)記錄、補上數(shù)據(jù)不完全的記錄、推導(dǎo)計算缺失的數(shù)據(jù)、完成數(shù)據(jù)類型的轉(zhuǎn)換等.數(shù)據(jù)預(yù)處理主要是研究數(shù)據(jù)的質(zhì)量問題,尋找質(zhì)量符合要求并可進行有效挖掘的數(shù)據(jù)集,為進一步的分析做準備[3].
當前,數(shù)據(jù)的質(zhì)量問題已經(jīng)成為影響數(shù)據(jù)挖掘應(yīng)用的重要因素,由于錯誤、不完整、冗余、稀疏、與挖掘目標無關(guān)聯(lián)的數(shù)據(jù)存在,使得數(shù)據(jù)挖掘結(jié)論的可信度大大降低.由于原始數(shù)據(jù)采集時,工作人員態(tài)度不認真或理解有誤等因素的影響,常常會產(chǎn)生異常數(shù)據(jù),這時就必須對這些異常數(shù)據(jù)先進行剔除和清洗,否則不能進行數(shù)據(jù)挖掘,即使是進行挖掘,結(jié)論的準確性也會很低,沒有太大的應(yīng)用價值.數(shù)據(jù)清洗的一個重要任務(wù)就是通過清洗臟數(shù)據(jù),使數(shù)據(jù)質(zhì)量達到可以有效挖掘的要求,根據(jù)上面的數(shù)據(jù)選擇,對科研績效評估數(shù)據(jù)和科研人員檔案數(shù)據(jù)進行數(shù)據(jù)完整性、一致性、正確性和與目標關(guān)聯(lián)度等一系列的數(shù)據(jù)清洗.
設(shè)I={i1,i2,…,im}是m個不同的項目的集合.給定一個事務(wù)數(shù)據(jù)庫D,其中的每一個事務(wù)T是I中一組項目的集合,即T?I, T有唯一的標識符TID.關(guān)聯(lián)規(guī)則是形如X?Y的蘊含式,其中X?I,Y?I,X∩Y=Φ,關(guān)聯(lián)規(guī)則成立的條件是:
(1)支持度S, 其中D 中至少有S%的事務(wù)包含X∪Y, 即Support(X?Y)=P(X∪Y);
(2)置信度C,也就是在D所包含X的事務(wù)中,至少有C%的事務(wù)同時也包含Y.即Confidence(X?Y)=P(X|Y)關(guān)聯(lián)規(guī)則的挖掘問題就是在事務(wù)數(shù)據(jù)庫D中找出具有用戶給定的滿足最小支持度Smin和最小置信度Cmin的關(guān)聯(lián)規(guī)則[4-5].
為了說明關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法在科研績效評估中的應(yīng)用,結(jié)合實踐過程,隨機抽取科研人員科研績效評估表300份,將績效評估分數(shù)和教育背景、學(xué)歷、職稱等信息結(jié)合起來,忽略其他信息,通過數(shù)據(jù)挖掘技術(shù)找出績效評估分數(shù)和教育背景、學(xué)歷、職稱之間的關(guān)系,部分科研績效評估信息數(shù)據(jù)如表1所示.
表1 科研人員檔案數(shù)據(jù)表Tab.1 File data table of researchers
表1中,教育背景、職稱和評價結(jié)果都屬于是類別屬性,需進一步化為布爾類型.結(jié)合科研績效評估的實際情況,對教育背景、職稱、評價結(jié)果的范圍作如下限定,職稱分為:J1正高,J2副高,J3中級,J4初級;教育背景分為:E1博士,E2碩士,E3學(xué)士,E4其他;評定等級分為:Dl優(yōu)秀,D2良好,D3中等,D4差,轉(zhuǎn)化后部分數(shù)據(jù)如表2所示.
表2 轉(zhuǎn)化為布爾類型數(shù)據(jù)Tab.2 Boolean type data
根據(jù)關(guān)聯(lián)規(guī)則分析科研績效與教育背景、職稱之間的關(guān)聯(lián)關(guān)系,評定等級為優(yōu)秀時,表示科技績效評估結(jié)果好,利用前面的挖掘技術(shù),通過關(guān)聯(lián)規(guī)則算法挖掘出科研績效評估結(jié)果為好的科研人員的狀態(tài)特征.通過搜索原始數(shù)據(jù)信息,得到評估結(jié)果為優(yōu)的記錄共80條,設(shè)Smin=4%,Cmin=18%,經(jīng)過挖掘,可以得到初步的關(guān)聯(lián)規(guī)則,如表3所示.
表3 關(guān)聯(lián)規(guī)則Tab.3 Association rules
從以上規(guī)則可以得出下列評價結(jié)果:
(1)擁有博士學(xué)位和碩士學(xué)位的人員具有豐富的科研經(jīng)驗,評定分數(shù)的支持度和可信度較高.加強科研團隊建設(shè),應(yīng)該吸收學(xué)位低的人員參與科研活動,豐富他們的科研經(jīng)驗,提高他們的科研能力;
(2)具有高級和副高職稱的人員科研經(jīng)驗豐富,評定分數(shù)的支持度和可信度較高.培養(yǎng)職稱低的人員的科研能力是學(xué)校科研隊伍建設(shè)的重要任務(wù),因為他們是以后科研的主力軍.
將數(shù)據(jù)挖掘應(yīng)用于科研績效評估,有助于發(fā)現(xiàn)目前通過傳統(tǒng)的科研績效評估所不能獲得的有用信息.本文主要針對科研績效評估數(shù)據(jù)和科研人員檔案數(shù)據(jù),研究了科研績效與科研人員的教育背景、學(xué)歷、職稱等之間的關(guān)聯(lián)性,發(fā)現(xiàn)了教育背景和職稱是影響科研績效評估結(jié)果的主要因素.
參考文獻:
[1] 何永強,米 捷.基于工作流的科技成果統(tǒng)計系統(tǒng)設(shè)計[J].河南工程學(xué)院學(xué)報(自然科學(xué)版),2008(4): 55-58.
[2] 賀金鳳.質(zhì)量績效評價模型與方法研究[D].西安:西北工業(yè)大學(xué),2006.
[3] 方耀楣,何萬蓬.可拓數(shù)據(jù)挖掘在高校教學(xué)質(zhì)量評價中的應(yīng)用[J].數(shù)學(xué)的實踐與認識,2009(4):82-87.
[4] PAOLO G.實用數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2004.
[5] 王長娥.數(shù)據(jù)挖掘技術(shù)在教育中的應(yīng)用[J]. 科技信息,2007(11):68-69.