李 梁,張建剛
(重慶理工大學計算機科學與工程學院,重慶 400054)
隨著社會和科學技術的快速發(fā)展,高校的科研能力日益成為高校整體綜合實力的一種標志。教師是學??蒲泄ぷ鞯闹髁姡?],但由于科研活動指標眾多,且相互交叉影響,如何準確判斷指標與教師科研能力的潛在關系已成為當前高校面臨的一個重要問題。普通的統(tǒng)計分析已不能滿足對教師科研能力評價的需求且普遍存在時間滯后、工作繁多等缺陷,而且評價過程中的人為主觀因素往往成為影響評價正確性的不確定性因素[1]。
近年來,很多學者使用關聯(lián)規(guī)則對高??蒲心芰蛘呓處熆蒲心芰M行挖掘分析。在教師科研評價指標繁多的情況下,沒有對科研眾多指標進行約簡,而是直接使用關聯(lián)規(guī)則算法進行挖掘分析,在屬性維數(shù)尚未約簡的情況下使用關聯(lián)規(guī)則算法,這在形成候選項集、頻繁項集和產生規(guī)則等步驟時大大增加了時間復雜度和空間復雜度。
針對上述問題,本文在參考國內外相關研究成果的基礎上引入粗糙集理論中鄰域粗糙集的相關性質,采用基于鄰域粗糙集屬性約簡的貪心算法對教師科研能力指標進行約簡,在不影響產生規(guī)則的前提下,求得影響教師科研指標的關鍵核屬性,減少指標空間維數(shù),然后結合關聯(lián)規(guī)則Apriori算法挖掘教師科研能力與關鍵指標之間的潛在關聯(lián)。
通過研究相關文獻[2-3],結合高校教師的實際科研活動情況,筆者將科研活動大體上分為科研論文、科研項目、著作、獲獎以及專利等一級指標,并根據(jù)一級指標劃分不同等級的二級指標。如科研項目根據(jù)項目級別可劃分為國家級項目、省部級項目、廳局級項目、橫向和校級項目。其中校級項目為滿足學校內部需求而開發(fā)的項目,在績效計算評分過程中所占的分數(shù)比較低,故在評價教師科研能力評價指標體系中將其略去。綜上所述,教師科研能力評價指標體系可用圖1所示的層次結構指標體系描述。
圖1 教師科研能力評價指標體系
本文的教師科研數(shù)據(jù)采用重慶市某高校對參與科研活動的教師按照評分規(guī)則進行積分計算得到,所得的科研績效積分為同一量綱,教師科研數(shù)據(jù)是連續(xù)的指標數(shù)據(jù),因此科研數(shù)據(jù)具有連續(xù)性特征。
經(jīng)典粗糙集理論[4-6]定義在等價關系之上,對數(shù)值型數(shù)據(jù)的處理首先需要進行離散化處理。但是由于教師科研數(shù)據(jù)具有連續(xù)的特征,數(shù)據(jù)離散化后可能會丟失某些重要的信息,而且不同的離散化策略可能會影響評價模型的輸出結果[7]。本文不再使用必須對數(shù)據(jù)進行離散化的經(jīng)典粗糙集理論,而是引入了鄰域粗糙集理論對教師科研進行優(yōu)化和屬性約簡[8]。
屬性選擇過程常采取前向貪心搜索策略,通過測試加入新的候選屬性后度量指標的變化,生成新的屬性子集。以粗糙集屬性依賴度作為度量指標時,需計算屬性子集下的正域樣本個數(shù)[9]。以往在逐個向已選條件屬性集E中添加任一新屬性r時,需要重新依次判斷各個樣本是否在正域內。根據(jù)其性質,若樣本x為E上的正域樣本,則x也是(E+r)上的正域樣本,即新加入的屬性僅對區(qū)分邊界樣本有效。根據(jù)這一特性,在計算決策屬性D對(E+r)的屬性依賴度時,只需判斷原來負域中的樣本即可,由此可能大大減少樣本判斷次數(shù)。
若U中樣本個數(shù)為D,在已選屬性子集E下,正域樣本集為S,D對E的屬性依賴度為k,加入屬性r后,U-S中的樣本在(E+r)下正域樣本為s,個數(shù)為n,則D對(E+r)的屬性依賴度為(k+n)/N。
在判斷某個樣本是否在正域時,由于需要計算鄰域,所以其他樣本無論是否已判定在正域內都將被用到。
關聯(lián)規(guī)則是描述一個事務中事件之間同時出現(xiàn)的規(guī)律的知識模式,是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng),挖掘出隱藏在數(shù)據(jù)庫中的一些關聯(lián)規(guī)則,這些規(guī)則體現(xiàn)屬性(數(shù)值)頻繁地在特定數(shù)據(jù)集中出現(xiàn)的條件,通常表現(xiàn)為“同時發(fā)生”或“從一個對象可以推斷出另一個對象”。利用這些關聯(lián)規(guī)則可以根據(jù)已知情況對未來未知問題進行推測判斷。
設 I={i1,i2,…im,}是項集,其中 ik(k=1,2,…,m)可以是購物籃中的物品,也可以是保險公司的顧客。設任務相關的數(shù)據(jù)D是事務集,其中每個事務T是項集,使得T?I。設A是一個項集,且A?T。
關聯(lián)規(guī)則是如下形式的邏輯蘊涵:A?B,A?I,B?I,且A∩B=?。關聯(lián)規(guī)則有如下兩個重要的屬性:
支持度:P(A∪B),即A和B這兩個項集在事務集D中同時出現(xiàn)的概率。
置信度:P(B|A),即在出現(xiàn)項集A的事務集D中項集B也同時出現(xiàn)的概率。
同時滿足最小支持度閾值和最小置信度閾值的規(guī)則稱為強規(guī)則。給定一個事務集D,挖掘關聯(lián)規(guī)則問題就是產生支持度和可信度分別大于用戶給定的最小支持度和最小可信度的關聯(lián)規(guī)則,也就是產生強規(guī)則的問題。
最經(jīng)典的關聯(lián)規(guī)則算法是R.Agrawal,Imielinski和 Swam等人提出的 Apriori算法。支持度(support)和可信度(confidence)是描述關聯(lián)規(guī)則的兩個重要概念,前者(support)用于衡量關聯(lián)規(guī)則在整個數(shù)據(jù)集中的統(tǒng)計重要性,后者(confidence)用于衡量關聯(lián)規(guī)則的可信程度。
Apriori算法使用一種稱作逐層搜索的迭代方法,k項集用于搜索(K+1)項集。首先,算法通過掃描數(shù)據(jù)庫累積每個項的計數(shù),并收集滿足最小支持度的項,找出頻繁1項集的集合,該集合記做L1;然后L1用于找到頻繁2項集L2,L2用于找到L3,如此下去,直到不能再找到頻繁K項集。找每一個Lk均需要進行一次數(shù)據(jù)庫全掃描[9]。
為了提高Apriori的效率,算法引入連接步和剪枝步滿足Apriori的性質:頻繁項集的所有非空子集也必須是頻繁的。
連接步:為找Lk,通過將Lk-1與自身連接產生候選K項集的集合Ck。
剪枝步:Ck是Lk的超集,所有的頻繁K項集都包含在Ck中。掃描數(shù)據(jù)庫,確定Ck中每個候選項的計數(shù),如果候選K項集的(K-1)項子集不在Lk-1中,則該候選也不可能是頻繁的,可以從Ck中刪除。
教師科研能力指標體系主要采用圖1所述的指標屬性。由于依據(jù)某高校科研活動評分規(guī)則得到的教師科研活動得分實際上是連續(xù)型數(shù)據(jù),所以數(shù)據(jù)之間存在著量綱和數(shù)量級的不同。本文選擇鄰域粗糙集屬性約簡貪心算法對科研指標進行屬性處理,所以首先對所得的決策表初始數(shù)據(jù)進行歸一化處理,然后采用貪心算法對歸一化后的數(shù)據(jù)進行屬性的重要性比較,得到約簡后的屬性,從而構造新的事務數(shù)據(jù)表作為關聯(lián)規(guī)則算法的輸入數(shù)據(jù)。教師科研能力指標數(shù)據(jù)如表1所示。
表1中屬性科研活動數(shù)據(jù)來自重慶某高校2009—2011三年來部分教師的科研數(shù)據(jù),它以某高校制定的科研工作績效計分方法為依據(jù),根據(jù)科研活動的級別以及等次進行分數(shù)計算,并且依據(jù)參與科研活動成員數(shù)量及角色分工的不同,按照成員參與重要度順序、進而按照不同的比例進行得分計算。表1中的教師科研能力作為決策屬性用G表示,其中:4表示科研能力很強;3表示科研能力較強;2表示科研能力一般;1表示科研能力較差。
表1 教師科研能力指標體系數(shù)據(jù)集
對表1中指標數(shù)據(jù)使用極差歸一化變換,指標數(shù)據(jù)值都在(0,1),變換公式為
對表1進行指標數(shù)據(jù)連同決策屬性與科研指標數(shù)據(jù)歸一化之后,使用屬性約簡的貪心算法[11]進行屬性之間重要性比較,通過設置不同的鄰域半徑得到的屬性重要程度不同。程序選擇基于哈爾濱工業(yè)大學胡清華副教授對粗糙集的研究,設置重要度下限為0.000 1,若求得某一屬性的重要度小于0.000 1,則視其為很不重要的一列屬性,將其作為冗余屬性。在反復比較鄰域半徑不同值情況下,以高校普遍教師科研活動事實為依據(jù),最終選擇鄰域半徑為r=0.27,求的決策表中約簡屬性為[X1,X3,X4,X5,X6,X8],即將國家級項目、廳局級項目、橫向項目、核心期刊論文、三大檢索論文以及公開發(fā)表的論文組成新的決策表作為關聯(lián)規(guī)則事務數(shù)據(jù),如表2所示。
表2 屬性約簡快速算法相關參數(shù)及約簡結果
從約簡后的核屬性可知,大多高校教師的科研活動都集中在科研項目和科研論文方面,對于其他的科研活動比如專利、著作等重視程度較差。而對于科研項目,則眾多的是橫向項目,重要度為0.666 7,國家級項目重要度為0.190 5,說明教師更多地參與國家級項目不僅有助于提高自身科研素質,還可以提高學校參與國家級項目的比例。
關聯(lián)規(guī)則Apriori算法只能處理字符型變量和結果變量,故對于歸一化之后的指標數(shù)據(jù)要根據(jù)數(shù)據(jù)變換規(guī)則進行離散化處理,并用不同的字符代表不同的指標數(shù)據(jù)范圍。不同的指標數(shù)據(jù)在歸一化之后保持相同的性質,對其進行離散化,離散化標準為0~0.15;0.16~0.30;0.31~0.45;0.45~0.6;0.61~1。其中,對于教師科研能力等級 G 劃分為L4、L3、L2、L1,依次表示科研能力很強、較強、一般、較差。離散化后的數(shù)據(jù)如表3所示。
表3 教師科研能力離散化數(shù)據(jù)
輸入挖掘需要的參數(shù),使用關聯(lián)規(guī)則的Apriori算法進行挖掘,如最小值支持度計數(shù)Support=19%,最小置信度Confidence=50%。使用關聯(lián)規(guī)則在于挖掘教師科研活動中國家級項目、廳局級項目、橫向項目與核心期刊論文、三大檢索論文、公開發(fā)表論文之間的內在關系,故前向數(shù)為2,后項數(shù)為1即為教師的科研能力等級,得到的規(guī)則如表4所示。
表4 教師科研能力提出的規(guī)則
由規(guī)則1可知,教師科研能力很強,在科研項目尤其是橫向項目上表現(xiàn)比較優(yōu)秀,雖然在科研論文方面表現(xiàn)稍有不足,但是科研項目的比例彌補了教師在論文方面的不足;由規(guī)則2和規(guī)則3可知,當教師在國家級項目表現(xiàn)較差,橫向項目表現(xiàn)良好時,教師的科研能力較強或者一般,支持度均為19.04%,其置信度均為50%;由規(guī)則4可知,教師在橫向項目表現(xiàn)良好,且公開發(fā)表論文表現(xiàn)較差時,其科研能力為一般;規(guī)則5則顯示教師核心期刊論文較差但是公開發(fā)表的論文很強的情況下,其科研能力為一般,公開發(fā)表的論文彌補了核心論文方面的缺陷;由規(guī)則6則可得在滿足最小支持度下,教師在國家級項目和廳局級項目均表現(xiàn)較差時,其科研能力較差。
綜上可得,影響教師科研能力的主要因素是國家級項目和核心期刊,以及三大檢索論文的發(fā)表情況。對于科研能力很強的教師,其科研項目和科研論文往往不能同時達到優(yōu)秀。如規(guī)則1所示,教師在橫向項目達到優(yōu)秀,但是在論文公開發(fā)表方面卻僅為及格,因此學校決策層應采取一定措施,指導教師將參與的項目結合其論文發(fā)表,則教師科研水平將會更上一個層次。規(guī)則2、3表示科研項目表現(xiàn)一般情況下,教師科研能力為較強和一般的置信度均為50%,這類型的教師在論文方面的成就直接影響其科研能力,故決策層應根據(jù)實際情況加強教師的科研論文。對科研能力較差的教師,學校應給予更多的機會讓他們參與項目的進度以及專業(yè)知識的學習,提高其專業(yè)知識水平,進而提高學校的科研活動能力。
本文率先引入鄰域粗糙集理論與關聯(lián)規(guī)則算法的結合,利用其屬性約簡快速選擇算法對眾多教師科研能力指標進行重要度約簡,以某高校3年來科研數(shù)據(jù)為依據(jù),求得影響教師科研能力的關鍵屬性;對約簡后的數(shù)據(jù)用關聯(lián)規(guī)則的Apriori算法進行挖掘分析,不僅減少了算法生成規(guī)則的時間、空間復雜度,而且不影響規(guī)則的挖掘分析,最終求得教師科研能力與科研活動之間的深層關聯(lián),為學校決策層在科研活動方面提供事實依據(jù)。經(jīng)驗證,粗糙集與關聯(lián)規(guī)則的結合在教師科研能力評價方面有一定的實用性,有助于高校合理分析教師的科研能力內在關系,為決策分析提供了事實依據(jù),并為準確地對教師的科研能力進行評價衡量,從而全面了解教師信息提供一個有力的工具。
[1]徐守軍,高波,等.數(shù)據(jù)挖掘技術在科研管理中應用前景初探[J].中華醫(yī)學科研管理雜志,2005(4):214-216.
[2]張劍平.高校教師科研能力評價指標體系設計研究[J].黑龍江高教研究,2006(5):101-103.
[3]王京文,胡忠望,肖建華,等.高校教師科研水平評估指標體系的研究[J].湖南工程學院學報:社會科學版,2006,16(2):73-75.
[4]常犁云,王國胤,吳渝.一種基于Rough Set理論的屬性約簡及規(guī)則提取方法[J].軟件學報,1999,10(11):1207-1211.
[5]石云,孫玉芳,左春.基于Rough Set的空間數(shù)據(jù)分類方法[J].軟件學報.2000,11(5):673-678.
[6]Suguna N,Thanushkodi K G.An Independent Rough Set Approach Hybrid with Artificial Bee Colony Algorithm for Dimensionality Reduction[J].American Journal of Applied Sciences,2011,8(3):261-266.
[7]楊明.一種基于改進差別矩陣的屬性約簡增量式更新算法[J].計算機學報,2007,30(5):815-822.
[8]鄧勝,戴小鵬,陳墾,等.粗糙集理論在農業(yè)生物災害預測中的應用[J].安徽農業(yè)科學,2006,16(2):73-75.
[9]Han Jiawei H,Kamber M.數(shù)據(jù)挖掘概念與技術[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2007.
[10]謝中華.MATLAB統(tǒng)計分析與應用:40個案例分析[M].北京:北京航空航天大學出版社,2010.
[11]胡清華,于達仁,謝宗霞.基于鄰域粒化和粗糙逼近的數(shù)值屬性約簡[J].軟件學報,2008,19(3):640-649.