陳小健,宋承繼
(陜西工業(yè)職業(yè)技術學院 科研處,陜西 咸陽 712000)
高??蒲许椖抗芾頂?shù)據(jù)中蘊藏著大量的科研信息資源,科研量化和評價的各項指標是科研項目信息管理的關鍵。常見的量化和評價指標包含:項目級別、項目類型、申請經(jīng)費等主要信息,有效利用這些指標可以為今后科研項目管理指明工作的重點,但隱藏在大量數(shù)據(jù)中的關系、趨勢等信息卻無法從項目孤立的指標中獲得。通過數(shù)據(jù)挖掘的方式對科研量化數(shù)據(jù)的指標進行深層次挖掘,分析各項指標間隱藏的內在聯(lián)系,將科研項目量化與評價作為科研項目管理的基本依據(jù),有利于優(yōu)化科研項目產(chǎn)業(yè)化結構,有利于更加客觀的分析各項量化和評價指標的科學性,從而找出更加豐富和有價值的科研信息,將會為管理決策者提供更為科學有效的理論依據(jù)。
數(shù)據(jù)挖掘(Data Mining),是指從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程。該過程包含:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估和知識表示。用戶可以根據(jù)這些興趣知識發(fā)現(xiàn)數(shù)據(jù)中潛在的價值和規(guī)則,供用戶在決策時有一定的依據(jù)可循。關聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的重要方法之一,關聯(lián)規(guī)則挖掘的目的就是通過分析數(shù)據(jù)間的聯(lián)系或關系發(fā)現(xiàn)給定數(shù)據(jù)集中項之間的有趣聯(lián)系,從而確定不同數(shù)據(jù)之間的關聯(lián)規(guī)則[1]。
設I={i1,i2,…,im}是項的集合。設任務相關的數(shù)據(jù)D是數(shù)據(jù)庫事務的集合,其中每個事務T是項的集合,使得T?I。每個事務有一個表示符,稱作TID。設A是一個項集,事務T包含A當且僅當A?T。
關聯(lián)規(guī)則是形如A?B的蘊涵式,其中,并且。關聯(lián)規(guī)則的強度可以用它的置信度(Confidence)和支持度(Support)進行度量[2]。支持度(Support)是指在事務數(shù)據(jù)庫D中A∪B的百分比,記為Support(A)。項目集A和B同時出現(xiàn)的頻率即支持度為:Support(A?B)=P(A∪B),支持度應用于發(fā)現(xiàn)頻率出現(xiàn)較大的項目集,低支持度的規(guī)則是沒有意義的,一般會被刪除。置信度(Confidence)是指在事務數(shù)據(jù)庫D中包含A的事務同時也包含 B 的百分比:Confidence(A?B)=P(B|A)。 置信度應用于在頻繁項目集中發(fā)現(xiàn)頻率較大的關聯(lián)規(guī)則[3],置信度越高,表示B在包含A的事務中出現(xiàn)的可能性就越大。
AprioriTid算法是在Apriori[4]算法基礎上改進的關聯(lián)規(guī)則挖掘的經(jīng)典算法[5]。Apriori算法使用了基于支持度和置信度的逐層搜索迭代方法,通過“連接步”和“剪枝步”找出數(shù)據(jù)庫中的最大頻繁項集,從而得到符合最小置信度和最小支持度的關聯(lián)規(guī)則。AprioriTid算法在Apriori算法的基礎上通過一次遍歷數(shù)據(jù)庫D之后,產(chǎn)生數(shù)據(jù)集C1,在后續(xù)歷次掃描數(shù)據(jù)集中使用數(shù)據(jù)集合Ck(k>1)代替數(shù)據(jù)庫D,在 Ck中的元素表示采用元組(TID,{Xk})表示,其中{Xk}是用TID唯一標識的事務包含的k維頻繁項目集的集合。AprioriTid算法的過程主要包含以下步驟:
第一步根據(jù)項目事務數(shù)據(jù)庫數(shù)據(jù)條目確定最小置信度mincon及最小支持度minsup[6]。
第二步掃描事務數(shù)據(jù)庫D得到候選項目集Ck,并對項目集計數(shù),利用Ck中支持度大于等于最小支持度的項目集構造Ck,由Ck統(tǒng)計頻繁k項集Lk,對頻繁k項集Lk中各項目計數(shù),在Lk中去掉出現(xiàn)次數(shù)小于迭代次數(shù)k的項,則得到Lk′。
第三步將頻繁Lk′項集中集合元素按照連接規(guī)則進行連接,迭代產(chǎn)生候選Ck+1項集。計算出其每一項集的支持度,與最小支持度進行比較,使用頻繁項集性質的先驗知識,獲得頻繁Lk+1′項集。通過上述步驟不斷迭代產(chǎn)生新的候選項集和頻繁項集,當獲得最大頻繁項集,最小支持度小于迭代次數(shù)時循環(huán)終止[7]。
使用AprioriTid算法發(fā)掘高??蒲许椖扛黜椫笜酥g的關聯(lián)規(guī)則,需首先確立進行數(shù)據(jù)挖掘的事務數(shù)據(jù)庫,并對數(shù)據(jù)進行有效性清理和轉換,再進行數(shù)據(jù)挖掘。
評估高??乒ぷ餮辛炕c評價的主要指標通常有:項目級別、類型、經(jīng)費、成果形式,這些是客觀的評價指標。為了體現(xiàn)出科研成果的優(yōu)略,本文又加入了專家對成果評測的主觀評價指標,即要求專家對科研項目成果按照“一般”、“良好”、“優(yōu)秀”和“特別優(yōu)秀”4個檔次定性判斷科研項目成果的總體評價。
根據(jù)科研項目量化和評估的方案設計及指標體系,采用布爾量化的方法,把項目級別分為國家級、省部級、市廳級和學院級四等,分別記為 i1,i2,i3,i4;類型分為自然和社科兩類分別記為 i5,i6;經(jīng)費(X)分為大于四萬元(X>4W)、一萬元到四萬元之間(1W≤X≤4W)、一萬元以下(X<1W)3個范圍,分別記為 i7,i8,i9;總體定性評價指標分別用 i10(一般),i11(良),i12(優(yōu)),i13(特別優(yōu)秀)表示。然后,用 1表示布爾變量的是,0表示布爾變量的非。以某高校當年的科研項目數(shù)據(jù)為例,從當年的科研管理系統(tǒng)數(shù)據(jù)庫中任意選取10條項目事務,布爾量化后的項目事務數(shù)據(jù)庫如表1所示。
表1 項目事務數(shù)據(jù)庫Tab.1 Projects of transaction database
應用AprioriTid算法進行數(shù)據(jù)挖掘的過程,就是不斷地連接和剪枝的過程,最后形成滿足要求的最大頻繁項集,設置最小支持數(shù)為2,最小置信度為75%。具體操作步驟如下:
第一次掃描事務數(shù)據(jù)庫,統(tǒng)計每條事務非零的項目,得到事務表 B(見表2);掃描表B,得到候選項目集C1(見表 3),并對項目集計數(shù),利用C1中支持度大于等于最小支持度2的項目集構造C1(見表4);對C1各事務的項集進行重新統(tǒng)計,得到的L1是C1由中支持度大于2的項集組成。因為L1中各項目的計數(shù)均大于1,L1如表 5所示。 所以L1′=L1。
第二次掃描事務數(shù)據(jù)庫,將頻繁L1′項集的元素組成二元組,構造C2,掃描C1對C2中項目集計數(shù),利用C2中支持度大于等于最小支持度2的項目集產(chǎn)生C2。由C2得到L2,對L2中各項目計數(shù),發(fā)現(xiàn)所有項目的出現(xiàn)次數(shù)均大于2。因此得到L2′=L2。
第三次掃描事務數(shù)據(jù)庫,將頻繁L2′項集的元素組成三元組,構造C3,掃描C2對C3中的項目集計數(shù),利用C3中支持度大于等于最小支持度2的項目集構造C3。由C3得到L3,對L3中各項目計數(shù),發(fā)現(xiàn)3,6項目的出現(xiàn)次數(shù)均小于3。因此,在L3刪除包含這兩個項目的項目集,得到的L3′。
表2 事務數(shù)據(jù)表BTab.2 The transaction database B
表3 候選C1項支持度Tab.3 Candidate C1 support
表4 代替數(shù)據(jù)庫D的C2Tab.4 C2 instead of the database D
表5 頻繁1項集L 1Tab.5 Frequent 1 item sets L1
第四次掃描事務數(shù)據(jù)庫,將頻繁L3′項集的元素組成四元組,構造C4(見表6),掃描C3對C4中的項目集計數(shù),利用 C4中支持度大于等于最小支持度2的項目集構造C4(見表7)。由 C4得到 L4,對 L4中各項目計數(shù),發(fā)現(xiàn) 2,5,8,12 這 4 個項目的出現(xiàn)次數(shù)均小于4,因此在L4刪除包含這4個項目的項目集,得到的 L4′=?,所以推導循環(huán)結束,最后結果為 L4(見表8)。
表6 候選項目集C4Tab.6 The candidate item sets C4
表7 代替數(shù)據(jù)庫D的C4Tab.7 C4 instead of the database D
表8 頻繁4項集L 4Tab.8 Frequent 4 item sets L4
最后得到的關聯(lián)規(guī)則為:省部級,自然科學類,1萬≤經(jīng)費≤4萬,優(yōu)秀。該規(guī)則說明省部級、自然學科類、經(jīng)費在1萬到4萬之間的科研項目占項目總數(shù)的三分之一,且該類科研成果在專家總體評測中大多會被評為優(yōu)秀。通過逐步擴大項目事務庫中的項目事務數(shù),得出的關聯(lián)規(guī)則基本和L4中得到的關聯(lián)規(guī)則基本吻合,從而說明該校在科研項目量化評價中省部級自然科學類項目,經(jīng)費開銷控制在1萬到4萬之間的項目最有可能被專家評價為優(yōu)秀。
利用關聯(lián)規(guī)則挖掘的AprioriTid算法對科研項目規(guī)律進行挖掘,通過最小支持度和最小置信度,可以分析各項評價指標的相關性,可以挖掘出各項指標之間隱藏的關聯(lián)關系。研究表明,利用關聯(lián)規(guī)則數(shù)據(jù)挖掘技術對科研項目數(shù)據(jù)庫進行分析和處理,發(fā)現(xiàn)和提取隱藏在數(shù)據(jù)背后的有效知識,能為高??蒲辛炕c評價提供非常有價值的參考。
[1]HAN J,Kamber M.數(shù)據(jù)挖掘:概念與技術[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2001.
[2]萬宇文,黃林穎,甘登文.基于權值的關聯(lián)規(guī)則挖掘改進算法[J].計算機與現(xiàn)代化,2014(4):73-76.WAN Yu-wen,HUANG Lin-yin,GAN Deng-wen.A new weight-based association rules mining algorithm[J].Computer and Modernization,2014(4):73-76.
[3]彭碩,吳昊.基于MDPI的多維關聯(lián)規(guī)則算法的研究[J].微電子學與計算機,2011,28(1):78-82.PENG Shuo,WU Hao.The research for multidimensional association rules algorithm based on MDPI[J].Microelectronics and Computer,2011,28(1):78-82.
[4]郝曉飛,譚躍生,王靜宇.Hadoop平臺上Apriori算法并行化研究與實現(xiàn)[J].計算機與現(xiàn)代化,2013,1(3):1-4,8.HAO Xiao-fei,TAN Yue-sheng,WANG Jing-yu.Research and implementation of parallel apriori algorithm on hadoop platform[J].Computer and Modernization,2013,1(3):1-4,8.
[5]劉美玲,蘇毅娟.基于Apriori的Web訪問模式挖掘算法[J].計算機與現(xiàn)代化,2013,218(10):1-5.LIU Mei-lin,SU Yi-juan.Apriori-based web traversal pattern mining algorithm[J].Computer And Modernization,2013,218(10):1-5.
[6]詹芹,張幼明.一種改進的動態(tài)遺傳Apriori挖掘算法[J].計算機應用研究,2010,27(8):2929-2930.ZHAN Qin,ZHANG You-ming.Improved dynamic genetic apriori mining algorithm[J].Application Research of Computers,2010,27(8):2929-2930.
[7]嚴華,陳文菁.關聯(lián)規(guī)則在學生成績分析中的應用[J].福建醫(yī)科大學學報:社會科學版,2008(1):46-49.YAN Hua,CHEN Wen-jing.As sociat ion rules and applicat ion in analysis of students.grade[J].Journal of Fujian Medical University:Social Science Edition,2008(1):46-49.