高大菊
(滁州城市職業(yè)學(xué)院,安徽 滁州 239000)
高校科研的核心力量是教師隊(duì)伍,科研項(xiàng)目的立項(xiàng)是評價(jià)教師科研能力的主要依據(jù),也是學(xué)??蒲泄芾砉ぷ鞯囊环N重要方式。數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和發(fā)展為教師科研工作提供了強(qiáng)大支撐,通過關(guān)聯(lián)規(guī)則技術(shù)可以對科研數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)影響科研結(jié)果的關(guān)鍵性因素,并根據(jù)這些因素之間的聯(lián)系規(guī)律,為高校組織、協(xié)調(diào)和評價(jià)教師科研工作、作出科研決策提供科學(xué)依據(jù)。因此,如何從眾多科研項(xiàng)目申報(bào)資料中挖掘出隱藏的規(guī)律與知識,為高校教育和科研決策提供支持成為重要的研究項(xiàng)目。
1.1.1 數(shù)據(jù)項(xiàng)與數(shù)據(jù)項(xiàng)集
假設(shè)I={i1,i2,…,im}為m個(gè)項(xiàng)目的集合,其中ix(k=1,2,…,m)被稱作數(shù)據(jù)項(xiàng) (Item),I為數(shù)據(jù)項(xiàng)集,簡稱項(xiàng)集(Itemset),項(xiàng)集的元素?cái)?shù)量被稱作該項(xiàng)集的長度,如長度為k的項(xiàng)集簡稱為k-項(xiàng)集[1]。
1.1.2 事務(wù)
事務(wù)T表示項(xiàng)集I中的子集,兩者關(guān)系表示為T?I,所有事務(wù)有且只有一個(gè)關(guān)聯(lián)的標(biāo)識符TID,不同事務(wù)組合成事務(wù)數(shù)據(jù)庫D。
1.1.3 項(xiàng)集支持度
假設(shè)X?I表示數(shù)據(jù)項(xiàng)集,B表示事務(wù)集D中包含項(xiàng)數(shù)據(jù)項(xiàng)集X的事務(wù)數(shù)量,A表示事務(wù)集D包含的事務(wù)總數(shù)量,數(shù)據(jù)項(xiàng)集X的支持度Support表示為:
其中,Support(X)表示項(xiàng)集X的重要性。
1.1.4 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則的表達(dá)式為:R:X?Y,其中X?I,Y?I,同時(shí)X∩Y=Φ,表示項(xiàng)集X如包含在某一事務(wù),則項(xiàng)集Y必定也包含在同一事務(wù)中。X為關(guān)聯(lián)規(guī)則先決條件,Y為關(guān)聯(lián)規(guī)則結(jié)果[2]。
1.1.5 關(guān)聯(lián)規(guī)則置信度
關(guān)聯(lián)規(guī)R的置信度(Confidence)可表示為:
規(guī)則置信度衡量的是關(guān)聯(lián)規(guī)則的可靠程度。
1.1.6 最小支持度與頻繁項(xiàng)集
最小支持度表示發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的情況下,數(shù)據(jù)項(xiàng)需要滿足的最低支持門限值,衡量的是項(xiàng)集的最低重要程度。只有滿足最小支持度的情況下,數(shù)據(jù)項(xiàng)集才可能出現(xiàn)在關(guān)聯(lián)規(guī)則中,支持度高于最小支持度的數(shù)據(jù)項(xiàng)集叫做頻繁項(xiàng)集,反之,則為非頻繁項(xiàng)集。
1.1.7 最小置信度
最小置信度表示關(guān)聯(lián)規(guī)則需要達(dá)到的最低可信度,衡量的是關(guān)聯(lián)規(guī)則的最小可靠性。
挖掘關(guān)聯(lián)規(guī)則基本流程如下[3]:
(1)對數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清理、數(shù)據(jù)填充、數(shù)據(jù)離散化;
(2)確定支持門限最小值,置信度的最小值;
(3)基于關(guān)聯(lián)規(guī)則挖掘算法挖掘出頻繁項(xiàng)集,生成關(guān)聯(lián)規(guī)則;
(4)對關(guān)聯(lián)規(guī)則進(jìn)行可視化生成和評價(jià)。
可見,將關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘涉及以下兩個(gè)關(guān)鍵問題:
(1)查找所有能符合最小支持度要求的頻繁項(xiàng)集,這一過程是數(shù)據(jù)挖掘中最關(guān)鍵的環(huán)節(jié);
(2)基于最小置信度生成頻繁項(xiàng)集的決策規(guī)則。
Apriori是最典型的關(guān)聯(lián)法則的數(shù)據(jù)挖掘方法,該算法通過多趟掃描事務(wù)集D的方式找出全部頻繁項(xiàng)集[4]。其運(yùn)算主要基于以下兩個(gè)基本性質(zhì):
(1)一個(gè)頻繁項(xiàng)集的子集必然也是頻繁項(xiàng)集。
(2)一個(gè)非頻繁項(xiàng)集的超集必然也是非頻繁項(xiàng)集。
如圖1所示,應(yīng)用Apriori算法進(jìn)行第一趟數(shù)據(jù)庫掃描時(shí),需計(jì)算項(xiàng)集I中所有數(shù)據(jù)項(xiàng)的支持度,找出符合最小支持度要求的1-頻繁項(xiàng)集L1。在接下來的第k趟掃描中,先將第k-1趟掃描找出的包含k-1個(gè)元素的頻繁項(xiàng)集的集合Lk-1組做為種子集,據(jù)此產(chǎn)生新的潛在k頻繁項(xiàng)集的集合,也就是候選集Ck,接著對數(shù)據(jù)庫進(jìn)行掃描,計(jì)算候選項(xiàng)的支持度,從中選出一組符合最小支持度要求的k頻繁項(xiàng)集集合Lk,并將其用作下一次掃描的種子集,不斷重復(fù)直到產(chǎn)生最后一個(gè)頻繁項(xiàng)集[5]。
假定在數(shù)據(jù)庫中,所有事務(wù)的數(shù)據(jù)項(xiàng)均按字母次序排列,對于一個(gè)事務(wù)數(shù)據(jù)庫D,一個(gè)數(shù)據(jù)項(xiàng)集的支持度可被視為包括這個(gè)數(shù)項(xiàng)集的事務(wù)數(shù)。每個(gè)數(shù)據(jù)項(xiàng)集都有一個(gè)域Count用于存儲(chǔ)其支持度。
挖掘過程包括數(shù)據(jù)準(zhǔn)備、關(guān)聯(lián)規(guī)則挖掘?qū)崿F(xiàn)、規(guī)則解釋與表達(dá)三個(gè)部分[6]。以高校全部科研項(xiàng)目申報(bào)書中的信息為關(guān)聯(lián)規(guī)則挖掘?qū)ο?從多個(gè)相關(guān)數(shù)據(jù)表中挖掘出合適的屬性,構(gòu)建源數(shù)據(jù)表,并實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、離散化,進(jìn)而得到相應(yīng)的事務(wù)數(shù)據(jù)庫。
2.1.1 數(shù)據(jù)收集
收集廣州城市職業(yè)學(xué)院2021年度的所有科研申報(bào)信息以及研人員人事數(shù)據(jù),并整理導(dǎo)出到excel表中,數(shù)據(jù)源主要包括教師個(gè)人信息表、立項(xiàng)科研項(xiàng)目信息表、未立項(xiàng)科研項(xiàng)目信息表。其中教師個(gè)人信息表主要包括員工編號、姓名、部門號、性別、出生日期、學(xué)位、學(xué)歷、專業(yè)、專業(yè)技術(shù)任職資格等;立項(xiàng)科研項(xiàng)目信息表主要包括項(xiàng)目編號、項(xiàng)目名稱、項(xiàng)目負(fù)責(zé)人編號、項(xiàng)目來源、項(xiàng)目級別、立項(xiàng)時(shí)間、計(jì)劃結(jié)項(xiàng)時(shí)間、資助經(jīng)費(fèi)、學(xué)校配套等;未立項(xiàng)科研項(xiàng)目信息表主要包括項(xiàng)目編號、項(xiàng)目名稱、負(fù)責(zé)人編號、項(xiàng)目來源、項(xiàng)目級別、計(jì)劃開始時(shí)間、計(jì)劃結(jié)項(xiàng)時(shí)間、申請經(jīng)費(fèi)等。
圖1 Apriori算法流程
2.1.2 數(shù)據(jù)預(yù)處理
實(shí)踐中收集的數(shù)據(jù)往往存在噪聲、空缺、不一致等情況,需對其進(jìn)行預(yù)處理,以清楚噪聲,糾正不一致,確保數(shù)據(jù)挖掘效果。常用的預(yù)處理技術(shù)包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約。
(1)數(shù)據(jù)清理。數(shù)據(jù)清理的方式主要包括填補(bǔ)空缺值,平滑噪聲數(shù)據(jù),識別、刪除孤立點(diǎn)等。采用計(jì)算機(jī)檢查和人工檢查結(jié)合的方式進(jìn)行數(shù)據(jù)清理。用屬性平均值或典型值填補(bǔ)空缺值,如年齡可用平均年齡填補(bǔ)空缺,職稱信息可用無職稱填補(bǔ)空缺,同時(shí)鏟掉冗余數(shù)據(jù),糾正數(shù)據(jù)不一致。
(2)數(shù)據(jù)集成。集成不同數(shù)據(jù)源中的數(shù)據(jù)并存儲(chǔ)在同一個(gè)數(shù)據(jù)存儲(chǔ)中。如將已立項(xiàng)、未立項(xiàng)的科研項(xiàng)目信息、人員信息、申報(bào)書中的項(xiàng)目基礎(chǔ)數(shù)據(jù)集成構(gòu)成數(shù)據(jù)表,其結(jié)構(gòu)如表1所示。
表1 集成后的科研項(xiàng)目數(shù)據(jù)表
(3)數(shù)據(jù)歸約。集成后的數(shù)據(jù)量非常大,對其進(jìn)行分析挖掘需很大的資源開銷,為節(jié)省資源,提高挖掘效率,需進(jìn)行數(shù)據(jù)歸約,在保證數(shù)據(jù)完整性的前提下盡量縮小數(shù)據(jù)挖掘規(guī)模。數(shù)據(jù)歸約方法主要包括立方體聚集、維歸約、數(shù)據(jù)壓縮、數(shù)值壓縮、離散化等。本次研究采用維歸約、數(shù)值壓縮、離散化三種方式縮減數(shù)據(jù)量。
維規(guī)約,對于項(xiàng)目編號、項(xiàng)目名稱、負(fù)責(zé)人編號、負(fù)責(zé)人姓名等對項(xiàng)目是否立項(xiàng)沒有顯著影響的屬性可刪除;而副高職稱以上人員的比例及碩士學(xué)位以上人員的比例與人員的絕對數(shù)相比較,更能體現(xiàn)項(xiàng)目成員結(jié)構(gòu),因此可刪除副高以上人數(shù)、碩士以上人數(shù)者兩個(gè)屬性;此外,該高校只有少量項(xiàng)目存在合作單位,故刪除該屬性。
先選取一批凝聚點(diǎn),再使樣品向最近凝聚點(diǎn)凝聚成類,得到原始分類,樣品歸入后重新計(jì)算分類的重心,替換原有的凝聚點(diǎn),再計(jì)算下一個(gè)樣品的歸類,直至全部樣品均歸類。動(dòng)態(tài)聚類的基本原理如圖2所示。
圖2 動(dòng)態(tài)聚類基本原理
合理劃分屬性區(qū)間,建立各屬性對應(yīng)的變量映射表,逐條掃描數(shù)據(jù)庫記錄,按照映射表中的對應(yīng)變量名填充到事務(wù)數(shù)據(jù)表中的對應(yīng)位置,掃描完整個(gè)數(shù)據(jù)庫時(shí)即完成了關(guān)系數(shù)據(jù)庫到事務(wù)數(shù)據(jù)庫的轉(zhuǎn)換。
運(yùn)用Apriori算法,結(jié)合實(shí)際數(shù)據(jù)以及經(jīng)試驗(yàn)得到最小支持度閾值為0.10,最小置信度閾值為0.80進(jìn)行關(guān)聯(lián)規(guī)則挖掘,同時(shí)滿足上述閾值要求的為強(qiáng)關(guān)聯(lián)規(guī)則,共計(jì)得到973條強(qiáng)關(guān)聯(lián)規(guī)則。
由于本次研究重點(diǎn)在于各指標(biāo)和項(xiàng)目是否立項(xiàng)的關(guān)聯(lián),故以是否立項(xiàng)作為約束條件,篩選出前、后條件包含項(xiàng)目是否立項(xiàng)的關(guān)聯(lián)規(guī)則,共計(jì)11條,如表2所示。
表2 關(guān)聯(lián)規(guī)則的解釋及表達(dá)
根據(jù)上述關(guān)聯(lián)規(guī)則可得如下結(jié)論:
(1)項(xiàng)目負(fù)責(zé)人學(xué)歷均為碩士以上,職稱均為講師以上,因此,教師需重視自己的學(xué)歷、學(xué)位和職稱的提高,同時(shí)學(xué)校應(yīng)該采取合理的激勵(lì)措施,促進(jìn)青年教師的專業(yè)發(fā)展,促進(jìn)高??蒲兴降奶嵘?
(2)項(xiàng)目組人員結(jié)構(gòu):市廳級項(xiàng)目組人員數(shù)量通常為5-7個(gè),其它項(xiàng)目可以適當(dāng)增減,其中副高級以上的人員占比應(yīng)不低于29%,碩士以上學(xué)位的人員占比應(yīng)不低于49%,否則不大可能立項(xiàng)。審核科研申報(bào)項(xiàng)目時(shí)可以參考這個(gè)結(jié)論給負(fù)責(zé)人提出人員結(jié)構(gòu)優(yōu)化建議;
(3)研究依據(jù):對相關(guān)研究成果的數(shù)量要求因人而異,其中,中級職稱教師的相關(guān)研究成果數(shù)應(yīng)不低于6個(gè),副高級教師的相關(guān)研究成果數(shù)應(yīng)不低于12個(gè);
由于抽樣資料來自于單一高校的單年度科研項(xiàng)目申報(bào)數(shù)據(jù),研究結(jié)論存在局限,受最小支持度和最小置信度的閾值選擇的影響,產(chǎn)生的關(guān)聯(lián)規(guī)則不夠全面精準(zhǔn)。