摘要:文章主要介紹了數(shù)據(jù)挖掘的概念,分析了當(dāng)前高??蒲泄芾砉ぷ鞯默F(xiàn)狀和存在的主要問題,提出應(yīng)用數(shù)據(jù)挖掘技術(shù)來分析教師的職稱、學(xué)歷、科研工作量數(shù)據(jù)之間潛在的關(guān)聯(lián)規(guī)則,對(duì)科研工作安排可以起到輔助決策的作用。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;科研管理
1.引言
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、未知的、非平凡的、極有潛在應(yīng)用價(jià)值的信息或模式的過程。
關(guān)聯(lián)規(guī)則是數(shù)據(jù)庫中存在的一類重要的可以被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。
2.科研管理的現(xiàn)狀
高等院校的科研管理數(shù)據(jù)庫中蘊(yùn)藏著大量的信息資源。這些數(shù)據(jù)主要是以各級(jí)管理部門提供的統(tǒng)計(jì)報(bào)表和簡單信息查詢方式存在,對(duì)這些數(shù)據(jù)所隱含的價(jià)值并沒有充分挖掘利用,需要有新的、更有效的技術(shù)對(duì)大量數(shù)據(jù)進(jìn)行挖掘以發(fā)揮其潛能,從中迅速萃取有用的信息以指導(dǎo)和輔助科研管理。因此,有必要在科研管理中引入數(shù)據(jù)挖掘技術(shù),以提高高校科研管理的水平和能力。
3.數(shù)據(jù)挖掘技術(shù)的應(yīng)用
(1)總體方案
高??蒲袛?shù)據(jù)挖掘系統(tǒng)基于SQL Server來構(gòu)建數(shù)據(jù)挖掘模塊。系統(tǒng)主要由學(xué)校局域網(wǎng)內(nèi)部用戶使用,采用C/S結(jié)構(gòu),將數(shù)據(jù)挖掘數(shù)據(jù)源組織存儲(chǔ)在服務(wù)器端數(shù)據(jù)庫,而數(shù)據(jù)挖掘模塊在客戶端編寫應(yīng)用程序?qū)崿F(xiàn)。
①組織數(shù)據(jù)源
將源數(shù)據(jù)經(jīng)過選取、預(yù)處理統(tǒng)一有序的存儲(chǔ)到服務(wù)器端數(shù)據(jù)庫中,為數(shù)據(jù)挖掘做好數(shù)據(jù)準(zhǔn)備工作。
②選擇挖掘算法并在應(yīng)用程序中實(shí)現(xiàn)該算法
③應(yīng)用程序與服務(wù)器上的數(shù)據(jù)庫進(jìn)行數(shù)據(jù)交互。
(2)數(shù)據(jù)處理
挖掘的源數(shù)據(jù)來自科研管理系統(tǒng)中與教師學(xué)歷、職稱,科研成果統(tǒng)計(jì)有關(guān)的數(shù)據(jù)表。
數(shù)據(jù)處理模塊主要負(fù)責(zé)對(duì)待挖掘的數(shù)據(jù)源作必要的準(zhǔn)備,將挖掘系統(tǒng)要處理的有關(guān)科研管理的數(shù)據(jù)轉(zhuǎn)化為符合關(guān)聯(lián)規(guī)則挖掘要求的待挖掘數(shù)據(jù)。數(shù)據(jù)處理主要包括三個(gè)步驟:數(shù)據(jù)清理、數(shù)據(jù)集成和數(shù)據(jù)變換。主要是改正數(shù)據(jù)中的錯(cuò)誤、填充空值,將需要的多個(gè)數(shù)據(jù)集成在同一張表中并進(jìn)行標(biāo)準(zhǔn)化處理;進(jìn)行數(shù)據(jù)變換,對(duì)需要變換的數(shù)值數(shù)據(jù)離散化,最后形成能夠進(jìn)行挖掘的有效數(shù)據(jù)。
①數(shù)據(jù)清理
高??蒲袛?shù)據(jù)挖掘主要是對(duì)教學(xué)崗位上的教師科研信息進(jìn)行關(guān)聯(lián)規(guī)則挖掘,行政管理人員、實(shí)驗(yàn)技術(shù)人員、專職政工人員的信息與挖掘目的無關(guān),屬于無效記錄,將這些記錄刪除。
部分在職取得碩士學(xué)位人員沒有研究生學(xué)歷。但他們具有相應(yīng)的學(xué)習(xí)經(jīng)歷,這部分教師的學(xué)歷應(yīng)該取碩士研究生。試用期教師無職稱,他們的職稱屬性是空值。對(duì)于這部分教師,如果其學(xué)歷是博士,則職稱取講師,其他試用期人員的職稱取助教。
②數(shù)據(jù)集成
高校科研數(shù)據(jù)挖掘中用到的教師個(gè)人信息、科研成果數(shù)據(jù)來自不同的數(shù)據(jù)表。在數(shù)據(jù)挖掘?qū)嵤┣埃呀處煹穆毞Q、學(xué)歷、科研工作量數(shù)據(jù)集中存儲(chǔ)在一個(gè)科研信息表中,各表中的數(shù)據(jù)通過關(guān)鍵字編號(hào)唯一匹配并連接在一起。教師的科研工作量由教師參與的科研項(xiàng)目、發(fā)表論文、出版著作情況合并而成,需要對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,形成一個(gè)高質(zhì)量的數(shù)據(jù)源,以利于輔助決策分析。根據(jù)教師參與項(xiàng)目、發(fā)表論文、出版著作的檔次和位次,分別用系數(shù)來對(duì)教師的科研成果進(jìn)行換算,利用換算以后系數(shù)之和來表示科研工作量。
③數(shù)據(jù)變換
對(duì)于一般的關(guān)系型數(shù)據(jù)庫而言,連續(xù)的數(shù)值型數(shù)據(jù)是必須考慮的問題。經(jīng)過數(shù)據(jù)集成后的科研信息表中既包含了分類屬性又包含了數(shù)值屬性。將科研信息表中的分類和數(shù)值屬性離散化,把關(guān)系數(shù)據(jù)表轉(zhuǎn)換成事務(wù)數(shù)據(jù)表。
(3)數(shù)據(jù)挖掘
輸入挖掘需要的參數(shù),使用Adapted Apriori算法進(jìn)行挖掘。這一階段首先產(chǎn)生候選項(xiàng)目集,然后掃描事務(wù)數(shù)據(jù)庫,計(jì)算各候選項(xiàng)目的支持度,生成頻繁項(xiàng)目集;由頻繁項(xiàng)目集產(chǎn)生關(guān)聯(lián)規(guī)則,計(jì)算規(guī)則的可信度和興趣度,產(chǎn)生感興趣的關(guān)聯(lián)規(guī)則。
(4)規(guī)則分析
以某職業(yè)院校的科研數(shù)據(jù)為例,選定最小支持度=15%,最小可信度=75%,得到的規(guī)則是:
副教授,本科 及格;
助教,碩士 稍差。
①副教授,本科 及格
這部分教師教齡比較長,知識(shí)和經(jīng)驗(yàn)積累較多。但缺少高層次教育的經(jīng)歷,接觸科技前沿知識(shí)較少和創(chuàng)新能力較弱,學(xué)習(xí)經(jīng)歷影響了科研工作。建議學(xué)校應(yīng)積極鼓勵(lì)這類教師,攻讀碩士、博士學(xué)位。讓其有時(shí)間、有條件提高學(xué)歷層次,更多地接觸科技前沿知識(shí),培養(yǎng)他們成為科研骨干。
②助教,碩士 稍差
碩士研究生系統(tǒng)地學(xué)習(xí)了專業(yè)內(nèi)的高層次知識(shí),具備一定的創(chuàng)新能力,但缺少知識(shí)的積累和經(jīng)驗(yàn)的沉淀。針對(duì)這類教師可多給予學(xué)術(shù)訪問和合作研究的機(jī)會(huì),培養(yǎng)和促進(jìn)這些高學(xué)歷教師早日成為學(xué)術(shù)骨干。
4.總結(jié)
開展科研能夠更新和提高教師的業(yè)務(wù)知識(shí)水平,并能及時(shí)地應(yīng)用于理論課堂教學(xué)及實(shí)驗(yàn)教學(xué)中,從而促進(jìn)教學(xué)質(zhì)量的提高,對(duì)學(xué)生、教師個(gè)人及對(duì)學(xué)校整體的發(fā)展都將起著積極的推動(dòng)作用。在科研管理中引入數(shù)據(jù)挖掘技術(shù),能夠充分利用數(shù)據(jù)所隱含的價(jià)值,為領(lǐng)導(dǎo)者制定決策提供科學(xué)的依據(jù),以提高高校科研管理的水平和能力。
參考文獻(xiàn):
[1]陳京民等,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:電子工業(yè)出版社
[2]安淑芝等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社
[3]劉同明等.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[M].北京:國防工業(yè)出版社
作者簡介:
王萌(1981-),男,山東昌邑人,碩士,濰坊學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院講師。