聶 迪
(黑龍江省科學(xué)院大慶分院,黑龍江 大慶 163319)
數(shù)據(jù)挖掘是指從一定的原始數(shù)據(jù)中利用一定的方法挖掘其中的隱含信息的過程。數(shù)據(jù)挖掘是一種計(jì)算機(jī)科學(xué),與統(tǒng)計(jì)學(xué)、情報(bào)學(xué)等有相關(guān)性。簡(jiǎn)單地說,傳統(tǒng)的信息處理所采用的統(tǒng)計(jì)方法是線性的、簡(jiǎn)單的,而數(shù)據(jù)挖掘是將原始數(shù)據(jù)通過更為復(fù)雜的統(tǒng)計(jì)思維,納入一些專家系統(tǒng)作為邏輯,以模式識(shí)別等方式來挖掘更為深刻的信息。
數(shù)據(jù)挖掘技術(shù)常用的方法如下:
神經(jīng)網(wǎng)絡(luò)法。該方法對(duì)高等生物的神經(jīng)網(wǎng)絡(luò)系統(tǒng)進(jìn)行了模擬,使得挖掘工具的處理單元能夠通過不斷地學(xué)習(xí)來提升對(duì)數(shù)據(jù)的認(rèn)知,就像一個(gè)人體一樣,在不同的數(shù)據(jù)環(huán)境中,逐步形成自己的認(rèn)知思維。具有抗干擾、非線性學(xué)習(xí)、聯(lián)想記憶等優(yōu)勢(shì)。
決策樹法。該方法是基于對(duì)目標(biāo)變量產(chǎn)生作用的差異而形成分類,因此能夠利用相應(yīng)的標(biāo)準(zhǔn)對(duì)原始數(shù)據(jù)開展分類,并以于樹形結(jié)構(gòu)的形式存在。在決策樹算法的發(fā)展中,經(jīng)歷了ID3算法、C4.5算法等。這種方法具有透明性、易于理解等優(yōu)勢(shì)。
遺傳算法。該算法是對(duì)生物界群體繁殖以及基因結(jié)合等進(jìn)行的模擬,利用基因結(jié)合、交叉變異、自然淘汰等模式,來實(shí)現(xiàn)數(shù)據(jù)的總結(jié)與學(xué)習(xí),使得處理單元能夠從不規(guī)則中找出規(guī)律?;凇斑m者生存”的原理,具有隱含并行性、容易與別的模型結(jié)合等優(yōu)勢(shì)。
粗糙集法。該方法能夠?qū)σ恍┓峭暾臄?shù)據(jù)進(jìn)行一定的處理,在一定的條件下可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的彌補(bǔ)和完善,有一定的推理性和邏輯分析性,可以有效地建立預(yù)測(cè)模型。
模糊集法。該方法基于模糊集合理論對(duì)原始數(shù)據(jù)開展模糊評(píng)判、模糊決策,與粗糙集方法有一定的類似。
關(guān)聯(lián)規(guī)則法。該方法在數(shù)據(jù)挖掘中經(jīng)常被使用,以Apriori算法為主,能夠找出所有的頻集,并由此建立強(qiáng)關(guān)聯(lián)規(guī)則。
第一,定義問題。為使數(shù)據(jù)挖掘活動(dòng)具有清晰準(zhǔn)確的目標(biāo),需要對(duì)要解決的問題進(jìn)行定義,要清楚地定位需要解決的問題是什么,如評(píng)價(jià)科研成果、評(píng)價(jià)科研效率等,因?yàn)椴煌哪繕?biāo)和問題所需要的模型是完全不同的。
第二,構(gòu)建數(shù)據(jù)挖掘庫。在確定好需要解決的問題后,需要選擇有效的原始數(shù)據(jù)。對(duì)于數(shù)據(jù)挖掘技術(shù)的實(shí)施來說,原始數(shù)據(jù)通常是越多越好,但并不是需要濫用,在收集到所有的數(shù)據(jù)后,要對(duì)其進(jìn)行一定的選擇,并對(duì)數(shù)據(jù)進(jìn)行描述與匯總,利用傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)進(jìn)行元數(shù)據(jù)的搭建,形成數(shù)據(jù)庫。
第三,分析數(shù)據(jù)。通常是利用數(shù)據(jù)分析軟件進(jìn)行數(shù)據(jù)的初步分析,因?yàn)樵紨?shù)據(jù)過于龐大,且很難找到重點(diǎn),應(yīng)借助SPSS之類的工具進(jìn)行歸類,找出不同影響性的數(shù)據(jù)。
第四,準(zhǔn)備數(shù)據(jù)。具體工作是選擇變量、選擇記錄、創(chuàng)建新變量、轉(zhuǎn)換變量。
第五,構(gòu)建模型。通過數(shù)據(jù)挖掘?qū)崿F(xiàn)對(duì)某個(gè)問題的解決,需要的工作是多方面的,因此構(gòu)建模型需要長(zhǎng)期實(shí)行,反復(fù)開展,需要對(duì)大量的算法和數(shù)學(xué)邏輯進(jìn)行參考,并在運(yùn)行后反復(fù)優(yōu)化。通常情況下會(huì)先用一部分信息構(gòu)建模型,并利用剩余的信息對(duì)模型進(jìn)行測(cè)試,甚至需要另一部分?jǐn)?shù)據(jù)進(jìn)行驗(yàn)證。
第六,模型的評(píng)價(jià)。在對(duì)模型初步建立之后,還需要對(duì)其進(jìn)行綜合性地評(píng)價(jià),對(duì)不同的數(shù)據(jù)下得到的結(jié)果的合理性進(jìn)行專家評(píng)價(jià),使模型更有價(jià)值。在實(shí)踐中,通過數(shù)據(jù)挖掘技術(shù)來解決一定的問題,還面臨著經(jīng)濟(jì)、人力、技術(shù)等方面的限制,所以,應(yīng)評(píng)價(jià)這種模型實(shí)施的各方面的可行性。
第七,模型實(shí)施。在建立了初步的模型并被認(rèn)定為可行之后,就能夠開展具體的實(shí)施,以對(duì)問題進(jìn)行及時(shí)有效地解決。
要積極提升科研單位的信息收集能力,構(gòu)建更廣范的科技文獻(xiàn)、專利信息、論文信息以及科研單位自身各類信息的數(shù)據(jù)庫,包括科研工作者的基礎(chǔ)信息、科研成果等,并充分使用。還應(yīng)把科研管理的數(shù)據(jù)挖掘延伸到全球科研信息,如對(duì)于某個(gè)研究所來說,其研究的方向在全球有很多科研機(jī)構(gòu)與成果,該單位就應(yīng)在全球范圍內(nèi)進(jìn)行原始數(shù)據(jù)的收集。原始數(shù)據(jù)的收集是重要的,也是很難完全做到的,如科研成果,不僅需要在主流的論文知識(shí)平臺(tái)上進(jìn)行信息的搜索,還有大量的專利平臺(tái)、新聞報(bào)道、科學(xué)家的演講等。在數(shù)據(jù)挖掘技術(shù)的發(fā)展中,應(yīng)當(dāng)對(duì)各類信息進(jìn)行準(zhǔn)確有效地收集,同時(shí)淘汰一些失去價(jià)值的數(shù)據(jù),如過期的甚至錯(cuò)誤的科研成果等。
在科研管理和科研活動(dòng)中,應(yīng)當(dāng)充分意識(shí)到原始數(shù)據(jù)的重要性,對(duì)原始數(shù)據(jù)進(jìn)行準(zhǔn)確地保留,同時(shí)在對(duì)外部數(shù)據(jù)進(jìn)行收集時(shí),也能更好地篩選出有用的信息,有利于最終的數(shù)據(jù)模型的搭建。
針對(duì)科研管理及數(shù)據(jù)挖掘機(jī)制的開拓,還應(yīng)從具體的科研管理項(xiàng)目決策上入手,使決策更具科學(xué)性。應(yīng)基于信息篩選的理念,進(jìn)一步細(xì)化科研管理工作,充分利用數(shù)據(jù)挖掘的優(yōu)勢(shì)思維,基于云計(jì)算的模式,對(duì)研究的領(lǐng)域、可能得到的學(xué)術(shù)成果進(jìn)行深入的分析;積極地借鑒國(guó)內(nèi)外相關(guān)學(xué)術(shù)成果的現(xiàn)有文獻(xiàn),找出最合適的研究思路,并對(duì)科學(xué)課題的創(chuàng)新性和可行性進(jìn)行判斷,對(duì)其意義與必要性進(jìn)行判斷。在數(shù)據(jù)挖掘思維及技術(shù)的指導(dǎo)下,科研管理項(xiàng)目的科學(xué)性很容易被監(jiān)測(cè),科研人員也能夠被督促,使項(xiàng)目決策更具有科學(xué)性。
各類科研機(jī)構(gòu)的科研項(xiàng)目,通常由科研工作者以某個(gè)機(jī)構(gòu)的研究為主進(jìn)行申請(qǐng)。和過去的科研活動(dòng)管理、信息化技術(shù)的應(yīng)用相比,科研工作者僅是根據(jù)具體的科研工作,向上級(jí)領(lǐng)導(dǎo)單位進(jìn)行申請(qǐng)書的投遞,而后者則對(duì)申請(qǐng)內(nèi)容進(jìn)行進(jìn)一步分析。在具體的實(shí)踐中,會(huì)出現(xiàn)申請(qǐng)力度不足、相關(guān)數(shù)據(jù)殘缺、有一定的錯(cuò)誤信息等,使得科研管理水平降低,有時(shí)會(huì)存在申請(qǐng)課題與實(shí)際需求差距較大,以致于最終申請(qǐng)無法通過。在數(shù)據(jù)挖掘技術(shù)的應(yīng)用過程中,數(shù)據(jù)更加透明,也更為豐富,科研單位應(yīng)掌握數(shù)據(jù)挖掘的思維和技術(shù),對(duì)數(shù)據(jù)領(lǐng)域進(jìn)行分析、研究、準(zhǔn)確預(yù)測(cè),探索構(gòu)建科研管理、數(shù)據(jù)挖掘的模型,與此同時(shí),基于數(shù)據(jù)可視化的理念,得到成型的相關(guān)報(bào)告,這可以給工作人員提供更為全面的數(shù)據(jù)信息,并對(duì)其中的內(nèi)在聯(lián)系進(jìn)行梳理。較為準(zhǔn)確的信息就能夠?qū)蒲泄ぷ魅藛T的工作進(jìn)行全面地指導(dǎo),使科研管理與數(shù)據(jù)管理達(dá)到深層次的服務(wù)目標(biāo),提高科研管理的質(zhì)量水平。
科研管理工作牽涉諸多的科研資源,管理單位應(yīng)對(duì)各種資源進(jìn)行合理配置,進(jìn)一步對(duì)數(shù)據(jù)管理進(jìn)行優(yōu)化。第一,對(duì)相關(guān)數(shù)據(jù)開展廣泛的采集和初步的篩選,構(gòu)建相應(yīng)的數(shù)據(jù)管理資源庫、人才庫、科研成果庫等。第二,對(duì)科研機(jī)構(gòu)的自身發(fā)展進(jìn)行一定的科研評(píng)判,構(gòu)建相對(duì)健全的科研模型,包括科研資源研究模型、科研成果模型等,并對(duì)其中的參數(shù)進(jìn)行有效地計(jì)算,進(jìn)一步制定完善的管理規(guī)則。第三,利用定量化績(jī)效考核的思路,及時(shí)搭建科研資源的基礎(chǔ)配置。以決策支持管理工具為基礎(chǔ),有效地對(duì)相應(yīng)的數(shù)據(jù)進(jìn)行管理,基于數(shù)據(jù)挖掘的模式對(duì)科研機(jī)構(gòu)的資源開展科學(xué)配置。