劉芬 延安大學(xué)計(jì)算機(jī)學(xué)院
伴隨著互聯(lián)網(wǎng)及其相關(guān)產(chǎn)業(yè)的飛速發(fā)展,在互聯(lián)網(wǎng)從單一的行業(yè)成長(zhǎng)為深入我國(guó)各行各業(yè)的最具影響力和市場(chǎng)潛力的產(chǎn)業(yè)之一的同時(shí),數(shù)據(jù)庫(kù)應(yīng)用范圍日趨拓寬,使用頻率日漸加快,深度也在不斷加深,使得各行各業(yè)在過(guò)去的幾年間積累了海量的儲(chǔ)存形式各異的數(shù)據(jù)資料,而這些海量數(shù)據(jù)仍以驚人的速度增長(zhǎng)著且日益復(fù)雜,這些無(wú)疑對(duì)查詢和檢索相關(guān)資料帶來(lái)了極大的困難,因此一個(gè)智能的可以自動(dòng)對(duì)信息進(jìn)行分類和篩選的技術(shù)是目前所迫切需要的,而數(shù)據(jù)挖掘就是為這種需求應(yīng)該而生的。那么何為數(shù)據(jù)挖掘?顧名思義,數(shù)據(jù)挖掘就是指一種在海量數(shù)據(jù)中幫人們篩選出所需的數(shù)據(jù)的新的開發(fā)信息資源的數(shù)據(jù)處理技術(shù)。下面本文將從數(shù)據(jù)挖掘技術(shù)算法,數(shù)據(jù)挖掘技術(shù)的主要方法以及數(shù)據(jù)挖掘技術(shù)的研究方向三個(gè)角度對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行分析。
數(shù)據(jù)挖掘方法的具體實(shí)現(xiàn)方式就是數(shù)據(jù)挖掘算法,數(shù)據(jù)挖掘算法通說(shuō)認(rèn)為由模型表示,模型評(píng)價(jià)標(biāo)準(zhǔn)以及發(fā)現(xiàn)方法三個(gè)部分組成。其中模型表示相當(dāng)于對(duì)發(fā)現(xiàn)模型加以描述所需要的語(yǔ)言,只有模型表示能力強(qiáng),也就是對(duì)發(fā)現(xiàn)的模型描述的越精確,發(fā)現(xiàn)的數(shù)學(xué)模型就會(huì)越精確。
模型評(píng)價(jià)標(biāo)準(zhǔn)相當(dāng)于對(duì)發(fā)現(xiàn)模型進(jìn)行預(yù)測(cè)的標(biāo)尺,利用這些評(píng)價(jià)標(biāo)準(zhǔn)對(duì)模型的精確度、實(shí)用性、新穎性、及可認(rèn)識(shí)程度等方面進(jìn)行預(yù)測(cè)和評(píng)價(jià)。
其中發(fā)現(xiàn)方法相當(dāng)于確定結(jié)論,發(fā)現(xiàn)方法由參量發(fā)現(xiàn)和模型發(fā)現(xiàn)組成,參量發(fā)現(xiàn)是在以上兩個(gè)部分確定后找出的最合適數(shù)量的模型;模型發(fā)現(xiàn)是在不斷更改模型的過(guò)程中經(jīng)過(guò)試探確定的適當(dāng)數(shù)量的模型。一個(gè)算法一般只在某個(gè)領(lǐng)域非常的有效,卻不能普遍適用,故在不同的領(lǐng)域應(yīng)當(dāng)精心挖掘出最適合的該領(lǐng)域的數(shù)據(jù)挖掘算法,應(yīng)當(dāng)具體問(wèn)題具體分析,切不可一概而論。
根據(jù)知識(shí)的種類,所挖掘的數(shù)據(jù)庫(kù)的種類,數(shù)據(jù)庫(kù)挖掘方法或者是挖掘數(shù)據(jù)庫(kù)使用的技術(shù)等的不同可以對(duì)數(shù)據(jù)挖掘技術(shù)的方法進(jìn)行多種多樣的分類,不過(guò)學(xué)界比較認(rèn)可的數(shù)據(jù)挖掘技術(shù)的方法大致有如下十種。
一是決策樹方法,即以信息論中的信息增益為標(biāo)準(zhǔn)劃分字段,建立結(jié)點(diǎn),再以不同的取值在結(jié)點(diǎn)上建立數(shù)的分支,以此重復(fù)進(jìn)行結(jié)點(diǎn)和分支,進(jìn)而建立決策樹,信息數(shù)據(jù)越多書的分支越多,樹越龐大,同樣的數(shù)據(jù)越少,分支越少,樹也就越小。二是神經(jīng)網(wǎng)絡(luò)方法,即以MP模型和Hebb學(xué)習(xí)規(guī)則為基本單位來(lái)對(duì)大腦神經(jīng)元進(jìn)行模擬,以神經(jīng)網(wǎng)絡(luò)的連接的結(jié)點(diǎn)作為知識(shí)結(jié)點(diǎn),進(jìn)而進(jìn)行逐步計(jì)算,而目前主要以前饋式網(wǎng)絡(luò),反饋式網(wǎng)絡(luò)以及自組織網(wǎng)絡(luò)三大神經(jīng)網(wǎng)絡(luò)模型為典型。三是覆蓋正例排斥反例方法,即通過(guò)總結(jié)利用正例,排斥反例的方式尋找規(guī)律。四是粗集方法,即在一組數(shù)據(jù)庫(kù)之中,將行元素作為對(duì)象,將列元素作為屬性進(jìn)行研究。五是概念樹方法,即將數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照不同屬性進(jìn)行歸類構(gòu)建出具有層次的概念樹。六是遺傳算法,即將繁殖,交叉和變異作為三個(gè)基本單位對(duì)生物的進(jìn)化過(guò)程進(jìn)行模擬的一種算法。七是公式發(fā)現(xiàn)方法,即對(duì)數(shù)據(jù)庫(kù)中的各種變量進(jìn)行數(shù)學(xué)演算進(jìn)而推導(dǎo)出所需的數(shù)學(xué)公式的方法。八是統(tǒng)計(jì)分析方法,即通過(guò)回歸分析、相關(guān)分析、主成分分析等方法確定數(shù)據(jù)庫(kù)中數(shù)據(jù)之間所具備的函數(shù)關(guān)系或者是相關(guān)關(guān)系等關(guān)系的算法。九是模糊集方法,即對(duì)實(shí)際問(wèn)題進(jìn)行模糊集理論中的評(píng)判、決策、模式識(shí)別和聚類分析從而推斷出的一種方法。十是可視化技術(shù),即通過(guò)可視化數(shù)據(jù)分析技術(shù)使得數(shù)據(jù)更加形象具體化的展現(xiàn)在使用者面前。
目前的數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)輸入方式單一,只能對(duì)數(shù)值型和結(jié)構(gòu)型的數(shù)據(jù)加以處理,有很大的局限性,故數(shù)據(jù)挖掘技術(shù)應(yīng)當(dāng)朝著數(shù)據(jù)輸入形式的多樣性的研究方向發(fā)展;目前數(shù)據(jù)挖掘技術(shù)所針對(duì)的數(shù)據(jù)庫(kù)日益龐大,故數(shù)據(jù)挖掘技術(shù)中的算法應(yīng)當(dāng)朝著有效性與可測(cè)性的方向發(fā)展;目前網(wǎng)絡(luò)挖掘技術(shù)缺乏與用戶的交流,故應(yīng)朝著加大用戶參與度的研究方向發(fā)展;除以上研究方向外,數(shù)據(jù)挖掘技術(shù)還應(yīng)該朝著突破證實(shí)技術(shù)的局限性,完善知識(shí)的表達(dá)和解釋機(jī)制以及知識(shí)的維護(hù)和更新機(jī)制的研究方向發(fā)展,在加強(qiáng)數(shù)據(jù)挖掘技術(shù)的私有性和安全性的同時(shí)解決數(shù)據(jù)挖掘技術(shù)支持系統(tǒng)具有局限性等問(wèn)題,促進(jìn)數(shù)據(jù)挖掘技術(shù)更好的發(fā)展,為信息化現(xiàn)代化助力。
面對(duì)海量的數(shù)據(jù),為了便利使用者對(duì)信息的獲取和利用,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,但是面對(duì)這樣一個(gè)新興的事物很多人不了解也不理解,故本文從數(shù)據(jù)挖掘技術(shù)的主要方法以及數(shù)據(jù)挖掘技術(shù)的研究方向三個(gè)角度對(duì)數(shù)據(jù)挖掘技術(shù)的主要方法及今后的發(fā)展方向進(jìn)行論述,以其對(duì)于人們了解和理解數(shù)據(jù)挖掘技術(shù)有所助益,促進(jìn)數(shù)據(jù)挖掘技術(shù)的發(fā)展,進(jìn)而促進(jìn)信息化和現(xiàn)代化的發(fā)展。