亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)挖掘技術(shù)的主要方法及其發(fā)展方向

2018-12-25 10:43:02劉芬延安大學(xué)計(jì)算機(jī)學(xué)院

數(shù)碼世界 2018年6期

劉芬延安大學(xué)計(jì)算機(jī)學(xué)院

伴隨著互聯(lián)網(wǎng)及其相關(guān)產(chǎn)業(yè)的飛速發(fā)展,在互聯(lián)網(wǎng)從單一的行業(yè)成長(zhǎng)為深入我國(guó)各行各業(yè)的最具影響力和市場(chǎng)潛力的產(chǎn)業(yè)之一的同時(shí)，數(shù)據(jù)庫(kù)應(yīng)用范圍日趨拓寬，使用頻率日漸加快，深度也在不斷加深，使得各行各業(yè)在過(guò)去的幾年間積累了海量的儲(chǔ)存形式各異的數(shù)據(jù)資料，而這些海量數(shù)據(jù)仍以驚人的速度增長(zhǎng)著且日益復(fù)雜，這些無(wú)疑對(duì)查詢和檢索相關(guān)資料帶來(lái)了極大的困難，因此一個(gè)智能的可以自動(dòng)對(duì)信息進(jìn)行分類和篩選的技術(shù)是目前所迫切需要的，而數(shù)據(jù)挖掘就是為這種需求應(yīng)該而生的。那么何為數(shù)據(jù)挖掘？顧名思義，數(shù)據(jù)挖掘就是指一種在海量數(shù)據(jù)中幫人們篩選出所需的數(shù)據(jù)的新的開發(fā)信息資源的數(shù)據(jù)處理技術(shù)。下面本文將從數(shù)據(jù)挖掘技術(shù)算法，數(shù)據(jù)挖掘技術(shù)的主要方法以及數(shù)據(jù)挖掘技術(shù)的研究方向三個(gè)角度對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行分析。

1.數(shù)據(jù)挖掘技術(shù)的算法

數(shù)據(jù)挖掘方法的具體實(shí)現(xiàn)方式就是數(shù)據(jù)挖掘算法，數(shù)據(jù)挖掘算法通說(shuō)認(rèn)為由模型表示，模型評(píng)價(jià)標(biāo)準(zhǔn)以及發(fā)現(xiàn)方法三個(gè)部分組成。其中模型表示相當(dāng)于對(duì)發(fā)現(xiàn)模型加以描述所需要的語(yǔ)言，只有模型表示能力強(qiáng)，也就是對(duì)發(fā)現(xiàn)的模型描述的越精確，發(fā)現(xiàn)的數(shù)學(xué)模型就會(huì)越精確。

模型評(píng)價(jià)標(biāo)準(zhǔn)相當(dāng)于對(duì)發(fā)現(xiàn)模型進(jìn)行預(yù)測(cè)的標(biāo)尺，利用這些評(píng)價(jià)標(biāo)準(zhǔn)對(duì)模型的精確度、實(shí)用性、新穎性、及可認(rèn)識(shí)程度等方面進(jìn)行預(yù)測(cè)和評(píng)價(jià)。

其中發(fā)現(xiàn)方法相當(dāng)于確定結(jié)論，發(fā)現(xiàn)方法由參量發(fā)現(xiàn)和模型發(fā)現(xiàn)組成，參量發(fā)現(xiàn)是在以上兩個(gè)部分確定后找出的最合適數(shù)量的模型；模型發(fā)現(xiàn)是在不斷更改模型的過(guò)程中經(jīng)過(guò)試探確定的適當(dāng)數(shù)量的模型。一個(gè)算法一般只在某個(gè)領(lǐng)域非常的有效，卻不能普遍適用，故在不同的領(lǐng)域應(yīng)當(dāng)精心挖掘出最適合的該領(lǐng)域的數(shù)據(jù)挖掘算法，應(yīng)當(dāng)具體問(wèn)題具體分析，切不可一概而論。

2.數(shù)據(jù)挖掘技術(shù)的主要方法

根據(jù)知識(shí)的種類，所挖掘的數(shù)據(jù)庫(kù)的種類，數(shù)據(jù)庫(kù)挖掘方法或者是挖掘數(shù)據(jù)庫(kù)使用的技術(shù)等的不同可以對(duì)數(shù)據(jù)挖掘技術(shù)的方法進(jìn)行多種多樣的分類，不過(guò)學(xué)界比較認(rèn)可的數(shù)據(jù)挖掘技術(shù)的方法大致有如下十種。

一是決策樹方法，即以信息論中的信息增益為標(biāo)準(zhǔn)劃分字段，建立結(jié)點(diǎn)，再以不同的取值在結(jié)點(diǎn)上建立數(shù)的分支，以此重復(fù)進(jìn)行結(jié)點(diǎn)和分支，進(jìn)而建立決策樹，信息數(shù)據(jù)越多書的分支越多，樹越龐大，同樣的數(shù)據(jù)越少，分支越少，樹也就越小。二是神經(jīng)網(wǎng)絡(luò)方法,即以MP模型和Hebb學(xué)習(xí)規(guī)則為基本單位來(lái)對(duì)大腦神經(jīng)元進(jìn)行模擬，以神經(jīng)網(wǎng)絡(luò)的連接的結(jié)點(diǎn)作為知識(shí)結(jié)點(diǎn)，進(jìn)而進(jìn)行逐步計(jì)算，而目前主要以前饋式網(wǎng)絡(luò)，反饋式網(wǎng)絡(luò)以及自組織網(wǎng)絡(luò)三大神經(jīng)網(wǎng)絡(luò)模型為典型。三是覆蓋正例排斥反例方法，即通過(guò)總結(jié)利用正例，排斥反例的方式尋找規(guī)律。四是粗集方法，即在一組數(shù)據(jù)庫(kù)之中,將行元素作為對(duì)象,將列元素作為屬性進(jìn)行研究。五是概念樹方法，即將數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照不同屬性進(jìn)行歸類構(gòu)建出具有層次的概念樹。六是遺傳算法，即將繁殖，交叉和變異作為三個(gè)基本單位對(duì)生物的進(jìn)化過(guò)程進(jìn)行模擬的一種算法。七是公式發(fā)現(xiàn)方法，即對(duì)數(shù)據(jù)庫(kù)中的各種變量進(jìn)行數(shù)學(xué)演算進(jìn)而推導(dǎo)出所需的數(shù)學(xué)公式的方法。八是統(tǒng)計(jì)分析方法，即通過(guò)回歸分析、相關(guān)分析、主成分分析等方法確定數(shù)據(jù)庫(kù)中數(shù)據(jù)之間所具備的函數(shù)關(guān)系或者是相關(guān)關(guān)系等關(guān)系的算法。九是模糊集方法，即對(duì)實(shí)際問(wèn)題進(jìn)行模糊集理論中的評(píng)判、決策、模式識(shí)別和聚類分析從而推斷出的一種方法。十是可視化技術(shù)，即通過(guò)可視化數(shù)據(jù)分析技術(shù)使得數(shù)據(jù)更加形象具體化的展現(xiàn)在使用者面前。

3 數(shù)據(jù)挖掘技術(shù)的研究方向

目前的數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)輸入方式單一，只能對(duì)數(shù)值型和結(jié)構(gòu)型的數(shù)據(jù)加以處理，有很大的局限性，故數(shù)據(jù)挖掘技術(shù)應(yīng)當(dāng)朝著數(shù)據(jù)輸入形式的多樣性的研究方向發(fā)展；目前數(shù)據(jù)挖掘技術(shù)所針對(duì)的數(shù)據(jù)庫(kù)日益龐大，故數(shù)據(jù)挖掘技術(shù)中的算法應(yīng)當(dāng)朝著有效性與可測(cè)性的方向發(fā)展；目前網(wǎng)絡(luò)挖掘技術(shù)缺乏與用戶的交流，故應(yīng)朝著加大用戶參與度的研究方向發(fā)展；除以上研究方向外，數(shù)據(jù)挖掘技術(shù)還應(yīng)該朝著突破證實(shí)技術(shù)的局限性，完善知識(shí)的表達(dá)和解釋機(jī)制以及知識(shí)的維護(hù)和更新機(jī)制的研究方向發(fā)展，在加強(qiáng)數(shù)據(jù)挖掘技術(shù)的私有性和安全性的同時(shí)解決數(shù)據(jù)挖掘技術(shù)支持系統(tǒng)具有局限性等問(wèn)題，促進(jìn)數(shù)據(jù)挖掘技術(shù)更好的發(fā)展，為信息化現(xiàn)代化助力。

4.結(jié)束語(yǔ)

面對(duì)海量的數(shù)據(jù)，為了便利使用者對(duì)信息的獲取和利用，數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生，但是面對(duì)這樣一個(gè)新興的事物很多人不了解也不理解，故本文從數(shù)據(jù)挖掘技術(shù)的主要方法以及數(shù)據(jù)挖掘技術(shù)的研究方向三個(gè)角度對(duì)數(shù)據(jù)挖掘技術(shù)的主要方法及今后的發(fā)展方向進(jìn)行論述，以其對(duì)于人們了解和理解數(shù)據(jù)挖掘技術(shù)有所助益，促進(jìn)數(shù)據(jù)挖掘技術(shù)的發(fā)展，進(jìn)而促進(jìn)信息化和現(xiàn)代化的發(fā)展。