亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺談數(shù)據(jù)庫(kù)技術(shù)中的數(shù)據(jù)挖掘

2013-04-29 00:00:00紀(jì)蕊

中國(guó)新通信 2013年2期

隨著數(shù)字信息技術(shù)和計(jì)算機(jī)硬件技術(shù)中新存儲(chǔ)介質(zhì)和存儲(chǔ)方式的不斷發(fā)展，人類生活中的各類數(shù)據(jù)產(chǎn)生了爆炸式的增長(zhǎng)，如何對(duì)這些數(shù)據(jù)進(jìn)行整理和使用成為當(dāng)前數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)，數(shù)據(jù)庫(kù)技術(shù)的成熟與普及為這些龐大數(shù)據(jù)量的整理及挖掘帶來(lái)了可能。但是傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)和統(tǒng)計(jì)分析方法已經(jīng)無(wú)法應(yīng)對(duì)如此海量的數(shù)據(jù)，如何進(jìn)行有效的數(shù)據(jù)挖掘還有待分析和整理。

一、數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘是數(shù)據(jù)知識(shí)發(fā)現(xiàn)的不可或缺的一個(gè)部分，其通過(guò)采用不同的分類手段和分析方法對(duì)大量數(shù)據(jù)進(jìn)行分析，揭示它們之間的內(nèi)在聯(lián)系和發(fā)展趨勢(shì)。數(shù)據(jù)挖掘是一門綜合性學(xué)科，是隨著人工智能技術(shù)和數(shù)據(jù)庫(kù)技術(shù)發(fā)展起來(lái)的。其發(fā)展基礎(chǔ)是超大規(guī)模數(shù)據(jù)庫(kù)的出現(xiàn)、更加快速的計(jì)算機(jī)硬件突破、對(duì)巨大數(shù)據(jù)的快速訪問(wèn)需求及更為精確的數(shù)據(jù)機(jī)構(gòu)算法。

數(shù)據(jù)挖掘的主要任務(wù)就是對(duì)隱藏在數(shù)據(jù)中的模式進(jìn)行發(fā)掘，描述當(dāng)前數(shù)據(jù)的一般特性，并利用當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)和分析。數(shù)據(jù)挖掘主要通過(guò)以下幾種模式實(shí)現(xiàn)數(shù)據(jù)的分類處理：

1.分類模式。該模式通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行學(xué)習(xí)建立相應(yīng)的符合模型特征的數(shù)據(jù)模型，進(jìn)而建立模型規(guī)則、決策樹或者數(shù)學(xué)表達(dá)式等，將新的數(shù)據(jù)按照上述規(guī)則進(jìn)行數(shù)據(jù)分類和映射，實(shí)現(xiàn)不同數(shù)據(jù)的分類。

2.聚類模式。該模式是利用數(shù)據(jù)的差別和相似性進(jìn)行分類，主要針對(duì)未知的數(shù)據(jù)。具體實(shí)現(xiàn)為，將數(shù)據(jù)項(xiàng)按照不同類間的數(shù)據(jù)差別最大、同類間的數(shù)據(jù)茶杯最小的規(guī)則進(jìn)行數(shù)據(jù)分類。該模式不依賴訓(xùn)練數(shù)據(jù)集和預(yù)先定義的類即可實(shí)現(xiàn)自動(dòng)分類。

3.回歸模式。該模式類似于分類模式，但是不同點(diǎn)在于回歸模式使用的是連續(xù)的預(yù)測(cè)值，而分類模式使用的是離散的預(yù)測(cè)值。回歸模式優(yōu)點(diǎn)在于將大量非線性問(wèn)題進(jìn)行變量轉(zhuǎn)換變?yōu)榫€性問(wèn)題，進(jìn)而利用線性回歸等處理手段進(jìn)行模式歸類，簡(jiǎn)化了歸類算法。

4.關(guān)聯(lián)模式。該模式是通過(guò)利用預(yù)先已知的一套數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則對(duì)不同的數(shù)據(jù)進(jìn)行挖掘，通過(guò)掃描前一次的數(shù)據(jù)庫(kù)應(yīng)用結(jié)果產(chǎn)生本次的掃描候選集，根據(jù)數(shù)據(jù)間的最小支持度和最小可信度實(shí)現(xiàn)不同數(shù)據(jù)間的關(guān)聯(lián)。

5.序列模式。該模式基于時(shí)間或者其他規(guī)律或趨勢(shì)進(jìn)行了建模和分類，是關(guān)聯(lián)模式和時(shí)間序列模式的結(jié)合模式。這種模式主要在時(shí)間維度上對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分類。

6.偏差模式。該模式主要用來(lái)描述差異性數(shù)據(jù)。在某些情況下，差異型數(shù)據(jù)比普通數(shù)據(jù)更有使用和分析價(jià)值，這種模式就是對(duì)這種少數(shù)數(shù)據(jù)情況進(jìn)行分析和歸類的一種模式。

二、經(jīng)典數(shù)據(jù)挖掘方式

具體數(shù)據(jù)挖掘的算法可以按照不同視角進(jìn)行多種方式分類，這些視角主要包括生物學(xué)方法、信息論方法、集合論方法、最近研究趨勢(shì)等。經(jīng)過(guò)十幾年的蓬勃發(fā)展，數(shù)據(jù)挖掘基本算法已經(jīng)相對(duì)趨于成熟，而在其基礎(chǔ)上進(jìn)行的改進(jìn)算法對(duì)數(shù)據(jù)挖掘的提升相對(duì)有限。

1、神經(jīng)網(wǎng)絡(luò)算法。神經(jīng)網(wǎng)絡(luò)算法是生物學(xué)方向的一種經(jīng)典算法，該算法通過(guò)某種規(guī)則對(duì)多個(gè)神經(jīng)元進(jìn)行關(guān)聯(lián)，進(jìn)而利用網(wǎng)絡(luò)狀態(tài)對(duì)外部輸入信息的動(dòng)態(tài)響應(yīng)實(shí)現(xiàn)信息的處理，由于神經(jīng)元具有分布式存儲(chǔ)結(jié)構(gòu)，故該種算法具有很強(qiáng)的容錯(cuò)性和魯棒性。鑒于神經(jīng)網(wǎng)絡(luò)主要被用來(lái)獲取分類模式，而該模式無(wú)法用明顯的規(guī)則來(lái)表述，故這類算法的可理解性較差。同時(shí)由于要進(jìn)行多次掃描和訓(xùn)練，故其在數(shù)據(jù)處理時(shí)間上具有明顯的劣勢(shì)。2、歸納學(xué)習(xí)。該算法以信息論為基礎(chǔ)，通過(guò)對(duì)大量經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行歸納和整理進(jìn)行規(guī)則和模式的抽象總結(jié)，進(jìn)而實(shí)現(xiàn)數(shù)據(jù)挖掘。C4.5是其中的一種經(jīng)典決策樹算法，其通過(guò)信息熵實(shí)現(xiàn)屬性的分類，適用于大數(shù)據(jù)庫(kù)中的學(xué)習(xí)和歸類。3、粗糙集理論。該算法是一種用于對(duì)不完整、不確定數(shù)據(jù)進(jìn)行表達(dá)學(xué)習(xí)和歸納的算法。該類算法不需要除所需處理的數(shù)據(jù)集合之外的其他任何先驗(yàn)信息即可實(shí)現(xiàn)數(shù)據(jù)的挖掘，對(duì)知識(shí)獲取瓶頸的突破具有明顯效果，可以發(fā)現(xiàn)差異性數(shù)據(jù)或者噪聲數(shù)據(jù)的內(nèi)在聯(lián)系。

三、數(shù)據(jù)挖掘研究熱點(diǎn)及發(fā)展趨勢(shì)

鑒于數(shù)據(jù)庫(kù)系統(tǒng)已經(jīng)被廣泛應(yīng)用到各個(gè)領(lǐng)域，而各個(gè)領(lǐng)域又具有不同于其他領(lǐng)域的特點(diǎn)及需求，使得數(shù)據(jù)挖掘成為當(dāng)前時(shí)期內(nèi)信息系統(tǒng)領(lǐng)域研究的熱點(diǎn)。尤其是在一些尖端科學(xué)及熱門應(yīng)用領(lǐng)域的數(shù)據(jù)庫(kù)應(yīng)用中的數(shù)據(jù)挖掘技術(shù)更是體現(xiàn)出了數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì)。

數(shù)據(jù)表明，網(wǎng)絡(luò)已經(jīng)成為人們生活中不可或缺的組成部分，網(wǎng)站，尤其是電子商務(wù)網(wǎng)站每天都會(huì)生成龐大的日志文件和訪問(wèn)記錄信息，如何對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘可以幫助企業(yè)根據(jù)用戶需求設(shè)計(jì)出更為人性化的交互界面，幫助企業(yè)增強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力。雖然基于網(wǎng)站的數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘建模技術(shù)和算法使用差別不大，但是需要注意到，網(wǎng)站的數(shù)據(jù)庫(kù)格式與傳統(tǒng)的數(shù)據(jù)庫(kù)還是存在一定差別，如何實(shí)現(xiàn)特定環(huán)境的數(shù)據(jù)挖掘優(yōu)化是當(dāng)前研究的一個(gè)方向。

空間地理數(shù)據(jù)和視頻流媒體數(shù)據(jù)也都建立在數(shù)據(jù)庫(kù)的基礎(chǔ)上。但是這類信息的數(shù)據(jù)挖掘還處于初步階段，如何在海量數(shù)據(jù)中挖掘事先未知的和潛在有用的數(shù)據(jù)關(guān)系，幫助確定數(shù)據(jù)的內(nèi)在聯(lián)系和發(fā)展趨勢(shì)還有待研究。但是可以確定的是，由于這類數(shù)據(jù)具有跨學(xué)科的綜合性，故無(wú)法使用一般的方法進(jìn)行數(shù)據(jù)挖掘，而應(yīng)該建立多角度多學(xué)科交叉性的數(shù)據(jù)挖掘方式。

未來(lái)基于數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘肯定會(huì)朝著智能化、可視化、實(shí)時(shí)化、多維化、交互化方向發(fā)展，以適應(yīng)更為復(fù)雜的和現(xiàn)實(shí)的數(shù)據(jù)環(huán)境。

無(wú)論是在研究領(lǐng)域還是在商業(yè)應(yīng)用中，基于數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘都是一個(gè)熱點(diǎn)話題，并且得到了越來(lái)越多的關(guān)注。隨著數(shù)據(jù)挖掘技術(shù)的逐漸成熟，必須結(jié)合數(shù)據(jù)來(lái)源領(lǐng)域、數(shù)據(jù)應(yīng)用領(lǐng)域、數(shù)據(jù)模型建立和算法理論基礎(chǔ)等多方面因素進(jìn)行數(shù)據(jù)的挖掘工作才能保證數(shù)據(jù)挖掘的有效性。

中國(guó)新通信2013年2期

中國(guó)新通信的其它文章: 互聯(lián)網(wǎng)出口帶寬分析控制與優(yōu)化; 基于PON的光纖寬帶網(wǎng)絡(luò)的運(yùn)維思路; 廣域高分遙感技術(shù)在輸電線路設(shè)計(jì)中的應(yīng)用; 基于OMS高可用架構(gòu)的切換方案; IP RAN技術(shù)在本地傳送網(wǎng)中的應(yīng)用分析; 固網(wǎng)和移動(dòng)智能化業(yè)務(wù)融合探討