亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談數(shù)據(jù)庫(kù)技術(shù)中的數(shù)據(jù)挖掘

        2013-04-29 00:00:00紀(jì)蕊
        中國(guó)新通信 2013年2期

        隨著數(shù)字信息技術(shù)和計(jì)算機(jī)硬件技術(shù)中新存儲(chǔ)介質(zhì)和存儲(chǔ)方式的不斷發(fā)展,人類生活中的各類數(shù)據(jù)產(chǎn)生了爆炸式的增長(zhǎng),如何對(duì)這些數(shù)據(jù)進(jìn)行整理和使用成為當(dāng)前數(shù)據(jù)領(lǐng)域的研究熱點(diǎn),數(shù)據(jù)庫(kù)技術(shù)的成熟與普及為這些龐大數(shù)據(jù)量的整理及挖掘帶來(lái)了可能。但是傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)和統(tǒng)計(jì)分析方法已經(jīng)無(wú)法應(yīng)對(duì)如此海量的數(shù)據(jù),如何進(jìn)行有效的數(shù)據(jù)挖掘還有待分析和整理。

        一、數(shù)據(jù)挖掘概述

        數(shù)據(jù)挖掘是數(shù)據(jù)知識(shí)發(fā)現(xiàn)的不可或缺的一個(gè)部分,其通過(guò)采用不同的分類手段和分析方法對(duì)大量數(shù)據(jù)進(jìn)行分析,揭示它們之間的內(nèi)在聯(lián)系和發(fā)展趨勢(shì)。數(shù)據(jù)挖掘是一門綜合性學(xué)科,是隨著人工智能技術(shù)和數(shù)據(jù)庫(kù)技術(shù)發(fā)展起來(lái)的。其發(fā)展基礎(chǔ)是超大規(guī)模數(shù)據(jù)庫(kù)的出現(xiàn)、更加快速的計(jì)算機(jī)硬件突破、對(duì)巨大數(shù)據(jù)的快速訪問(wèn)需求及更為精確的數(shù)據(jù)機(jī)構(gòu)算法。

        數(shù)據(jù)挖掘的主要任務(wù)就是對(duì)隱藏在數(shù)據(jù)中的模式進(jìn)行發(fā)掘,描述當(dāng)前數(shù)據(jù)的一般特性,并利用當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)和分析。數(shù)據(jù)挖掘主要通過(guò)以下幾種模式實(shí)現(xiàn)數(shù)據(jù)的分類處理:

        1.分類模式。該模式通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行學(xué)習(xí)建立相應(yīng)的符合模型特征的數(shù)據(jù)模型,進(jìn)而建立模型規(guī)則、決策樹或者數(shù)學(xué)表達(dá)式等,將新的數(shù)據(jù)按照上述規(guī)則進(jìn)行數(shù)據(jù)分類和映射,實(shí)現(xiàn)不同數(shù)據(jù)的分類。

        2.聚類模式。該模式是利用數(shù)據(jù)的差別和相似性進(jìn)行分類,主要針對(duì)未知的數(shù)據(jù)。具體實(shí)現(xiàn)為,將數(shù)據(jù)項(xiàng)按照不同類間的數(shù)據(jù)差別最大、同類間的數(shù)據(jù)茶杯最小的規(guī)則進(jìn)行數(shù)據(jù)分類。該模式不依賴訓(xùn)練數(shù)據(jù)集和預(yù)先定義的類即可實(shí)現(xiàn)自動(dòng)分類。

        3.回歸模式。該模式類似于分類模式,但是不同點(diǎn)在于回歸模式使用的是連續(xù)的預(yù)測(cè)值,而分類模式使用的是離散的預(yù)測(cè)值。回歸模式優(yōu)點(diǎn)在于將大量非線性問(wèn)題進(jìn)行變量轉(zhuǎn)換變?yōu)榫€性問(wèn)題,進(jìn)而利用線性回歸等處理手段進(jìn)行模式歸類,簡(jiǎn)化了歸類算法。

        4.關(guān)聯(lián)模式。該模式是通過(guò)利用預(yù)先已知的一套數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則對(duì)不同的數(shù)據(jù)進(jìn)行挖掘,通過(guò)掃描前一次的數(shù)據(jù)庫(kù)應(yīng)用結(jié)果產(chǎn)生本次的掃描候選集,根據(jù)數(shù)據(jù)間的最小支持度和最小可信度實(shí)現(xiàn)不同數(shù)據(jù)間的關(guān)聯(lián)。

        5.序列模式。該模式基于時(shí)間或者其他規(guī)律或趨勢(shì)進(jìn)行了建模和分類,是關(guān)聯(lián)模式和時(shí)間序列模式的結(jié)合模式。這種模式主要在時(shí)間維度上對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分類。

        6.偏差模式。該模式主要用來(lái)描述差異性數(shù)據(jù)。在某些情況下,差異型數(shù)據(jù)比普通數(shù)據(jù)更有使用和分析價(jià)值,這種模式就是對(duì)這種少數(shù)數(shù)據(jù)情況進(jìn)行分析和歸類的一種模式。

        二、經(jīng)典數(shù)據(jù)挖掘方式

        具體數(shù)據(jù)挖掘的算法可以按照不同視角進(jìn)行多種方式分類,這些視角主要包括生物學(xué)方法、信息論方法、集合論方法、最近研究趨勢(shì)等。經(jīng)過(guò)十幾年的蓬勃發(fā)展,數(shù)據(jù)挖掘基本算法已經(jīng)相對(duì)趨于成熟,而在其基礎(chǔ)上進(jìn)行的改進(jìn)算法對(duì)數(shù)據(jù)挖掘的提升相對(duì)有限。

        1、神經(jīng)網(wǎng)絡(luò)算法。神經(jīng)網(wǎng)絡(luò)算法是生物學(xué)方向的一種經(jīng)典算法,該算法通過(guò)某種規(guī)則對(duì)多個(gè)神經(jīng)元進(jìn)行關(guān)聯(lián),進(jìn)而利用網(wǎng)絡(luò)狀態(tài)對(duì)外部輸入信息的動(dòng)態(tài)響應(yīng)實(shí)現(xiàn)信息的處理,由于神經(jīng)元具有分布式存儲(chǔ)結(jié)構(gòu),故該種算法具有很強(qiáng)的容錯(cuò)性和魯棒性。鑒于神經(jīng)網(wǎng)絡(luò)主要被用來(lái)獲取分類模式,而該模式無(wú)法用明顯的規(guī)則來(lái)表述,故這類算法的可理解性較差。同時(shí)由于要進(jìn)行多次掃描和訓(xùn)練,故其在數(shù)據(jù)處理時(shí)間上具有明顯的劣勢(shì)。2、歸納學(xué)習(xí)。該算法以信息論為基礎(chǔ),通過(guò)對(duì)大量經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行歸納和整理進(jìn)行規(guī)則和模式的抽象總結(jié),進(jìn)而實(shí)現(xiàn)數(shù)據(jù)挖掘。C4.5是其中的一種經(jīng)典決策樹算法,其通過(guò)信息熵實(shí)現(xiàn)屬性的分類,適用于大數(shù)據(jù)庫(kù)中的學(xué)習(xí)和歸類。3、粗糙集理論。該算法是一種用于對(duì)不完整、不確定數(shù)據(jù)進(jìn)行表達(dá)學(xué)習(xí)和歸納的算法。該類算法不需要除所需處理的數(shù)據(jù)集合之外的其他任何先驗(yàn)信息即可實(shí)現(xiàn)數(shù)據(jù)的挖掘,對(duì)知識(shí)獲取瓶頸的突破具有明顯效果,可以發(fā)現(xiàn)差異性數(shù)據(jù)或者噪聲數(shù)據(jù)的內(nèi)在聯(lián)系。

        三、數(shù)據(jù)挖掘研究熱點(diǎn)及發(fā)展趨勢(shì)

        鑒于數(shù)據(jù)庫(kù)系統(tǒng)已經(jīng)被廣泛應(yīng)用到各個(gè)領(lǐng)域,而各個(gè)領(lǐng)域又具有不同于其他領(lǐng)域的特點(diǎn)及需求,使得數(shù)據(jù)挖掘成為當(dāng)前時(shí)期內(nèi)信息系統(tǒng)領(lǐng)域研究的熱點(diǎn)。尤其是在一些尖端科學(xué)及熱門應(yīng)用領(lǐng)域的數(shù)據(jù)庫(kù)應(yīng)用中的數(shù)據(jù)挖掘技術(shù)更是體現(xiàn)出了數(shù)據(jù)挖掘研究的發(fā)展趨勢(shì)。

        數(shù)據(jù)表明,網(wǎng)絡(luò)已經(jīng)成為人們生活中不可或缺的組成部分,網(wǎng)站,尤其是電子商務(wù)網(wǎng)站每天都會(huì)生成龐大的日志文件和訪問(wèn)記錄信息,如何對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘可以幫助企業(yè)根據(jù)用戶需求設(shè)計(jì)出更為人性化的交互界面,幫助企業(yè)增強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力。雖然基于網(wǎng)站的數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘建模技術(shù)和算法使用差別不大,但是需要注意到,網(wǎng)站的數(shù)據(jù)庫(kù)格式與傳統(tǒng)的數(shù)據(jù)庫(kù)還是存在一定差別,如何實(shí)現(xiàn)特定環(huán)境的數(shù)據(jù)挖掘優(yōu)化是當(dāng)前研究的一個(gè)方向。

        空間地理數(shù)據(jù)和視頻流媒體數(shù)據(jù)也都建立在數(shù)據(jù)庫(kù)的基礎(chǔ)上。但是這類信息的數(shù)據(jù)挖掘還處于初步階段,如何在海量數(shù)據(jù)中挖掘事先未知的和潛在有用的數(shù)據(jù)關(guān)系,幫助確定數(shù)據(jù)的內(nèi)在聯(lián)系和發(fā)展趨勢(shì)還有待研究。但是可以確定的是,由于這類數(shù)據(jù)具有跨學(xué)科的綜合性,故無(wú)法使用一般的方法進(jìn)行數(shù)據(jù)挖掘,而應(yīng)該建立多角度多學(xué)科交叉性的數(shù)據(jù)挖掘方式。

        未來(lái)基于數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘肯定會(huì)朝著智能化、可視化、實(shí)時(shí)化、多維化、交互化方向發(fā)展,以適應(yīng)更為復(fù)雜的和現(xiàn)實(shí)的數(shù)據(jù)環(huán)境。

        無(wú)論是在研究領(lǐng)域還是在商業(yè)應(yīng)用中,基于數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘都是一個(gè)熱點(diǎn)話題,并且得到了越來(lái)越多的關(guān)注。隨著數(shù)據(jù)挖掘技術(shù)的逐漸成熟,必須結(jié)合數(shù)據(jù)來(lái)源領(lǐng)域、數(shù)據(jù)應(yīng)用領(lǐng)域、數(shù)據(jù)模型建立和算法理論基礎(chǔ)等多方面因素進(jìn)行數(shù)據(jù)的挖掘工作才能保證數(shù)據(jù)挖掘的有效性。

        九九99国产精品视频| 亚洲丝袜美腿在线视频| 欧洲美熟女乱av亚洲一区| 国产激情久久久久影院老熟女免费| 久久国产36精品色熟妇| 精品国产三级a| 人人看人人做人人爱精品| 欧美激情国产亚州一区二区| 搞黄色很刺激的网站二区| 美女丝袜诱惑在线播放蜜桃| 尤物在线观看一区蜜桃| 亚洲国产成人片在线观看无码 | 国产三a级三级日产三级野外| 午夜福利av无码一区二区| 亚洲成av人片一区二区| 国产熟女高潮视频| 国产成人久久精品亚洲小说| 免费观看视频在线播放| 久久99精品久久只有精品| 成人性生交大全免费看| 乱码av麻豆丝袜熟女系列| 18无码粉嫩小泬无套在线观看| 亚洲三级在线播放| 日本不卡一区二区三区在线观看| 中文有码无码人妻在线| 性动态图av无码专区| 久久亚洲国产精品123区| av高潮一区二区三区| 人妻饥渴偷公乱中文字幕| 久久99国产亚洲高清观看韩国| 国产亚洲一区二区三区成人| 亚洲第一网站免费视频| 国产成人精品一区二区三区| 无码av无码天堂资源网| 亚洲国产成人AV人片久久网站| 青青青视频手机在线观看| 浓毛老太交欧美老妇热爱乱| 亚洲av电影天堂男人的天堂| 五月天无码| 久久精品女同亚洲女同| 天堂√在线中文官网在线|