亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談知識發(fā)現(xiàn)與數(shù)據(jù)挖掘

        2010-08-15 00:52:53
        科技傳播 2010年6期
        關(guān)鍵詞:數(shù)據(jù)挖掘算法分析

        趙 琳

        中國海洋大學,山東 青島 266033

        0 引言

        隨著數(shù)據(jù)庫技術(shù)的成熟和數(shù)據(jù)應用的普及,人類積累的數(shù)據(jù)量正在以指數(shù)速度迅速增長。當數(shù)據(jù)量極度增長時,如果沒有有效的方法來提取有用信息和知識,人們也會感到面對信息海洋像大海撈針一樣束手無策。面臨浩渺無際的數(shù)據(jù),人們渴望從數(shù)據(jù)汪洋中來一個去粗存精、去偽存真的技術(shù)。從數(shù)據(jù)庫中發(fā)現(xiàn)知識及其核心技術(shù)—數(shù)據(jù)采掘(DM)便應運而生了。

        1 知識發(fā)現(xiàn)過程

        知識發(fā)現(xiàn)(KDD)是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程;數(shù)據(jù)開采(DM)是KDD過程中的一個特定步驟,它用專門算法從數(shù)據(jù)中抽取模式(patterns)。1996年,F(xiàn)ayyad、PiatetskyShapiror和Smyth將KDD過程定義為:從數(shù)據(jù)中鑒別出有效模式的非平凡過程,該模式是新的、可能有用的和最終可理解的。KDD過程是多個步驟相互連接、反復進行人機交互的過程。具體包括:1)學習某個應用領域:包括應用中的預先知識和目標;2)建立目標數(shù)據(jù)集:選擇一個數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦;3)數(shù)據(jù)預處理:去除噪聲或無關(guān)數(shù)據(jù),去除空白數(shù)據(jù)域,考慮時間順序和數(shù)據(jù)變化等;4)數(shù)據(jù)轉(zhuǎn)換:找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式;5)選定數(shù)據(jù)挖掘功能:決定數(shù)據(jù)挖掘的目的;6)選定數(shù)據(jù)挖掘算法:用KDD過程中的準則,選擇某個特定數(shù)據(jù)挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數(shù)據(jù)中的模式;7)數(shù)據(jù)挖掘:搜索或產(chǎn)生一個特定的感興趣的模式或一個特定的數(shù)據(jù)集;8)解釋:解釋某個發(fā)現(xiàn)的模式,去掉多余的不切題意的模式,轉(zhuǎn)換某個有用的模式,以使用戶明白;9)發(fā)現(xiàn)知識:把這些知識結(jié)合到運行系統(tǒng)中,獲得這些知識的作用或證明這些知識。用預先、可信的知識檢查和解決知識中可能的矛盾。

        2 知識發(fā)現(xiàn)的核心―數(shù)據(jù)挖掘

        所謂數(shù)據(jù)挖掘,就是從數(shù)據(jù)庫中抽取隱含的、以前未知的、具有潛在應用價值的信息的過程。數(shù)據(jù)挖掘是KDD最核心的部分。數(shù)據(jù)挖掘與傳統(tǒng)分析工具不同的是數(shù)據(jù)挖掘使用的是基于發(fā)現(xiàn)的方法,運用模式匹配和其它算法決定數(shù)據(jù)之間的重要聯(lián)系。數(shù)據(jù)挖掘算法的好壞將直接影響到所發(fā)現(xiàn)知識的好壞。目前,大多數(shù)的研究都集中在數(shù)據(jù)挖掘算法和應用上。有的學者認為,數(shù)據(jù)開采和知識發(fā)現(xiàn)含義相同,表示成KDD/DM,它是一個反復的過程,通常包含多個相互聯(lián)系的步驟:預處理、提出假設、選取算法、提取規(guī)則、評價和解釋結(jié)果、將模式構(gòu)成知識,最后是應用。在實際,人們往往不嚴格區(qū)分數(shù)據(jù)挖掘和數(shù)據(jù)庫中的知識發(fā)現(xiàn),把兩者混淆使用。一般在科研領域中稱為KDD,而在工程領域則稱為數(shù)據(jù)挖掘。

        3 數(shù)據(jù)挖掘中常用技術(shù)

        目前,數(shù)據(jù)挖掘應用方面有著種類繁多的商品工具和軟件,大致可以歸納為下列主要類型:傳統(tǒng)主觀導向系統(tǒng),這是針對專業(yè)領域應用的系統(tǒng)。如基于技術(shù)分析方法對金融市場進行分析。采用的方法從簡單的走向分析直到基于高深數(shù)學基礎的分析理論和譜分析。這種技術(shù)需要有經(jīng)驗模型為前提。屬于這類商品有美國的Metastak,SuperCharts,CandlestickForecaster和WallStreetMoney等傳統(tǒng)統(tǒng)計分析,這類技術(shù)包括相關(guān)分析、回歸分析及因子分析等。一般先由用戶提供假設,再由系統(tǒng)利用數(shù)據(jù)進行驗證。缺點是需經(jīng)培訓后才能使用,同時在數(shù)據(jù)探索過程中,用戶需要重復進行一系列操作。由于近年來更先進的DM方法的出現(xiàn)和使用,這些廠商在原有系統(tǒng)中綜合一些DM部件,以獲得更完善的功能。以上兩種技術(shù)主要基于傳統(tǒng)的數(shù)理統(tǒng)計等數(shù)學的基礎上,一般早已開始用于數(shù)據(jù)分析方面。神經(jīng)元網(wǎng)絡技術(shù):神經(jīng)元網(wǎng)絡技術(shù)是屬于軟計算領域內(nèi)一種重要方法,它是多年來科研人員進行人腦神經(jīng)學習機能模擬的成果,已成功地應用于各工業(yè)部門。在DM(KDD)的應用方面,當需要復雜或不精確數(shù)據(jù)中導出概念和確定走向比較困難時,利用神經(jīng)網(wǎng)絡技術(shù)特別有效。經(jīng)過訓練后的NN可以想像具有某種專門知識的“專家”,因此可以像人一樣從經(jīng)驗中學習。NN有多種結(jié)構(gòu),但最常用的是多層BP模型。它已廣泛地應用于各種 DM(KDD)工具和軟件中。有些是以NN為主導技術(shù)。NN技術(shù)已廣泛地做為一種方法嵌入各種DM成套軟件中。缺點是用它來分析復雜的系統(tǒng)諸如金融市場,NN就需要復雜的結(jié)構(gòu)為數(shù)眾多神經(jīng)元以及連接數(shù),從而使現(xiàn)有的事例數(shù)無法滿足訓練的需要;另外,由受訓后的NN所代表的預測模型的非透明性也是缺點。盡管如此,它還是廣泛而成功地為各種金融應用分析系統(tǒng)所采用。決策樹:在知識工程領域,決策樹是一種簡單的知識表示方法,它將事例逐步分類成代表不同的類別。由于分類規(guī)則是比較直觀的,因而比較易于理解。這種方法一般限于分類任務。在系統(tǒng)中采用這種方法的有美國的IDIS,法國的SIPINA.英國的 Clementinc和澳大利亞的C5.0.進化式程序設計,這種方法的獨特思路是:系統(tǒng)自動生成有關(guān)目標變量對其他多種變量依賴關(guān)系的務種假設,并形成以內(nèi)部編程語言表示的程序。內(nèi)部程序(假設)的產(chǎn)生過程是進化式的,類似于遺傳算法過程。當系統(tǒng)找到較好地描述依賴關(guān)系的一個假設時,就對這程序進行各種不同的微小修正,生成子程序組,再在其中選擇能更好地改進預測精度的子程序,如此依次進行,最后獲得達到所需精度的最好程序時,由系統(tǒng)的專有模塊將所找到的依賴關(guān)系由內(nèi)部語言形式轉(zhuǎn)換成易于為人們理解的顯式形式。這種方法在原則上能保證任何一種依賴關(guān)系和算法都能用這種語言來描述。因此,它用于金融到醫(yī)療方面的各種應用中將能獲得很好的結(jié)果。

        [1]馬麗娜,劉弘,張希林.數(shù)據(jù)挖掘.OLAP在決策支持系統(tǒng)中的應用[J].計算機應用研究,2007(11):10-12.

        [2]胡彥.基于數(shù)據(jù)倉庫的決策支持工具的比較研究[J].計算機應用,2006,20(6):20-24.

        [3]喻鋼,周定康.聯(lián)機分析處理(OLAP)技術(shù)的研究[J].計算機應用,2007,21(11):80-84.

        猜你喜歡
        數(shù)據(jù)挖掘算法分析
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        隱蔽失效適航要求符合性驗證分析
        基于MapReduce的改進Eclat算法
        Travellng thg World Full—time for Rree
        進位加法的兩種算法
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        一種改進的整周模糊度去相關(guān)算法
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        亚洲精品视频中文字幕| 91精品国产色综合久久不卡蜜| 国产午夜精品美女裸身视频69| 日本女优免费一区二区三区| 久久99亚洲精品久久久久| 国产人妻人伦精品1国产盗摄| 国产欧美日韩网站| 亚洲一区二区三区国产精品| 高清中文字幕一区二区| 琪琪的色原网站| 天天摸天天做天天爽水多| 亚洲丁香五月天缴情综合| 亚洲色欲Aⅴ无码一区二区| 人妻精品久久久一区二区| 51国产偷自视频区视频| 亚洲精品午睡沙发系列| 免费看欧美日韩一区二区三区| 亚洲一区二区三区1区2区| 国产丝袜美腿中文字幕| 久爱www人成免费网站| 亚洲 自拍 另类小说综合图区 | 精品国内自产拍在线视频| 青青草最新在线视频观看| 尤物在线观看一区蜜桃| 50岁熟妇的呻吟声对白| 久久免费精品国产72精品剧情 | 草莓视频中文字幕人妻系列| 久久亚洲网站中文字幕| 高清偷自拍亚洲精品三区| 欧美成人三级一区二区在线观看| 久久伊人网久久伊人网| 变态另类人妖一区二区三区| 国产精品久久久久久久久岛| 日韩精品国产自在欧美| 国产黄色一区二区三区av| 国内精品久久久久伊人av| 亚洲av之男人的天堂网站| 9久久精品视香蕉蕉| 三级网站亚洲三级一区| 又色又爽又黄高潮的免费视频| 欧美日韩亚洲成人|