亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘淺析

        2009-06-22 03:41:14于祥茹
        新媒體研究 2009年20期
        關鍵詞:決策樹數(shù)據(jù)挖掘偏差

        于祥茹

        [摘要]數(shù)據(jù)挖掘是數(shù)據(jù)庫領域中報有應用價值的課題,支持決鐿系統(tǒng),人工智能等領域。簡要介紹數(shù)據(jù)挖掘的概念以及分類。另外。重點介紹數(shù)據(jù)挖掘的兩種主要技術。

        [關鍵詞]數(shù)據(jù)挖掘人工神經(jīng)網(wǎng)絡決策樹

        中圖分類號:TP3文獻標識碼:A文章編號:1671—7597(2009)1020081—01

        隨著數(shù)據(jù)庫技術的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應用,人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠對其進行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)雖然可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關聯(lián)和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象,應用的需求促使一門新的技術誕生數(shù)據(jù)挖掘。

        一、數(shù)據(jù)挖掘的概念

        數(shù)據(jù)挖掘的概念有多種的描述,其中常見的概念描述有如下的兩種:

        第一種,GPi atetsky Shapior,w.J.Frawley等定義數(shù)據(jù)挖掘為從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先進未知的、潛在有用的信急的非平凡過程。

        第二種,數(shù)據(jù)挖掘的廣義觀點:數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中挖掘有趣知識的過程。

        二、數(shù)據(jù)挖掘的分類

        從不同的視角看,數(shù)據(jù)挖掘技術有一下三種分類方法:

        1、根據(jù)發(fā)現(xiàn)知識的種類分類。2、根據(jù)挖掘的數(shù)據(jù)庫的種類分類。3、根據(jù)采用的技術分類。

        三、數(shù)據(jù)挖掘的主要技術介紹

        數(shù)據(jù)挖掘的技術主要分為兩類:一類是預言,用歷史來預測未來;另一類是描述,目的是了解數(shù)據(jù)中的潛在規(guī)律。具體來說主要可以分為人工神經(jīng)網(wǎng)絡技術、決策樹、遺傳算法、近鄰算法、規(guī)則推導等。下面說一下人工神經(jīng)網(wǎng)絡與決策樹[2]。

        (一)人工神經(jīng)網(wǎng)絡。神經(jīng)網(wǎng)絡最早是由心理學家和神經(jīng)生物學家提出的,旨在尋求開發(fā)和測試神經(jīng)的計算模擬。粗略的說,神經(jīng)網(wǎng)絡是一組連接的輸入/輸出單元,其中每個連接都與一個權相相聯(lián)。在學習階段,通過調整神經(jīng)網(wǎng)絡的權,使得能夠;預測輸入樣本的正確類標號來學習。由于單元之間的連接,神經(jīng)網(wǎng)絡學習又稱連接者學習[3]。

        (二)決策樹。決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。比如,在貸款申請中,要對申請的風險太小做出判斷,圖1是為了解決這個問題而建立的一棵決策樹,從中我們可以看到?jīng)Q策樹的基本組成部分:決策節(jié)點、分支和葉子。

        決策樹的每個節(jié)點子節(jié)點的個數(shù)與決策樹在用的算法有關。如CART算法得到的決策樹每個節(jié)點有兩個分支,這種樹稱為X樹。允許節(jié)點含有多于兩個子節(jié)點的樹稱為多叉樹。

        數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術,可以用于分析數(shù)據(jù),同樣也可以用來作預測(就像上面的銀行官員用他來預測貸款風險)。常用的算法有CHAID、CART、Quest~C5,0[4]。

        四、數(shù)據(jù)挖掘的功能

        數(shù)據(jù)挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下五類功能。

        (一)自動預測趨勢和行為。數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結論。一個典型的例子是市場預測問題,數(shù)據(jù)挖掘使用過去有關促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產(chǎn)以及認定對指定事件最可能作出反應的群體。

        (二)關聯(lián)分析。數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關聯(lián)函數(shù),即使知道也是不確定的,因此關聯(lián)分析生成的規(guī)則帶有可信度。

        (三)聚類。數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統(tǒng)的模式識別方法和數(shù)學分類學。

        (四)概念描述。概念描述就是對某類對象的內(nèi)涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。

        (五)偏差檢測。數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。

        五、數(shù)據(jù)挖掘熱點

        就目前來看,將來的幾個熱點包括網(wǎng)站的數(shù)據(jù)挖掘、生物信息或基因的數(shù)據(jù)挖掘及其文本的數(shù)據(jù)挖掘。下面就這幾個方面加以簡單介紹。

        (一)網(wǎng)站的數(shù)據(jù)挖掘。電子商務業(yè)務的競爭比傳統(tǒng)的業(yè)務競爭更加激烈,原因有很多方面,其中一個因素是客戶從一個電子商務網(wǎng)站轉換到競爭對手那邊,只需點擊幾下鼠標即可。目前,有很多廠商正在致力于開發(fā)專門用于網(wǎng)站挖掘的軟件。

        (二)生物信息或基因的數(shù)據(jù)挖掘。生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個領域,在商業(yè)上很難講有多大的價值,但對于人類卻受益匪淺。

        (三)文本的數(shù)據(jù)挖掘。人們很關心的另外一個話題是文本數(shù)據(jù)挖掘。舉個例子,在客戶服務中心,把同客戶的談話轉化為文本數(shù)據(jù),再對這些數(shù)據(jù)進行挖掘,進而了解客戶對服務的滿意程度和客戶的需求以及客戶之間的相互關系等信息。

        六、結束語

        越來越多的例子可以證明數(shù)據(jù)挖掘在科學和商業(yè)領域中有越來越多的應用。從原來的概念,到數(shù)據(jù)挖掘應用的實現(xiàn),而數(shù)據(jù)挖掘的靈活性也表現(xiàn)在,針對各種具體的案例,可以通過數(shù)據(jù)挖掘的不同側面的功能去實現(xiàn)數(shù)據(jù)的挖掘。相信在不久的將來,會有更加的數(shù)據(jù)挖掘的實例出現(xiàn)在人們生活的各個需要處理數(shù)據(jù)信息的方面。但是由于它是一門綜合性強的新興領域,它的發(fā)展還會有很多的困難和需要進一步發(fā)展的地方??梢哉J為,它的應用會更加廣泛,它的算法也會更加優(yōu)化。

        猜你喜歡
        決策樹數(shù)據(jù)挖掘偏差
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        如何走出文章立意偏差的誤區(qū)
        學生天地(2020年6期)2020-08-25 09:10:50
        兩矩形上的全偏差
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機森林方法在管理決策中的應用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于決策樹的出租車乘客出行目的識別
        關于均數(shù)與偏差
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        基于肺癌CT的決策樹模型在肺癌診斷中的應用
        国产成年人毛片在线99| 精品乱码久久久久久中文字幕| 最新亚洲人AV日韩一区二区| 亚洲精品综合色区二区| 区二区三区亚洲精品无| 日本视频一区二区三区观看| 国产女人好紧好爽| 一本无码av中文出轨人妻| 国产微拍精品一区二区| 国产高清在线91福利| 久久人妻精品中文字幕一区二区| 中文字幕亚洲综合久久综合| 亚洲综合网站久久久| 国产乱色精品成人免费视频| 久久久久久久一线毛片| 精品国产亚洲人成在线观看| 久久伊人亚洲精品视频| 一本色道久久88加勒比—综合| 俄罗斯老熟妇色xxxx| 韩国精品一区二区三区| 91精品国产色综合久久不| 婷婷色精品一区二区激情| 在线亚洲高清揄拍自拍一品区 | 成年免费视频黄网站zxgk| 欧美z0zo人禽交欧美人禽交| 久久婷婷免费综合色啪| 精品极品视频在线观看| 无码无套少妇毛多18p| 性一交一乱一伦一色一情孩交| 婷婷色国产精品视频一区| 日本高清一区二区三区色| 亚洲成人av在线第一页| 最新系列国产专区|亚洲国产| 欧美日韩亚洲精品瑜伽裤| 天堂视频一区二区免费在线观看| 日本一区二区免费高清| 欧美最猛黑人xxxx黑人猛交| 国产精品无码不卡一区二区三区| 亚洲av永久无码精品成人| 国产成人精品久久二区二区91| 77777_亚洲午夜久久多人|