亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺析數(shù)據(jù)挖掘技術(shù)

        2011-10-21 22:33:44侯玉香劉華云
        卷宗 2011年6期
        關(guān)鍵詞:數(shù)據(jù)決策樹數(shù)據(jù)挖掘

        侯玉香 劉華云

        摘要:數(shù)據(jù)挖掘(Data Mining,簡稱DM),簡單地講就是從大量數(shù)據(jù)中挖掘或抽取出知識。該文簡單介紹數(shù)據(jù)挖掘的概念﹑區(qū)別﹑常用技術(shù)﹑方法及發(fā)展趨勢。

        關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù);聚類;決策樹

        近十幾年來,隨著科學(xué)技術(shù)飛速的發(fā)展,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,無數(shù)個數(shù)據(jù)庫被用于商業(yè)管理、科學(xué)研究、政府辦公和工程開發(fā)等。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏的知識,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生并顯示強(qiáng)大的生命力。

        1 數(shù)據(jù)挖掘與傳統(tǒng)分析方法的區(qū)別

        數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery from Database,簡稱KDD),它是一個從大量數(shù)據(jù)中抽取挖掘出來未知的、有價值的模式和有規(guī)律等知識的復(fù)雜過程。

        數(shù)據(jù)挖掘與傳統(tǒng)分析方法區(qū)別如下:

        1)本質(zhì)區(qū)別為數(shù)據(jù)挖掘是在沒有明確的假設(shè)的前提下,挖掘信息并發(fā)現(xiàn)知識。

        數(shù)據(jù)挖掘所得到的信息應(yīng)該具備先前未知﹑有效性﹑可實(shí)用三個特征。

        2)數(shù)據(jù)挖掘的數(shù)據(jù)源與傳統(tǒng)分析方法相比有了顯著的改變,數(shù)據(jù)是海量的,數(shù)據(jù)是有噪聲,數(shù)據(jù)可能是非結(jié)構(gòu)化的。

        3)先前未知的信息指該信息是預(yù)先未曾預(yù)料到的,數(shù)據(jù)挖掘是發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出信息越是出乎意料的,就可能越有價值.

        2 數(shù)據(jù)挖掘中的常用技術(shù)

        數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的﹑先前未知的﹑并有潛在價值的信息的非平凡過程。它是一種決策支持過程,主要基于人工智能、模式識別、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),并做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略并減少風(fēng)險(xiǎn),做出正確的決策。

        常見的數(shù)據(jù)挖掘技術(shù)包括如下:

        1)統(tǒng)計(jì)分析方法:利用統(tǒng)計(jì)學(xué)和概率論的原理對關(guān)系中各屬性進(jìn)行統(tǒng)計(jì)分析,從而找出它們之間的關(guān)系和規(guī)律。它是最基本的數(shù)據(jù)挖掘技術(shù)之一。

        2)決策樹方法:以樹型結(jié)構(gòu)表示分類或決策集合,產(chǎn)生規(guī)則和發(fā)展規(guī)律,尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一種人工智能和識別技術(shù),主要用于分類挖掘。

        3)神經(jīng)網(wǎng)絡(luò)方法:由大量的簡單經(jīng)元,通過極其豐富和完美的連接構(gòu)成自適應(yīng)非線性動態(tài)系統(tǒng),具有分布存儲﹑大規(guī)模并行處理﹑聯(lián)想記憶﹑自學(xué)習(xí)﹑自組織﹑自適應(yīng)等功能。

        4)遺傳算法:模擬生物進(jìn)行過程,以達(dá)到優(yōu)化的目的。由交叉﹑繁殖﹑變異三個基本算子組成,可起產(chǎn)生優(yōu)良后代的作用。經(jīng)過若干代的遺傳,將得到滿足要求的后代。

        5)聚類分析:根據(jù)事物的特征,對其分類或聚類。即所謂物以類聚,以期發(fā)現(xiàn)規(guī)律和典型模式。聚類分析技術(shù)是數(shù)據(jù)挖掘的最重要的技術(shù)之一。

        6)粗集方法:在數(shù)據(jù)庫中視行為對象列為元素,定義等價關(guān)系R為不同對象在某個或幾個屬性上取值相同,滿足R的對象組成的集合稱為其等價類。

        7)可視化技術(shù):采用比較直觀的圖形圖表方式將信息模式﹑數(shù)據(jù)關(guān)聯(lián)或趨勢呈現(xiàn)給決策者,廣大擴(kuò)展了數(shù)據(jù)和挖掘結(jié)果的表達(dá)和理解力。

        8)最近鄰技術(shù):通過K個與之最相近的歷史記錄的組合來辨別新記錄。最近鄰技術(shù)可用作聚類﹑偏差分析等挖掘任務(wù)。

        3 數(shù)據(jù)挖掘的方法

        數(shù)據(jù)挖掘的實(shí)現(xiàn)方法有兩種:直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘。

        1)直接數(shù)據(jù)挖掘

        給出所有已知的因素和輸入變量,便于數(shù)據(jù)挖掘引擎數(shù)據(jù)模型的規(guī)則,找出各個屬性之間最合理的關(guān)系。直接數(shù)據(jù)挖掘以預(yù)測未知值或目標(biāo)變量為基礎(chǔ),即直接數(shù)據(jù)挖掘是基于已知的輸入變量值預(yù)測未知數(shù)據(jù)的最大可能的取值。

        2)間接數(shù)據(jù)挖掘

        間接數(shù)據(jù)挖掘不用于預(yù)測,不受目標(biāo)值的限制和約束,它只對數(shù)據(jù)進(jìn)行整理,發(fā)掘整個數(shù)據(jù)集合的結(jié)構(gòu)和數(shù)據(jù)組織形式,進(jìn)行理解和應(yīng)用。

        例如,通過整理圖書的借閱歷史,可以發(fā)現(xiàn)喜歡讀某類圖書的讀者有哪些共同的特點(diǎn)。

        例如,可能會發(fā)現(xiàn)喜歡讀金庸小說的讀者主要是年輕的男孩子。

        采用聚類是對歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘中常用的一種算法??梢韵忍崛【垲?,再利用決策樹算法,對感興趣的數(shù)據(jù)集合進(jìn)行直接數(shù)據(jù)挖掘。

        4 數(shù)據(jù)挖掘的發(fā)展趨勢

        數(shù)據(jù)挖掘的任務(wù)和數(shù)據(jù)挖掘方法的多樣化對數(shù)據(jù)挖掘提出了許多挑戰(zhàn)性的研究問題,在將來會形成更大的高潮。數(shù)據(jù)挖掘發(fā)展趨勢包括新應(yīng)用領(lǐng)域的探索方面所作的進(jìn)一步努力﹑可伸縮和交互方法(包括基于約束的挖掘)的改進(jìn)﹑數(shù)據(jù)挖掘與數(shù)據(jù)倉庫和數(shù)據(jù)庫系統(tǒng)的集成﹑可視化方法和處理復(fù)雜數(shù)據(jù)類型的新方法﹑數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化。

        數(shù)據(jù)挖掘的發(fā)展趨勢主要如下:

        1)數(shù)據(jù)倉庫日益普及:盡管數(shù)據(jù)挖掘并不一定要有數(shù)據(jù)倉庫的支持,但它仍然經(jīng)常被看成數(shù)據(jù)倉庫的后期產(chǎn)品,因那些努力建立數(shù)據(jù)倉庫的人有最豐富的數(shù)據(jù)資源可供挖掘。

        2)Internet 數(shù)據(jù)挖掘:許多供應(yīng)商將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù),以提高Internet 站點(diǎn)和客戶的關(guān)聯(lián)行。如IBM公司發(fā)布Web為中心的數(shù)據(jù)挖掘解決方案SurAid。

        3)數(shù)據(jù)挖掘供應(yīng)商更注重縱向市場:數(shù)據(jù)挖掘涉及到對數(shù)據(jù)內(nèi)在本質(zhì)的理解,因些供應(yīng)商們更注重縱向市場。比如DataMind 公司的重點(diǎn)是電信業(yè)的跳槽。電信業(yè)競爭的不規(guī)范和白熱化已使保持客戶成為一個備受關(guān)注的熱點(diǎn)問題。

        4)EIS工具供應(yīng)商也在集成數(shù)據(jù)挖掘功能:將數(shù)據(jù)挖掘工具﹐查詢及EIS工具集成起來將導(dǎo)致一個基于發(fā)現(xiàn)的過程。由此發(fā)現(xiàn)過程最終用戶能獲得最有用的東西,進(jìn)而根據(jù)這些新的信息對有關(guān)問題進(jìn)行更明確的闡述。

        5 結(jié)束語

        數(shù)據(jù)挖掘是一個多學(xué)科的交叉領(lǐng)域。不再是數(shù)據(jù)庫的研究者和開發(fā)者關(guān)注的問題,它已經(jīng)成為統(tǒng)計(jì)學(xué)﹑機(jī)器學(xué)習(xí)等諸多領(lǐng)域的研究者和開發(fā)者的熱點(diǎn)課題之一。就連“數(shù)據(jù)挖掘”術(shù)語本身也已經(jīng)成為這些領(lǐng)域的流行詞匯。數(shù)據(jù)挖掘?qū)W科交叉融合引起的良性互動無疑會進(jìn)一步促進(jìn)該學(xué)科的發(fā)展與繁榮。

        參考文獻(xiàn)

        [1]陳志泊.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M] .北京:清華大學(xué)出版社,2009

        [2]胡可云,田鳳占,黃厚寬.數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:清華大學(xué)出版社,2008

        [3]劉世平.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].北京:高等教育出版社,2010

        猜你喜歡
        數(shù)據(jù)決策樹數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        焊接工藝仿真訓(xùn)練系統(tǒng)中焊點(diǎn)數(shù)據(jù)的建立方法
        一種借助數(shù)據(jù)處理構(gòu)建的智能食堂管理系統(tǒng)
        數(shù)據(jù)化藝術(shù)的生成探究
        淺談計(jì)量自動化系統(tǒng)實(shí)現(xiàn)預(yù)購電管理應(yīng)用
        基于決策樹的出租車乘客出行目的識別
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        国产一区二区三区视频地址| 日本精品免费一区二区三区 | 免费a级毛片无码a∨免费 | 女人一级特黄大片国产精品| 精品国产自拍在线视频| 国内精品熟女一区二区| 最新国产精品国产三级国产av | 日日拍夜夜嗷嗷叫国产| 亚洲精品乱码8久久久久久日本| 337p西西人体大胆瓣开下部| 久久99精品国产麻豆| 精品无码一区二区三区爱欲九九 | 吃奶还摸下面动态图gif| 国产亚洲AV无码一区二区二三区| 亚洲乱码少妇中文字幕| 久久久国产精品五月天伊人| 亚洲乱码中文字幕第一页| 日本一级二级三级不卡| 免费人成视频网站在线不卡| 欧美人与善在线com| 国产成人a在线观看视频免费| 无码人妻精品一区二区三区不卡| 欧美疯狂做受xxxxx高潮| 日韩人妻无码中文字幕一区| 亚洲国产精品午夜一区| 中文字幕av熟女中文av| 少妇真人直播免费视频| 欧美综合天天夜夜久久| 无码吃奶揉捏奶头高潮视频| 国产无套护士在线观看| 在线观看精品国产福利片100| 免费人人av看| 麻豆国产成人av高清在线| 人妖国产视频一区二区| 国产精品亚洲专区无码不卡| 亚洲av成人噜噜无码网站| 亚洲第一无码xxxxxx| 亚洲成在人网av天堂| 蜜桃av多人一区二区三区| 特级国产一区二区三区| 公厕偷拍一区二区三区四区五区 |