亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘算法的分析探討

        2014-03-12 15:57:06王曉艷
        新媒體研究 2014年2期
        關(guān)鍵詞:分析探討粗糙集數(shù)據(jù)挖掘

        王曉艷

        摘 要 信息技術(shù)不斷的發(fā)展,互聯(lián)網(wǎng)在全球范圍內(nèi)得到普及。這是一個信息爆炸的時代,也是一個大數(shù)據(jù)時代。人們每天會面對大量的信息和數(shù)據(jù),那么如何從這些信息中選擇自己需要的信息是一個關(guān)鍵問題。數(shù)據(jù)挖掘算法在這方面具有明顯的優(yōu)勢,筆者對數(shù)據(jù)挖掘算法進行分析和探討。

        關(guān)鍵詞 數(shù)據(jù)挖掘;粗糙集;分析探討

        中圖分類號:TP311 文獻標識碼:A 文章編號:1671-7597(2014)02-0060-01

        目前,數(shù)據(jù)挖掘得到了全世界信息產(chǎn)業(yè)界的廣泛關(guān)注。此外,也以難以預(yù)料的速度發(fā)展著。這和信息技術(shù)的迅速發(fā)展以及互聯(lián)網(wǎng)大范圍的普及有著很大的關(guān)系。當(dāng)人們面對大量的數(shù)據(jù)以及信息時,如何選擇自己需要的數(shù)據(jù)和信息是一個核心問題。而數(shù)據(jù)挖掘則是一個重要的方法,其可以幫助人們找到對自己有價值的信息。

        1 數(shù)據(jù)挖掘簡介

        數(shù)據(jù)挖掘指的是從大量的數(shù)據(jù)和信息中提取到有用的信息,其是一個過程,這一定義被廣泛的接受。我們可以在數(shù)據(jù)庫中的知識發(fā)現(xiàn)中尋找到數(shù)據(jù)挖掘一詞的來源,其英文是Knowledge Discovery in Database,縮寫為KDD。

        1.1 數(shù)據(jù)挖掘的基本過程

        定義問題一定要在數(shù)據(jù)挖掘之前搞清楚,對問題以及目標任務(wù)實施清晰地定義,而我們就可以得到數(shù)據(jù)挖掘的目的。在此基礎(chǔ)上,我們以挖掘基本步驟為依據(jù),就可以開展知識發(fā)現(xiàn)了。

        數(shù)據(jù)挖掘的過程是很復(fù)雜的,但是基本上可以被劃分為3個階段:準備階段、數(shù)據(jù)挖掘階段以及結(jié)果的解釋和評價階段。

        1)數(shù)據(jù)清理。有的數(shù)據(jù)中含有大量的噪音,此外完整性以及明確性都很差,因此需要進行清洗。2)數(shù)據(jù)集成。數(shù)據(jù)集成主要包括物理集成以及邏輯集成,這些數(shù)據(jù)在來源、特點、格式等方面都具有差異。數(shù)據(jù)集成可以為后面的一系列操作帶來方便。3)數(shù)據(jù)選擇。數(shù)據(jù)選擇指的是從大量的數(shù)據(jù)中找到和選擇有關(guān)的數(shù)據(jù)集,此過程需要從任務(wù)目標出發(fā),之后抽取處理,則我們就可以獲取到具體挖掘任務(wù)的相應(yīng)操作。4)數(shù)據(jù)變換。獲取得當(dāng)?shù)谋煌诰虻臄?shù)據(jù)形式是進行數(shù)據(jù)變換的目的。舉個例子,將離散值型數(shù)據(jù)轉(zhuǎn)換成連續(xù)值型,那么神經(jīng)網(wǎng)絡(luò)計算的進行就比較容易。5)數(shù)據(jù)挖掘。由于多學(xué)科的知識和研究成果不斷的融入到數(shù)據(jù)挖掘中,因此數(shù)據(jù)挖掘方法的形式各種各樣。目前,使用比較多的數(shù)據(jù)挖掘方法包括:最近序列分析、時間序列分析、回歸分析以及聚類分析等。使用這些方法可以很快的得到異常數(shù)據(jù)。之后,再進行解釋,數(shù)據(jù)中的潛在規(guī)律以及模式和知識就可以被發(fā)現(xiàn)。在這個過程中,在選擇算法時需要從數(shù)據(jù)本身的特征出發(fā),這些方法有:聚類、分類以及神經(jīng)網(wǎng)路等。6)模式評估。模式評估的對象是數(shù)據(jù)挖掘發(fā)現(xiàn)的模式,需要采取某種方法來對其進行識別以及度量。7)知識表示。挖掘出的知識需要解釋,轉(zhuǎn)換后得到被知識就可以被用戶理解。

        1.2 數(shù)據(jù)挖掘的分類

        多個學(xué)科的知識和成果融入到了數(shù)據(jù)挖掘中,因此關(guān)于其的研究就比較多。為了用戶能快速的得到自己需要的數(shù)據(jù),我們需要對數(shù)據(jù)挖掘技術(shù)進行分類。

        1)按挖掘的數(shù)據(jù)庫類型分類。按照數(shù)據(jù)模型進行分類,可以被分為以下幾類:關(guān)系型、事務(wù)型以及數(shù)據(jù)倉庫型等。假如以數(shù)據(jù)類型為分類依據(jù),則可以被分為:文本型、異構(gòu)型、空間型、流數(shù)據(jù)型、時間型、多媒體以及Web型。2)按照挖掘的知識類型分類,其指的是參考數(shù)據(jù)挖掘的功能實施劃分。一個全面的數(shù)據(jù)挖掘可以包含多種功能。數(shù)據(jù)挖掘的分類標準也可以是規(guī)則性和奇異性。一般說來,我們可以使用以下方法來進行數(shù)據(jù)規(guī)則性的挖掘:預(yù)測、相關(guān)性分析、關(guān)聯(lián)分析、概念描述等,使用這些方法還可以方法檢測和排除噪聲。3)按應(yīng)用分類。我們可以以應(yīng)用為依據(jù)來進行分類,比如:股票市場、生物醫(yī)學(xué)界、金融業(yè)、交通業(yè)、通信業(yè)等。

        通過以上的分析,我們不難發(fā)現(xiàn),找到一個廣泛適用于各種不同應(yīng)用的數(shù)據(jù)挖掘方法是不可能的。

        2 具體方法分析

        2.1 聚類挖掘

        作為數(shù)據(jù)挖掘技術(shù)中的一個關(guān)鍵的部分,聚類挖掘一般在實現(xiàn)時需要借助最近鄰技術(shù)。聚類分析是一個沒有監(jiān)督的學(xué)習(xí)過程,也沒有必要對訓(xùn)練數(shù)據(jù)進行預(yù)先的處理。聚類屬于觀察型學(xué)習(xí)的一種,其不僅可以對每個類中的數(shù)據(jù)特征進行觀察,而且可以作為其他算法的預(yù)處理步驟。我們使用該方法可以發(fā)現(xiàn)數(shù)據(jù)之間的潛在關(guān)系,因此就會很容易的得到數(shù)據(jù)的分布模式。目前,聚類主要包括以下幾個方面:層次法、劃分法、基于密度的方法、基于模型的方法以及基于密度的方法。筆者對這5類技術(shù)進行了相應(yīng)典型分析之后,每一類技術(shù)性能的比較結(jié)果我們可以在表1中看到。

        表1 聚類算法的比較

        聚類技術(shù) 劃分法 層次法 基于密度的方法 基于網(wǎng)絡(luò)的方法 基于模型的方法

        算法 K-MEANS CURE DBSCAN STING COBWEB

        發(fā)現(xiàn)聚類形狀 球形 任意形狀 任意形狀 任意形狀 任意形狀

        高維性 一般 好 好 一般 好

        可伸縮性 好 較差 好 較好 較好

        輸入順序

        敏感性 敏感 敏感 較敏感 不敏感 敏感

        噪聲敏感性 不敏感 較敏感 很敏感 敏感 較敏感

        算法效率 高 較高 高 一般 較低

        2.2 粗糙集

        粗糙集理論是一種新型的數(shù)學(xué)分析工具,其主要是對不確定的知識進行處理。這些知識信息一般在完整性以及一致性方面比較欠缺,因此使用粗糙集可以對其進行分析和推理,進而將潛在的規(guī)律發(fā)掘出來。

        粗糙集算法(屬性約簡算法)。在實際的應(yīng)用中,我們需要在大量的數(shù)據(jù)中獲取到一個知識,那么如何選取,怎樣提高挖掘的效率呢?這時需要一種算法,該算法可以對大量的屬性進行簡約,將對冗余的信息技術(shù)進行剔除,而原始信息也會得到保證。該算法可以由粗糙集提供,在此基礎(chǔ)上的數(shù)據(jù)挖掘的過程有:數(shù)據(jù)預(yù)處理、獲取規(guī)則、簡化等。首先,對原始數(shù)據(jù)源中的異常值以及缺省值實施處理。之后,構(gòu)建決策表。最后,獲取規(guī)則并對規(guī)則進行簡化,這樣就會得到有價值的知識,最終將其應(yīng)用到新數(shù)據(jù)的分析處理之中。

        2.3 BP神經(jīng)網(wǎng)絡(luò)算法

        信息正向傳播和誤差逆向傳播是BP神經(jīng)網(wǎng)絡(luò)算法的兩個基本的過程。對于前者來說,其僅僅需要一定的歷史數(shù)據(jù),其一般被用來預(yù)測、分類以及聚類等。不僅抗干擾的能力強,此外計算能力也是非常高的。對于后者,需要對神經(jīng)網(wǎng)絡(luò)的各節(jié)點連接權(quán)值進行初始化,這樣我們就可以得到很小的隨機數(shù)。

        3 結(jié)束語

        筆者從數(shù)據(jù)挖掘的概念與意義出發(fā),對基本過程以及幾種技術(shù)(聚類分析、粗糙集和 BP神經(jīng)網(wǎng)絡(luò))進行了分析和探討,希望這些分析和探討對大家有所幫助。

        參考文獻

        [1]劉學(xué)琴,吳耀華,崔寶華.基于擴展粗糙集的短期電力負荷預(yù)測模型[J].電力系統(tǒng)保護與控制,2012(13).endprint

        猜你喜歡
        分析探討粗糙集數(shù)據(jù)挖掘
        基于Pawlak粗糙集模型的集合運算關(guān)系
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        淺談理想主義的企業(yè)管理
        商情(2016年39期)2016-11-21 09:15:19
        多粒化粗糙集性質(zhì)的幾個充分條件
        高中英語課文閱讀教學(xué)的策略探討
        核電廠交流不間斷供電系統(tǒng)分析及改進
        科技視界(2016年20期)2016-09-29 13:38:00
        食品安全體系中物流的重要性
        雙論域粗糙集在故障診斷中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        久久亚洲av午夜福利精品一区| 一级做a爱视频在线播放| 人妻av在线一区二区三区| 亚洲人成在线播放网站| 另类老妇奶性生bbwbbw| 亚洲男女免费视频| 亚洲一区二区三区新视频| 亚洲综合一区中文字幕| 久久99精品久久久久久秒播| 另类亚洲欧美精品久久不卡| 亚洲国产综合性感三级自拍 | 国产免费人成视频在线观看播放播 | 青青操视频手机在线免费观看| 体验区试看120秒啪啪免费| 精品日韩欧美一区二区在线播放| 国产午夜精品久久久久99| 国产视频一区二区三区免费| 日韩 亚洲 制服 欧美 综合| 欧美国产精品久久久乱码| 亚洲欧洲日产国码久在线观看 | 青楼妓女禁脔道具调教sm| 在线精品国内视频秒播| 国产精品女人一区二区三区| 日韩精品综合一本久道在线视频| 五级黄高潮片90分钟视频| 91情侣视频| 日韩av在线手机免费观看| 国产av夜夜欢一区二区三区| 欧美日韩久久久精品a片| 国产好片日本一区二区三区四区| 中文字幕一区在线直播| 欧美性巨大╳╳╳╳╳高跟鞋| 精品人妻无码中文字幕在线| 国产主播一区二区三区在线观看| 四虎国产成人永久精品免费| 放荡的闷骚娇妻h| 亚洲av影片一区二区三区| 国产av一区二区三区性入口| 在线亚洲午夜理论av大片| 久久精品无码一区二区三区不卡 | 一区二区和激情视频|