亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘的前期準(zhǔn)備

        2013-04-29 00:44:03管軍偉
        上海信息化 2013年8期
        關(guān)鍵詞:數(shù)據(jù)挖掘規(guī)則領(lǐng)域

        管軍偉

        無(wú)線電管理各類數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)的制訂,科學(xué)地定義了數(shù)據(jù)模型。網(wǎng)格化監(jiān)測(cè)等項(xiàng)目的推廣,加強(qiáng)了數(shù)據(jù)的時(shí)空關(guān)聯(lián)屬性,數(shù)據(jù)世界描述現(xiàn)實(shí)世界的能力明顯增強(qiáng)。然而,傳統(tǒng)的數(shù)據(jù)分析技術(shù)已無(wú)力應(yīng)對(duì)當(dāng)今的海量數(shù)據(jù)。令人慶幸的是,專用于破解此類難題的數(shù)據(jù)挖掘技術(shù)已枕戈待旦。在整個(gè)數(shù)據(jù)挖掘過(guò)程中,近80%的時(shí)間都是在準(zhǔn)備數(shù)據(jù),可見,前期準(zhǔn)備對(duì)數(shù)據(jù)挖掘具有重要意義。

        數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱DM)是從大量的數(shù)據(jù)中挖掘出隱含的、未知的、用戶可能感興趣的和對(duì)決策有潛在價(jià)值的知識(shí)和規(guī)則。數(shù)據(jù)挖掘融合了數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、人工智能等學(xué)科的知識(shí),能夠提供多種功能:概念描述——根據(jù)數(shù)據(jù)的微觀特征來(lái)表征數(shù)據(jù)集;關(guān)聯(lián)分析——揭示事物之間的依賴或者關(guān)聯(lián)關(guān)系;預(yù)測(cè)分析——根據(jù)歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù),預(yù)測(cè)未來(lái)數(shù)據(jù);聚類分析——發(fā)現(xiàn)內(nèi)在的規(guī)則,識(shí)別出緊密相關(guān)的觀測(cè)值組群;異常檢測(cè)——識(shí)別出特征顯著不同于其他數(shù)據(jù)的觀測(cè)值。

        嚴(yán)格地說(shuō),數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases, 簡(jiǎn)稱KDD)的一個(gè)步驟(如圖1所示),但在實(shí)際中,兩者通常被等同視之,筆者也循例統(tǒng)一使用“數(shù)據(jù)挖掘”一詞加以表述。

        數(shù)據(jù)挖掘一開始就是面向應(yīng)用的,它封裝了相關(guān)學(xué)科中復(fù)雜高深的理論和技術(shù),大幅降低了應(yīng)用門檻。然而,成功的數(shù)據(jù)挖掘并非一蹴而就,需要從幾個(gè)方面著手準(zhǔn)備:

        正確認(rèn)識(shí)數(shù)據(jù)挖掘

        一般來(lái)說(shuō),數(shù)據(jù)挖掘處理的數(shù)據(jù)規(guī)模都很大,挖掘出來(lái)的結(jié)果是不確定的,只有結(jié)合領(lǐng)域知識(shí)才能判斷其價(jià)值。數(shù)據(jù)挖掘既要擔(dān)負(fù)發(fā)現(xiàn)潛在規(guī)則的任務(wù),還要應(yīng)對(duì)新數(shù)據(jù)的管理和規(guī)則維護(hù)。規(guī)則的發(fā)現(xiàn)基于大樣本的統(tǒng)計(jì)規(guī)律,當(dāng)置信度達(dá)到某一閾值時(shí),就可以認(rèn)為規(guī)則成立。

        顯而易見,數(shù)據(jù)挖掘不同于傳統(tǒng)的決策支持系統(tǒng)。傳統(tǒng)的決策支持系統(tǒng)通常是先建立一系列的假設(shè),然后通過(guò)數(shù)據(jù)查詢和分析來(lái)驗(yàn)證或否定假設(shè),最終得到自己的結(jié)論,它在本質(zhì)上是一個(gè)演繹推理的過(guò)程。而數(shù)據(jù)挖掘是按照給定的算法,自動(dòng)地對(duì)數(shù)據(jù)進(jìn)行歸納、分析和推理,從中發(fā)掘出潛在的模式,它在本質(zhì)上是一個(gè)歸納的過(guò)程。

        認(rèn)識(shí)數(shù)據(jù)挖掘應(yīng)避免走向兩個(gè)極端。有的人認(rèn)為數(shù)據(jù)挖掘一無(wú)是處。事實(shí)上,數(shù)據(jù)挖掘已經(jīng)被廣泛應(yīng)用于金融、保險(xiǎn)、通訊、商業(yè)、制造、體育、醫(yī)療衛(wèi)生等領(lǐng)域,且成效明顯;也有的人認(rèn)為數(shù)據(jù)挖掘無(wú)所不能。事實(shí)上,數(shù)據(jù)挖掘只是一個(gè)幫助人們從海量數(shù)據(jù)中去發(fā)現(xiàn)各種假設(shè)的工具,至于假設(shè)是否正確,還需放到實(shí)踐中去驗(yàn)證。

        熟悉領(lǐng)域業(yè)務(wù)

        普遍認(rèn)為,數(shù)據(jù)挖掘在某領(lǐng)域的成功不能期望于通用的輔助開發(fā)工具,而應(yīng)該是數(shù)據(jù)挖掘概念與特定領(lǐng)域業(yè)務(wù)邏輯相結(jié)合的縱向解決方案。也就是說(shuō),數(shù)據(jù)挖掘不可能在缺乏指導(dǎo)的情況下自動(dòng)地發(fā)現(xiàn)規(guī)則,這也是數(shù)據(jù)挖掘?yàn)楹螞](méi)有在特定領(lǐng)域被廣泛應(yīng)用的主要原因之一。

        跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn)(Cross-Industry Standard Process for Data Mining,簡(jiǎn)稱CRISP-DM)是業(yè)界廣為認(rèn)可的數(shù)據(jù)挖掘方法論,它將數(shù)據(jù)挖掘過(guò)程分為六個(gè)階段(如圖2所示):“業(yè)務(wù)理解”是從業(yè)務(wù)的角度理解需求,定義問(wèn)題;“數(shù)據(jù)理解”從現(xiàn)行的應(yīng)用系統(tǒng)入手,深入了解和認(rèn)識(shí)數(shù)據(jù);“數(shù)據(jù)準(zhǔn)備”選擇與要探索問(wèn)題相關(guān)的數(shù)據(jù)子集并清洗數(shù)據(jù);“建?!奔唇Y(jié)合業(yè)務(wù)選擇算法、調(diào)整閾值,建立挖掘模型;“評(píng)估”在實(shí)際中檢驗(yàn)挖掘的結(jié)論,重點(diǎn)考慮是否符合目標(biāo);“部署”會(huì)獲得的知識(shí)以便于用戶使用的方式重新組織和展現(xiàn)。業(yè)務(wù)研究貫穿了整個(gè)數(shù)據(jù)挖掘過(guò)程,它也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問(wèn)。

        深入認(rèn)知數(shù)據(jù)

        一直以來(lái),人們給予數(shù)據(jù)研究的關(guān)注較少。然而,它是最基礎(chǔ)的工作,整個(gè)數(shù)據(jù)挖掘過(guò)程中有近80%的時(shí)間都是在準(zhǔn)備數(shù)據(jù)。數(shù)據(jù)的價(jià)值在于正確的解讀,如果不能正確選用數(shù)據(jù),就無(wú)法保證挖掘的有效性。對(duì)數(shù)據(jù)的認(rèn)知應(yīng)當(dāng)結(jié)合具體業(yè)務(wù),包含兩部分內(nèi)容:

        一是認(rèn)知數(shù)據(jù)的屬性。它關(guān)系到后續(xù)算法的選擇以及挖掘行動(dòng)的成敗。數(shù)據(jù)屬性可細(xì)分為外部屬性和內(nèi)部屬性。外部屬性是指數(shù)據(jù)的來(lái)源、可獲?。ㄔL問(wèn))性、可理解性以及對(duì)業(yè)務(wù)工作的體現(xiàn)程度;內(nèi)部屬性是指數(shù)據(jù)的結(jié)構(gòu)、屬性值類型以及屬性間的關(guān)聯(lián)等。

        二是認(rèn)知數(shù)據(jù)的質(zhì)量。它關(guān)系到數(shù)據(jù)挖掘的效率以及挖掘結(jié)果的可靠性。一般來(lái)說(shuō),基于各種各樣的原因,數(shù)據(jù)的質(zhì)量大都不高,因此,數(shù)據(jù)挖掘的大部分精力都耗費(fèi)在如何提高數(shù)據(jù)的質(zhì)量上。數(shù)據(jù)質(zhì)量有多種考量方法,可以簡(jiǎn)單地認(rèn)為它是反映數(shù)據(jù)對(duì)特定應(yīng)用的滿足程度,包括完整性、一致性、準(zhǔn)確性和及時(shí)性等指標(biāo)。

        就無(wú)線電管理的數(shù)據(jù)而言,各類數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)對(duì)數(shù)據(jù)實(shí)體、實(shí)體屬性、實(shí)體間的關(guān)系都有完備的數(shù)學(xué)建模,因此,數(shù)據(jù)具有良好的屬性,總體上質(zhì)量較高,但也存在一些諸如數(shù)據(jù)拼寫錯(cuò)誤、數(shù)據(jù)值無(wú)效、記錄重復(fù)等實(shí)例層面的缺陷,需要結(jié)合業(yè)務(wù)采取針對(duì)措施來(lái)加以清洗。

        選擇適用的算法

        算法(Algorithms)是數(shù)據(jù)挖掘的核心,也是業(yè)界學(xué)者研究和貢獻(xiàn)最多的領(lǐng)域。數(shù)據(jù)挖掘的算法較為齊全和成熟,同一問(wèn)題可以用不同的方法解決,同一方法又可以用不同的算法來(lái)實(shí)現(xiàn),例如分類功能就可以有多種算法來(lái)實(shí)現(xiàn)(如下表所示),它們各有優(yōu)劣。

        常用分類方法比較表

        總之,算法的選擇必須謹(jǐn)慎,每種算法都有各自的適用場(chǎng)景,所以必須緊密結(jié)合業(yè)務(wù),根據(jù)挖掘的任務(wù)和數(shù)據(jù)的情況來(lái)加以選擇。算法并非越高深的越好,適用的才是最好的。它的評(píng)估標(biāo)準(zhǔn)包括挖掘的有效性、可靠性及運(yùn)行效率等指標(biāo)。同時(shí),算法的使用應(yīng)當(dāng)靈活,成熟的算法多為普適設(shè)計(jì),而特定領(lǐng)域的挖掘任務(wù)有其特定的約束條件,因此照搬算法未必能夠圓滿解決問(wèn)題,往往需要根據(jù)實(shí)際情況調(diào)整或者改進(jìn)算法,必要時(shí)也可組合使用多種算法。

        雖然數(shù)據(jù)挖掘的結(jié)果是不可預(yù)期的,但是基本的應(yīng)用方向是可以預(yù)想的。比如可以挖掘頻譜監(jiān)測(cè)數(shù)據(jù),嘗試應(yīng)用概念描述功能以探究頻譜的時(shí)間、空間和頻率特性;也可以嘗試應(yīng)用序列模式挖掘來(lái)幫助鑒別非法信號(hào)和查處干擾等等。數(shù)據(jù)挖掘的前景必將精彩紛呈。

        猜你喜歡
        數(shù)據(jù)挖掘規(guī)則領(lǐng)域
        撐竿跳規(guī)則的制定
        數(shù)獨(dú)的規(guī)則和演變
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        領(lǐng)域·對(duì)峙
        青年生活(2019年23期)2019-09-10 12:55:43
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        久久精品一区二区免费播放| 偷拍综合在线视频二区| 四虎影视久久久免费观看| 男女啪啪永久免费观看网站| 免费毛片性天堂| 亚洲精品一区二区三区国产| 亚洲黄色一级在线观看| 麻豆一区二区三区蜜桃免费| 极品熟妇大蝴蝶20p| 日本护士一区二区三区高清热线| 伊人久久大香线蕉av不变影院| 国产欧美精品一区二区三区四区| 国产乱人伦av在线无码| 成人国产在线观看高清不卡| 国产色第一区不卡高清| 亚洲av日韩av永久无码下载| 亚洲欧美日韩综合久久| 国产人成无码视频在线1000| 午夜免费观看一区二区三区| 日本丰满熟妇videossexhd| 日日摸夜夜添无码无码av| 人妻少妇看A偷人无码电影| 各类熟女熟妇激情自拍 | 午夜裸体性播放| 亚洲av色福利天堂| 午夜日本精品一区二区| 亚洲精品一品区二品区三区| 国产深夜男女无套内射| 无码人妻少妇久久中文字幕蜜桃| 一二区视频免费在线观看| 亚洲av成人一区二区三区本码| 男男受被攻做哭娇喘声视频| 在线观看亚洲精品国产| 国产av一啪一区二区| 日本少妇浓毛bbwbbwbbw| 国产午夜无码视频免费网站| 魔鬼身材极品女神在线| 国产综合精品久久99之一| 欧美天欧美天堂aⅴ在线| 久久精品成人亚洲另类欧美| 最新国产激情视频在线观看|