亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)挖掘的前期準(zhǔn)備

2013-04-29 00:44:03管軍偉

上海信息化 2013年8期

管軍偉

無(wú)線電管理各類數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)的制訂，科學(xué)地定義了數(shù)據(jù)模型。網(wǎng)格化監(jiān)測(cè)等項(xiàng)目的推廣，加強(qiáng)了數(shù)據(jù)的時(shí)空關(guān)聯(lián)屬性，數(shù)據(jù)世界描述現(xiàn)實(shí)世界的能力明顯增強(qiáng)。然而，傳統(tǒng)的數(shù)據(jù)分析技術(shù)已無(wú)力應(yīng)對(duì)當(dāng)今的海量數(shù)據(jù)。令人慶幸的是，專用于破解此類難題的數(shù)據(jù)挖掘技術(shù)已枕戈待旦。在整個(gè)數(shù)據(jù)挖掘過(guò)程中，近80%的時(shí)間都是在準(zhǔn)備數(shù)據(jù)，可見，前期準(zhǔn)備對(duì)數(shù)據(jù)挖掘具有重要意義。

數(shù)據(jù)挖掘（Data Mining，簡(jiǎn)稱DM）是從大量的數(shù)據(jù)中挖掘出隱含的、未知的、用戶可能感興趣的和對(duì)決策有潛在價(jià)值的知識(shí)和規(guī)則。數(shù)據(jù)挖掘融合了數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、人工智能等學(xué)科的知識(shí)，能夠提供多種功能：概念描述——根據(jù)數(shù)據(jù)的微觀特征來(lái)表征數(shù)據(jù)集；關(guān)聯(lián)分析——揭示事物之間的依賴或者關(guān)聯(lián)關(guān)系；預(yù)測(cè)分析——根據(jù)歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)，預(yù)測(cè)未來(lái)數(shù)據(jù)；聚類分析——發(fā)現(xiàn)內(nèi)在的規(guī)則，識(shí)別出緊密相關(guān)的觀測(cè)值組群；異常檢測(cè)——識(shí)別出特征顯著不同于其他數(shù)據(jù)的觀測(cè)值。

嚴(yán)格地說(shuō)，數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)（Knowledge Discovery in Databases，簡(jiǎn)稱KDD）的一個(gè)步驟（如圖1所示），但在實(shí)際中，兩者通常被等同視之，筆者也循例統(tǒng)一使用“數(shù)據(jù)挖掘”一詞加以表述。

數(shù)據(jù)挖掘一開始就是面向應(yīng)用的，它封裝了相關(guān)學(xué)科中復(fù)雜高深的理論和技術(shù)，大幅降低了應(yīng)用門檻。然而，成功的數(shù)據(jù)挖掘并非一蹴而就，需要從幾個(gè)方面著手準(zhǔn)備：

正確認(rèn)識(shí)數(shù)據(jù)挖掘

一般來(lái)說(shuō)，數(shù)據(jù)挖掘處理的數(shù)據(jù)規(guī)模都很大，挖掘出來(lái)的結(jié)果是不確定的，只有結(jié)合領(lǐng)域知識(shí)才能判斷其價(jià)值。數(shù)據(jù)挖掘既要擔(dān)負(fù)發(fā)現(xiàn)潛在規(guī)則的任務(wù)，還要應(yīng)對(duì)新數(shù)據(jù)的管理和規(guī)則維護(hù)。規(guī)則的發(fā)現(xiàn)基于大樣本的統(tǒng)計(jì)規(guī)律，當(dāng)置信度達(dá)到某一閾值時(shí)，就可以認(rèn)為規(guī)則成立。

顯而易見，數(shù)據(jù)挖掘不同于傳統(tǒng)的決策支持系統(tǒng)。傳統(tǒng)的決策支持系統(tǒng)通常是先建立一系列的假設(shè)，然后通過(guò)數(shù)據(jù)查詢和分析來(lái)驗(yàn)證或否定假設(shè)，最終得到自己的結(jié)論，它在本質(zhì)上是一個(gè)演繹推理的過(guò)程。而數(shù)據(jù)挖掘是按照給定的算法，自動(dòng)地對(duì)數(shù)據(jù)進(jìn)行歸納、分析和推理，從中發(fā)掘出潛在的模式，它在本質(zhì)上是一個(gè)歸納的過(guò)程。

認(rèn)識(shí)數(shù)據(jù)挖掘應(yīng)避免走向兩個(gè)極端。有的人認(rèn)為數(shù)據(jù)挖掘一無(wú)是處。事實(shí)上，數(shù)據(jù)挖掘已經(jīng)被廣泛應(yīng)用于金融、保險(xiǎn)、通訊、商業(yè)、制造、體育、醫(yī)療衛(wèi)生等領(lǐng)域，且成效明顯；也有的人認(rèn)為數(shù)據(jù)挖掘無(wú)所不能。事實(shí)上，數(shù)據(jù)挖掘只是一個(gè)幫助人們從海量數(shù)據(jù)中去發(fā)現(xiàn)各種假設(shè)的工具，至于假設(shè)是否正確，還需放到實(shí)踐中去驗(yàn)證。

熟悉領(lǐng)域業(yè)務(wù)

普遍認(rèn)為，數(shù)據(jù)挖掘在某領(lǐng)域的成功不能期望于通用的輔助開發(fā)工具，而應(yīng)該是數(shù)據(jù)挖掘概念與特定領(lǐng)域業(yè)務(wù)邏輯相結(jié)合的縱向解決方案。也就是說(shuō)，數(shù)據(jù)挖掘不可能在缺乏指導(dǎo)的情況下自動(dòng)地發(fā)現(xiàn)規(guī)則，這也是數(shù)據(jù)挖掘?yàn)楹螞](méi)有在特定領(lǐng)域被廣泛應(yīng)用的主要原因之一。

跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn)（Cross-Industry Standard Process for Data Mining，簡(jiǎn)稱CRISP-DM）是業(yè)界廣為認(rèn)可的數(shù)據(jù)挖掘方法論，它將數(shù)據(jù)挖掘過(guò)程分為六個(gè)階段（如圖2所示）：“業(yè)務(wù)理解”是從業(yè)務(wù)的角度理解需求，定義問(wèn)題；“數(shù)據(jù)理解”從現(xiàn)行的應(yīng)用系統(tǒng)入手，深入了解和認(rèn)識(shí)數(shù)據(jù)；“數(shù)據(jù)準(zhǔn)備”選擇與要探索問(wèn)題相關(guān)的數(shù)據(jù)子集并清洗數(shù)據(jù)；“建?！奔唇Y(jié)合業(yè)務(wù)選擇算法、調(diào)整閾值，建立挖掘模型；“評(píng)估”在實(shí)際中檢驗(yàn)挖掘的結(jié)論，重點(diǎn)考慮是否符合目標(biāo)；“部署”會(huì)獲得的知識(shí)以便于用戶使用的方式重新組織和展現(xiàn)。業(yè)務(wù)研究貫穿了整個(gè)數(shù)據(jù)挖掘過(guò)程，它也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問(wèn)。

深入認(rèn)知數(shù)據(jù)

一直以來(lái)，人們給予數(shù)據(jù)研究的關(guān)注較少。然而，它是最基礎(chǔ)的工作，整個(gè)數(shù)據(jù)挖掘過(guò)程中有近80%的時(shí)間都是在準(zhǔn)備數(shù)據(jù)。數(shù)據(jù)的價(jià)值在于正確的解讀，如果不能正確選用數(shù)據(jù)，就無(wú)法保證挖掘的有效性。對(duì)數(shù)據(jù)的認(rèn)知應(yīng)當(dāng)結(jié)合具體業(yè)務(wù)，包含兩部分內(nèi)容：

一是認(rèn)知數(shù)據(jù)的屬性。它關(guān)系到后續(xù)算法的選擇以及挖掘行動(dòng)的成敗。數(shù)據(jù)屬性可細(xì)分為外部屬性和內(nèi)部屬性。外部屬性是指數(shù)據(jù)的來(lái)源、可獲?。ㄔL問(wèn)）性、可理解性以及對(duì)業(yè)務(wù)工作的體現(xiàn)程度；內(nèi)部屬性是指數(shù)據(jù)的結(jié)構(gòu)、屬性值類型以及屬性間的關(guān)聯(lián)等。

二是認(rèn)知數(shù)據(jù)的質(zhì)量。它關(guān)系到數(shù)據(jù)挖掘的效率以及挖掘結(jié)果的可靠性。一般來(lái)說(shuō)，基于各種各樣的原因，數(shù)據(jù)的質(zhì)量大都不高，因此，數(shù)據(jù)挖掘的大部分精力都耗費(fèi)在如何提高數(shù)據(jù)的質(zhì)量上。數(shù)據(jù)質(zhì)量有多種考量方法，可以簡(jiǎn)單地認(rèn)為它是反映數(shù)據(jù)對(duì)特定應(yīng)用的滿足程度，包括完整性、一致性、準(zhǔn)確性和及時(shí)性等指標(biāo)。

就無(wú)線電管理的數(shù)據(jù)而言，各類數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)對(duì)數(shù)據(jù)實(shí)體、實(shí)體屬性、實(shí)體間的關(guān)系都有完備的數(shù)學(xué)建模，因此，數(shù)據(jù)具有良好的屬性，總體上質(zhì)量較高，但也存在一些諸如數(shù)據(jù)拼寫錯(cuò)誤、數(shù)據(jù)值無(wú)效、記錄重復(fù)等實(shí)例層面的缺陷，需要結(jié)合業(yè)務(wù)采取針對(duì)措施來(lái)加以清洗。

選擇適用的算法

算法（Algorithms）是數(shù)據(jù)挖掘的核心，也是業(yè)界學(xué)者研究和貢獻(xiàn)最多的領(lǐng)域。數(shù)據(jù)挖掘的算法較為齊全和成熟，同一問(wèn)題可以用不同的方法解決，同一方法又可以用不同的算法來(lái)實(shí)現(xiàn)，例如分類功能就可以有多種算法來(lái)實(shí)現(xiàn)（如下表所示），它們各有優(yōu)劣。

常用分類方法比較表

總之，算法的選擇必須謹(jǐn)慎，每種算法都有各自的適用場(chǎng)景，所以必須緊密結(jié)合業(yè)務(wù)，根據(jù)挖掘的任務(wù)和數(shù)據(jù)的情況來(lái)加以選擇。算法并非越高深的越好，適用的才是最好的。它的評(píng)估標(biāo)準(zhǔn)包括挖掘的有效性、可靠性及運(yùn)行效率等指標(biāo)。同時(shí)，算法的使用應(yīng)當(dāng)靈活，成熟的算法多為普適設(shè)計(jì)，而特定領(lǐng)域的挖掘任務(wù)有其特定的約束條件，因此照搬算法未必能夠圓滿解決問(wèn)題，往往需要根據(jù)實(shí)際情況調(diào)整或者改進(jìn)算法，必要時(shí)也可組合使用多種算法。

雖然數(shù)據(jù)挖掘的結(jié)果是不可預(yù)期的，但是基本的應(yīng)用方向是可以預(yù)想的。比如可以挖掘頻譜監(jiān)測(cè)數(shù)據(jù)，嘗試應(yīng)用概念描述功能以探究頻譜的時(shí)間、空間和頻率特性；也可以嘗試應(yīng)用序列模式挖掘來(lái)幫助鑒別非法信號(hào)和查處干擾等等。數(shù)據(jù)挖掘的前景必將精彩紛呈。