管軍偉
無(wú)線電管理各類數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)的制訂,科學(xué)地定義了數(shù)據(jù)模型。網(wǎng)格化監(jiān)測(cè)等項(xiàng)目的推廣,加強(qiáng)了數(shù)據(jù)的時(shí)空關(guān)聯(lián)屬性,數(shù)據(jù)世界描述現(xiàn)實(shí)世界的能力明顯增強(qiáng)。然而,傳統(tǒng)的數(shù)據(jù)分析技術(shù)已無(wú)力應(yīng)對(duì)當(dāng)今的海量數(shù)據(jù)。令人慶幸的是,專用于破解此類難題的數(shù)據(jù)挖掘技術(shù)已枕戈待旦。在整個(gè)數(shù)據(jù)挖掘過(guò)程中,近80%的時(shí)間都是在準(zhǔn)備數(shù)據(jù),可見,前期準(zhǔn)備對(duì)數(shù)據(jù)挖掘具有重要意義。
數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱DM)是從大量的數(shù)據(jù)中挖掘出隱含的、未知的、用戶可能感興趣的和對(duì)決策有潛在價(jià)值的知識(shí)和規(guī)則。數(shù)據(jù)挖掘融合了數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、人工智能等學(xué)科的知識(shí),能夠提供多種功能:概念描述——根據(jù)數(shù)據(jù)的微觀特征來(lái)表征數(shù)據(jù)集;關(guān)聯(lián)分析——揭示事物之間的依賴或者關(guān)聯(lián)關(guān)系;預(yù)測(cè)分析——根據(jù)歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù),預(yù)測(cè)未來(lái)數(shù)據(jù);聚類分析——發(fā)現(xiàn)內(nèi)在的規(guī)則,識(shí)別出緊密相關(guān)的觀測(cè)值組群;異常檢測(cè)——識(shí)別出特征顯著不同于其他數(shù)據(jù)的觀測(cè)值。
嚴(yán)格地說(shuō),數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases, 簡(jiǎn)稱KDD)的一個(gè)步驟(如圖1所示),但在實(shí)際中,兩者通常被等同視之,筆者也循例統(tǒng)一使用“數(shù)據(jù)挖掘”一詞加以表述。
數(shù)據(jù)挖掘一開始就是面向應(yīng)用的,它封裝了相關(guān)學(xué)科中復(fù)雜高深的理論和技術(shù),大幅降低了應(yīng)用門檻。然而,成功的數(shù)據(jù)挖掘并非一蹴而就,需要從幾個(gè)方面著手準(zhǔn)備:
正確認(rèn)識(shí)數(shù)據(jù)挖掘
一般來(lái)說(shuō),數(shù)據(jù)挖掘處理的數(shù)據(jù)規(guī)模都很大,挖掘出來(lái)的結(jié)果是不確定的,只有結(jié)合領(lǐng)域知識(shí)才能判斷其價(jià)值。數(shù)據(jù)挖掘既要擔(dān)負(fù)發(fā)現(xiàn)潛在規(guī)則的任務(wù),還要應(yīng)對(duì)新數(shù)據(jù)的管理和規(guī)則維護(hù)。規(guī)則的發(fā)現(xiàn)基于大樣本的統(tǒng)計(jì)規(guī)律,當(dāng)置信度達(dá)到某一閾值時(shí),就可以認(rèn)為規(guī)則成立。
顯而易見,數(shù)據(jù)挖掘不同于傳統(tǒng)的決策支持系統(tǒng)。傳統(tǒng)的決策支持系統(tǒng)通常是先建立一系列的假設(shè),然后通過(guò)數(shù)據(jù)查詢和分析來(lái)驗(yàn)證或否定假設(shè),最終得到自己的結(jié)論,它在本質(zhì)上是一個(gè)演繹推理的過(guò)程。而數(shù)據(jù)挖掘是按照給定的算法,自動(dòng)地對(duì)數(shù)據(jù)進(jìn)行歸納、分析和推理,從中發(fā)掘出潛在的模式,它在本質(zhì)上是一個(gè)歸納的過(guò)程。
認(rèn)識(shí)數(shù)據(jù)挖掘應(yīng)避免走向兩個(gè)極端。有的人認(rèn)為數(shù)據(jù)挖掘一無(wú)是處。事實(shí)上,數(shù)據(jù)挖掘已經(jīng)被廣泛應(yīng)用于金融、保險(xiǎn)、通訊、商業(yè)、制造、體育、醫(yī)療衛(wèi)生等領(lǐng)域,且成效明顯;也有的人認(rèn)為數(shù)據(jù)挖掘無(wú)所不能。事實(shí)上,數(shù)據(jù)挖掘只是一個(gè)幫助人們從海量數(shù)據(jù)中去發(fā)現(xiàn)各種假設(shè)的工具,至于假設(shè)是否正確,還需放到實(shí)踐中去驗(yàn)證。
熟悉領(lǐng)域業(yè)務(wù)
普遍認(rèn)為,數(shù)據(jù)挖掘在某領(lǐng)域的成功不能期望于通用的輔助開發(fā)工具,而應(yīng)該是數(shù)據(jù)挖掘概念與特定領(lǐng)域業(yè)務(wù)邏輯相結(jié)合的縱向解決方案。也就是說(shuō),數(shù)據(jù)挖掘不可能在缺乏指導(dǎo)的情況下自動(dòng)地發(fā)現(xiàn)規(guī)則,這也是數(shù)據(jù)挖掘?yàn)楹螞](méi)有在特定領(lǐng)域被廣泛應(yīng)用的主要原因之一。
跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn)(Cross-Industry Standard Process for Data Mining,簡(jiǎn)稱CRISP-DM)是業(yè)界廣為認(rèn)可的數(shù)據(jù)挖掘方法論,它將數(shù)據(jù)挖掘過(guò)程分為六個(gè)階段(如圖2所示):“業(yè)務(wù)理解”是從業(yè)務(wù)的角度理解需求,定義問(wèn)題;“數(shù)據(jù)理解”從現(xiàn)行的應(yīng)用系統(tǒng)入手,深入了解和認(rèn)識(shí)數(shù)據(jù);“數(shù)據(jù)準(zhǔn)備”選擇與要探索問(wèn)題相關(guān)的數(shù)據(jù)子集并清洗數(shù)據(jù);“建?!奔唇Y(jié)合業(yè)務(wù)選擇算法、調(diào)整閾值,建立挖掘模型;“評(píng)估”在實(shí)際中檢驗(yàn)挖掘的結(jié)論,重點(diǎn)考慮是否符合目標(biāo);“部署”會(huì)獲得的知識(shí)以便于用戶使用的方式重新組織和展現(xiàn)。業(yè)務(wù)研究貫穿了整個(gè)數(shù)據(jù)挖掘過(guò)程,它也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問(wèn)。
深入認(rèn)知數(shù)據(jù)
一直以來(lái),人們給予數(shù)據(jù)研究的關(guān)注較少。然而,它是最基礎(chǔ)的工作,整個(gè)數(shù)據(jù)挖掘過(guò)程中有近80%的時(shí)間都是在準(zhǔn)備數(shù)據(jù)。數(shù)據(jù)的價(jià)值在于正確的解讀,如果不能正確選用數(shù)據(jù),就無(wú)法保證挖掘的有效性。對(duì)數(shù)據(jù)的認(rèn)知應(yīng)當(dāng)結(jié)合具體業(yè)務(wù),包含兩部分內(nèi)容:
一是認(rèn)知數(shù)據(jù)的屬性。它關(guān)系到后續(xù)算法的選擇以及挖掘行動(dòng)的成敗。數(shù)據(jù)屬性可細(xì)分為外部屬性和內(nèi)部屬性。外部屬性是指數(shù)據(jù)的來(lái)源、可獲?。ㄔL問(wèn))性、可理解性以及對(duì)業(yè)務(wù)工作的體現(xiàn)程度;內(nèi)部屬性是指數(shù)據(jù)的結(jié)構(gòu)、屬性值類型以及屬性間的關(guān)聯(lián)等。
二是認(rèn)知數(shù)據(jù)的質(zhì)量。它關(guān)系到數(shù)據(jù)挖掘的效率以及挖掘結(jié)果的可靠性。一般來(lái)說(shuō),基于各種各樣的原因,數(shù)據(jù)的質(zhì)量大都不高,因此,數(shù)據(jù)挖掘的大部分精力都耗費(fèi)在如何提高數(shù)據(jù)的質(zhì)量上。數(shù)據(jù)質(zhì)量有多種考量方法,可以簡(jiǎn)單地認(rèn)為它是反映數(shù)據(jù)對(duì)特定應(yīng)用的滿足程度,包括完整性、一致性、準(zhǔn)確性和及時(shí)性等指標(biāo)。
就無(wú)線電管理的數(shù)據(jù)而言,各類數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)對(duì)數(shù)據(jù)實(shí)體、實(shí)體屬性、實(shí)體間的關(guān)系都有完備的數(shù)學(xué)建模,因此,數(shù)據(jù)具有良好的屬性,總體上質(zhì)量較高,但也存在一些諸如數(shù)據(jù)拼寫錯(cuò)誤、數(shù)據(jù)值無(wú)效、記錄重復(fù)等實(shí)例層面的缺陷,需要結(jié)合業(yè)務(wù)采取針對(duì)措施來(lái)加以清洗。
選擇適用的算法
算法(Algorithms)是數(shù)據(jù)挖掘的核心,也是業(yè)界學(xué)者研究和貢獻(xiàn)最多的領(lǐng)域。數(shù)據(jù)挖掘的算法較為齊全和成熟,同一問(wèn)題可以用不同的方法解決,同一方法又可以用不同的算法來(lái)實(shí)現(xiàn),例如分類功能就可以有多種算法來(lái)實(shí)現(xiàn)(如下表所示),它們各有優(yōu)劣。
常用分類方法比較表
總之,算法的選擇必須謹(jǐn)慎,每種算法都有各自的適用場(chǎng)景,所以必須緊密結(jié)合業(yè)務(wù),根據(jù)挖掘的任務(wù)和數(shù)據(jù)的情況來(lái)加以選擇。算法并非越高深的越好,適用的才是最好的。它的評(píng)估標(biāo)準(zhǔn)包括挖掘的有效性、可靠性及運(yùn)行效率等指標(biāo)。同時(shí),算法的使用應(yīng)當(dāng)靈活,成熟的算法多為普適設(shè)計(jì),而特定領(lǐng)域的挖掘任務(wù)有其特定的約束條件,因此照搬算法未必能夠圓滿解決問(wèn)題,往往需要根據(jù)實(shí)際情況調(diào)整或者改進(jìn)算法,必要時(shí)也可組合使用多種算法。
雖然數(shù)據(jù)挖掘的結(jié)果是不可預(yù)期的,但是基本的應(yīng)用方向是可以預(yù)想的。比如可以挖掘頻譜監(jiān)測(cè)數(shù)據(jù),嘗試應(yīng)用概念描述功能以探究頻譜的時(shí)間、空間和頻率特性;也可以嘗試應(yīng)用序列模式挖掘來(lái)幫助鑒別非法信號(hào)和查處干擾等等。數(shù)據(jù)挖掘的前景必將精彩紛呈。