【摘要】 電信各運營支撐系統(tǒng)所積累的海量歷史數(shù)據(jù)是企業(yè)的一筆寶貴財富,誰能正確地挖掘與分析隱含在數(shù)據(jù)中的知識,誰就能更好地向用戶提供產(chǎn)品與服務(wù),從而在競爭中脫穎而出。
【關(guān)鍵詞】 數(shù)據(jù)庫 數(shù)據(jù)挖掘 DT
一、引言
隨著信息技術(shù)的迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,從而產(chǎn)生了大量的數(shù)據(jù)。為了給決策者提供一個統(tǒng)一的全局視角,在許多領(lǐng)域建立了數(shù)據(jù)倉庫,但大量的數(shù)據(jù)往往使人們無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(Data Mining)技術(shù)由此應(yīng)運而生。
二、數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
三、數(shù)據(jù)挖掘的常用方法
數(shù)據(jù)挖掘方法可以粗分為:統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。統(tǒng)計方法可細(xì)分為:回歸分析、判別分析等。機器學(xué)習(xí)可細(xì)分為:遺傳算法等。神經(jīng)網(wǎng)絡(luò)方法可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析方法等。
(1)神經(jīng)網(wǎng)絡(luò)方法。它是數(shù)據(jù)挖掘中應(yīng)用最廣泛的技術(shù)。神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘方法是通過模仿人的神經(jīng)系統(tǒng)來反復(fù)訓(xùn)練學(xué)習(xí)數(shù)據(jù)集,從待分析的數(shù)據(jù)集中發(fā)現(xiàn)用于預(yù)測和分類的模式。神經(jīng)元網(wǎng)絡(luò)對于復(fù)雜情況仍能得到精確的預(yù)測結(jié)果,而且本身擁有自組織自適應(yīng)性、并行處理、分布存儲和高度容錯等特性非常迅速解決數(shù)據(jù)挖掘的問題,近年來很受人們關(guān)注;但神經(jīng)網(wǎng)絡(luò)不適合處理高維變量,其最大的缺點是不透明性,因為其無法解釋結(jié)果是如何產(chǎn)生的,及其在推理過程中所用的規(guī)則。神經(jīng)元網(wǎng)絡(luò)適合于結(jié)果比可理解性更重要的分類和預(yù)測的復(fù)雜情況,可用于聚類、分類和序列模式。
(2)遺傳算法。遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有隱含并行性、易于和其他模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用。遺傳算法可以體現(xiàn)在與神經(jīng)網(wǎng)絡(luò)、粗集等技術(shù)的結(jié)合上。遺傳算法可處理許多數(shù)據(jù)類型,同時可并行處理各種數(shù)據(jù),尤其用于優(yōu)化神經(jīng)元網(wǎng)絡(luò),然后從網(wǎng)絡(luò)提取規(guī)則,解決其技術(shù)難題。但是遺傳算法比較復(fù)雜,需要參數(shù)很多,計算量很大。
(3)決策樹方法。決策樹是一種常用于預(yù)測模型的算法,其中樹的非終端節(jié)點表示屬性,葉節(jié)點表示所屬的不同類別。根據(jù)訓(xùn)練數(shù)據(jù)集中數(shù)據(jù)的不同取值建立樹的分支,形成決策樹。它將大量數(shù)據(jù)進(jìn)行有目的的分類,從中找到有價值、潛在的信息。決策樹一般產(chǎn)生直觀、易理解的規(guī)則,描述簡單,分類速度快,適于對記錄分類或結(jié)果的預(yù)測,特別適合大規(guī)模的數(shù)據(jù)處理。
(4)關(guān)聯(lián)分析法。關(guān)聯(lián)是通過搜索系統(tǒng)中的所有事物,并從中找到出現(xiàn)條件概率較高的模式。關(guān)聯(lián)實際上就是數(shù)據(jù)對象之間相關(guān)性的確定,用關(guān)聯(lián)找出所有能將一組數(shù)據(jù)項和另一組數(shù)據(jù)項相聯(lián)系的規(guī)則,這種規(guī)則的建立并不是確定的關(guān)系,而是一個具有一定置信度的可能值,即事件發(fā)生的概率。關(guān)聯(lián)分析法直觀、易理解,但對于關(guān)聯(lián)度不高或相關(guān)性復(fù)雜的情況不太有效。
(5)粗集方法。粗集理論是一種研究不精確、不確定知識的數(shù)學(xué)工具。粗集方法不需要給出額外信息;簡化輸入信息的表達(dá)空間;算法簡單,容易操作。但粗集是數(shù)學(xué)基礎(chǔ)的集合論,難以直接處理連續(xù)的屬性。
(6)統(tǒng)計分析方法。在數(shù)據(jù)字段之間存在兩種關(guān)系:函數(shù)關(guān)系和相關(guān)關(guān)系,對它們的分析可采用統(tǒng)計學(xué)方法,也就是利用統(tǒng)計學(xué)原理對數(shù)據(jù)庫中信息進(jìn)行分析??蛇M(jìn)行常用統(tǒng)計、回歸分析、相關(guān)分析、差異分析等。此外還有模糊集方法、覆蓋正例排斥反例法、序列模式分析及可視化技術(shù)等,在此不再贅述。
四、結(jié)束語
數(shù)據(jù)挖掘技術(shù)及其應(yīng)用是目前國際上的一個研究熱點,并在各行各業(yè)中得到了很好的應(yīng)用,尤其對市場營銷方面做出了巨大貢獻(xiàn),體現(xiàn)了其優(yōu)越性和發(fā)展?jié)摿Α?/p>
參 考 文 獻(xiàn)
[1] 韓家煒,堪博 著,范明,孟小峰 譯. 數(shù)據(jù)挖掘概念與技術(shù)(第2版)[M] .北京:機械工業(yè)出版社. 2007
[2] 陳龍,張春紅,云亮等 編著. 電信運營支撐系統(tǒng)(第2版). 北京:人民郵電出版社. 2007