作者簡介:王耀文(1978.05-),女,遼寧營口人,中國人民大學(xué)在職研究生,本科學(xué)歷,研究方向:統(tǒng)計學(xué)(數(shù)據(jù)分析方向)。
摘 要:隨著我國經(jīng)濟(jì)發(fā)展水平的不斷提高,各行各業(yè)得到了顯著發(fā)展,數(shù)據(jù)統(tǒng)計學(xué)方法也變得日趨多樣,數(shù)據(jù)挖掘是建立在數(shù)據(jù)庫與人工智能基礎(chǔ)上發(fā)展起來的一種高新技術(shù),其功能是從眾多的數(shù)據(jù)當(dāng)中挖掘到最有價值的信息,進(jìn)而實現(xiàn)對數(shù)據(jù)資源的高效利用。聚類分析能夠被當(dāng)成一種數(shù)據(jù)分析工具,能真實反映出數(shù)據(jù)分布情況,本文主要對統(tǒng)計學(xué)在數(shù)據(jù)挖掘中的應(yīng)用進(jìn)行了探討,從而表現(xiàn)統(tǒng)計學(xué)在數(shù)據(jù)挖掘應(yīng)用中的重要性。
關(guān)鍵詞:統(tǒng)計學(xué)方法;數(shù)據(jù)挖掘;應(yīng)用分析
數(shù)據(jù)挖掘就是指從眾多實際應(yīng)用數(shù)據(jù)中獲取批量大、有噪聲、且隨機性強的數(shù)據(jù),將潛在的信息與數(shù)據(jù)提取出來,就是從數(shù)據(jù)中挖掘有價值的知識,而大多數(shù)原始數(shù)據(jù)具有一定的結(jié)構(gòu)化特征,比如,關(guān)系數(shù)據(jù)庫中的數(shù)據(jù);也可以通過文本、圖形、圖像等半結(jié)構(gòu)化發(fā)掘有用知識,這些知識可以是數(shù)學(xué)的也可以是非數(shù)學(xué)形式的;數(shù)據(jù)挖掘能以歸納形式存在,能夠被廣泛應(yīng)用到信息查詢、信息管理、信息決策控制中,方便數(shù)據(jù)的維護(hù)與管理。由此可見,數(shù)據(jù)挖掘是一門交叉性強的學(xué)科,加強對其的研究非常有意義,下面將對統(tǒng)計方法在數(shù)據(jù)挖掘中的具體應(yīng)用進(jìn)行分析。
一、數(shù)據(jù)挖掘與統(tǒng)計學(xué)的關(guān)系
(一)數(shù)據(jù)挖掘的內(nèi)涵
通常來說,數(shù)據(jù)挖掘的定義較為模糊,沒有明確界定,大部分對其的定義只是停留在其背景與觀點的內(nèi)容上。通過對不同觀點的統(tǒng)一整理,人們最終將其描述為:從大量多樣化的信息中發(fā)現(xiàn)隱晦性、規(guī)律性等潛在信息,并對這些信息進(jìn)行創(chuàng)造、加工的過程。數(shù)據(jù)挖掘作為一門重要的交叉學(xué)科,能夠?qū)?shù)據(jù)庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等眾多的科學(xué)融入到一起,從而實現(xiàn)技術(shù)與理論的創(chuàng)新與發(fā)展[1]。其中,數(shù)據(jù)庫、人工智能與統(tǒng)計學(xué)是數(shù)據(jù)挖掘當(dāng)中的三大支柱理論。數(shù)據(jù)挖掘的目的是從數(shù)據(jù)庫當(dāng)中發(fā)掘各種隱含的知識與信息,此過程的方法非常多,有統(tǒng)計學(xué)知識、遺傳算法、粗集方法、決策法、模糊邏輯法等,還可以應(yīng)用向鄰近的可視技術(shù)、模式識別技術(shù)等,在以上所有技術(shù)的支持上能夠使數(shù)據(jù)挖掘更為科學(xué)、有序。
(二)數(shù)據(jù)挖掘與統(tǒng)計學(xué)間的關(guān)系
通常來說,統(tǒng)計學(xué)的主要功能是對統(tǒng)計原理與統(tǒng)計方法進(jìn)行研究的科學(xué)。具體來說就是指對數(shù)字資料進(jìn)行的收集、整理、排序、分析、利用的過程,數(shù)字資料是各種信息的歸納與總結(jié),可以將其作為特性原理的認(rèn)知、推理方法[2]。而統(tǒng)計學(xué)則表示的是使用專業(yè)的統(tǒng)計學(xué)、概率理論原理等對各種屬性關(guān)系的統(tǒng)計與分析過程,通過分析成功找到屬性間的關(guān)聯(lián)與發(fā)展的規(guī)律。在此過程中,統(tǒng)計分析方法是數(shù)據(jù)挖掘最為重要的手段之一。
在數(shù)據(jù)挖掘這一課題被提出來之前,統(tǒng)計分析技術(shù)對于人們來說更熟悉,也是人們?nèi)粘i_展工作、尋找數(shù)據(jù)間規(guī)律最常使用的方法。但是不能簡單的將數(shù)據(jù)挖掘作為統(tǒng)計學(xué)的延伸與替代工具,而是要將兩者的區(qū)別認(rèn)識到位,再結(jié)合兩者間的不同特點分析其應(yīng)用特點[3]。大部分的統(tǒng)計學(xué)分析技術(shù)都是建立在數(shù)學(xué)理論與技巧上的,預(yù)測通常較為準(zhǔn)確,效果能夠讓大部分人滿意。數(shù)據(jù)挖掘能夠充分借鑒并吸收統(tǒng)計學(xué)技術(shù),在融入到自身特點以后成為一種數(shù)據(jù)挖掘技術(shù)。
統(tǒng)計學(xué)與數(shù)據(jù)挖掘存在的目標(biāo)都是一致的,就是不斷對數(shù)據(jù)結(jié)構(gòu)進(jìn)行發(fā)掘。鑒于統(tǒng)計學(xué)與數(shù)據(jù)挖掘在目標(biāo)上的一致性,致使很多研究學(xué)者與專家將數(shù)據(jù)挖掘作為了統(tǒng)計學(xué)的一個分支機構(gòu)[4]。但是這種認(rèn)知非常不正確,因為數(shù)據(jù)挖掘不僅體現(xiàn)在與統(tǒng)計學(xué)的關(guān)系上還體現(xiàn)在思想、工具與方法上,尤其是在計算機科學(xué)領(lǐng)域?qū)?shù)據(jù)挖掘起到的作用非常大。比如,通過借助數(shù)據(jù)庫技術(shù)與人工智能的學(xué)習(xí),能夠關(guān)注到更多統(tǒng)計學(xué)與數(shù)據(jù)挖掘上的共通點,但是兩者存在的差異依然非常大。數(shù)據(jù)挖掘就是指對大量的數(shù)據(jù)信息不斷挖掘的過程,DM能夠?qū)?shù)據(jù)模式內(nèi)的數(shù)據(jù)關(guān)系進(jìn)行充分挖掘,并對觀測到的數(shù)據(jù)庫處理有著極高的關(guān)注度。
二、數(shù)據(jù)挖掘的主要過程
從數(shù)據(jù)本身出發(fā)探討數(shù)據(jù)挖掘過程,數(shù)據(jù)挖掘的過程分為信息的收集、數(shù)據(jù)集成、數(shù)據(jù)處理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┑冗^程。
首先,要將業(yè)務(wù)對象確定下來,明確不同業(yè)務(wù)定義,并認(rèn)清數(shù)據(jù)挖掘的目的,這是做好數(shù)據(jù)挖掘最關(guān)鍵的一步,也是最重要的一步,雖然挖掘的結(jié)果不能被準(zhǔn)確預(yù)測到,但卻需要對問題的可預(yù)見性進(jìn)行探索[5]。其次,還要做好數(shù)據(jù)準(zhǔn)備工作,包含數(shù)據(jù)清理、數(shù)據(jù)變換等工作,數(shù)據(jù)清理的實際意義是將噪聲與空缺值補全,針對這一問題,可以使用平滑技術(shù),而空缺值的處理則是屬性中最常見的,可以將統(tǒng)計中最可能出現(xiàn)的值作為一個空缺值[6]。
信息收集指的是按照特定的數(shù)據(jù)分析對象,可以將分析中需要的特征信息抽象出來,并在此基礎(chǔ)上選擇出較為科學(xué)、適合的信息收集方法,將全部的信息全部錄入到特定的數(shù)據(jù)庫中。如果數(shù)據(jù)量較大,則可以選擇一個專門的管理數(shù)據(jù)的倉庫,實現(xiàn)對信息的有效保護(hù)與管理;數(shù)據(jù)集成就是指將來源不同、格式不同、性質(zhì)不同、特點不同的數(shù)據(jù)集成到一起,進(jìn)而為企業(yè)提供更為全面、系統(tǒng)的數(shù)據(jù)共享平臺;數(shù)據(jù)變換就是通過聚集、概化、規(guī)范化等方式對數(shù)據(jù)進(jìn)行挖掘,對于一些實用數(shù)據(jù),則可以通過分層與分離方式實現(xiàn)對數(shù)據(jù)的轉(zhuǎn)換;數(shù)據(jù)挖掘就是結(jié)合數(shù)據(jù)倉庫中的數(shù)據(jù)信息點,并選擇正確的分析方法實現(xiàn)對有價值數(shù)據(jù)的挖掘,事例推理、規(guī)則推理、遺傳算法等都是應(yīng)用較多的方法[7]。
三、統(tǒng)計學(xué)方法中的聚類分析
在統(tǒng)計學(xué)聚類方法基礎(chǔ)上能夠構(gòu)建出潛在的概率分布假設(shè),可以使用試圖優(yōu)化的方法構(gòu)建數(shù)據(jù)與統(tǒng)計模型的擬合效果?;诮y(tǒng)計學(xué)聚類方法當(dāng)中,Cobweb方法是在1987年由Fisher提出的,能夠以分類樹作為層次聚類創(chuàng)建的方法,在分類樹上,每一個節(jié)點都能代表著一個概念,該方法就是對節(jié)點概率描述的過程。Cobweb方法還使用了啟發(fā)式估算方式,使用分類效用對分類樹的構(gòu)建進(jìn)行指導(dǎo),從而實現(xiàn)對最高分類的劃分目的,能夠?qū)⒉煌诸悓ο笕繗w類到一個類別中,并依據(jù)這些內(nèi)容創(chuàng)建出一個新的類別。但是這種方法也存在一定局限性,局限性在于假設(shè)的屬性概率分布都是獨立的,并不能始終處于成立狀態(tài)中。
只有在掌握了Cobweb算法以后才能對概念聚類算法的特點進(jìn)行探究。Cobweb算法能夠以分類樹方式創(chuàng)建層次聚類,可以將概率表現(xiàn)為p(Ai=Vii/Ck)條件概率,其中,Ai=Vij是一個類別下的,同屬于一個值對,Ck是概念類中的一種。在給出一個特定的對象以后,Cobweb能夠?qū)⑷繉ο笳系揭粋€節(jié)點上,從而計算出分類效應(yīng),分?jǐn)?shù)最高的效用就是對象所在的節(jié)點位置[8]。如果對象構(gòu)建失去節(jié)點,則Cobweb能夠給出一個新的節(jié)點,并對其進(jìn)行分類使用,這種節(jié)點計算方法起步較晚,能夠?qū)ΜF(xiàn)有的節(jié)點與計算相互對比,從而劃分出最高的分類指標(biāo),將全部對象統(tǒng)一到已有的分類中,從而構(gòu)建出一個新的類別。
Classitci是Cobw eb方法的一種延伸與發(fā)展,能夠使用其完成聚類數(shù)據(jù)的處理,在該方法下,節(jié)點中的每一個存儲屬性都是處于連續(xù)分布狀態(tài)中,能夠?qū)⑵渥鳛榉诸愋Ч拚姆椒?,并以度量的形式表現(xiàn)出來,這種度量基礎(chǔ)上能夠?qū)崿F(xiàn)連續(xù)性的積分,從而降低分散發(fā)生率,該方法是積分過程而不是對屬性的求和過程。
Auto Class方法也是一種應(yīng)用較為普遍的聚類方法,該方法主要采用統(tǒng)計分析對結(jié)果類的數(shù)目進(jìn)行估算,還可以通過模型搜索方式分析空間中各種分類的可能性,還能夠自動對模型數(shù)量與模型形態(tài)進(jìn)行描述。在一定類別空間中,不同的類別內(nèi)屬性存在關(guān)聯(lián)性,不同的類別間具有相互繼承性,在層次結(jié)構(gòu)當(dāng)中,共享模型參數(shù)是非常重要的。
還有一種使用較為普遍的模型是混合模型,混合模型在統(tǒng)計學(xué)聚類方法上使用也非常普遍。該方法最為基本的思想就是概率分布決定著每一種聚類狀態(tài),并且模型中的每一個數(shù)據(jù)都是由多個概率在分布狀態(tài)下產(chǎn)生的?;旌夏P瓦€能夠作為一種半?yún)?shù)密度評估方法,其能夠?qū)?shù)估計與非參數(shù)估計的優(yōu)點全部集中到一起,并將參數(shù)估計法與非參數(shù)估價法的諸多優(yōu)點融合到一起,因為模型具有一定復(fù)雜性,為此,不能將其限制在概率密度函數(shù)表達(dá)形式上,這種復(fù)雜性決定了模型與求解存在關(guān)聯(lián),與樣本集合的聯(lián)系非常少。通過以上的研究可以了解到,數(shù)據(jù)發(fā)掘中應(yīng)用聚類方法非常有效,并且較為常見。比如,構(gòu)建出Cobweb模型與混合模型,采用Clara與Clarans方法中的抽樣技術(shù),將Denclue方法用在概率密度函數(shù)中。
結(jié)束語
統(tǒng)計學(xué)方法自產(chǎn)生開始已經(jīng)有非常久遠(yuǎn)的歷史,將嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)邏輯作為基礎(chǔ),將分類算法假定作為獨立條件,屬性值之前能夠相互保持獨立,對假定進(jìn)行計算,當(dāng)假定成立時,可以再與其他分類算法進(jìn)行對比,這種分類算法準(zhǔn)確性非常高。為此,其不僅能夠?qū)B續(xù)值進(jìn)行預(yù)測,還可以通過線性回歸方程對系數(shù)進(jìn)行比較,從而歸納出結(jié)果。
(作者單位:中國人民大學(xué))
參考文獻(xiàn):
[1] 張愛菊.基于數(shù)據(jù)挖掘技術(shù)的瓦斯氣體紅外光譜定量分析方法的研究[J].光譜學(xué)與光譜分析,2013,33(10):2646-2650.
[2] 許長福,李雄炎,譚鋒奇等.任務(wù)驅(qū)動數(shù)據(jù)挖掘方法的提出及在低阻油層識別中的應(yīng)用[J].吉林大學(xué)學(xué)報(地球科學(xué)版),2012,42(1):39-46.
[3] 鄭曉峰,王曙.基于粗糙集與關(guān)聯(lián)規(guī)則的道路運輸管理信息數(shù)據(jù)挖掘方法[J].華南理工大學(xué)學(xué)報(自然科學(xué)版),2014(2):132-138.
[4] 周復(fù)之.固定收益決策支持系統(tǒng)機理建模與數(shù)據(jù)挖掘的協(xié)同研究[J].系統(tǒng)工程理論與實踐,2010,29(12):38-45.
[5] 張繼福,張素蘭,蔣義勇等.基于約束概念格的天體光譜局部離群數(shù)據(jù)挖掘系統(tǒng)[J].光譜學(xué)與光譜分析,2011,29(2):551-555.
[6] 張欣欣,繆弈洲,張月紅等.CrossRef文本和數(shù)據(jù)挖掘服務(wù)——《浙江大學(xué)學(xué)報(英文版)》的實踐[J].中國科技期刊研究,2015,26(6):594-599.
[7] 林凌,吳紅杰,吳曉爽等.體表組織內(nèi)高譜圖:成分信息和結(jié)構(gòu)信息同步檢測新技術(shù)[J].光譜學(xué)與光譜分析,2011,31(1):201-204.
[8] 王珉,胡蔦慶,秦國軍等.LRE試車數(shù)據(jù)挖掘中基于最大散度差的模糊聚類分析方法[J].國防科技大學(xué)學(xué)報,2011,33(3):164-168.