亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

統(tǒng)計學(xué)方法在數(shù)據(jù)挖掘中的應(yīng)用探究

2015-05-30 16:05:22王耀文

商 2015年28期

作者簡介：王耀文（1978.05-），女，遼寧營口人，中國人民大學(xué)在職研究生，本科學(xué)歷，研究方向：統(tǒng)計學(xué)（數(shù)據(jù)分析方向）。

摘要：隨著我國經(jīng)濟(jì)發(fā)展水平的不斷提高，各行各業(yè)得到了顯著發(fā)展，數(shù)據(jù)統(tǒng)計學(xué)方法也變得日趨多樣，數(shù)據(jù)挖掘是建立在數(shù)據(jù)庫與人工智能基礎(chǔ)上發(fā)展起來的一種高新技術(shù)，其功能是從眾多的數(shù)據(jù)當(dāng)中挖掘到最有價值的信息，進(jìn)而實現(xiàn)對數(shù)據(jù)資源的高效利用。聚類分析能夠被當(dāng)成一種數(shù)據(jù)分析工具，能真實反映出數(shù)據(jù)分布情況，本文主要對統(tǒng)計學(xué)在數(shù)據(jù)挖掘中的應(yīng)用進(jìn)行了探討，從而表現(xiàn)統(tǒng)計學(xué)在數(shù)據(jù)挖掘應(yīng)用中的重要性。

關(guān)鍵詞：統(tǒng)計學(xué)方法；數(shù)據(jù)挖掘；應(yīng)用分析

數(shù)據(jù)挖掘就是指從眾多實際應(yīng)用數(shù)據(jù)中獲取批量大、有噪聲、且隨機性強的數(shù)據(jù)，將潛在的信息與數(shù)據(jù)提取出來，就是從數(shù)據(jù)中挖掘有價值的知識，而大多數(shù)原始數(shù)據(jù)具有一定的結(jié)構(gòu)化特征，比如，關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)；也可以通過文本、圖形、圖像等半結(jié)構(gòu)化發(fā)掘有用知識，這些知識可以是數(shù)學(xué)的也可以是非數(shù)學(xué)形式的；數(shù)據(jù)挖掘能以歸納形式存在，能夠被廣泛應(yīng)用到信息查詢、信息管理、信息決策控制中，方便數(shù)據(jù)的維護(hù)與管理。由此可見，數(shù)據(jù)挖掘是一門交叉性強的學(xué)科，加強對其的研究非常有意義，下面將對統(tǒng)計方法在數(shù)據(jù)挖掘中的具體應(yīng)用進(jìn)行分析。

一、數(shù)據(jù)挖掘與統(tǒng)計學(xué)的關(guān)系

（一）數(shù)據(jù)挖掘的內(nèi)涵

通常來說，數(shù)據(jù)挖掘的定義較為模糊，沒有明確界定，大部分對其的定義只是停留在其背景與觀點的內(nèi)容上。通過對不同觀點的統(tǒng)一整理，人們最終將其描述為：從大量多樣化的信息中發(fā)現(xiàn)隱晦性、規(guī)律性等潛在信息，并對這些信息進(jìn)行創(chuàng)造、加工的過程。數(shù)據(jù)挖掘作為一門重要的交叉學(xué)科，能夠?qū)?shù)據(jù)庫、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)等眾多的科學(xué)融入到一起，從而實現(xiàn)技術(shù)與理論的創(chuàng)新與發(fā)展[1]。其中，數(shù)據(jù)庫、人工智能與統(tǒng)計學(xué)是數(shù)據(jù)挖掘當(dāng)中的三大支柱理論。數(shù)據(jù)挖掘的目的是從數(shù)據(jù)庫當(dāng)中發(fā)掘各種隱含的知識與信息，此過程的方法非常多，有統(tǒng)計學(xué)知識、遺傳算法、粗集方法、決策法、模糊邏輯法等，還可以應(yīng)用向鄰近的可視技術(shù)、模式識別技術(shù)等，在以上所有技術(shù)的支持上能夠使數(shù)據(jù)挖掘更為科學(xué)、有序。

（二）數(shù)據(jù)挖掘與統(tǒng)計學(xué)間的關(guān)系

通常來說，統(tǒng)計學(xué)的主要功能是對統(tǒng)計原理與統(tǒng)計方法進(jìn)行研究的科學(xué)。具體來說就是指對數(shù)字資料進(jìn)行的收集、整理、排序、分析、利用的過程，數(shù)字資料是各種信息的歸納與總結(jié)，可以將其作為特性原理的認(rèn)知、推理方法[2]。而統(tǒng)計學(xué)則表示的是使用專業(yè)的統(tǒng)計學(xué)、概率理論原理等對各種屬性關(guān)系的統(tǒng)計與分析過程，通過分析成功找到屬性間的關(guān)聯(lián)與發(fā)展的規(guī)律。在此過程中，統(tǒng)計分析方法是數(shù)據(jù)挖掘最為重要的手段之一。

在數(shù)據(jù)挖掘這一課題被提出來之前，統(tǒng)計分析技術(shù)對于人們來說更熟悉，也是人們?nèi)粘ｉ_展工作、尋找數(shù)據(jù)間規(guī)律最常使用的方法。但是不能簡單的將數(shù)據(jù)挖掘作為統(tǒng)計學(xué)的延伸與替代工具，而是要將兩者的區(qū)別認(rèn)識到位，再結(jié)合兩者間的不同特點分析其應(yīng)用特點[3]。大部分的統(tǒng)計學(xué)分析技術(shù)都是建立在數(shù)學(xué)理論與技巧上的，預(yù)測通常較為準(zhǔn)確，效果能夠讓大部分人滿意。數(shù)據(jù)挖掘能夠充分借鑒并吸收統(tǒng)計學(xué)技術(shù)，在融入到自身特點以后成為一種數(shù)據(jù)挖掘技術(shù)。

統(tǒng)計學(xué)與數(shù)據(jù)挖掘存在的目標(biāo)都是一致的，就是不斷對數(shù)據(jù)結(jié)構(gòu)進(jìn)行發(fā)掘。鑒于統(tǒng)計學(xué)與數(shù)據(jù)挖掘在目標(biāo)上的一致性，致使很多研究學(xué)者與專家將數(shù)據(jù)挖掘作為了統(tǒng)計學(xué)的一個分支機構(gòu)[4]。但是這種認(rèn)知非常不正確，因為數(shù)據(jù)挖掘不僅體現(xiàn)在與統(tǒng)計學(xué)的關(guān)系上還體現(xiàn)在思想、工具與方法上，尤其是在計算機科學(xué)領(lǐng)域?qū)?shù)據(jù)挖掘起到的作用非常大。比如，通過借助數(shù)據(jù)庫技術(shù)與人工智能的學(xué)習(xí)，能夠關(guān)注到更多統(tǒng)計學(xué)與數(shù)據(jù)挖掘上的共通點，但是兩者存在的差異依然非常大。數(shù)據(jù)挖掘就是指對大量的數(shù)據(jù)信息不斷挖掘的過程，DM能夠?qū)?shù)據(jù)模式內(nèi)的數(shù)據(jù)關(guān)系進(jìn)行充分挖掘，并對觀測到的數(shù)據(jù)庫處理有著極高的關(guān)注度。

二、數(shù)據(jù)挖掘的主要過程

從數(shù)據(jù)本身出發(fā)探討數(shù)據(jù)挖掘過程，數(shù)據(jù)挖掘的過程分為信息的收集、數(shù)據(jù)集成、數(shù)據(jù)處理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┑冗^程。

首先，要將業(yè)務(wù)對象確定下來，明確不同業(yè)務(wù)定義，并認(rèn)清數(shù)據(jù)挖掘的目的，這是做好數(shù)據(jù)挖掘最關(guān)鍵的一步，也是最重要的一步，雖然挖掘的結(jié)果不能被準(zhǔn)確預(yù)測到，但卻需要對問題的可預(yù)見性進(jìn)行探索[5]。其次，還要做好數(shù)據(jù)準(zhǔn)備工作，包含數(shù)據(jù)清理、數(shù)據(jù)變換等工作，數(shù)據(jù)清理的實際意義是將噪聲與空缺值補全，針對這一問題，可以使用平滑技術(shù)，而空缺值的處理則是屬性中最常見的，可以將統(tǒng)計中最可能出現(xiàn)的值作為一個空缺值[6]。

信息收集指的是按照特定的數(shù)據(jù)分析對象，可以將分析中需要的特征信息抽象出來，并在此基礎(chǔ)上選擇出較為科學(xué)、適合的信息收集方法，將全部的信息全部錄入到特定的數(shù)據(jù)庫中。如果數(shù)據(jù)量較大，則可以選擇一個專門的管理數(shù)據(jù)的倉庫，實現(xiàn)對信息的有效保護(hù)與管理；數(shù)據(jù)集成就是指將來源不同、格式不同、性質(zhì)不同、特點不同的數(shù)據(jù)集成到一起，進(jìn)而為企業(yè)提供更為全面、系統(tǒng)的數(shù)據(jù)共享平臺；數(shù)據(jù)變換就是通過聚集、概化、規(guī)范化等方式對數(shù)據(jù)進(jìn)行挖掘，對于一些實用數(shù)據(jù)，則可以通過分層與分離方式實現(xiàn)對數(shù)據(jù)的轉(zhuǎn)換；數(shù)據(jù)挖掘就是結(jié)合數(shù)據(jù)倉庫中的數(shù)據(jù)信息點，并選擇正確的分析方法實現(xiàn)對有價值數(shù)據(jù)的挖掘，事例推理、規(guī)則推理、遺傳算法等都是應(yīng)用較多的方法[7]。

三、統(tǒng)計學(xué)方法中的聚類分析

在統(tǒng)計學(xué)聚類方法基礎(chǔ)上能夠構(gòu)建出潛在的概率分布假設(shè)，可以使用試圖優(yōu)化的方法構(gòu)建數(shù)據(jù)與統(tǒng)計模型的擬合效果?；诮y(tǒng)計學(xué)聚類方法當(dāng)中，Cobweb方法是在1987年由Fisher提出的，能夠以分類樹作為層次聚類創(chuàng)建的方法，在分類樹上，每一個節(jié)點都能代表著一個概念，該方法就是對節(jié)點概率描述的過程。Cobweb方法還使用了啟發(fā)式估算方式，使用分類效用對分類樹的構(gòu)建進(jìn)行指導(dǎo)，從而實現(xiàn)對最高分類的劃分目的，能夠?qū)⒉煌诸悓ο笕繗w類到一個類別中，并依據(jù)這些內(nèi)容創(chuàng)建出一個新的類別。但是這種方法也存在一定局限性，局限性在于假設(shè)的屬性概率分布都是獨立的，并不能始終處于成立狀態(tài)中。

只有在掌握了Cobweb算法以后才能對概念聚類算法的特點進(jìn)行探究。Cobweb算法能夠以分類樹方式創(chuàng)建層次聚類，可以將概率表現(xiàn)為p（Ai=Vii/Ck）條件概率，其中，Ai=Vij是一個類別下的，同屬于一個值對，Ck是概念類中的一種。在給出一個特定的對象以后，Cobweb能夠?qū)⑷繉ο笳系揭粋€節(jié)點上，從而計算出分類效應(yīng)，分?jǐn)?shù)最高的效用就是對象所在的節(jié)點位置[8]。如果對象構(gòu)建失去節(jié)點，則Cobweb能夠給出一個新的節(jié)點，并對其進(jìn)行分類使用，這種節(jié)點計算方法起步較晚，能夠?qū)ΜF(xiàn)有的節(jié)點與計算相互對比，從而劃分出最高的分類指標(biāo)，將全部對象統(tǒng)一到已有的分類中，從而構(gòu)建出一個新的類別。

Classitci是Cobw eb方法的一種延伸與發(fā)展，能夠使用其完成聚類數(shù)據(jù)的處理，在該方法下，節(jié)點中的每一個存儲屬性都是處于連續(xù)分布狀態(tài)中，能夠?qū)⑵渥鳛榉诸愋Ч拚姆椒?，并以度量的形式表現(xiàn)出來，這種度量基礎(chǔ)上能夠?qū)崿F(xiàn)連續(xù)性的積分，從而降低分散發(fā)生率，該方法是積分過程而不是對屬性的求和過程。

Auto Class方法也是一種應(yīng)用較為普遍的聚類方法，該方法主要采用統(tǒng)計分析對結(jié)果類的數(shù)目進(jìn)行估算，還可以通過模型搜索方式分析空間中各種分類的可能性，還能夠自動對模型數(shù)量與模型形態(tài)進(jìn)行描述。在一定類別空間中，不同的類別內(nèi)屬性存在關(guān)聯(lián)性，不同的類別間具有相互繼承性，在層次結(jié)構(gòu)當(dāng)中，共享模型參數(shù)是非常重要的。

還有一種使用較為普遍的模型是混合模型，混合模型在統(tǒng)計學(xué)聚類方法上使用也非常普遍。該方法最為基本的思想就是概率分布決定著每一種聚類狀態(tài)，并且模型中的每一個數(shù)據(jù)都是由多個概率在分布狀態(tài)下產(chǎn)生的?；旌夏Ｐ瓦€能夠作為一種半?yún)?shù)密度評估方法，其能夠?qū)?shù)估計與非參數(shù)估計的優(yōu)點全部集中到一起，并將參數(shù)估計法與非參數(shù)估價法的諸多優(yōu)點融合到一起，因為模型具有一定復(fù)雜性，為此，不能將其限制在概率密度函數(shù)表達(dá)形式上，這種復(fù)雜性決定了模型與求解存在關(guān)聯(lián)，與樣本集合的聯(lián)系非常少。通過以上的研究可以了解到，數(shù)據(jù)發(fā)掘中應(yīng)用聚類方法非常有效，并且較為常見。比如，構(gòu)建出Cobweb模型與混合模型，采用Clara與Clarans方法中的抽樣技術(shù)，將Denclue方法用在概率密度函數(shù)中。

結(jié)束語

統(tǒng)計學(xué)方法自產(chǎn)生開始已經(jīng)有非常久遠(yuǎn)的歷史，將嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)邏輯作為基礎(chǔ)，將分類算法假定作為獨立條件，屬性值之前能夠相互保持獨立，對假定進(jìn)行計算，當(dāng)假定成立時，可以再與其他分類算法進(jìn)行對比，這種分類算法準(zhǔn)確性非常高。為此，其不僅能夠?qū)B續(xù)值進(jìn)行預(yù)測，還可以通過線性回歸方程對系數(shù)進(jìn)行比較，從而歸納出結(jié)果。

（作者單位：中國人民大學(xué)）

參考文獻(xiàn)：

[1] 張愛菊.基于數(shù)據(jù)挖掘技術(shù)的瓦斯氣體紅外光譜定量分析方法的研究[J].光譜學(xué)與光譜分析，2013，33（10）：2646-2650.

[2] 許長福，李雄炎，譚鋒奇等.任務(wù)驅(qū)動數(shù)據(jù)挖掘方法的提出及在低阻油層識別中的應(yīng)用[J].吉林大學(xué)學(xué)報（地球科學(xué)版），2012，42（1）：39-46.

[3] 鄭曉峰，王曙.基于粗糙集與關(guān)聯(lián)規(guī)則的道路運輸管理信息數(shù)據(jù)挖掘方法[J].華南理工大學(xué)學(xué)報（自然科學(xué)版），2014（2）：132-138.

[4] 周復(fù)之.固定收益決策支持系統(tǒng)機理建模與數(shù)據(jù)挖掘的協(xié)同研究[J].系統(tǒng)工程理論與實踐，2010，29（12）：38-45.

[5] 張繼福，張素蘭，蔣義勇等.基于約束概念格的天體光譜局部離群數(shù)據(jù)挖掘系統(tǒng)[J].光譜學(xué)與光譜分析，2011，29（2）：551-555.

[6] 張欣欣，繆弈洲，張月紅等.CrossRef文本和數(shù)據(jù)挖掘服務(wù)——《浙江大學(xué)學(xué)報（英文版）》的實踐[J].中國科技期刊研究，2015，26（6）：594-599.

[7] 林凌，吳紅杰，吳曉爽等.體表組織內(nèi)高譜圖：成分信息和結(jié)構(gòu)信息同步檢測新技術(shù)[J].光譜學(xué)與光譜分析，2011，31（1）：201-204.

[8] 王珉，胡蔦慶，秦國軍等.LRE試車數(shù)據(jù)挖掘中基于最大散度差的模糊聚類分析方法[J].國防科技大學(xué)學(xué)報，2011，33（3）：164-168.