亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        對(duì)統(tǒng)計(jì)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究的反思

        2010-03-22 16:06:31韓兆洲
        統(tǒng)計(jì)與決策 2010年10期
        關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)方法

        安 康,韓兆洲

        (暨南大學(xué)a.經(jīng)濟(jì)學(xué)院;b.教育學(xué)院,廣州 510632)

        數(shù)據(jù)挖掘的正式研究始于1995年在加拿大召開的第一屆“知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘”國(guó)際學(xué)術(shù)會(huì)議,由此,數(shù)據(jù)挖掘一詞很快流傳開來。數(shù)據(jù)挖掘是一門交叉學(xué)科,它匯聚了統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、人工智能、計(jì)算科學(xué)等不同學(xué)科和領(lǐng)域,近年來受到各界的廣泛關(guān)注。

        數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)有著密切的關(guān)系。數(shù)據(jù)挖掘的出現(xiàn)為統(tǒng)計(jì)學(xué)提供了一個(gè)新的應(yīng)用領(lǐng)域,同時(shí)也對(duì)統(tǒng)計(jì)學(xué)的理論研究提出了挑戰(zhàn),數(shù)據(jù)挖掘的出現(xiàn)無疑將推動(dòng)統(tǒng)計(jì)學(xué)的發(fā)展。近年來,國(guó)內(nèi)的許多統(tǒng)計(jì)學(xué)者從統(tǒng)計(jì)學(xué)視角對(duì)數(shù)據(jù)挖掘進(jìn)行了理論及應(yīng)用研究,取得了一定的研究成果。

        1 統(tǒng)計(jì)學(xué)領(lǐng)域?qū)?shù)據(jù)挖掘研究的現(xiàn)狀

        研究現(xiàn)狀,涉及數(shù)據(jù)挖掘在統(tǒng)計(jì)學(xué)界的研究成果、研究階段和研究?jī)?nèi)容三個(gè)方面。

        1.1 研究成果

        2009年cssci收錄統(tǒng)計(jì)學(xué)專業(yè)期刊共4類,分別為《統(tǒng)計(jì)研究》、《統(tǒng)計(jì)與決策》、《統(tǒng)計(jì)與信息論壇》、《數(shù)理統(tǒng)計(jì)與管理》。從研究成果看,就筆者所能收集到的資料以及期刊網(wǎng)統(tǒng)計(jì),至少有:關(guān)于譯著1部——《統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ):數(shù)據(jù)挖掘、推理與預(yù)測(cè)》,專著6部,核心期刊文章85篇,其中發(fā)表在權(quán)威期刊《統(tǒng)計(jì)研究》上的文章14篇,發(fā)表在期刊《統(tǒng)計(jì)與決策》上的文章45篇,發(fā)表在期刊《統(tǒng)計(jì)與信息論壇》上的文章15篇,發(fā)表在期刊《數(shù)理統(tǒng)計(jì)與管理》上的文章11篇。歷史地看,這些成果對(duì)于數(shù)據(jù)挖掘在統(tǒng)計(jì)學(xué)中的研究都發(fā)揮著不同的作用。韓明2001年在《統(tǒng)計(jì)研究》上發(fā)文《數(shù)據(jù)挖掘及其對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)》,文章第一次指出數(shù)據(jù)挖掘?qū)y(tǒng)計(jì)學(xué)提出新問題,正式吹響了數(shù)據(jù)挖掘進(jìn)駐統(tǒng)計(jì)學(xué)研究領(lǐng)域的號(hào)角。張堯庭教授和謝邦昌教授是真正將數(shù)據(jù)挖掘引入統(tǒng)計(jì)學(xué)研究的引路人,2002~2003年他們合作的3篇文章發(fā)表于 《統(tǒng)計(jì)研究》上,此時(shí)的研究仍是將數(shù)據(jù)挖掘引入統(tǒng)計(jì)學(xué)的階段,以他們?yōu)楹诵牡膶W(xué)術(shù)團(tuán)隊(duì)對(duì)于數(shù)據(jù)挖掘在統(tǒng)計(jì)研究的貢獻(xiàn)體現(xiàn)在兩方面:一是明晰了數(shù)據(jù)挖掘的概念;二是介紹了數(shù)據(jù)挖掘的簡(jiǎn)單規(guī)則和方法。薛薇2002年也在《統(tǒng)計(jì)研究》上發(fā)文《基于統(tǒng)計(jì)數(shù)據(jù)的OLAP數(shù)據(jù)挖掘技術(shù)》,目的是介紹數(shù)據(jù)挖掘的基本方法。朱建平教授是數(shù)據(jù)挖掘在統(tǒng)計(jì)研究方面的主力軍,朱建平教授及其團(tuán)隊(duì)一直以數(shù)據(jù)挖掘作為研究方向,在2004~2008年間,共發(fā)表數(shù)據(jù)挖掘研究方面相關(guān)文章15篇,其中6篇發(fā)表于權(quán)威期刊《統(tǒng)計(jì)研究》,建立了較完整的數(shù)據(jù)挖掘的方法和知識(shí)體系。文章不僅包括了對(duì)數(shù)據(jù)挖掘的理論介紹,而且還探討了對(duì)數(shù)據(jù)挖掘技術(shù)的統(tǒng)計(jì)學(xué)改進(jìn)。

        1.2 研究階段

        從發(fā)展時(shí)期上來看,數(shù)據(jù)挖掘研究在統(tǒng)計(jì)學(xué)中的應(yīng)用也經(jīng)歷了以下幾個(gè)階段。(1)初始階段(2001~2003年)。在這個(gè)階段國(guó)內(nèi)數(shù)據(jù)挖掘初露端倪,這段時(shí)間相關(guān)研究論文不多,僅有10篇研究文章刊發(fā),研究?jī)?nèi)容主要從宏觀上對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行描述。(2)激增階段(2004~2005年)。這階段研究論文有顯著增長(zhǎng),有33篇研究文章刊發(fā)。2003年的發(fā)文量比前3年的發(fā)文量總和還要多,2004年發(fā)文量達(dá)到了20篇,這說明學(xué)術(shù)界開始重視數(shù)據(jù)挖掘的研究。研究?jī)?nèi)容也呈現(xiàn)出多樣性,既包括數(shù)據(jù)挖掘技術(shù)方法研究,也包括數(shù)據(jù)挖掘的應(yīng)用研究。(3)應(yīng)用階段(2006~2007年)。這階段共有18篇研究文章刊發(fā)。從學(xué)術(shù)研究的角度分析,數(shù)據(jù)挖掘的研究正逐漸走向成熟并開始向其他領(lǐng)域滲透。

        1.3 研究?jī)?nèi)容

        從研究?jī)?nèi)容看,迄今為止有關(guān)數(shù)據(jù)挖掘的研究,內(nèi)容主要集中在以下四個(gè)方面。

        第一,對(duì)數(shù)據(jù)挖掘概念的界定。數(shù)據(jù)挖掘的概念在表述上雖仍存有不同,但是內(nèi)涵上基本達(dá)成一致。對(duì)數(shù)據(jù)挖掘通行的定義是:數(shù)據(jù)挖掘是指一個(gè)完整的過程,該過程從大型數(shù)據(jù)庫(kù)中挖掘先前未知的、有效的、可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí)。

        第二,數(shù)據(jù)挖掘的功能和任務(wù)。數(shù)據(jù)挖掘的程序及功能已基本達(dá)成共識(shí),可概括如下:(1)數(shù)據(jù)總結(jié)。通過對(duì)數(shù)據(jù)的總結(jié),實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的總體把握;(2)分類。找出一個(gè)類別的概念描述,根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中;(3)關(guān)聯(lián)分析。對(duì)兩個(gè)或多個(gè)取值重復(fù)出現(xiàn)且概率很高的數(shù)據(jù)項(xiàng)建立起關(guān)聯(lián)規(guī)則;(4)聚類分析。按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合;(5)預(yù)測(cè)。利用歷史數(shù)據(jù)找出變化規(guī)律并用此模型來預(yù)測(cè)未來數(shù)據(jù)的種類特征等;(6)序列發(fā)現(xiàn)。從與學(xué)習(xí)任務(wù)相關(guān)的一組數(shù)據(jù)中提取出表達(dá)該數(shù)據(jù)集總體特征的特征式。

        第三,對(duì)數(shù)據(jù)挖掘的方法技術(shù)改進(jìn)。數(shù)據(jù)挖掘的傳統(tǒng)方法技術(shù)包括了關(guān)聯(lián)規(guī)則挖掘、神經(jīng)網(wǎng)絡(luò)方法、可視化技術(shù)、粗糙集方法等,許多統(tǒng)計(jì)學(xué)者從統(tǒng)計(jì)學(xué)的視角對(duì)這些數(shù)據(jù)挖掘方法提出改進(jìn)。劉云霞、曾五一提出一種基于可辨識(shí)矩陣的離散化方法,該方法既能夠反映“區(qū)間內(nèi)的一致性和區(qū)間之間的差異性”的原則又能夠較好地克服Chi2算法的不足。朱建平、謝邦昌從統(tǒng)計(jì)學(xué)的角度對(duì)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘進(jìn)行了剖析,并利用相應(yīng)分析方法,對(duì)關(guān)聯(lián)規(guī)則A—>B進(jìn)行了“提升”。來升強(qiáng)、朱建平提出用粗糙集方法選擇出最優(yōu)子空間,并利用等價(jià)關(guān)系的屬性集產(chǎn)生分類的大型數(shù)據(jù)聚類方法。朱建平、張潤(rùn)楚在探討事務(wù)性數(shù)據(jù)庫(kù)的壓縮問題時(shí),將統(tǒng)計(jì)思想與Rough集理論相結(jié)合,提出了一些新方法以達(dá)到數(shù)據(jù)庫(kù)壓縮的目的。殷瑞飛、朱建平基于Q型因子分析的基本思想,結(jié)合對(duì)應(yīng)分析方法,建立了一種適用于大型數(shù)據(jù)庫(kù)聚類的方法。李金昌、徐雪琪在提出數(shù)據(jù)挖掘存在質(zhì)量問題時(shí),提出了處理數(shù)據(jù)挖掘質(zhì)量問題的一系列方法。朱梅紅提出了數(shù)據(jù)挖掘中抽樣技術(shù)方法的應(yīng)用。劉云霞提出了基于似然比假設(shè)檢驗(yàn)的連續(xù)屬性離散化方法。謝佳斌、金勇進(jìn)提出采用放回的、與樣本單元權(quán)數(shù)大小成比例的再抽樣方法實(shí)現(xiàn)“事后”自加權(quán)設(shè)計(jì),以使得后的子樣本可以直接采用數(shù)據(jù)挖掘算法進(jìn)行分析。

        第四,對(duì)數(shù)據(jù)挖掘應(yīng)用技術(shù)的研究。數(shù)據(jù)挖掘的應(yīng)用研究是最活躍的研究領(lǐng)域之一。目前,數(shù)據(jù)挖掘的研究領(lǐng)域已遍及包括金融業(yè)、電信業(yè)、營(yíng)銷業(yè)、零售商、制造業(yè)、醫(yī)療保健、制藥業(yè)等各行業(yè)。朱順泉對(duì)房地產(chǎn)業(yè)上市公司的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行挖掘,不僅輔助企業(yè)透視企業(yè)財(cái)務(wù)狀況,做出合理的投資決策,而且各上市公司可以根據(jù)自己的營(yíng)運(yùn)等級(jí),找出問題所在,修正自己公司的經(jīng)營(yíng)模式;王維佳應(yīng)用數(shù)據(jù)挖掘?qū)﹄娦趴蛻袅魇нM(jìn)行分析預(yù)測(cè),及時(shí)的給電信運(yùn)營(yíng)商提供決策依據(jù),保障電信服務(wù)業(yè)達(dá)到以客戶為中心;劉京軍在信用管理領(lǐng)域應(yīng)用數(shù)據(jù)挖掘,不僅對(duì)信用申請(qǐng)者申請(qǐng)的接受與否進(jìn)行分類和判斷,而且對(duì)顧客的行為計(jì)分以及利潤(rùn)模型進(jìn)行了研究;張俊妮采用某個(gè)給顧客直郵產(chǎn)品目錄的公司的真實(shí)數(shù)據(jù),討論了如何使用數(shù)據(jù)挖掘方法對(duì)歷史數(shù)據(jù)進(jìn)行分析,從而提高直郵的營(yíng)銷效率;丁文捷應(yīng)用數(shù)據(jù)挖掘技術(shù)研究分析服裝企業(yè)生產(chǎn)過程形成的近百萬條人體量體數(shù)據(jù)、銷售數(shù)據(jù),從而為服裝投產(chǎn)號(hào)型決策提供依據(jù);高雷使用數(shù)據(jù)挖掘的方法,在歷史數(shù)據(jù)中探討了政策和股市走勢(shì)之間的深層關(guān)系。王建仁通過建立銀行數(shù)據(jù)倉(cāng)庫(kù),運(yùn)用數(shù)據(jù)挖掘技術(shù)進(jìn)行銀行客戶關(guān)系管理。

        2 統(tǒng)計(jì)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究興起的原因

        2.1 社會(huì)支持

        社會(huì)經(jīng)濟(jì)的向前發(fā)展使得統(tǒng)計(jì)學(xué)領(lǐng)域呼喚數(shù)據(jù)挖掘。傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)都基于較完善的數(shù)學(xué)和統(tǒng)計(jì)理論,預(yù)測(cè)的準(zhǔn)確度較高,但傳統(tǒng)的統(tǒng)計(jì)方法對(duì)統(tǒng)計(jì)數(shù)據(jù)要有規(guī)模限制,而且對(duì)數(shù)據(jù)的質(zhì)量要求比較嚴(yán)格,如果數(shù)據(jù)不滿足這些條件,則需要運(yùn)用一些方法進(jìn)行相應(yīng)處理。但隨著社會(huì)的進(jìn)步,社會(huì)經(jīng)濟(jì)出現(xiàn)了一些新現(xiàn)象,我們?cè)谛畔⑸鐣?huì)中面臨著浩如煙海的數(shù)據(jù),這些數(shù)據(jù)數(shù)量龐大,而且分布狀態(tài)難以把握,因此在對(duì)這些數(shù)據(jù)處理時(shí),很難預(yù)先假定好試驗(yàn)方法和抽樣方法,傳統(tǒng)的統(tǒng)計(jì)學(xué)顯得無所適從,因此傳統(tǒng)的統(tǒng)計(jì)學(xué)呼喚著數(shù)據(jù)挖掘。數(shù)據(jù)挖掘針對(duì)的正是這些大量、巨量、超巨量的數(shù)據(jù),正如數(shù)據(jù)挖掘定義的那樣,數(shù)據(jù)挖掘是從大規(guī)模數(shù)據(jù)中找出隱藏其中的有意義、重要的信息或模式的探索過程。數(shù)據(jù)挖掘技術(shù)的目標(biāo)就是從大量的數(shù)據(jù)中,發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的關(guān)系,從而服務(wù)于決策。

        數(shù)據(jù)挖掘的興起還同計(jì)算機(jī)硬件、軟件的發(fā)展與數(shù)據(jù)庫(kù)技術(shù)的推進(jìn)密不可分。計(jì)算機(jī)硬件的高速發(fā)展給數(shù)據(jù)挖掘研究的推進(jìn)提供了技術(shù)上的可能性,統(tǒng)計(jì)軟件的發(fā)展也促進(jìn)了數(shù)據(jù)挖掘研究在統(tǒng)計(jì)領(lǐng)域的崛起,SAS、MATLAB等主流統(tǒng)計(jì)軟件都包含有數(shù)據(jù)挖掘功能,國(guó)內(nèi)馬克威軟件、Qstat軟件也都將數(shù)據(jù)挖掘功能融入其中。這些都為數(shù)據(jù)挖掘在統(tǒng)計(jì)領(lǐng)域的展開提供技術(shù)支撐。數(shù)據(jù)庫(kù)技術(shù)的發(fā)展是數(shù)據(jù)挖掘研究興起的另一主要原因。通常大規(guī)模的數(shù)據(jù)是以數(shù)據(jù)庫(kù)形式保存的,因此可以認(rèn)為數(shù)據(jù)庫(kù)技術(shù)是數(shù)據(jù)挖掘的起點(diǎn)。自20世紀(jì)80年代中期以來,數(shù)據(jù)庫(kù)技術(shù)的特點(diǎn)是廣泛接受關(guān)系技術(shù),研究和開發(fā)新的、功能強(qiáng)大的數(shù)據(jù)庫(kù)系統(tǒng)。這些推動(dòng)諸如擴(kuò)充關(guān)系模型、面向?qū)ο竽P?、?duì)象-關(guān)系模型和演繹模型等先進(jìn)的數(shù)據(jù)模型的發(fā)展。包括空間的、時(shí)間的、多媒體的、主動(dòng)的、流的和知識(shí)庫(kù)在內(nèi)的數(shù)據(jù)庫(kù)系統(tǒng)百花齊放,同數(shù)據(jù)的分布、多樣性和共享有關(guān)的問題被廣泛研究,異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)和基于WEB的全球信息系統(tǒng)也已出現(xiàn),并成為信息產(chǎn)業(yè)的主力軍。

        2.2 學(xué)術(shù)支持

        社會(huì)的發(fā)展和技術(shù)的進(jìn)步促進(jìn)數(shù)據(jù)挖掘研究的展開和深入。國(guó)內(nèi)漸漸形成了數(shù)據(jù)挖掘研究的良好學(xué)術(shù)氛圍,具體表現(xiàn)為:(1)數(shù)據(jù)挖掘已成為我國(guó)統(tǒng)計(jì)學(xué)科的一個(gè)新的生長(zhǎng)點(diǎn),許多大學(xué)在本科階段開設(shè)了相關(guān)課程,在碩士階段設(shè)立了相關(guān)研究方向;(2)統(tǒng)計(jì)學(xué)研究的兩個(gè)主要學(xué)術(shù)陣地中國(guó)人民大學(xué)和廈門大學(xué)建立了專門針對(duì)數(shù)據(jù)挖掘的學(xué)術(shù)機(jī)構(gòu),2001年中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院成立了數(shù)據(jù)挖掘中心,這是國(guó)內(nèi)較早開展數(shù)據(jù)挖掘應(yīng)用和理論探索的團(tuán)隊(duì),也是在統(tǒng)計(jì)學(xué)領(lǐng)域較早研究數(shù)據(jù)挖掘應(yīng)用的組織。2007年廈門大學(xué)計(jì)劃統(tǒng)計(jì)系成立數(shù)據(jù)挖掘中心(簡(jiǎn)稱DMC),推進(jìn)了數(shù)據(jù)挖掘在統(tǒng)計(jì)領(lǐng)域的研究發(fā)展;(3)一些著名的統(tǒng)計(jì)學(xué)者開始表現(xiàn)出對(duì)數(shù)據(jù)挖掘的持續(xù)關(guān)注,尤其值得一提的是朱建平教授和謝邦昌教授。朱建平教授及其領(lǐng)導(dǎo)的團(tuán)隊(duì)培養(yǎng)了大批的博士、碩士研究生,謝邦昌教授是統(tǒng)計(jì)領(lǐng)域數(shù)據(jù)挖掘的引路人,他對(duì)國(guó)內(nèi)統(tǒng)計(jì)領(lǐng)域的數(shù)據(jù)挖掘一直保持高度關(guān)注;(4)學(xué)術(shù)雜志開辟的專欄與學(xué)術(shù)研討會(huì)進(jìn)一步推動(dòng)了數(shù)據(jù)挖掘的研究。廈門大學(xué)計(jì)劃統(tǒng)計(jì)系主辦的國(guó)際金融數(shù)據(jù)挖掘研討會(huì)和中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院主辦的中國(guó)數(shù)據(jù)挖掘與商業(yè)智能研討會(huì)已經(jīng)形成一種長(zhǎng)效機(jī)制,一些雜志也開辟了相關(guān)的研究專欄,這些都有利于統(tǒng)計(jì)學(xué)領(lǐng)域中對(duì)數(shù)據(jù)挖掘的研究。按照特里·庫(kù)珀的觀點(diǎn),判斷一個(gè)學(xué)術(shù)領(lǐng)域研究是否成熟的標(biāo)準(zhǔn)主要有三條:存在著一個(gè)對(duì)該領(lǐng)域長(zhǎng)期感興趣的學(xué)者群體、有連續(xù)性的出版物來推動(dòng)理論的發(fā)展、在大學(xué)職業(yè)教育課程中設(shè)立學(xué)術(shù)性的課程。以這三個(gè)標(biāo)準(zhǔn)衡量,盡管數(shù)據(jù)挖掘的研究在我國(guó)還有很大差距,但已有了長(zhǎng)足進(jìn)展。

        3 統(tǒng)計(jì)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究的定位

        3.1 研究?jī)?nèi)涵

        在統(tǒng)計(jì)領(lǐng)域開展數(shù)據(jù)挖掘研究,我們先要回答兩個(gè)關(guān)鍵問題,第一個(gè)關(guān)鍵問題是:“數(shù)據(jù)挖掘與傳統(tǒng)統(tǒng)計(jì)學(xué)的聯(lián)系何在?”它們之間的聯(lián)系非常明顯,統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有著共同的目標(biāo):發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。正因?yàn)槟繕?biāo)上的相似,因此,統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘的研究?jī)?nèi)涵也體現(xiàn)出了諸多相似性。在傳統(tǒng)統(tǒng)計(jì)學(xué)研究中,雖然統(tǒng)計(jì)學(xué)基于的正統(tǒng)的理論基礎(chǔ)無可替代,但傳統(tǒng)統(tǒng)計(jì)學(xué)可以為數(shù)據(jù)挖掘提供非常有參考價(jià)值的框架,很多數(shù)據(jù)挖掘的算法原理都是統(tǒng)計(jì)學(xué)中相關(guān)方法的影子,數(shù)據(jù)挖掘在延伸和擴(kuò)展傳統(tǒng)統(tǒng)計(jì)學(xué)方法基礎(chǔ)之上,融入了多領(lǐng)域的思想、工具和方法,這些領(lǐng)域包括數(shù)據(jù)庫(kù)管理、計(jì)算機(jī)科學(xué)、人工智能、模式識(shí)別、運(yùn)籌學(xué)等。統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘內(nèi)涵上的相似難以掩蓋內(nèi)涵上的一些細(xì)微差別,事實(shí)上,數(shù)據(jù)挖掘所關(guān)注的某些領(lǐng)域和統(tǒng)計(jì)學(xué)家所關(guān)注的還存有很大不同。數(shù)據(jù)挖掘關(guān)注的是積累大規(guī)模的數(shù)據(jù),以方便從數(shù)據(jù)中有效地找出關(guān)系,挖掘出所含有的“有意義的信息”,而統(tǒng)計(jì)學(xué)關(guān)注的如何模擬出數(shù)據(jù)的結(jié)構(gòu),從而進(jìn)行準(zhǔn)確的統(tǒng)計(jì)推斷。

        3.2 研究對(duì)象和方法

        我們面臨的第二個(gè)關(guān)鍵問題是:“數(shù)據(jù)挖掘與傳統(tǒng)統(tǒng)計(jì)學(xué)的區(qū)別何在?”,這便涉及到數(shù)據(jù)挖掘的研究對(duì)象。統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘研究目標(biāo)的相似使得有些統(tǒng)計(jì)學(xué)家擔(dān)憂數(shù)據(jù)挖掘時(shí)代的到來會(huì)不會(huì)使得傳統(tǒng)的統(tǒng)計(jì)學(xué)面臨危機(jī),這樣的想法其實(shí)大可不必。事實(shí)上,雖然它們的目標(biāo)相似,但研究對(duì)象卻不盡相同。如上文所言,傳統(tǒng)的統(tǒng)計(jì)學(xué)以概率論為基礎(chǔ),主要通過預(yù)先設(shè)計(jì)的試驗(yàn)方法或抽樣方法獲得數(shù)據(jù),以保證這些數(shù)據(jù)滿足一定的概率模型,然后再根據(jù)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)推斷。數(shù)據(jù)挖掘恰恰相反,它常??梢缘玫綌?shù)據(jù)總體,在這種情形下,統(tǒng)計(jì)學(xué)的推斷就沒有價(jià)值了,數(shù)據(jù)挖掘的本質(zhì)是從總體中通過技術(shù)和實(shí)驗(yàn)方法發(fā)現(xiàn)非預(yù)期但很有價(jià)值的信息,數(shù)據(jù)挖掘過程的本質(zhì)是實(shí)驗(yàn)性的。這與確定性的統(tǒng)計(jì)分析和統(tǒng)計(jì)推斷是不同的。

        在研究方法上,統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘也不盡相同,統(tǒng)計(jì)學(xué)在采用一個(gè)方法之前先要證明,而不是象計(jì)算機(jī)科學(xué)與機(jī)器學(xué)習(xí)那樣注重經(jīng)驗(yàn)。有時(shí)候同一問題的其它領(lǐng)域的研究者提出一個(gè)很明顯有用的方法,但若不能被統(tǒng)計(jì)學(xué)家證明(或者現(xiàn)在還沒有證明),統(tǒng)計(jì)學(xué)界將不會(huì)采用,統(tǒng)計(jì)雜志也傾向于發(fā)表經(jīng)過數(shù)學(xué)證明的方法而不是一些特殊方法,簡(jiǎn)言之,統(tǒng)計(jì)學(xué)需要的是確定的方法。而數(shù)據(jù)挖掘作為幾門學(xué)科的綜合,已經(jīng)從機(jī)器學(xué)習(xí)那里繼承了實(shí)驗(yàn)的態(tài)度,數(shù)據(jù)挖掘更多的是利用先進(jìn)的工具進(jìn)行試探發(fā)現(xiàn),方法上的不同并不意味著數(shù)據(jù)挖掘工作者不注重精確,其實(shí)數(shù)據(jù)挖掘非常注重精確,只不過精確產(chǎn)生于實(shí)驗(yàn)之上,產(chǎn)生于實(shí)驗(yàn)準(zhǔn)則之中。正是由于統(tǒng)計(jì)學(xué)的方法先驗(yàn)和準(zhǔn)確性,而且其對(duì)推理的側(cè)重,統(tǒng)計(jì)學(xué)的核心問題仍是在觀察了解樣本的情況下去推斷總體。而數(shù)據(jù)挖掘的主要目的是發(fā)現(xiàn),它不關(guān)心統(tǒng)計(jì)學(xué)領(lǐng)域中的在回答一個(gè)特定的問題之前,如何很好的搜集數(shù)據(jù),數(shù)據(jù)挖掘本質(zhì)上假想數(shù)據(jù)已經(jīng)被搜集好,關(guān)注的只是如何發(fā)現(xiàn)其中的秘密??傊?,統(tǒng)計(jì)學(xué)的核心是模型,數(shù)據(jù)挖掘的更重要的是準(zhǔn)則。

        4 統(tǒng)計(jì)學(xué)領(lǐng)域數(shù)據(jù)挖掘研究的趨勢(shì)

        4.1 數(shù)據(jù)挖掘應(yīng)用領(lǐng)域研究將深入化、全面化

        數(shù)據(jù)挖掘真正引起人們的普遍關(guān)注應(yīng)該起始于該技術(shù)在各種行業(yè)領(lǐng)域中的應(yīng)用,盡管數(shù)據(jù)挖掘應(yīng)用方面的論文統(tǒng)計(jì)數(shù)相當(dāng)可觀,涉及領(lǐng)域相當(dāng)廣泛,但我國(guó)的數(shù)據(jù)挖掘應(yīng)用尚處于起步階段,大規(guī)模地運(yùn)用數(shù)據(jù)挖掘技術(shù)尚不普遍,只是個(gè)別企業(yè)或部門零星地運(yùn)用數(shù)據(jù)挖掘技術(shù)。在國(guó)外,數(shù)據(jù)挖掘技術(shù)已經(jīng)在金融、電信、零售、醫(yī)療、科研等行業(yè)領(lǐng)域內(nèi)發(fā)揮了巨大的作用。一些世界著名的廠商也紛紛致力于數(shù)據(jù)挖掘工具的開發(fā),這其中既有統(tǒng)計(jì)軟件界元老SAS、PSS,也有數(shù)據(jù)庫(kù)巨頭Oracle、IBM。數(shù)據(jù)挖掘技術(shù)與各個(gè)行業(yè)的有機(jī)結(jié)合體現(xiàn)了其蓬勃的生命力,且這種趨勢(shì)正在以前所未有的速度繼續(xù)向前發(fā)展。而我國(guó)對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用仍處于起步階段,即使有少量行業(yè)、企業(yè)將數(shù)據(jù)挖掘技術(shù)應(yīng)用到生產(chǎn)生活之中,也只是局限于數(shù)據(jù)挖掘中最基本的幾項(xiàng)功能,大規(guī)模、深層次的應(yīng)用數(shù)據(jù)挖掘技術(shù)的時(shí)代還沒有到來,因此,筆者認(rèn)為,未來數(shù)據(jù)挖掘研究的一個(gè)著重點(diǎn)便是應(yīng)用領(lǐng)域的研究。

        4.2 空間數(shù)據(jù)挖掘

        空間數(shù)據(jù)挖掘是近幾年興起的交叉邊緣研究學(xué)科,它把數(shù)據(jù)挖掘研究的視域擴(kuò)大到空間數(shù)據(jù)庫(kù),這也使得數(shù)據(jù)挖掘技術(shù)更加貼近于應(yīng)用。因?yàn)榭臻g數(shù)據(jù)具有的獨(dú)特特點(diǎn)使得空間數(shù)據(jù)挖掘比傳統(tǒng)數(shù)據(jù)挖掘更為困難,因此研發(fā)高效的空間數(shù)據(jù)挖掘技術(shù)是當(dāng)前空間數(shù)據(jù)挖掘面臨的主要挑戰(zhàn),筆者認(rèn)為這也是未來數(shù)據(jù)挖掘的熱點(diǎn)之一。

        4.3 Web數(shù)據(jù)挖掘

        萬維網(wǎng)是一個(gè)巨大的、分布廣泛的全球性信息服務(wù)中心,它包括新聞、廣告、消費(fèi)信息、金融管理、電子商務(wù)等各種各樣的信息。不僅如此,還包含著豐富的結(jié)構(gòu)化數(shù)據(jù),如動(dòng)態(tài)變化的超鏈接信息以及對(duì)于Web頁面的訪問和使用的信息等,這為數(shù)據(jù)挖掘提供了豐富的資源。然而,與傳統(tǒng)的數(shù)據(jù)庫(kù)數(shù)據(jù)相比,作為數(shù)據(jù)挖掘數(shù)據(jù)源的Web數(shù)據(jù)有著自身顯明的特點(diǎn),諸如超大的數(shù)據(jù)規(guī)模;復(fù)雜的數(shù)據(jù)結(jié)構(gòu);動(dòng)態(tài)的數(shù)據(jù)形態(tài);擴(kuò)大的數(shù)據(jù)干擾等,這也對(duì)基于Web的數(shù)據(jù)挖掘方法研究也提出了新的要求。筆者認(rèn)為這也是數(shù)據(jù)挖掘未來的研究方向。

        4.4 圖像挖掘和視頻挖掘

        隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和計(jì)算機(jī)性能的提高,數(shù)碼相機(jī)、監(jiān)視相機(jī)、衛(wèi)星遙感系統(tǒng)的應(yīng)用越來越廣泛,涌現(xiàn)出大量的圖像數(shù)據(jù)和視頻數(shù)據(jù)。從數(shù)據(jù)的轉(zhuǎn)化、同步、連續(xù)數(shù)據(jù)流的管理到圖像數(shù)據(jù)的檢索受到普遍關(guān)注,如何用數(shù)據(jù)挖掘的方法智能地從圖像和視頻數(shù)據(jù)庫(kù)中挖掘出盡可能多的有用信息也是學(xué)界探討的一個(gè)熱點(diǎn),但圖像數(shù)據(jù)挖掘不同于普通數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘,挖掘?qū)ο蟮膹?fù)雜性使得圖像數(shù)據(jù)挖掘理論和技術(shù)發(fā)展緩慢。因此,筆者認(rèn)為圖像數(shù)據(jù)挖掘必將成為研究的一個(gè)方向。

        4.5 數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化

        數(shù)據(jù)挖掘研究至今,仍沒有一套標(biāo)準(zhǔn)化的語言,這使得在進(jìn)行數(shù)據(jù)挖掘研究時(shí),不兼容的現(xiàn)象頻繁出現(xiàn),因此,對(duì)數(shù)據(jù)挖掘語言進(jìn)行標(biāo)準(zhǔn)化也是當(dāng)務(wù)之急,在未來的數(shù)據(jù)挖掘研究中,也應(yīng)當(dāng)作為重點(diǎn)內(nèi)容。

        4.6 數(shù)據(jù)挖掘中的隱私保護(hù)和信息安全

        Web上存在著大量電子形式的個(gè)人信息,加上數(shù)據(jù)挖掘工作能力的不斷增強(qiáng),對(duì)隱私和數(shù)據(jù)安全構(gòu)成了威脅,保護(hù)隱私的數(shù)據(jù)挖掘方法的進(jìn)一步發(fā)展是顯而易見的。這需要技術(shù)專家、社會(huì)專家和法律專家的共同協(xié)作,提出隱私的嚴(yán)格定義和形式機(jī)制,以證明數(shù)據(jù)挖掘中的隱私保護(hù)性。

        [1]朱世武,崔嵬,張堯庭,謝邦昌.數(shù)據(jù)挖掘運(yùn)用的理論與技術(shù)[J].統(tǒng)計(jì)研究,2003,(8).

        [2]朱建平,張潤(rùn)楚.數(shù)據(jù)挖掘中事務(wù)性數(shù)據(jù)庫(kù)的壓縮及其應(yīng)用[J].統(tǒng)計(jì)研究,2004,(1).

        [3]劉云霞,曾五一.數(shù)據(jù)挖掘中基于可辨識(shí)矩陣的連續(xù)屬性離散化方法[J].統(tǒng)計(jì)研究,2007,(4).

        [4]韓明.數(shù)據(jù)挖掘及其對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)[J].統(tǒng)計(jì)研究,2001,(8).

        [5]來升強(qiáng),朱建平.數(shù)據(jù)挖掘中高維定性數(shù)據(jù)的粗糙集聚類[J].統(tǒng)計(jì)研究,2005,(8).

        [6]朱建平,謝邦昌.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的提升及其應(yīng)用[J].統(tǒng)計(jì)研究,2004,(12).

        [7]李金昌,徐雪琪. 數(shù)據(jù)挖掘質(zhì)量問題探討[J].統(tǒng)計(jì)研究,2004,(7).

        [8]劉云霞.數(shù)據(jù)挖掘中基于似然比假設(shè)檢驗(yàn)的連續(xù)屬性離散化方法[J].統(tǒng)計(jì)與決策,2007,(4).

        [9]朱梅紅.數(shù)據(jù)挖掘中抽樣技術(shù)的應(yīng)用[J].統(tǒng)計(jì)與決策,2007,(8).

        [10]丁文捷.基于量體數(shù)據(jù)挖掘的服裝投產(chǎn)號(hào)型決策[J].統(tǒng)計(jì)與決策,2007,(9).

        [11]王建仁,高海燕,董琳.數(shù)據(jù)挖掘在銀行CRM中的應(yīng)用[J].統(tǒng)計(jì)與決策,2007,(5).

        [12]劉京軍.數(shù)據(jù)挖掘技術(shù)和信用風(fēng)險(xiǎn)管理[J].統(tǒng)計(jì)與決策,2007,(1).

        猜你喜歡
        數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)庫(kù)
        可能是方法不對(duì)
        數(shù)據(jù)庫(kù)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        99热成人精品国产免国语的| 人妻丝袜中文无码av影音先锋专区| 熟妇人妻无码中文字幕老熟妇| 国产亚洲人成a在线v网站| 99热免费精品| 加勒比东京热久久综合| 亚洲av成人一区二区| 综合色就爱涩涩涩综合婷婷 | 挑战亚洲美女视频网站| 日本一区二区免费高清| 潮喷大喷水系列无码久久精品| 精品国产精品久久一区免费式| 亚洲成Av人片不卡无码观看| 国产一区在线视频不卡| 亚洲一区二区三区小说| 亚洲自偷自拍熟女另类| 91精品啪在线看国产网站| 久亚洲一线产区二线产区三线麻豆| 丰满熟妇人妻av无码区| 在教室伦流澡到高潮h麻豆| 国产精品无码mv在线观看| 熟妇人妻精品一区二区视频| 成年女人vr免费视频| 亚洲AV色无码乱码在线观看| 男女在线免费视频网站| 亚洲综合偷自成人网第页色| 亚洲国产av精品一区二区蜜芽| 欧美国产亚洲日韩在线二区| 久久伊人中文字幕有码久久国产 | 亚洲综合网中文字幕在线| 寂寞人妻渴望被中出中文字幕| 少妇高潮尖叫黑人激情在线| 亚洲AV无码一区二区二三区我| 精品亚洲一区二区在线观看| 亚洲人成网线在线播放va蜜芽| 草草网站影院白丝内射| 国产天堂av手机在线| 国产毛片av最新视频| 亚洲精品无码久久久久| 91综合久久婷婷久久| 亚洲av少妇高潮喷水在线|