[摘要] 本文介紹了數(shù)據(jù)挖掘的概念、對(duì)象、任務(wù),重點(diǎn)探討了其應(yīng)用領(lǐng)域的廣泛性及效益性。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 數(shù)據(jù)倉庫 知識(shí)發(fā)現(xiàn)
隨著計(jì)算機(jī)網(wǎng)絡(luò)與數(shù)據(jù)庫技術(shù)的迅速發(fā)展和廣泛應(yīng)用,各單位擁有的數(shù)據(jù)量與日俱增,而傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)(DBMS)僅能提供數(shù)據(jù)的存取和查詢,如何從信息海洋中提取有價(jià)值的知識(shí),從而為企業(yè)的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù),進(jìn)一步提高信息的利用率,這就引發(fā)了一門新興的自動(dòng)信息提取技術(shù)——數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)(Data Mining and Knowledge Discovery in Databases),并逐漸形成了一個(gè)熱門研究方向。
基于數(shù)據(jù)庫的知識(shí)發(fā)現(xiàn)(KDD)一詞最早是在1989年8月于美國底特律市召開的第一屆KDD國際學(xué)術(shù)會(huì)議上正式形成的。1995年,在加拿大召開了第一屆知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國際會(huì)議。2002年,麻省理工學(xué)院的《科技評(píng)論》雜志提出未來5年對(duì)人類產(chǎn)生重大影響的10大新興技術(shù),“數(shù)據(jù)挖掘”位居第三。
一、數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)
數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)采掘、數(shù)據(jù)開采等。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中抽取出潛在的、不為人知的有用信息、模式和趨勢(shì)。數(shù)據(jù)挖掘是一種決策支持過程,它主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù),作出歸納性的推理,從中挖掘出潛在的模式,預(yù)測(cè)客戶的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。其中需要強(qiáng)調(diào)的幾點(diǎn)是:得到的必須是有用的信息;得到的必須是清晰、明確的信息;要有一個(gè)很快的、可行的算法。
數(shù)據(jù)挖掘不同的術(shù)語和定義:data mining, knowledge discovery, pattern discovery, data dredging, knowledge, data archeology。
一般認(rèn)為數(shù)據(jù)采掘是數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,簡稱KDD)的一個(gè)環(huán)節(jié),是采用具體的數(shù)據(jù)采掘算法從數(shù)據(jù)中自動(dòng)高效地提取有用模式的過程,而KDD是包含數(shù)據(jù)采掘、數(shù)據(jù)準(zhǔn)備等環(huán)節(jié)的循環(huán)往復(fù)過程。在KDD研究領(lǐng)域一致認(rèn)可的描述性定義是Fayyad等人給出的,定義如下:KDD是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的、以及最終可理解的模式的非平凡過程。知識(shí)發(fā)現(xiàn)由以下步驟組成:⑴數(shù)據(jù)清理:消除噪聲或不一致數(shù)據(jù)。⑵數(shù)據(jù)集成:把多種數(shù)據(jù)源組合在一起。⑶數(shù)據(jù)選擇:從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù)。⑷數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作。⑸數(shù)據(jù)挖掘:使用智能方法提取數(shù)據(jù)模式。⑹模式評(píng)估:根據(jù)某種興趣度度量,識(shí)別表示知識(shí)的真正有趣的模式。⑺知識(shí)表示:使用可視化和知識(shí)表示技術(shù),向用戶提供挖掘知識(shí)。
對(duì)這兩個(gè)術(shù)語更嚴(yán)格的區(qū)分是在KDD96國際會(huì)議上:Fayyad,Piatetsky-Shapiro和Smyth指出:知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)的全部過程,而數(shù)據(jù)挖掘則是此全部過程的一個(gè)特定、關(guān)鍵步驟。事實(shí)上,在現(xiàn)今文獻(xiàn)的大多數(shù)場(chǎng)合,這兩個(gè)術(shù)語仍然不加區(qū)分地使用著。
同時(shí)需要指出的是,這里所說的知識(shí)發(fā)現(xiàn),不是要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學(xué)定理和純數(shù)學(xué)公式,更不是什么機(jī)器定理證明。所有發(fā)現(xiàn)的知識(shí)都是相對(duì)的,是有特定前提和約束條件、面向特定領(lǐng)域的,同時(shí)還要能夠易于被用戶理解,最好能用自然語言表達(dá)發(fā)現(xiàn)結(jié)果。因此DMKD的研究成果很講求實(shí)際。
二、數(shù)據(jù)挖掘的對(duì)象及任務(wù)
1.數(shù)據(jù)源
根據(jù)信息存儲(chǔ)格式,用于挖掘的對(duì)象有關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、數(shù)據(jù)倉庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、以及環(huán)球網(wǎng)Web.目前,用于數(shù)據(jù)挖掘的數(shù)據(jù)源主要是關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、和環(huán)球網(wǎng)Web.
2.主要任務(wù)
(1)數(shù)據(jù)總結(jié)
數(shù)據(jù)總結(jié)的目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。數(shù)據(jù)挖掘主要關(guān)心從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把數(shù)據(jù)庫中的有關(guān)數(shù)據(jù)從低層次抽象到高層次上的過程。
(2)分類
分類的目的是建立一個(gè)分類函數(shù)或分類模型(也稱作分類器),該模型能把數(shù)據(jù)庫的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。例:信用卡申請(qǐng)者,分類為低、中、高風(fēng)險(xiǎn)。
(3)聚類
聚類是把一組個(gè)體按照相似性歸類,即“物以類聚”。它的目的是使屬于同一類別的個(gè)體之間的距離盡可能地小,而不同類別的個(gè)體間的距離盡可能地大。例:①一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病。②租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群。
聚集通常作為數(shù)據(jù)挖掘的第一步。例如,“哪一種類的促銷對(duì)客戶響應(yīng)最好?”,對(duì)于這一類問題,首先對(duì)整個(gè)客戶做聚集,將客戶分組在各自的聚集里,然后對(duì)每個(gè)不同的聚集,回答問題,可能效果更好。
(4)關(guān)聯(lián)規(guī)則
決定哪些事情將一起發(fā)生。是形式如下的一種規(guī)則,“在購買面包和黃油的顧客中,有90%的人同時(shí)也買了牛奶”(面包+黃油+牛奶)。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的思路還可以用于序列模式發(fā)現(xiàn)。用戶在購買物品時(shí),除了具有上述關(guān)聯(lián)規(guī)律,還有時(shí)間或序列上的規(guī)律。例:①超市中客戶在購買A的同時(shí),經(jīng)常會(huì)購買B,即A=>B(關(guān)聯(lián)規(guī)則)。②客戶在購買A后,隔一段時(shí)間,會(huì)購買B(序列分析)。采用關(guān)聯(lián)模型比較典型的例子是“啤酒和尿布”的故事。
三、數(shù)據(jù)挖掘的應(yīng)用及效益
應(yīng)用是數(shù)據(jù)挖掘的目標(biāo)。數(shù)據(jù)挖掘技術(shù)不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對(duì)這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指導(dǎo)實(shí)際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來的活動(dòng)進(jìn)行預(yù)測(cè)。其應(yīng)用范圍涉及社會(huì)的所有領(lǐng)域,在商業(yè)上的應(yīng)用尤其受到重視。各個(gè)領(lǐng)域在KDD應(yīng)用上既有相同之處,又有各自不同的獨(dú)特地方。
1.典型應(yīng)用領(lǐng)域
(1)科學(xué)應(yīng)用
在生物界,開發(fā)了HMMS兩個(gè)智能發(fā)現(xiàn)系統(tǒng),已經(jīng)用于基因發(fā)現(xiàn)和構(gòu)造核糖核酸模型。天文學(xué)上非常有名的系統(tǒng)是加州理工學(xué)院噴氣推進(jìn)實(shí)驗(yàn)室與天文科學(xué)家合作開發(fā)的用于幫助天文學(xué)家發(fā)現(xiàn)遙遠(yuǎn)的類星體的一個(gè)工具SKICAT。利用SKICAT,天文學(xué)家已發(fā)現(xiàn)了16個(gè)新的極其遙遠(yuǎn)的類星體。SKICAT使用了決策樹方法構(gòu)造分類器,結(jié)果使得能分辨的星體較以前的方法在亮度上要低一個(gè)數(shù)量級(jí)之多,而且新的方法比以往方法的效率要高40倍以上。
(2)市場(chǎng)銷售
數(shù)據(jù)采掘在銷售業(yè)上的應(yīng)用可分為兩類:數(shù)據(jù)庫銷售(database marketing)和籃子數(shù)據(jù)分析(basket analysis)。前者的任務(wù)是通過交互式查詢、數(shù)據(jù)分割和模型預(yù)測(cè)等方法來選擇潛在的顧客以便向它們推銷產(chǎn)品,而不是象以前那樣盲目地選擇顧客推銷;后者的任務(wù)是分析市場(chǎng)銷售數(shù)據(jù)(如POS數(shù)據(jù)庫)以識(shí)別顧客的購買行為模式,從而幫助確定商店貨架的布局排放以促銷某些商品。
(3)金融投資
典型的金融分析領(lǐng)域有投資評(píng)估和股票交易市場(chǎng)預(yù)測(cè),分析方法一般采用模型預(yù)測(cè)法(如神經(jīng)網(wǎng)絡(luò)或統(tǒng)計(jì)回歸技術(shù))。這方面的系統(tǒng)有Fidelity Stock Selector,LBS Capital Management。前者的任務(wù)是使用神經(jīng)網(wǎng)絡(luò)模型選擇投資,后者則使用了專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)和基因算法技術(shù)輔助管理多達(dá)6億美元的有價(jià)證券。
貸款償還預(yù)測(cè)和客戶信用政策分析。將數(shù)據(jù)挖掘技術(shù)中的特征選擇和屬性相關(guān)性計(jì)算應(yīng)用到貸款償付預(yù)測(cè)和客戶信用政策,有助于識(shí)別重要因素,剔除非相關(guān)因素,使銀行優(yōu)化調(diào)整貸款發(fā)放政策。
(4)欺詐甄別
銀行或商業(yè)上經(jīng)常發(fā)生詐騙行為,如惡性透支等。這方面應(yīng)用非常成功的系統(tǒng)有:FALCON系統(tǒng)和FAIS系統(tǒng)。FALCON是HNC公司的開發(fā)的信用卡欺詐估測(cè)系統(tǒng),它已被相當(dāng)數(shù)量的零售銀行用于探測(cè)可疑的信用卡交易;獵鷹的數(shù)據(jù)格式只有幾種,因?yàn)榱餍械男庞每ü局挥袔准遥ㄈ鏥ISA,MASTER等),因此它的應(yīng)用面很大。FAIS是一個(gè)用于識(shí)別與洗錢有關(guān)的金融交易的系統(tǒng),它使用的是一般的政府?dāng)?shù)據(jù)表單。
(5)產(chǎn)品制造
在產(chǎn)品的生產(chǎn)制造過程中常常伴隨有大量的數(shù)據(jù),如產(chǎn)品的各種加工條件或控制參數(shù),這些數(shù)據(jù)反映了每個(gè)生產(chǎn)環(huán)節(jié)的狀態(tài),通過數(shù)據(jù)挖掘?qū)@些數(shù)據(jù)的分析,得到產(chǎn)品質(zhì)量與這些參數(shù)之間的關(guān)系,可以對(duì)改進(jìn)產(chǎn)品質(zhì)量提出針對(duì)性很強(qiáng)的建議,而且有可能提出新的更高效節(jié)約的控制模式,從而為制造廠家?guī)順O大的回報(bào)。
(6)Internet的應(yīng)用
Internet的迅猛發(fā)展,尤其是Web的全球普及,使得Web上信息量無比豐富,Web上的數(shù)據(jù)信息不同于數(shù)據(jù)庫,數(shù)據(jù)庫有規(guī)范的結(jié)構(gòu),Web上的信息則不然,主要是文檔。因此Web上的開采發(fā)現(xiàn)需要用到不同于常規(guī)數(shù)據(jù)庫開采的很多技術(shù)。Web信息發(fā)現(xiàn)也稱信息搜索或查詢,資源發(fā)現(xiàn)本質(zhì)上是網(wǎng)上搜索,關(guān)鍵在于自動(dòng)生成Web文檔的索引。目前,這方面的研究主要有兩個(gè)方面:研制新的更好的索引系統(tǒng)、利用已有索引系統(tǒng)或搜索引擎開發(fā)高層次的搜索或發(fā)現(xiàn)系統(tǒng)。相比之下,后者的研究更為活躍。從技術(shù)上看,自動(dòng)文檔分類或歸類方法將對(duì)這方面的研究有很大作用。
(7)學(xué)校教育
學(xué)院分析學(xué)生歷史信息,決定哪些人愿意報(bào)考何專業(yè),發(fā)送手冊(cè)給他們。分析教師的學(xué)歷、年齡、職稱等與授課效果的關(guān)聯(lián)規(guī)則,制定教學(xué)方案,促進(jìn)教學(xué)質(zhì)量的提高。
總之,DM可廣泛應(yīng)用于銀行金融、零售與批發(fā)、制造、保險(xiǎn)、公共設(shè)施、政府、教育、科研、遠(yuǎn)程通訊、軟件開發(fā)、運(yùn)輸、生物信息或基因等各個(gè)企事業(yè)單位及國防科研上。
2.數(shù)據(jù)挖掘帶來的效益
截止到目前,數(shù)據(jù)挖掘工程在很多領(lǐng)域取得了成果。這些成果使得各類機(jī)構(gòu)和組織能更好地理解它們的組織結(jié)構(gòu)、業(yè)務(wù)處理過程和顧客,從而得到很高的投資收益。在某些情況下,僅僅一小部分?jǐn)?shù)據(jù)挖掘所得到的知識(shí)就能回報(bào)最初的投資。世界著名的GartnerGroup咨詢顧問公司預(yù)計(jì):不久將來先進(jìn)的大企業(yè)將會(huì)設(shè)置“統(tǒng)一數(shù)據(jù)分析專家”的職位。
例如:①美國著名國家籃球隊(duì)NBA的教練,利用某公司提供的數(shù)據(jù)挖掘技術(shù),臨場(chǎng)決定替換隊(duì)員,從而贏得比賽,在數(shù)據(jù)庫界被傳為佳話。
②全球數(shù)據(jù)倉庫與CRM解決方案領(lǐng)導(dǎo)廠商N(yùn)CR公司(紐約股票代號(hào)NCR)Teradata的數(shù)據(jù)挖掘?qū)嶒?yàn)室基于20多年豐富的行業(yè)經(jīng)驗(yàn),協(xié)助包括銀行、電信、航空、證券和保險(xiǎn)在內(nèi)的各行業(yè)企業(yè)善用商業(yè)數(shù)據(jù)挖掘,構(gòu)筑競爭優(yōu)勢(shì)。據(jù)了解,全球前50大銀行中,有一半以上采用NCR的Teradata企業(yè)級(jí)數(shù)據(jù)倉庫解決方案,尤其是全球獲利的前15大銀行中就有8家是NCR的用戶。
四、結(jié)束語
綜上所述,數(shù)據(jù)挖掘雖然是一門新興的技術(shù),但有著鮮明的服務(wù)性、大眾性、利益驅(qū)動(dòng)性,顯示了它強(qiáng)大的生命力。根據(jù)最近Gartner的HPC研究表明,“隨著數(shù)據(jù)捕獲、傳輸和存儲(chǔ)技術(shù)的快速發(fā)展,大型系統(tǒng)用戶將更多地需要采用新技術(shù)來挖掘市場(chǎng)以外的價(jià)值,采用更為廣闊的并行處理系統(tǒng)來創(chuàng)建新的商業(yè)增長點(diǎn)。” 數(shù)據(jù)挖掘?qū)⒅阍诤A繑?shù)據(jù)面前迅速找到閃亮的知識(shí),找到隱藏的商機(jī),從而立于不敗之地。相信在不遠(yuǎn)的將來數(shù)據(jù)挖掘會(huì)迅速普及。
參考文獻(xiàn):
[1][加]Jiawei Han. Micheline Kamber 著:數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰等譯.北京:機(jī)械工業(yè)出版社,2007.3
[2]陳安陳寧:等著.數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].科學(xué)出版社,2006.3
[3]羅克吳杰:巨型數(shù)據(jù)庫中的數(shù)據(jù)采掘。計(jì)算機(jī)工程與應(yīng)用,2001 37(20) 88~91
[4]數(shù)據(jù)挖掘討論組:http://www.Dmgroup.org.cn