張慧萍+賀紅艷+陳小娟
摘要:隨著數(shù)據(jù)挖掘的興起和蓬勃發(fā)展,該技術對于大數(shù)據(jù)的分析和處理能力吸引了眾多研究者的關注。除了互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新技術領域,很多傳統(tǒng)產(chǎn)業(yè)同樣需要數(shù)據(jù)挖掘方法解決實際生產(chǎn)問題。本文首先介紹了數(shù)據(jù)挖掘常見的基本算法,然后以電子商務和用戶節(jié)點特征挖掘為例,介紹了數(shù)據(jù)挖掘技術在煤礦產(chǎn)業(yè)中的應用場景和具體方法,旨在啟發(fā)更多的傳統(tǒng)產(chǎn)業(yè)通過數(shù)據(jù)挖掘手段加快信息處理過程,提高信息整合效率。
關鍵詞:數(shù)據(jù)挖掘;煤礦產(chǎn)業(yè);電子商務;節(jié)點特征挖掘
一、引言
數(shù)據(jù)挖掘是一個年青的、動態(tài)變化的、生機勃勃且快速成長的領域,該技術是在當前大量數(shù)據(jù)日積月累的時代背景下應運而生的[1]?!皵?shù)據(jù)挖掘”一詞有廣義和狹義兩種理解:廣義的數(shù)據(jù)挖掘等同于知識發(fā)現(xiàn)過程,共包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示七個步驟;狹義的數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的一個基本步驟。本文的“數(shù)據(jù)挖掘”更像以上步驟中的第五步,但在此之前通常需要對獲取的數(shù)據(jù)進行清理、選擇或變換等預處理操作,為挖掘階段做準備。
隨著數(shù)據(jù)挖掘技術的興起、發(fā)展與成熟,很多研究者已將其運用到互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、社交網(wǎng)絡等各個領域,用于發(fā)現(xiàn)海量數(shù)據(jù)中隱藏的信息。事實上,數(shù)據(jù)挖掘?qū)τ诖髷?shù)據(jù)的分析和處理能力同樣可以運用在傳統(tǒng)產(chǎn)業(yè)中[2],本文將從煤礦產(chǎn)業(yè)角度出發(fā),介紹數(shù)據(jù)挖掘技術在傳統(tǒng)產(chǎn)業(yè)中的應用。首先,本文著重介紹數(shù)據(jù)挖掘常用的技術;其次,我們以電子商務和用戶節(jié)點特征挖掘為例,介紹數(shù)據(jù)挖掘技術在煤礦產(chǎn)業(yè)中的應用場景,并總結在具體應用中常見的思路和具體方法。
二、數(shù)據(jù)挖掘技術綜述
現(xiàn)實世界中的數(shù)據(jù)極易受到許多干擾,如噪聲、缺失值、不一致數(shù)據(jù)等,低質(zhì)量的數(shù)據(jù)將直接影響挖掘的結果,因此本章將首先介紹數(shù)據(jù)挖掘中常用的預處理方法。對數(shù)據(jù)中隱藏模式的挖掘主要通過監(jiān)督模型和無監(jiān)督模型實現(xiàn)。監(jiān)督模型基于對數(shù)據(jù)的先驗知識,分為分類和回歸方法;而無監(jiān)督模型用于對要挖掘的模式毫無先驗知識的情況,分為聚類和關聯(lián)分析方法。本章將以分類和聚類算法為例,具體介紹數(shù)據(jù)挖掘的基本思想[3]。
1. 數(shù)據(jù)預處理
數(shù)據(jù)預處理方法很多,一般分為四個步驟:
數(shù)據(jù)清理:包括補全缺失值、光滑噪聲、識別離群點、糾正數(shù)據(jù)不一致性。
數(shù)據(jù)集成:把多種數(shù)據(jù)源的數(shù)據(jù)組合從而形成一個完整的數(shù)據(jù)集,這里的數(shù)據(jù)源可能包括多個數(shù)據(jù)庫、數(shù)據(jù)立方體及一般文件。
數(shù)據(jù)規(guī)約:通過聚集、刪除冗余特征或聚類來降低數(shù)據(jù)規(guī)模,得到數(shù)據(jù)集的規(guī)約表示,而使得信息內(nèi)容的損失最小化。
數(shù)據(jù)變換:用匯總、聚集等方式,將數(shù)據(jù)變換為可挖掘的統(tǒng)一形式。
2. 監(jiān)督模型
分類算法是監(jiān)督模型中常用的算法,適用于數(shù)據(jù)集或數(shù)據(jù)集中的部分數(shù)據(jù)有標簽的情況,它從每個數(shù)據(jù)元素都包含分類標簽的訓練數(shù)據(jù)開始,通過對訓練數(shù)據(jù)的學習建立一個分類模型,用于將新的數(shù)據(jù)元素自動分類到訓練數(shù)據(jù)提供的類別中。也就是說,數(shù)據(jù)分類是一個兩階段過程,包括學習階段(構建分類模型)和分類階段(使用模型預測給定數(shù)據(jù)的類別)。常用的算法有決策樹、貝葉斯分類和基于規(guī)則的分類等[1]。
決策樹分類器:是從有分類結果標號的訓練數(shù)據(jù)中學習,從而形成一種類似流程圖的樹結構,每個內(nèi)部結點表示在某一個屬性上的測試,每個分枝代表該測試的一個輸出,而每個樹葉結點代表一個分類標號。決策樹構造的主要方法是自頂向下遞歸的分治方式。
貝葉斯分類器:屬于一種統(tǒng)計學分類方法,用于預測類隸屬關系的概率。對分類算法的比較研究發(fā)現(xiàn),樸素貝葉斯的分類結果可以與決策樹和神經(jīng)網(wǎng)絡相媲美。
基于規(guī)則的分類器:規(guī)則是表示信息或少量知識的好方法,基于規(guī)則的分類器是通過一組IF-THEN規(guī)則指導分類結果。IF部分表示規(guī)則的前提,THEN部分表示規(guī)則的結論。
3. 無監(jiān)督模型
聚類算法是無監(jiān)督模型中的常見算法,適用于數(shù)據(jù)集合不包含任何標簽的情況,即每個數(shù)據(jù)元素的類標號是未知的。聚類是把數(shù)據(jù)對象集劃分成多個組或簇的過程,使簇內(nèi)對象相似性很高,但與其他簇中對象相似性很低。相異性和相似性是對結果的評估,主要用距離度量。如果數(shù)據(jù)源包含大量文本內(nèi)容,對其進行聚類操作時,通常將文本關鍵詞表示為矩陣形式,進而用余弦距離度量文本相似性。聚類算法可從多方面分類,如根據(jù)劃分標準、簇的分離性、所使用的相似性度量和聚類空間等。下面介紹幾種主要的基本聚類方法。
劃分方法:聚類分析最簡單、最基本的方法是劃分,它是把數(shù)據(jù)對象劃分成多個互斥的組或簇的過程。具體來說,劃分方法是將目標集合中的n個對象劃分成k個分區(qū),每個分區(qū)即代表聚類結果中的一個簇(kn)。
層次方法:通過對數(shù)據(jù)集的層次分解完成聚類,分為凝聚聚類和分裂聚類兩種。凝聚聚類是自底向上的,首先認為每個對象各自為一個簇,然后通過迭代逐漸把初始的小簇合并成越來越大的簇,直到所有對象成為一個簇,或滿足某種終止條件。分裂聚類是自頂向下的,首先它把所有對象置于一個簇中,然后從根開始遞歸地把這些簇劃分成多個較小的子簇。
基于密度的方法:基于密度的方法在于彌補基于對象間距離的方法只能發(fā)現(xiàn)球狀簇的缺陷,該方法可用于發(fā)現(xiàn)任意形狀的簇?;诿芏鹊姆椒ò汛乜醋鰯?shù)據(jù)空間中被稀疏區(qū)域分開的稠密區(qū)域,當“鄰域”中的密度超過某個閾值時,該方法繼續(xù)增長給定的簇。
基于網(wǎng)格的方法:上述方法都是數(shù)據(jù)驅(qū)動的,它們劃分對象集并自動適應嵌入空間中的數(shù)據(jù)分布。而基于網(wǎng)格的方法采用空間驅(qū)動的方法,把嵌入空間劃分成獨立于輸入對象分布的單元。該方法中的網(wǎng)格指多分辨率的網(wǎng)格數(shù)據(jù)結構,它將對象空間量化成有限數(shù)目的單元而形成網(wǎng)格結構,在該結構上進行所有的聚類操作。
三、數(shù)據(jù)挖掘技術在傳統(tǒng)煤礦產(chǎn)業(yè)中的應用
傳統(tǒng)煤礦產(chǎn)業(yè)每天也產(chǎn)生著大量的數(shù)據(jù),這些數(shù)據(jù)中同樣隱藏著各類有價值的信息,通過數(shù)據(jù)挖掘技術可以幫助分析數(shù)據(jù)中暗含的隱藏價值。本章將以電子商務和用戶特征挖掘為例,介紹數(shù)據(jù)挖掘方法在煤礦產(chǎn)業(yè)中的應用場景,并介紹具體求解思路和方法。
1. 煤礦電子商務的數(shù)據(jù)挖掘場景
當全球資源化越發(fā)暢通和普及,網(wǎng)絡技術和信息的傳播作為數(shù)據(jù)大幅增長的重要傳載體,企業(yè)中產(chǎn)生了以電子商務領域為主的大量業(yè)務數(shù)據(jù)。如何滿足企業(yè)運作的高效要求,是目前電子商務急需解決的問題,將數(shù)據(jù)挖掘技術完善地應用到企業(yè)電子商務中,也顯得更為必要[4]。文獻[5]從現(xiàn)在電子商務的的概念與特性講起,介紹了煤炭交易的電子商務活動中的數(shù)據(jù)分析和運用特點,并針對這些特點引入數(shù)據(jù)挖掘技術概念,詳細分析了煤炭交易中電子商務數(shù)據(jù)挖掘的類型及相關方法。這里我們將概括該論文的具體思路,論述數(shù)據(jù)挖掘技術在煤炭交易電子商務場景下的應用。
煤炭交易電子是利用計算機技術、計算機互聯(lián)網(wǎng)技術和通信技術,實現(xiàn)在煤炭交易的活動過程中的電子化、數(shù)字化和網(wǎng)絡化。煤炭交易電子商務中產(chǎn)生的是基于計算機和Internet的Web數(shù)據(jù),其具有鮮明的數(shù)據(jù)新特性:動態(tài)性、海量性和直接性。在電子商務的實際運用過程中,根據(jù)用戶訪問和顧客或企業(yè)訪問產(chǎn)生的信息進行數(shù)據(jù)提取,大致可以分為3種數(shù)據(jù)挖掘的數(shù)據(jù)類型,即使用記錄數(shù)據(jù)、內(nèi)容數(shù)據(jù)和結構數(shù)據(jù)類型。相應地,基于Web的數(shù)據(jù)挖掘技術分為:使用日志或訪問記錄的數(shù)據(jù)挖掘模式、內(nèi)容數(shù)據(jù)挖掘模式、結構數(shù)據(jù)挖掘模式。數(shù)據(jù)挖掘在電子商務的應用實現(xiàn)過程大致分為4個步驟:數(shù)據(jù)收集、數(shù)據(jù)預處理、模型評估、解釋模型得出結論。
2. 煤礦產(chǎn)業(yè)中的用戶節(jié)點特征挖掘場景
社交網(wǎng)絡中有很多關于用戶節(jié)點特征挖掘的研究,如對用戶基本信息的挖掘、對用戶行為和人格特征的挖掘、對用戶興趣喜好的挖掘等。這類方法同樣可以借鑒到煤礦產(chǎn)業(yè)中,具體可以有兩類應用:一是將員工看作用戶節(jié)點,根據(jù)已記錄的員工基本信息和工作信息,推斷員工的工作習慣、興趣愛好等隱藏信息,從而對員工有更深入的了解,有助于企業(yè)人文關懷的開展;二是將煤礦資源看作用戶節(jié)點,根據(jù)已知的煤礦資源位置、屬性及特點預測其他煤礦資源的信息,并幫助預測未發(fā)掘的煤礦資源位置。
該場景最常用到的方法是統(tǒng)計分析、分類、聚類和推斷學習。其中,統(tǒng)計分析是各類方法的基礎,幾乎所有的研究都需要首先通過一定的統(tǒng)計分析過程發(fā)現(xiàn)數(shù)據(jù)規(guī)律,進而根據(jù)這一規(guī)律建模求解。分類是已知要挖掘的用戶節(jié)點標簽類別時常用的一種方法,除了本文第二章介紹的基本分類方法外,神經(jīng)網(wǎng)絡、SVM支持向量機、遺傳算法、瀑布分類器等也都是常用的分類方法。聚類是在要挖掘的用戶標簽類別未知時常用的一種方法,除本文第二章介紹的基本聚類方法外,實際中常用的還有模糊聚類、基于概率模型的聚類等方法。推斷和學習算法是根據(jù)其他信息學習目標信息,常用的是基于概率或網(wǎng)絡圖譜的方法。
四、結語
在當今數(shù)據(jù)時代下,每天來自商業(yè)、社會、科學和工程、醫(yī)療以及我們?nèi)粘I畹姆椒矫婷娴臄?shù)兆兆字節(jié)或數(shù)千兆字節(jié)的數(shù)據(jù)注入我們的計算機網(wǎng)絡、萬維網(wǎng)和各種數(shù)據(jù)存儲設備??捎脭?shù)據(jù)的爆炸式增長、廣泛可用和巨大數(shù)量使得我們的時代成為真正的數(shù)據(jù)時代。急需功能強大和通用的工具,以便從這些海量數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,把這些數(shù)據(jù)轉化成有組織的知識。這種需求導致了數(shù)據(jù)挖掘的誕生,這一技術已經(jīng)并將就在我們從數(shù)據(jù)時代大步跨入信息時代的歷程中做出貢獻。
很多傳統(tǒng)產(chǎn)業(yè)也開始利用數(shù)據(jù)挖掘技術解決生產(chǎn)過程中的實際問題。本文首先介紹了數(shù)據(jù)挖掘的常用基本算法,然后舉例提出了在煤礦產(chǎn)業(yè)中可能的應用場景:一是將基于Web的數(shù)據(jù)挖掘方法應用到企業(yè)電子商務中;二是通過統(tǒng)計分析、分類、聚類和推斷學習方法挖掘用戶員工或煤礦資源的特征。事實上,數(shù)據(jù)挖掘理論在煤礦產(chǎn)業(yè)中的應用遠不止這些,對生產(chǎn)資料的調(diào)控與分配、安全事故的分析和預警等同樣可以通過數(shù)據(jù)挖掘技術解決。數(shù)據(jù)挖掘在傳統(tǒng)煤礦產(chǎn)業(yè)的應用在為傳統(tǒng)產(chǎn)業(yè)帶來新機遇的同時,也為理論算法的進一步完善提出了新的挑戰(zhàn)。
參考文獻:
[1]韓家煒,坎伯.數(shù)據(jù)挖掘:概念與技術[J].北京:機械工業(yè)出版社, 2001: 232-233.
[2] 董建新.計算機數(shù)據(jù)挖掘技術在煤礦行業(yè)的應用[J].煤炭技術,2012,31(004):87-89.
[3] Barbier G,Liu H.Data mining in social media[M]//Social Network Data Analytics.Springer US, 2011: 327-352.
[4] 劉振東.企業(yè)電子商務中數(shù)據(jù)挖掘分析及方法論[J].煤炭技術,2012,31(3):272-274.
[5] 宋浩杰,趙浩婕.煤炭電子商務的數(shù)據(jù)挖掘技術應用[J].煤炭技術,2012,31(008):273-275.