楊濤
(中海石油(中國)有限公司 北京 100010)
基于決策樹算法的石油基礎(chǔ)數(shù)據(jù)挖掘系統(tǒng)應(yīng)用研究
楊濤
(中海石油(中國)有限公司 北京 100010)
針對石油基礎(chǔ)數(shù)據(jù)量急劇增長,數(shù)據(jù)之間不能達成共享,管理不能保持統(tǒng)一等問題,研究并設(shè)計了石油基礎(chǔ)數(shù)據(jù)挖掘系統(tǒng)分析系統(tǒng)。通過構(gòu)建石油基礎(chǔ)數(shù)據(jù)數(shù)據(jù)倉庫模型,用于完成數(shù)據(jù)清理、數(shù)據(jù)變換和數(shù)據(jù)集成等數(shù)據(jù)預(yù)處理操作。應(yīng)用決策樹算法實現(xiàn)油基礎(chǔ)數(shù)據(jù)的數(shù)據(jù)挖掘與分析,并借助數(shù)據(jù)挖掘插件直觀地向用戶展現(xiàn)了數(shù)據(jù)挖掘算法的分析結(jié)果,輔助業(yè)務(wù)管理人員對油氣生產(chǎn)做出指導(dǎo)和決策,促進了中國石油勘探與生產(chǎn)分公司生產(chǎn)管理水平的提高。
石油基礎(chǔ)數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;決策樹法
石油基礎(chǔ)數(shù)據(jù)正伴隨石油行業(yè)信息化的迅速發(fā)展而不斷攀升,加強管理,并科學(xué)合理分析這些數(shù)據(jù),對于中國石油勘探與生產(chǎn)分公司來說意義重大[1]。目前管理系統(tǒng)查詢數(shù)據(jù)的主要形式為報表或者表格,缺點在于不能直觀顯示圖表數(shù)據(jù),所以,對石油基礎(chǔ)數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建勢在必行[2]。
文中基于中國石油經(jīng)濟研究院提供的基礎(chǔ)數(shù)據(jù),該數(shù)據(jù)服務(wù)于中石油勘探與生產(chǎn)分公司,分析角度確定為石油基礎(chǔ)數(shù)據(jù)分析,對數(shù)據(jù)倉庫體系結(jié)構(gòu)以及多維數(shù)據(jù)分析模型進行構(gòu)建,對數(shù)據(jù)倉庫的多維分析主題進行合理確定,完成石油基礎(chǔ)數(shù)據(jù)挖掘系統(tǒng)分析系統(tǒng)的設(shè)計與實際驗證,選擇數(shù)據(jù)挖掘技術(shù)歸納總結(jié)石油基礎(chǔ)數(shù)據(jù),尋找有用信息,直觀顯示分析結(jié)果,提升中國石油企業(yè)業(yè)務(wù)管理人員的管理能力與決策能力[3]。
數(shù)據(jù)挖掘被稱為數(shù)據(jù)庫的知識發(fā)現(xiàn)(Knowledge Discov-ery in Databases),石油基礎(chǔ)數(shù)據(jù)的數(shù)據(jù)主要目標(biāo)為大量石油基礎(chǔ)數(shù)據(jù),主要任務(wù)是對這些業(yè)務(wù)數(shù)據(jù)進行清洗、抽取、轉(zhuǎn)換以及加載,篩選有利于決策的重要數(shù)據(jù)[4]。圖1表示該系統(tǒng)結(jié)構(gòu)。
圖1 石油基礎(chǔ)數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)
石油基礎(chǔ)數(shù)據(jù)挖掘?qū)儆谌藱C交互過程,該過程具有完整以及多次反復(fù)等特征[5]。數(shù)據(jù)挖掘基于多個步驟,并且不同步驟會隨著石油數(shù)據(jù)來源與研究領(lǐng)域的差異而改變,該過程見圖2。
圖2 石油基礎(chǔ)數(shù)據(jù)挖掘過程示意
數(shù)據(jù)倉庫屬于分析型處理數(shù)據(jù)庫,數(shù)據(jù)來源為數(shù)據(jù)集合,該數(shù)據(jù)集合具有多個異構(gòu)、完整、穩(wěn)定等特征,并對上述數(shù)據(jù)集合進行有效集成,根據(jù)各自主題的差異重新組合,尋找數(shù)據(jù)間的聯(lián)系與規(guī)律,為業(yè)務(wù)管理人員的決策提供關(guān)鍵信息[7]。
2.1 數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計
石油基礎(chǔ)數(shù)據(jù)數(shù)據(jù)倉庫的體系結(jié)構(gòu)由3部分組成,分別為:1)數(shù)據(jù)源;2)數(shù)據(jù)存儲;3)數(shù)據(jù)管理。圖3表示具體結(jié)構(gòu)[8]。數(shù)據(jù)源作為數(shù)據(jù)倉庫的基礎(chǔ),其來源包括4方面:①世界石油工業(yè)基礎(chǔ)數(shù)據(jù)庫;②石油基礎(chǔ)數(shù)據(jù)要覽;③世界油氣資源查詢系統(tǒng)數(shù)據(jù)庫;④其他外部數(shù)據(jù)源。
圖3 石油基礎(chǔ)數(shù)據(jù)數(shù)據(jù)倉庫體系結(jié)構(gòu)
石油基礎(chǔ)數(shù)據(jù)倉庫的數(shù)據(jù)組織方式可以完整清晰地描述分析對象,尋找與分析對象相關(guān)企業(yè)不同數(shù)據(jù)間的內(nèi)在關(guān)聯(lián)。具有高效率、高準(zhǔn)確率的特征,提升管理人員的決策能力[9]。
1)數(shù)據(jù)倉庫的數(shù)據(jù)綜合:數(shù)據(jù)倉庫中的數(shù)據(jù)組織方法為分級組織,對應(yīng)級別包括:①早期細(xì)節(jié)級;②當(dāng)前細(xì)節(jié)級;③輕度綜合級;④高度綜合級;⑤元數(shù)據(jù)。其中第3種和第4種級別的數(shù)據(jù)適當(dāng)進行歸納總結(jié),因此,適合這兩種級別數(shù)據(jù)的模型為星型或者是雪花片模型,從而增加數(shù)據(jù)訪問速度[10]。數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)見圖4。
圖4 數(shù)據(jù)倉庫的數(shù)據(jù)組織結(jié)構(gòu)
2)數(shù)據(jù)倉庫元數(shù)據(jù)模型:元數(shù)據(jù)(Meta Data)是關(guān)于數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)可大幅度提高尋找所需數(shù)據(jù)速度。石油基礎(chǔ)數(shù)據(jù)數(shù)據(jù)倉庫的核心為元數(shù)據(jù),其對不同對象進行描述。元數(shù)據(jù)指明數(shù)據(jù)倉庫信息的內(nèi)容與位置,對數(shù)據(jù)的抽取與轉(zhuǎn)換規(guī)則進行詳細(xì)描述,對數(shù)據(jù)倉庫主題相關(guān)的所有信息進行儲存[11]。詳見圖5所示。
圖5 元數(shù)據(jù)關(guān)系示意圖
3)數(shù)據(jù)倉庫的粒度設(shè)計:數(shù)據(jù)粒度指的是數(shù)據(jù)倉庫中保存數(shù)據(jù)的細(xì)化或者是綜合程度的級別。數(shù)據(jù)粒度越小,則數(shù)據(jù)細(xì)化程度越高,數(shù)據(jù)綜合級別越低,提供細(xì)節(jié)數(shù)據(jù)的查詢能力越強,反之亦然。
2.2 數(shù)據(jù)倉庫ETL設(shè)計
對源數(shù)據(jù)以及目標(biāo)數(shù)據(jù)結(jié)構(gòu)進行掃描,在元數(shù)據(jù)庫中進行相應(yīng)儲存,對源表以及目標(biāo)表進行確認(rèn)之后,建立字段映射,檢驗字段映射能否成功,系統(tǒng)依據(jù)抽取規(guī)則,對數(shù)據(jù)進行抽取。確定源字段與轉(zhuǎn)換函數(shù),對數(shù)據(jù)進行轉(zhuǎn)換;最后按照ETL自定義的數(shù)據(jù)抽取規(guī)則、轉(zhuǎn)換規(guī)則,自動生成 ETL信息,將數(shù)據(jù)加載至目標(biāo)數(shù)據(jù)庫中。
1)在數(shù)據(jù)集中,該方法選擇信息增益作為屬性選擇的標(biāo)準(zhǔn),確定最有影響力的屬性;2)分解數(shù)據(jù)集,形成多個子集,確定不同子集最有影響力的屬性,繼續(xù)分解,直到每個子集只包含同一類型的樣本為止。由此形成一棵決策樹,詳見圖 6所示。
圖6 決策樹的構(gòu)成
假設(shè)石油基礎(chǔ)數(shù)據(jù)集S中有s個樣本,類別屬性有m個不同取值,定義m個不同的類Ci,i∈{1,2,3,…m}。設(shè)si為類別Ci的樣本個數(shù),該數(shù)據(jù)集分類所需要的期望信息如下:
其中pi是任意一個樣本屬性類別的Ci的概率,參照si/S進行計算。
設(shè)屬性A可取v個不同的值{a1,a2,a3…av},可以用屬性A將S劃分v個子集{s1,s2,s3…sv},其中,Si包含S屬性A中取值aj為1的樣本。若屬性A為測試屬性,設(shè)sij為子集Sj中屬于Ci類別的樣本數(shù)。則利用屬性A劃分當(dāng)前集合所需的期望信息計算為:
其中,(s1j,s2j,s3j…smj)/S稱為第j個子集的權(quán)值。E(A)越小,即子集劃分結(jié)果越優(yōu)。作為給定子集Sj,期望信息如(1)所示。其中pij=sij/|Sj|為子集中任一個樣本屬于類別Ci的概率。
由此利用屬性A對當(dāng)前分支節(jié)點進行劃分所獲得的信息增益是:
Grain(A)是根據(jù)屬性A進行集合劃分所獲得的信息熵的減少量。
挖掘過程如圖7所示。
圖7 決策樹算法的數(shù)據(jù)挖掘過程
石油基礎(chǔ)數(shù)據(jù)挖掘分析系統(tǒng)由4個功能模塊構(gòu)成,分別為:1)能源數(shù)據(jù)查詢;2)能源數(shù)據(jù)三維柱狀圖以及餅狀圖顯示;3)能源數(shù)據(jù)分析;4)數(shù)據(jù)挖掘。其中,第3功能模塊涵蓋3方面內(nèi)容:①OLAP分析;②多維透視表分析;③多維透視圖分析。具體詳見圖 8。
圖8 決策樹算法的數(shù)據(jù)挖掘過程
文章基于石油基礎(chǔ)數(shù)據(jù)的特征,對石油基礎(chǔ)數(shù)據(jù)倉庫模型進行構(gòu)建,對數(shù)據(jù)挖掘模型進行創(chuàng)建,達到挖掘分析石油基礎(chǔ)數(shù)據(jù)的目標(biāo)。所設(shè)計的挖掘系統(tǒng)可直觀展示三維或多維報表與數(shù)據(jù)查詢結(jié)果的圖表形式。這對于提高業(yè)務(wù)管理人員的決策能力,加強中國石油企業(yè)的生產(chǎn)管理水平至關(guān)重要。
[1]崔立芳.淺析石油數(shù)據(jù)管理[J].計算機工程應(yīng)用技術(shù),2011,7(30):7514-7515.
[2]楊凱.數(shù)據(jù)挖掘技術(shù)在中石油 ERP中的應(yīng)用研究[J].中國管理信息,2010,13(17):57-59.
[3]鄭繼剛,王邊疆.?dāng)?shù)據(jù)挖掘研究的現(xiàn)狀與發(fā)展趨勢[J].紅河學(xué)院學(xué)報,2010,8(2):45-48.[4]譚鋒奇,李洪奇,孟照旭,郭海峰,李雄炎.數(shù)據(jù)挖掘方法在石油勘探開發(fā)中的應(yīng)用研究[J].石油地球物理勘探,2010,45(1):85-91.
[5]鄭巖.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用[M].北京:清華大學(xué)出版社,2011.
[6]徐玉鵬.數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘在商業(yè)智能中的應(yīng)用研究[D].南京:南京航空航天大學(xué),2010.
[7]HU Hong-tao,ZHANG Jing-na,LI Zhou-li.A distortion correction method of lateral multi-lens video logging image[C]//2012 IEEE InternationalConference on Computer Science and Automation Engineering,2012:141-144.
[8]張俊澤.數(shù)據(jù)挖掘在石油行業(yè)資金管理中的應(yīng)用[D].天津:天津大學(xué),2008.
[9]商琳,駱斌.一種基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)框架[J].計算機應(yīng)用研究.2000(9):63-65.
[10]王曉蓮,顧娟,王穎,等.大慶油田測井?dāng)?shù)據(jù)庫系統(tǒng)設(shè)計[J].油氣田地面工程,2007,26(2):46-47.
[11]汪忠德,王新海,瞿建華,等.數(shù)據(jù)挖掘技術(shù)在石油勘探與開發(fā)中的研究及應(yīng)用[J].石油工業(yè)計算機應(yīng)用,2007,15(1):17-20.
[12]肖基毅,胡蓉,王以群.油網(wǎng)格數(shù)據(jù)挖掘新技術(shù)研究[J].西南石油大學(xué)學(xué)報,2008,30(3):152-154.
[13]馮宗祥.油氣勘探生產(chǎn)信息平臺建設(shè)的目標(biāo)及方法[J].中國石油勘探,2005,10(3):53-56.
[14]Hirsh H.Data mining research:current status and future opportunities.Statistical Analysis and Data Mining,2008,1(2):104-107.
[15]李立平.基于數(shù)據(jù)挖掘的勘探隨鉆分析系統(tǒng)[D].上海:上海交通大學(xué),2010.
Oil based data mining system based on decision tree algorithm applied research
YANG Tao
(China National Offshore Oil Corporation,Beijing 100010,China)
For oil based data volume increase sharply,unable to reach a Shared between data,couldn't keep his unified management,research and design of the world's oil and gas resources query analysis system.By building oil based data warehouse model,oil based data warehouse multidimensional analysis method is given.Using decision tree algorithm to realize oil based data mining and analysis of the data,and with the help of data mining plug-in intuitively to show the user the analysis results of data mining algorithm and auxiliary business managers make guidance to the oil and gas production and decision-making,promote the production management level,the branch of China petroleum exploration and production.
oil based data;data mining;data warehouse;decision tree method
TN98
A
1674-6236(2016)18-0016-03
2016-02-25 稿件編號:201602133
國家級重點專項基金課題(2011ZX05026-001-06);北京市科技局課題(TX-78901W2015)
楊 濤(1978—),男,河北徐水人,中級工程師。研究方向:設(shè)備設(shè)施完整性管理。