陳芳莉+++陳新榮
【摘 要】 數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)管理的重要環(huán)節(jié),本文描述了一種井?dāng)?shù)據(jù)質(zhì)量成熟度閉環(huán)管理流程的框架,這個框架集成了多個商業(yè)軟件(EnergyIQ,TGS,Perigon)在石油勘探開發(fā)數(shù)據(jù)管理方面的先進(jìn)經(jīng)驗,定義了從原始數(shù)據(jù)自動采集、校驗、業(yè)務(wù)工作環(huán)境應(yīng)用,以及業(yè)務(wù)研究知識的回存等環(huán)節(jié),可以有效提高數(shù)據(jù)質(zhì)量成熟度。
【關(guān)鍵詞】 數(shù)據(jù)質(zhì)量 成熟度 閉環(huán)流程
1 背景
數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)管理的重要環(huán)節(jié)[1]。沒有經(jīng)過質(zhì)量控制的數(shù)據(jù)通常是不完整的、質(zhì)量未知、不容易被采納利用;如果最終用戶利用這些質(zhì)量未知的數(shù)據(jù),就可能影響研究成果結(jié)論的準(zhǔn)確性,進(jìn)而對企業(yè)造成不良影響。如何找到一種辦法,能夠?qū)Σ煌瑏碓床煌N類的數(shù)據(jù)進(jìn)行加載、集成和質(zhì)量校驗,使其迅速變?yōu)榭梢岳玫臄?shù)據(jù)資源,是擺在企業(yè)面前的大問題。拿油井?dāng)?shù)據(jù)來說,如果有一系列便捷的軟件工具,幫助管理員對數(shù)據(jù)質(zhì)量和可靠性進(jìn)行檢驗和提高,保證油井?dāng)?shù)據(jù)在整個生產(chǎn)周期都是可用狀態(tài),將大大提高生產(chǎn)管理和科研工作效率。經(jīng)過近三十年的歷程,數(shù)據(jù)質(zhì)量管理研究取得了比較系統(tǒng)的成果[2],無論哪一種成果都離不開數(shù)據(jù)的標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量檢驗的規(guī)則。本文描述了一種井?dāng)?shù)據(jù)質(zhì)量成熟度閉環(huán)管理流程的框架,這個框架集成了多個商業(yè)軟件(EnergyIQ,TGS,Perigon)在石油勘探開發(fā)數(shù)據(jù)管理方面的先進(jìn)經(jīng)驗,包含企業(yè)主數(shù)據(jù)標(biāo)準(zhǔn)化存儲、數(shù)據(jù)可視化顯示、數(shù)據(jù)發(fā)布、向業(yè)務(wù)系統(tǒng)提供結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)等功能,是一種石油勘探開發(fā)數(shù)據(jù)質(zhì)量管理的有效途徑。
2 數(shù)據(jù)質(zhì)量成熟度閉環(huán)管理流程的概念[3]
數(shù)據(jù)質(zhì)量成熟度閉環(huán)管理流程定義了從原始數(shù)據(jù)自動采集、校驗到應(yīng)用于業(yè)務(wù)工作環(huán)境,以及業(yè)務(wù)研究知識的回存,一個完整的生命周期。環(huán)中的不同節(jié)點說明了不同時期數(shù)據(jù)的成熟度。如圖1。
對不同規(guī)模的企業(yè),閉環(huán)流程中數(shù)據(jù)處理環(huán)節(jié)不一樣多。但都是要完成從原始數(shù)據(jù)到業(yè)務(wù)可用數(shù)據(jù),進(jìn)而變?yōu)橹R的過程。圖1所示的閉環(huán)流程主要包含四個階段。
(1)原始數(shù)據(jù)加載(As-is):這種狀態(tài)下,數(shù)據(jù)不做任何質(zhì)量控制,直接進(jìn)入數(shù)據(jù)庫。
(2)信息技術(shù)進(jìn)行質(zhì)量檢查(IT QC):這個階段通過軟件程序進(jìn)行自動檢驗和糾正。
(3)地質(zhì)科學(xué)家進(jìn)行質(zhì)量檢查(Geoscience QC):這個階段對數(shù)據(jù)進(jìn)行處理,滿足業(yè)務(wù)的具體需求。這需要手工干預(yù)來完成,如進(jìn)行測井曲線的拼接或者分段,同時處理數(shù)據(jù)質(zhì)量問題。
(4)地質(zhì)科學(xué)家數(shù)據(jù)分析(Geiscience Analysis):這部分包括研究成果知識的捕獲,對數(shù)據(jù)的修正和補充后回存到主數(shù)據(jù)庫中。
2.1 原始數(shù)據(jù)加載(As-is)
這是數(shù)據(jù)管理閉環(huán)流程的第一個階段,多種類型的數(shù)據(jù)在這個階段被快速自動化加載到系統(tǒng)中,并被設(shè)置為優(yōu)先訪問的數(shù)據(jù)。
這個階段的主要挑戰(zhàn)是不同來源的數(shù)據(jù)同時加載到一個數(shù)據(jù)庫中,通常遇到WELL ID不統(tǒng)一的問題,需要一個標(biāo)準(zhǔn)的命名規(guī)范,PPDM標(biāo)準(zhǔn)里的井ID結(jié)構(gòu)的建議可以參考。這個階段的主要校驗手段是數(shù)據(jù)庫結(jié)構(gòu)和約束,確保數(shù)據(jù)類型和數(shù)據(jù)精度的正確。
2.2 信息技術(shù)進(jìn)行質(zhì)量檢查(IT QC)
信息技術(shù)進(jìn)行質(zhì)量檢查(IT QC)階段主要是應(yīng)用必要的數(shù)據(jù)轉(zhuǎn)換和校驗規(guī)則,確保數(shù)據(jù)可以利用。數(shù)據(jù)轉(zhuǎn)換的例子是測井?dāng)?shù)據(jù)。測井曲線數(shù)據(jù)初始階段可能以原始的DLIS格式存放,之后被轉(zhuǎn)換為標(biāo)準(zhǔn)LAS文件進(jìn)行觀察和分析。在這個階段,應(yīng)用“預(yù)防性法則”,所有無意義的數(shù)據(jù)會被截獲,留下的值都是合理有價值的。例如,會應(yīng)用一組規(guī)則,確保所有井的深度值都在井的真正深度底界范圍內(nèi)。所有的轉(zhuǎn)換和校驗都是自動激活的,這個階段的數(shù)據(jù)轉(zhuǎn)換和校驗優(yōu)先于業(yè)務(wù)。
2.3 地質(zhì)科學(xué)家進(jìn)行質(zhì)量檢查(Geoscience QC)
在這個階段的數(shù)據(jù)質(zhì)量檢查需要更高業(yè)務(wù)水平的用戶參與,有可能會需要專門的技術(shù)人員來操作。例如分析分段測井曲線數(shù)據(jù),進(jìn)行拼接形成一個從頂界到底界的完整井筒剖面。這個階段要應(yīng)用更加嚴(yán)格的數(shù)據(jù)規(guī)則,有時還需要有經(jīng)驗的數(shù)據(jù)管理員痛下決心。這個階段應(yīng)用的“偵探法則”,需要通過與其它相關(guān)數(shù)據(jù)進(jìn)行比對和分析,來判斷數(shù)據(jù)的正確性。例如,地面海拔的值在誤差允許的范圍內(nèi),但卻與數(shù)字高程的值相差甚遠(yuǎn)。
2.4 地質(zhì)科學(xué)家數(shù)據(jù)分析(Geiscience Analysis)
在這個階段,地質(zhì)科學(xué)家利用多個工具對數(shù)據(jù)進(jìn)行仔細(xì)分析,這個階段的數(shù)據(jù)應(yīng)該有值得信賴的成熟度,再不需要花費時間進(jìn)行數(shù)據(jù)檢查。發(fā)現(xiàn)異常值時,需要自問一下這是一個真的錯誤,還是代表一個物理的異常,通常需要更深的調(diào)查才能找到原因。
一旦地質(zhì)科學(xué)家完成了數(shù)據(jù)分析,或者增加了注解說明,或者更新了數(shù)據(jù),這些工作內(nèi)容要作為知識按照一定工作流程寫入到主數(shù)據(jù)庫中。流程要盡可能簡單,方便后來人對數(shù)據(jù)的理解和應(yīng)用。只要企業(yè)在這個區(qū)域的勘探開發(fā)工作不停止,數(shù)據(jù)就會被不同的地質(zhì)科學(xué)家用到,不同的理解和注釋被標(biāo)注到數(shù)據(jù)上,不斷被寫入主數(shù)據(jù)庫。
3 數(shù)據(jù)質(zhì)量成熟度
在數(shù)據(jù)管理閉環(huán)流程里,數(shù)據(jù)不斷被檢查和應(yīng)用的過程中,數(shù)據(jù)的成熟度是不斷提高的,數(shù)據(jù)會被轉(zhuǎn)換為信息和知識,用戶對數(shù)據(jù)的信任度提高,更多的時間用于技術(shù)分析。在數(shù)據(jù)管理閉環(huán)流程中,數(shù)據(jù)質(zhì)量成熟度可以用來警示風(fēng)險。一些企業(yè)忽略了IT QC階段的重要性,從而導(dǎo)致一些重復(fù)工作和損失。
數(shù)據(jù)管理閉環(huán)流程的不斷循環(huán),能不斷提高數(shù)據(jù)的準(zhǔn)確性。例如自動采集的地面海拔的值可以是任何有效數(shù)字值,IT QC階段的“預(yù)防性法則”能將此值控制在一個可以接受的范圍內(nèi)。Geoscience QC階段的“偵探法則”可以通過與數(shù)字高程對比,進(jìn)一步縮小錯誤值的概率。最后通過地質(zhì)科學(xué)家分析階段的應(yīng)用,這個數(shù)據(jù)值會在其他相關(guān)信息如測井曲線、鄰近井、區(qū)域地質(zhì)數(shù)據(jù)中得到更進(jìn)一步的驗正。
另一個說明數(shù)據(jù)質(zhì)量成熟度不斷提高的例子是目標(biāo)地層的顆粒密度。純凈石英的顆粒密度值為2.65gm/cc,因此一個干凈成熟的石英砂石密度為2.65gm/cc。應(yīng)用了“預(yù)防性法則”:加載顆粒密度數(shù)據(jù)到井?dāng)?shù)據(jù)庫時,由于沒有其他參考條件,IT QC過程會將顆粒密度值控制在1.9-4.4 gm/cc范圍內(nèi)。而應(yīng)用“偵探法則”,如果確定是砂巖,數(shù)據(jù)值會被控制在2.65gm/cc上下10%的浮動范圍。有時有效值范圍也會擴大,讓一些異常值暴露出來,因為這些看起來異常的顆粒密度值可能是正確的,而深度卻可能錯誤地恰好落到白云巖的層位,其顆粒密度在3.1gm/cc。地質(zhì)家在以上工作的基礎(chǔ)上進(jìn)行油藏分析,可能會把有效值范圍擴大,以包含任何現(xiàn)場可行的異常值,從而暴露出一個參雜長石的砂巖地層。從一個巖性分析判斷的過程,會衍生出一系列地層學(xué)結(jié)論的變化,從而影響到勘探開發(fā)決策??梢姅?shù)據(jù)質(zhì)量成熟度的重要性。
4 結(jié)語
企業(yè)對數(shù)據(jù)的依賴程度不斷加大,數(shù)據(jù)質(zhì)量的好壞直接關(guān)系到信息的準(zhǔn)確程度[4],數(shù)據(jù)管理閉環(huán)流程是一個不斷提高數(shù)據(jù)質(zhì)量成熟度的工作理念,對勘探開發(fā)研究工作具有非常重要的意義。具體實現(xiàn)要根據(jù)企業(yè)實際情況。不管采用怎樣的數(shù)據(jù)庫架構(gòu)和數(shù)據(jù)管理流程,要實現(xiàn)數(shù)據(jù)質(zhì)量的不斷提高,就必須要有完善的數(shù)據(jù)標(biāo)準(zhǔn)、靈活的數(shù)據(jù)展示和應(yīng)用工具,以及數(shù)據(jù)格式轉(zhuǎn)換和支持專業(yè)應(yīng)用的軟件接口。
參考文獻(xiàn):
[1]黃向陽,多學(xué)科視角下的統(tǒng)計數(shù)據(jù)質(zhì)量管理.商業(yè)經(jīng)濟(jì)與管理,2011.9.
[2]宋敏等.國外數(shù)據(jù)質(zhì)量管理研究綜述.情報雜志,2007,2.
[3]Implementing the Data Management Continuum ,steve Cooper,Scott Schneider,Grant Monaghan 17TH PNEC論文集.
[4]朱旻等.數(shù)據(jù)質(zhì)量管理與企業(yè)信息化建設(shè).計算機時代,2005.6.endprint
【摘 要】 數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)管理的重要環(huán)節(jié),本文描述了一種井?dāng)?shù)據(jù)質(zhì)量成熟度閉環(huán)管理流程的框架,這個框架集成了多個商業(yè)軟件(EnergyIQ,TGS,Perigon)在石油勘探開發(fā)數(shù)據(jù)管理方面的先進(jìn)經(jīng)驗,定義了從原始數(shù)據(jù)自動采集、校驗、業(yè)務(wù)工作環(huán)境應(yīng)用,以及業(yè)務(wù)研究知識的回存等環(huán)節(jié),可以有效提高數(shù)據(jù)質(zhì)量成熟度。
【關(guān)鍵詞】 數(shù)據(jù)質(zhì)量 成熟度 閉環(huán)流程
1 背景
數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)管理的重要環(huán)節(jié)[1]。沒有經(jīng)過質(zhì)量控制的數(shù)據(jù)通常是不完整的、質(zhì)量未知、不容易被采納利用;如果最終用戶利用這些質(zhì)量未知的數(shù)據(jù),就可能影響研究成果結(jié)論的準(zhǔn)確性,進(jìn)而對企業(yè)造成不良影響。如何找到一種辦法,能夠?qū)Σ煌瑏碓床煌N類的數(shù)據(jù)進(jìn)行加載、集成和質(zhì)量校驗,使其迅速變?yōu)榭梢岳玫臄?shù)據(jù)資源,是擺在企業(yè)面前的大問題。拿油井?dāng)?shù)據(jù)來說,如果有一系列便捷的軟件工具,幫助管理員對數(shù)據(jù)質(zhì)量和可靠性進(jìn)行檢驗和提高,保證油井?dāng)?shù)據(jù)在整個生產(chǎn)周期都是可用狀態(tài),將大大提高生產(chǎn)管理和科研工作效率。經(jīng)過近三十年的歷程,數(shù)據(jù)質(zhì)量管理研究取得了比較系統(tǒng)的成果[2],無論哪一種成果都離不開數(shù)據(jù)的標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量檢驗的規(guī)則。本文描述了一種井?dāng)?shù)據(jù)質(zhì)量成熟度閉環(huán)管理流程的框架,這個框架集成了多個商業(yè)軟件(EnergyIQ,TGS,Perigon)在石油勘探開發(fā)數(shù)據(jù)管理方面的先進(jìn)經(jīng)驗,包含企業(yè)主數(shù)據(jù)標(biāo)準(zhǔn)化存儲、數(shù)據(jù)可視化顯示、數(shù)據(jù)發(fā)布、向業(yè)務(wù)系統(tǒng)提供結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)等功能,是一種石油勘探開發(fā)數(shù)據(jù)質(zhì)量管理的有效途徑。
2 數(shù)據(jù)質(zhì)量成熟度閉環(huán)管理流程的概念[3]
數(shù)據(jù)質(zhì)量成熟度閉環(huán)管理流程定義了從原始數(shù)據(jù)自動采集、校驗到應(yīng)用于業(yè)務(wù)工作環(huán)境,以及業(yè)務(wù)研究知識的回存,一個完整的生命周期。環(huán)中的不同節(jié)點說明了不同時期數(shù)據(jù)的成熟度。如圖1。
對不同規(guī)模的企業(yè),閉環(huán)流程中數(shù)據(jù)處理環(huán)節(jié)不一樣多。但都是要完成從原始數(shù)據(jù)到業(yè)務(wù)可用數(shù)據(jù),進(jìn)而變?yōu)橹R的過程。圖1所示的閉環(huán)流程主要包含四個階段。
(1)原始數(shù)據(jù)加載(As-is):這種狀態(tài)下,數(shù)據(jù)不做任何質(zhì)量控制,直接進(jìn)入數(shù)據(jù)庫。
(2)信息技術(shù)進(jìn)行質(zhì)量檢查(IT QC):這個階段通過軟件程序進(jìn)行自動檢驗和糾正。
(3)地質(zhì)科學(xué)家進(jìn)行質(zhì)量檢查(Geoscience QC):這個階段對數(shù)據(jù)進(jìn)行處理,滿足業(yè)務(wù)的具體需求。這需要手工干預(yù)來完成,如進(jìn)行測井曲線的拼接或者分段,同時處理數(shù)據(jù)質(zhì)量問題。
(4)地質(zhì)科學(xué)家數(shù)據(jù)分析(Geiscience Analysis):這部分包括研究成果知識的捕獲,對數(shù)據(jù)的修正和補充后回存到主數(shù)據(jù)庫中。
2.1 原始數(shù)據(jù)加載(As-is)
這是數(shù)據(jù)管理閉環(huán)流程的第一個階段,多種類型的數(shù)據(jù)在這個階段被快速自動化加載到系統(tǒng)中,并被設(shè)置為優(yōu)先訪問的數(shù)據(jù)。
這個階段的主要挑戰(zhàn)是不同來源的數(shù)據(jù)同時加載到一個數(shù)據(jù)庫中,通常遇到WELL ID不統(tǒng)一的問題,需要一個標(biāo)準(zhǔn)的命名規(guī)范,PPDM標(biāo)準(zhǔn)里的井ID結(jié)構(gòu)的建議可以參考。這個階段的主要校驗手段是數(shù)據(jù)庫結(jié)構(gòu)和約束,確保數(shù)據(jù)類型和數(shù)據(jù)精度的正確。
2.2 信息技術(shù)進(jìn)行質(zhì)量檢查(IT QC)
信息技術(shù)進(jìn)行質(zhì)量檢查(IT QC)階段主要是應(yīng)用必要的數(shù)據(jù)轉(zhuǎn)換和校驗規(guī)則,確保數(shù)據(jù)可以利用。數(shù)據(jù)轉(zhuǎn)換的例子是測井?dāng)?shù)據(jù)。測井曲線數(shù)據(jù)初始階段可能以原始的DLIS格式存放,之后被轉(zhuǎn)換為標(biāo)準(zhǔn)LAS文件進(jìn)行觀察和分析。在這個階段,應(yīng)用“預(yù)防性法則”,所有無意義的數(shù)據(jù)會被截獲,留下的值都是合理有價值的。例如,會應(yīng)用一組規(guī)則,確保所有井的深度值都在井的真正深度底界范圍內(nèi)。所有的轉(zhuǎn)換和校驗都是自動激活的,這個階段的數(shù)據(jù)轉(zhuǎn)換和校驗優(yōu)先于業(yè)務(wù)。
2.3 地質(zhì)科學(xué)家進(jìn)行質(zhì)量檢查(Geoscience QC)
在這個階段的數(shù)據(jù)質(zhì)量檢查需要更高業(yè)務(wù)水平的用戶參與,有可能會需要專門的技術(shù)人員來操作。例如分析分段測井曲線數(shù)據(jù),進(jìn)行拼接形成一個從頂界到底界的完整井筒剖面。這個階段要應(yīng)用更加嚴(yán)格的數(shù)據(jù)規(guī)則,有時還需要有經(jīng)驗的數(shù)據(jù)管理員痛下決心。這個階段應(yīng)用的“偵探法則”,需要通過與其它相關(guān)數(shù)據(jù)進(jìn)行比對和分析,來判斷數(shù)據(jù)的正確性。例如,地面海拔的值在誤差允許的范圍內(nèi),但卻與數(shù)字高程的值相差甚遠(yuǎn)。
2.4 地質(zhì)科學(xué)家數(shù)據(jù)分析(Geiscience Analysis)
在這個階段,地質(zhì)科學(xué)家利用多個工具對數(shù)據(jù)進(jìn)行仔細(xì)分析,這個階段的數(shù)據(jù)應(yīng)該有值得信賴的成熟度,再不需要花費時間進(jìn)行數(shù)據(jù)檢查。發(fā)現(xiàn)異常值時,需要自問一下這是一個真的錯誤,還是代表一個物理的異常,通常需要更深的調(diào)查才能找到原因。
一旦地質(zhì)科學(xué)家完成了數(shù)據(jù)分析,或者增加了注解說明,或者更新了數(shù)據(jù),這些工作內(nèi)容要作為知識按照一定工作流程寫入到主數(shù)據(jù)庫中。流程要盡可能簡單,方便后來人對數(shù)據(jù)的理解和應(yīng)用。只要企業(yè)在這個區(qū)域的勘探開發(fā)工作不停止,數(shù)據(jù)就會被不同的地質(zhì)科學(xué)家用到,不同的理解和注釋被標(biāo)注到數(shù)據(jù)上,不斷被寫入主數(shù)據(jù)庫。
3 數(shù)據(jù)質(zhì)量成熟度
在數(shù)據(jù)管理閉環(huán)流程里,數(shù)據(jù)不斷被檢查和應(yīng)用的過程中,數(shù)據(jù)的成熟度是不斷提高的,數(shù)據(jù)會被轉(zhuǎn)換為信息和知識,用戶對數(shù)據(jù)的信任度提高,更多的時間用于技術(shù)分析。在數(shù)據(jù)管理閉環(huán)流程中,數(shù)據(jù)質(zhì)量成熟度可以用來警示風(fēng)險。一些企業(yè)忽略了IT QC階段的重要性,從而導(dǎo)致一些重復(fù)工作和損失。
數(shù)據(jù)管理閉環(huán)流程的不斷循環(huán),能不斷提高數(shù)據(jù)的準(zhǔn)確性。例如自動采集的地面海拔的值可以是任何有效數(shù)字值,IT QC階段的“預(yù)防性法則”能將此值控制在一個可以接受的范圍內(nèi)。Geoscience QC階段的“偵探法則”可以通過與數(shù)字高程對比,進(jìn)一步縮小錯誤值的概率。最后通過地質(zhì)科學(xué)家分析階段的應(yīng)用,這個數(shù)據(jù)值會在其他相關(guān)信息如測井曲線、鄰近井、區(qū)域地質(zhì)數(shù)據(jù)中得到更進(jìn)一步的驗正。
另一個說明數(shù)據(jù)質(zhì)量成熟度不斷提高的例子是目標(biāo)地層的顆粒密度。純凈石英的顆粒密度值為2.65gm/cc,因此一個干凈成熟的石英砂石密度為2.65gm/cc。應(yīng)用了“預(yù)防性法則”:加載顆粒密度數(shù)據(jù)到井?dāng)?shù)據(jù)庫時,由于沒有其他參考條件,IT QC過程會將顆粒密度值控制在1.9-4.4 gm/cc范圍內(nèi)。而應(yīng)用“偵探法則”,如果確定是砂巖,數(shù)據(jù)值會被控制在2.65gm/cc上下10%的浮動范圍。有時有效值范圍也會擴大,讓一些異常值暴露出來,因為這些看起來異常的顆粒密度值可能是正確的,而深度卻可能錯誤地恰好落到白云巖的層位,其顆粒密度在3.1gm/cc。地質(zhì)家在以上工作的基礎(chǔ)上進(jìn)行油藏分析,可能會把有效值范圍擴大,以包含任何現(xiàn)場可行的異常值,從而暴露出一個參雜長石的砂巖地層。從一個巖性分析判斷的過程,會衍生出一系列地層學(xué)結(jié)論的變化,從而影響到勘探開發(fā)決策??梢姅?shù)據(jù)質(zhì)量成熟度的重要性。
4 結(jié)語
企業(yè)對數(shù)據(jù)的依賴程度不斷加大,數(shù)據(jù)質(zhì)量的好壞直接關(guān)系到信息的準(zhǔn)確程度[4],數(shù)據(jù)管理閉環(huán)流程是一個不斷提高數(shù)據(jù)質(zhì)量成熟度的工作理念,對勘探開發(fā)研究工作具有非常重要的意義。具體實現(xiàn)要根據(jù)企業(yè)實際情況。不管采用怎樣的數(shù)據(jù)庫架構(gòu)和數(shù)據(jù)管理流程,要實現(xiàn)數(shù)據(jù)質(zhì)量的不斷提高,就必須要有完善的數(shù)據(jù)標(biāo)準(zhǔn)、靈活的數(shù)據(jù)展示和應(yīng)用工具,以及數(shù)據(jù)格式轉(zhuǎn)換和支持專業(yè)應(yīng)用的軟件接口。
參考文獻(xiàn):
[1]黃向陽,多學(xué)科視角下的統(tǒng)計數(shù)據(jù)質(zhì)量管理.商業(yè)經(jīng)濟(jì)與管理,2011.9.
[2]宋敏等.國外數(shù)據(jù)質(zhì)量管理研究綜述.情報雜志,2007,2.
[3]Implementing the Data Management Continuum ,steve Cooper,Scott Schneider,Grant Monaghan 17TH PNEC論文集.
[4]朱旻等.數(shù)據(jù)質(zhì)量管理與企業(yè)信息化建設(shè).計算機時代,2005.6.endprint
【摘 要】 數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)管理的重要環(huán)節(jié),本文描述了一種井?dāng)?shù)據(jù)質(zhì)量成熟度閉環(huán)管理流程的框架,這個框架集成了多個商業(yè)軟件(EnergyIQ,TGS,Perigon)在石油勘探開發(fā)數(shù)據(jù)管理方面的先進(jìn)經(jīng)驗,定義了從原始數(shù)據(jù)自動采集、校驗、業(yè)務(wù)工作環(huán)境應(yīng)用,以及業(yè)務(wù)研究知識的回存等環(huán)節(jié),可以有效提高數(shù)據(jù)質(zhì)量成熟度。
【關(guān)鍵詞】 數(shù)據(jù)質(zhì)量 成熟度 閉環(huán)流程
1 背景
數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)管理的重要環(huán)節(jié)[1]。沒有經(jīng)過質(zhì)量控制的數(shù)據(jù)通常是不完整的、質(zhì)量未知、不容易被采納利用;如果最終用戶利用這些質(zhì)量未知的數(shù)據(jù),就可能影響研究成果結(jié)論的準(zhǔn)確性,進(jìn)而對企業(yè)造成不良影響。如何找到一種辦法,能夠?qū)Σ煌瑏碓床煌N類的數(shù)據(jù)進(jìn)行加載、集成和質(zhì)量校驗,使其迅速變?yōu)榭梢岳玫臄?shù)據(jù)資源,是擺在企業(yè)面前的大問題。拿油井?dāng)?shù)據(jù)來說,如果有一系列便捷的軟件工具,幫助管理員對數(shù)據(jù)質(zhì)量和可靠性進(jìn)行檢驗和提高,保證油井?dāng)?shù)據(jù)在整個生產(chǎn)周期都是可用狀態(tài),將大大提高生產(chǎn)管理和科研工作效率。經(jīng)過近三十年的歷程,數(shù)據(jù)質(zhì)量管理研究取得了比較系統(tǒng)的成果[2],無論哪一種成果都離不開數(shù)據(jù)的標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量檢驗的規(guī)則。本文描述了一種井?dāng)?shù)據(jù)質(zhì)量成熟度閉環(huán)管理流程的框架,這個框架集成了多個商業(yè)軟件(EnergyIQ,TGS,Perigon)在石油勘探開發(fā)數(shù)據(jù)管理方面的先進(jìn)經(jīng)驗,包含企業(yè)主數(shù)據(jù)標(biāo)準(zhǔn)化存儲、數(shù)據(jù)可視化顯示、數(shù)據(jù)發(fā)布、向業(yè)務(wù)系統(tǒng)提供結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)等功能,是一種石油勘探開發(fā)數(shù)據(jù)質(zhì)量管理的有效途徑。
2 數(shù)據(jù)質(zhì)量成熟度閉環(huán)管理流程的概念[3]
數(shù)據(jù)質(zhì)量成熟度閉環(huán)管理流程定義了從原始數(shù)據(jù)自動采集、校驗到應(yīng)用于業(yè)務(wù)工作環(huán)境,以及業(yè)務(wù)研究知識的回存,一個完整的生命周期。環(huán)中的不同節(jié)點說明了不同時期數(shù)據(jù)的成熟度。如圖1。
對不同規(guī)模的企業(yè),閉環(huán)流程中數(shù)據(jù)處理環(huán)節(jié)不一樣多。但都是要完成從原始數(shù)據(jù)到業(yè)務(wù)可用數(shù)據(jù),進(jìn)而變?yōu)橹R的過程。圖1所示的閉環(huán)流程主要包含四個階段。
(1)原始數(shù)據(jù)加載(As-is):這種狀態(tài)下,數(shù)據(jù)不做任何質(zhì)量控制,直接進(jìn)入數(shù)據(jù)庫。
(2)信息技術(shù)進(jìn)行質(zhì)量檢查(IT QC):這個階段通過軟件程序進(jìn)行自動檢驗和糾正。
(3)地質(zhì)科學(xué)家進(jìn)行質(zhì)量檢查(Geoscience QC):這個階段對數(shù)據(jù)進(jìn)行處理,滿足業(yè)務(wù)的具體需求。這需要手工干預(yù)來完成,如進(jìn)行測井曲線的拼接或者分段,同時處理數(shù)據(jù)質(zhì)量問題。
(4)地質(zhì)科學(xué)家數(shù)據(jù)分析(Geiscience Analysis):這部分包括研究成果知識的捕獲,對數(shù)據(jù)的修正和補充后回存到主數(shù)據(jù)庫中。
2.1 原始數(shù)據(jù)加載(As-is)
這是數(shù)據(jù)管理閉環(huán)流程的第一個階段,多種類型的數(shù)據(jù)在這個階段被快速自動化加載到系統(tǒng)中,并被設(shè)置為優(yōu)先訪問的數(shù)據(jù)。
這個階段的主要挑戰(zhàn)是不同來源的數(shù)據(jù)同時加載到一個數(shù)據(jù)庫中,通常遇到WELL ID不統(tǒng)一的問題,需要一個標(biāo)準(zhǔn)的命名規(guī)范,PPDM標(biāo)準(zhǔn)里的井ID結(jié)構(gòu)的建議可以參考。這個階段的主要校驗手段是數(shù)據(jù)庫結(jié)構(gòu)和約束,確保數(shù)據(jù)類型和數(shù)據(jù)精度的正確。
2.2 信息技術(shù)進(jìn)行質(zhì)量檢查(IT QC)
信息技術(shù)進(jìn)行質(zhì)量檢查(IT QC)階段主要是應(yīng)用必要的數(shù)據(jù)轉(zhuǎn)換和校驗規(guī)則,確保數(shù)據(jù)可以利用。數(shù)據(jù)轉(zhuǎn)換的例子是測井?dāng)?shù)據(jù)。測井曲線數(shù)據(jù)初始階段可能以原始的DLIS格式存放,之后被轉(zhuǎn)換為標(biāo)準(zhǔn)LAS文件進(jìn)行觀察和分析。在這個階段,應(yīng)用“預(yù)防性法則”,所有無意義的數(shù)據(jù)會被截獲,留下的值都是合理有價值的。例如,會應(yīng)用一組規(guī)則,確保所有井的深度值都在井的真正深度底界范圍內(nèi)。所有的轉(zhuǎn)換和校驗都是自動激活的,這個階段的數(shù)據(jù)轉(zhuǎn)換和校驗優(yōu)先于業(yè)務(wù)。
2.3 地質(zhì)科學(xué)家進(jìn)行質(zhì)量檢查(Geoscience QC)
在這個階段的數(shù)據(jù)質(zhì)量檢查需要更高業(yè)務(wù)水平的用戶參與,有可能會需要專門的技術(shù)人員來操作。例如分析分段測井曲線數(shù)據(jù),進(jìn)行拼接形成一個從頂界到底界的完整井筒剖面。這個階段要應(yīng)用更加嚴(yán)格的數(shù)據(jù)規(guī)則,有時還需要有經(jīng)驗的數(shù)據(jù)管理員痛下決心。這個階段應(yīng)用的“偵探法則”,需要通過與其它相關(guān)數(shù)據(jù)進(jìn)行比對和分析,來判斷數(shù)據(jù)的正確性。例如,地面海拔的值在誤差允許的范圍內(nèi),但卻與數(shù)字高程的值相差甚遠(yuǎn)。
2.4 地質(zhì)科學(xué)家數(shù)據(jù)分析(Geiscience Analysis)
在這個階段,地質(zhì)科學(xué)家利用多個工具對數(shù)據(jù)進(jìn)行仔細(xì)分析,這個階段的數(shù)據(jù)應(yīng)該有值得信賴的成熟度,再不需要花費時間進(jìn)行數(shù)據(jù)檢查。發(fā)現(xiàn)異常值時,需要自問一下這是一個真的錯誤,還是代表一個物理的異常,通常需要更深的調(diào)查才能找到原因。
一旦地質(zhì)科學(xué)家完成了數(shù)據(jù)分析,或者增加了注解說明,或者更新了數(shù)據(jù),這些工作內(nèi)容要作為知識按照一定工作流程寫入到主數(shù)據(jù)庫中。流程要盡可能簡單,方便后來人對數(shù)據(jù)的理解和應(yīng)用。只要企業(yè)在這個區(qū)域的勘探開發(fā)工作不停止,數(shù)據(jù)就會被不同的地質(zhì)科學(xué)家用到,不同的理解和注釋被標(biāo)注到數(shù)據(jù)上,不斷被寫入主數(shù)據(jù)庫。
3 數(shù)據(jù)質(zhì)量成熟度
在數(shù)據(jù)管理閉環(huán)流程里,數(shù)據(jù)不斷被檢查和應(yīng)用的過程中,數(shù)據(jù)的成熟度是不斷提高的,數(shù)據(jù)會被轉(zhuǎn)換為信息和知識,用戶對數(shù)據(jù)的信任度提高,更多的時間用于技術(shù)分析。在數(shù)據(jù)管理閉環(huán)流程中,數(shù)據(jù)質(zhì)量成熟度可以用來警示風(fēng)險。一些企業(yè)忽略了IT QC階段的重要性,從而導(dǎo)致一些重復(fù)工作和損失。
數(shù)據(jù)管理閉環(huán)流程的不斷循環(huán),能不斷提高數(shù)據(jù)的準(zhǔn)確性。例如自動采集的地面海拔的值可以是任何有效數(shù)字值,IT QC階段的“預(yù)防性法則”能將此值控制在一個可以接受的范圍內(nèi)。Geoscience QC階段的“偵探法則”可以通過與數(shù)字高程對比,進(jìn)一步縮小錯誤值的概率。最后通過地質(zhì)科學(xué)家分析階段的應(yīng)用,這個數(shù)據(jù)值會在其他相關(guān)信息如測井曲線、鄰近井、區(qū)域地質(zhì)數(shù)據(jù)中得到更進(jìn)一步的驗正。
另一個說明數(shù)據(jù)質(zhì)量成熟度不斷提高的例子是目標(biāo)地層的顆粒密度。純凈石英的顆粒密度值為2.65gm/cc,因此一個干凈成熟的石英砂石密度為2.65gm/cc。應(yīng)用了“預(yù)防性法則”:加載顆粒密度數(shù)據(jù)到井?dāng)?shù)據(jù)庫時,由于沒有其他參考條件,IT QC過程會將顆粒密度值控制在1.9-4.4 gm/cc范圍內(nèi)。而應(yīng)用“偵探法則”,如果確定是砂巖,數(shù)據(jù)值會被控制在2.65gm/cc上下10%的浮動范圍。有時有效值范圍也會擴大,讓一些異常值暴露出來,因為這些看起來異常的顆粒密度值可能是正確的,而深度卻可能錯誤地恰好落到白云巖的層位,其顆粒密度在3.1gm/cc。地質(zhì)家在以上工作的基礎(chǔ)上進(jìn)行油藏分析,可能會把有效值范圍擴大,以包含任何現(xiàn)場可行的異常值,從而暴露出一個參雜長石的砂巖地層。從一個巖性分析判斷的過程,會衍生出一系列地層學(xué)結(jié)論的變化,從而影響到勘探開發(fā)決策??梢姅?shù)據(jù)質(zhì)量成熟度的重要性。
4 結(jié)語
企業(yè)對數(shù)據(jù)的依賴程度不斷加大,數(shù)據(jù)質(zhì)量的好壞直接關(guān)系到信息的準(zhǔn)確程度[4],數(shù)據(jù)管理閉環(huán)流程是一個不斷提高數(shù)據(jù)質(zhì)量成熟度的工作理念,對勘探開發(fā)研究工作具有非常重要的意義。具體實現(xiàn)要根據(jù)企業(yè)實際情況。不管采用怎樣的數(shù)據(jù)庫架構(gòu)和數(shù)據(jù)管理流程,要實現(xiàn)數(shù)據(jù)質(zhì)量的不斷提高,就必須要有完善的數(shù)據(jù)標(biāo)準(zhǔn)、靈活的數(shù)據(jù)展示和應(yīng)用工具,以及數(shù)據(jù)格式轉(zhuǎn)換和支持專業(yè)應(yīng)用的軟件接口。
參考文獻(xiàn):
[1]黃向陽,多學(xué)科視角下的統(tǒng)計數(shù)據(jù)質(zhì)量管理.商業(yè)經(jīng)濟(jì)與管理,2011.9.
[2]宋敏等.國外數(shù)據(jù)質(zhì)量管理研究綜述.情報雜志,2007,2.
[3]Implementing the Data Management Continuum ,steve Cooper,Scott Schneider,Grant Monaghan 17TH PNEC論文集.
[4]朱旻等.數(shù)據(jù)質(zhì)量管理與企業(yè)信息化建設(shè).計算機時代,2005.6.endprint