朱玉高
(延安職業(yè)技術(shù)學(xué)院 石油和化學(xué)工程系,陜西 延安 716000)
中海油公司自2004年引入鉆完井?dāng)?shù)據(jù)分析數(shù)據(jù)庫系統(tǒng)以來,經(jīng)過10余年發(fā)展,已經(jīng)形成了完善的鉆完井日報及鉆完井工報制度,各鉆臺分別形成了相對完善的鉆完井?dāng)?shù)據(jù)分析數(shù)據(jù)庫系統(tǒng)且已經(jīng)實(shí)現(xiàn)了鉆完井?dāng)?shù)據(jù)的同構(gòu)融合工作。但是,鉆完井?dāng)?shù)據(jù)如果要發(fā)揮更大的數(shù)據(jù)價值,則需要實(shí)現(xiàn)針對地質(zhì)報告、材料報告、三電耗能報告、人事管理報告等相關(guān)數(shù)據(jù)的充分異構(gòu)融合。即通過完善鉆完井?dāng)?shù)據(jù)庫系統(tǒng)與其他管理信息系統(tǒng)數(shù)據(jù)之間的接口架構(gòu),實(shí)現(xiàn)對鉆完井?dāng)?shù)據(jù)的深度挖掘。
在鉆完井?dāng)?shù)據(jù)分析領(lǐng)域,最初鉆完井?dāng)?shù)據(jù)分析過程,僅是通過鉆完井日報和鉆完井工報形成更長周期的數(shù)據(jù)統(tǒng)計(jì),如鉆完井周報、鉆完井月報、鉆完井年報等,且可以自動統(tǒng)計(jì)分析不同井臺不同鉆機(jī)的鉆完井?dāng)?shù)據(jù)工報統(tǒng)計(jì)。近10年內(nèi),根據(jù)上述數(shù)據(jù)和深度迭代數(shù)據(jù)回歸分析神經(jīng)網(wǎng)絡(luò)系統(tǒng),可以實(shí)現(xiàn)對鉆完井?dāng)?shù)據(jù)前推若干周期的曲線估計(jì)計(jì)算,對未來一定周期內(nèi)的鉆完井?dāng)?shù)據(jù)進(jìn)行預(yù)報分析。本文研究中,計(jì)劃引入鉆完井?dāng)?shù)據(jù)深度分析系統(tǒng),實(shí)現(xiàn)對地質(zhì)預(yù)報、材料及能源消耗、人力資源成本等諸多關(guān)聯(lián)異構(gòu)數(shù)據(jù)的基于深度迭代數(shù)據(jù)回歸分析神經(jīng)網(wǎng)絡(luò)系統(tǒng)的曲線估計(jì)計(jì)算分析。
該研究創(chuàng)新點(diǎn)在于使海洋鉆井平臺的鉆完井?dāng)?shù)據(jù)作為核心驅(qū)動數(shù)據(jù),實(shí)現(xiàn)對海量關(guān)聯(lián)異構(gòu)數(shù)據(jù)的曲線估計(jì)分析,使鉆完井?dāng)?shù)據(jù)發(fā)揮更大作用。
鉆完井?dāng)?shù)據(jù)主要包括以下構(gòu)成:
(1)施工隊(duì)伍編號及相關(guān)工作人員,含各責(zé)任人信息,包含班組長、鉆完井工程師、材料員、司機(jī)等;
(2)井臺中心點(diǎn)坐標(biāo)信息,包括水平坐標(biāo)和高程坐標(biāo),該信息受RTK系統(tǒng)定位,因?yàn)榘霛撌狡脚_可能會導(dǎo)致井臺中心點(diǎn)坐標(biāo)發(fā)生微小變化,所以要求實(shí)時監(jiān)測平臺中心點(diǎn)坐標(biāo)信息;
(3)鉆頭坐標(biāo)信息,包括水平坐標(biāo)和高程坐標(biāo),該信息受到定向鉆頭定位系統(tǒng)控制;
(4)井筒長度信息和井筒深度信息,該信息受到歷史鉆頭坐標(biāo)信息控制;
(5)鉆頭溫度、壓力等信息,該信息由鉆頭內(nèi)物聯(lián)網(wǎng)探頭系統(tǒng)獲??;
(6)當(dāng)班的材料消耗信息,如鉆桿、鉆頭、井筒套管及其他配件;
(7)當(dāng)班氣象及水文條件信息,如氣溫、風(fēng)速、浪高、洋流、水溫等。
分析上述內(nèi)部數(shù)據(jù),可發(fā)現(xiàn)鉆完井?dāng)?shù)據(jù)與外部數(shù)據(jù)庫之間存在多種數(shù)據(jù)關(guān)聯(lián),這些數(shù)據(jù)關(guān)聯(lián)均可構(gòu)成異構(gòu)數(shù)據(jù)聯(lián)合分析的數(shù)據(jù)接口。如圖1所示。
圖1 鉆完井系統(tǒng)數(shù)據(jù)接口與數(shù)據(jù)邊界示意圖Fig.1 Schematic diagram of data interface and data boundary of drilling and completion system
圖1中展示了該系統(tǒng)部分?jǐn)?shù)據(jù)外部接口。因?yàn)殂@完井工作是鉆井平臺的核心工作,所以,鉆完井系統(tǒng)應(yīng)是鉆井平臺管理信息系統(tǒng)的鉆完井?dāng)?shù)據(jù)核心驅(qū)動數(shù)據(jù),通過對該數(shù)據(jù)與其他相關(guān)管理信息系統(tǒng)進(jìn)行數(shù)據(jù)聯(lián)合,可以提供可供數(shù)據(jù)深度挖掘使用的核心數(shù)據(jù)。
鉆完井?dāng)?shù)據(jù)如果要實(shí)現(xiàn)與其他相關(guān)系統(tǒng)的數(shù)據(jù)接口,則必須突破獨(dú)立系統(tǒng)之間的數(shù)據(jù)屏障。因?yàn)閹缀跛歇?dú)立系統(tǒng)均會開發(fā)數(shù)據(jù)保護(hù)安全管理子系統(tǒng),任何外部系統(tǒng)調(diào)用本系統(tǒng)數(shù)據(jù),均會面臨數(shù)據(jù)訪問規(guī)則限制、數(shù)據(jù)解密方案限制、數(shù)據(jù)庫及數(shù)據(jù)倉庫的用戶密鑰限制、數(shù)據(jù)結(jié)構(gòu)限制等諸多限制,即便在前三者中均可因?yàn)樗邢嚓P(guān)系統(tǒng)的管理方為同一法人而輕易獲得相應(yīng)資料,但數(shù)據(jù)結(jié)構(gòu)限制會成為數(shù)據(jù)接口實(shí)現(xiàn)過程的主要屏障,脫離原系統(tǒng)數(shù)據(jù)解釋層模塊的支持,外部系統(tǒng)很難有效對其數(shù)據(jù)進(jìn)行解釋,從而使讀取數(shù)據(jù)即便使用全部合法密鑰后,仍無法進(jìn)行有效解析。所以,API服務(wù)器構(gòu)建的數(shù)據(jù)邏輯連接成為大部分工業(yè)平行系統(tǒng)進(jìn)行跨系統(tǒng)數(shù)據(jù)調(diào)用的重要手段。其調(diào)用方式詳如圖2所示。
圖2中,在數(shù)據(jù)倉庫任務(wù)主機(jī)的驅(qū)動下,基于數(shù)據(jù)庫平臺云主機(jī),將數(shù)據(jù)倉庫中相關(guān)數(shù)據(jù)形成元數(shù)據(jù),并將元數(shù)據(jù)POST到數(shù)據(jù)應(yīng)用系統(tǒng)的元數(shù)據(jù)中,進(jìn)而讀入到數(shù)據(jù)應(yīng)用系統(tǒng)的數(shù)據(jù)倉庫中。此時,兩側(cè)系統(tǒng)中的4臺主機(jī)具有明確分工。其中,數(shù)據(jù)倉庫任務(wù)主機(jī)負(fù)責(zé)整合數(shù)據(jù)倉庫主機(jī)集群中的資源并進(jìn)行數(shù)據(jù)聯(lián)合調(diào)動,數(shù)據(jù)庫平臺云主機(jī)運(yùn)行數(shù)據(jù)庫平臺軟件,比如MySQL等,用于執(zhí)行相應(yīng)的SQL指令,數(shù)據(jù)解釋模塊云主機(jī)運(yùn)行數(shù)據(jù)系統(tǒng)分層結(jié)構(gòu)中的解釋層模塊,對數(shù)據(jù)進(jìn)行解釋和編譯,API服務(wù)器主機(jī)負(fù)責(zé)發(fā)出并解析數(shù)據(jù)請求(Ask)并返回數(shù)據(jù)反饋(Request)。數(shù)據(jù)的實(shí)際流量在數(shù)據(jù)倉庫任務(wù)主機(jī)中經(jīng)過相應(yīng)子系統(tǒng)的背板交換機(jī)連接到接入路由器中,進(jìn)而通過IDC系統(tǒng)的背板交換機(jī)實(shí)現(xiàn)數(shù)據(jù)的物理層和鏈路層互聯(lián)。
圖2 基于API的數(shù)據(jù)共享數(shù)據(jù)流示意圖Fig.2 Schematic diagram of data flow of data sharing based on API
不論是鉆完井?dāng)?shù)據(jù)還是其他相關(guān)數(shù)據(jù),在各自數(shù)據(jù)庫中均已經(jīng)形成了標(biāo)準(zhǔn)化數(shù)據(jù),這些標(biāo)準(zhǔn)化數(shù)據(jù)如果進(jìn)行聯(lián)合分析,必須進(jìn)行去量綱計(jì)算,但不同的數(shù)據(jù)分析需求需要不同的去量綱方式,當(dāng)前較為常用的數(shù)據(jù)去量綱方式有minmax算法和Z-Score算法。
minmax算法是將數(shù)據(jù)等比例投影到[0,1]區(qū)間上,加權(quán)minmax算法可以將數(shù)據(jù)等比例投影到任何區(qū)間上。其基函數(shù)為:
式中:X,Y分別為數(shù)據(jù)列中第個輸入數(shù)據(jù)及其對應(yīng)的輸出數(shù)據(jù);min為該列數(shù)據(jù)的最小值;max為該列數(shù)據(jù)的最大值;minmax加可以將數(shù)據(jù)投影區(qū)間下限調(diào)整到值,乘可以將數(shù)據(jù)投影區(qū)間上限調(diào)整到+值。
Z-Score算法是根據(jù)數(shù)據(jù)離開算數(shù)平均中值的位移與標(biāo)準(zhǔn)差的比例將數(shù)據(jù)的變化區(qū)間進(jìn)行等比例投影。其基函數(shù)為:
式中:Y,X分別為數(shù)據(jù)列中第個輸入數(shù)據(jù)及其對應(yīng)的輸出數(shù)據(jù);為該列數(shù)據(jù)的均值;為該列數(shù)據(jù)的標(biāo)準(zhǔn)差;其中:
式中:為該列數(shù)據(jù)元素X的數(shù)量;其他數(shù)學(xué)符號含義同前文;
式中:數(shù)學(xué)符號含義同前文;
所以,將式(3)、式(4)代入式(2),可得:
式中:數(shù)學(xué)符號含義同前文;
上述式(1)描述的minmax算法,主要應(yīng)用于需要在不同量值區(qū)間不同量綱數(shù)據(jù)之間的趨勢比較算法的前置數(shù)據(jù)治理,式(5)描述的Z-Score算法主要應(yīng)用于對數(shù)據(jù)趨勢分析和數(shù)據(jù)曲線估計(jì)為核心目的的前置數(shù)據(jù)治理。將該兩種數(shù)據(jù)治理算法模塊進(jìn)行提前準(zhǔn)備并獨(dú)立開發(fā)后,可供后續(xù)數(shù)據(jù)分析過程直接調(diào)用。
圖1中數(shù)據(jù)經(jīng)過多種數(shù)據(jù)聯(lián)合,可以進(jìn)行更為復(fù)雜的數(shù)據(jù)聯(lián)合分析。如鉆完井井筒進(jìn)度數(shù)據(jù)與材料消耗數(shù)據(jù)相結(jié)合,可以形成單位井筒長度的材料消耗情況變化趨勢分析;鉆頭深度數(shù)據(jù)與材料消耗數(shù)據(jù)相結(jié)合,可以形成深度標(biāo)尺下的單位材料消耗數(shù)據(jù)分析。所以,統(tǒng)觀研究兩列數(shù)據(jù)的整合模式,可以得到圖3。
圖3 數(shù)據(jù)聯(lián)合分析模型Fig.3 Data joint analysis model
圖3中,數(shù)據(jù)治理過程根據(jù)實(shí)際數(shù)據(jù)分析需求和數(shù)據(jù)工程學(xué)特征選擇使用公式(1)的minmax算法或者公式(5)的Z-Score算法進(jìn)行數(shù)據(jù)治理,經(jīng)過數(shù)據(jù)治理的方式,可以通過區(qū)間分析法通過加N及乘M的方式進(jìn)行數(shù)據(jù)區(qū)間調(diào)整,或使用對數(shù)法進(jìn)行非線性密集數(shù)據(jù)關(guān)系放大。經(jīng)過數(shù)據(jù)治理和投影轉(zhuǎn)化的數(shù)據(jù),形成投影空間的因變量和自變量,從而在投影空間中進(jìn)行相關(guān)的后續(xù)分析。
此處數(shù)據(jù)建立關(guān)聯(lián)的方式主要2種:
(1)主鍵關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián),在數(shù)據(jù)列A中,尋求關(guān)聯(lián)主鍵字段KA,在數(shù)據(jù)列B中,尋求關(guān)聯(lián)主鍵字段KB,當(dāng)KA(i)=KB(j)時,認(rèn)為A(KA(i))與B(KB(j))存在數(shù)據(jù)關(guān)聯(lián)。如圖4所示。
圖4 主鍵關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)模式示意圖Fig.4 Schematic diagram of association mode of primary key associated data
圖4中,線性矩陣KA、KB可能不相等,但在線性矩陣KA、KB中可能存在KA(i)=KB(j),而KA、KB的工程學(xué)數(shù)據(jù)意義一致,此時以KA、KB為紐帶,可以構(gòu)建出A(KA(i))與B(KB(j))的聯(lián)系。此時,KA、KB對應(yīng)的數(shù)據(jù)列為自變量,而A、B對應(yīng)的數(shù)據(jù)列為因變量。構(gòu)建聯(lián)系后,A、B可互為自變量。
(2)邏輯關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián),如果數(shù)據(jù)列A與數(shù)據(jù)列B產(chǎn)生于同一個數(shù)據(jù)表,那么該數(shù)據(jù)表的主鍵K數(shù)據(jù)列就可以將A、B直接關(guān)聯(lián)。如圖5所示。
圖5 邏輯關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)模式示意圖Fig.5 Schematic diagram of association mode of logical association data
圖5中,數(shù)據(jù)列A與數(shù)據(jù)列B構(gòu)建數(shù)據(jù)關(guān)聯(lián)后,可在后續(xù)數(shù)據(jù)處理中拋棄數(shù)據(jù)列K而直接互為自變量進(jìn)行處理。在包含鉆完井?dāng)?shù)據(jù)庫系統(tǒng)在內(nèi)的大部分工業(yè)數(shù)據(jù)庫中,主鍵K一般為時序標(biāo)志,那么基于主鍵K對數(shù)據(jù)列A、B進(jìn)行直接分析,則被稱作時域分析,在時域分析基礎(chǔ)上進(jìn)行頻域轉(zhuǎn)化,如小波分析、傅里葉分析等,即被稱作頻域分析,但數(shù)據(jù)列A與數(shù)據(jù)列B直接構(gòu)成數(shù)據(jù)關(guān)聯(lián)后,也可在互為自變量的條件下進(jìn)行基于非時序自變量的等效時域分析并進(jìn)行等效頻域分析。該理念在上述主鍵關(guān)聯(lián)分析中同樣有效。
如果將大數(shù)據(jù)系統(tǒng)分為5個層次,分別為硬件層、數(shù)據(jù)層、治理層、解釋層、應(yīng)用層,那么該模型就其數(shù)據(jù)層和治理層進(jìn)行了升級。大數(shù)據(jù)系統(tǒng)的硬件層主要負(fù)責(zé)提供數(shù)據(jù)存儲介質(zhì)和數(shù)據(jù)庫管理平臺的管理主機(jī)系統(tǒng)和內(nèi)部網(wǎng)絡(luò)背板、內(nèi)部網(wǎng)絡(luò)控制系統(tǒng);數(shù)據(jù)層為大數(shù)據(jù)硬件中存儲的數(shù)據(jù)信息以及數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用產(chǎn)生的數(shù)據(jù)流;治理層包括數(shù)據(jù)的去量綱、脫敏、加密解密、接口協(xié)議等;解釋層包括數(shù)據(jù)格式的強(qiáng)制轉(zhuǎn)化、流媒體的二進(jìn)制分解和重組等;應(yīng)用層主要提供相應(yīng)的應(yīng)用功能,比如數(shù)據(jù)曲線估計(jì)、時域頻域分析、數(shù)據(jù)預(yù)警、曲線估計(jì)等,常規(guī)數(shù)據(jù)分析中經(jīng)常用到的神經(jīng)網(wǎng)絡(luò)、模糊矩陣等均在應(yīng)用層相應(yīng)模塊中。
在對數(shù)據(jù)層的驗(yàn)證中,應(yīng)分析支持相同功能的數(shù)據(jù)管理目標(biāo)下的數(shù)據(jù)硬件占用量,其驗(yàn)證結(jié)果如表1所示。
表1 數(shù)據(jù)層技術(shù)革新效果比較Tab.1 Comparison of technical innovation effect of data layer
表1中,該模型使用后的上述四大IDC資源需求量顯著降低,其原理是充分提升了數(shù)據(jù)夸庫融合度并充分減少了數(shù)據(jù)冗余度。其中,CPU指系統(tǒng)中通用中央處理器,GPU指系統(tǒng)中的專用浮點(diǎn)處理器,SSD和HDD指系統(tǒng)的硬盤空間,均采用了SAS硬盤總線且使用RAID備份的冗余硬盤空間未計(jì)入該空間需求中。
在對治理層的驗(yàn)證中,應(yīng)充分考察可用數(shù)據(jù)查詢的量,以及在中央數(shù)據(jù)倉庫可用數(shù)據(jù)庫規(guī)模的支持下可以提供的理論最大查詢數(shù)據(jù)規(guī)模的比值。其驗(yàn)證結(jié)果如表2所示。
表2中,在使用后數(shù)據(jù)庫規(guī)??s小17.56%的前提下,其查詢量提升5.59倍,可用查詢規(guī)模提升11.67倍,導(dǎo)致數(shù)據(jù)查詢放大比從使用前的2.194提升到使用后的31.063。查詢量表明數(shù)據(jù)庫可以提供的查詢功能,查詢放大比指數(shù)據(jù)在相關(guān)系統(tǒng)內(nèi)的應(yīng)用場景豐富程度??梢娛褂迷撃P蛯︺@完井?dāng)?shù)據(jù)的數(shù)據(jù)層和治理層進(jìn)行技術(shù)革新優(yōu)化后,極大程度豐富了數(shù)據(jù)的應(yīng)用場景,使數(shù)據(jù)價值得到充分放大。
表2 治理層技術(shù)革新效果比較Tab.2 Comparison of the effect of technological innovation at the governance level
鉆完井?dāng)?shù)據(jù)是鉆井平臺的核心數(shù)據(jù),通過構(gòu)建數(shù)據(jù)融合接口的方式,使海洋鉆井平臺內(nèi)部管理信息化系統(tǒng)之間實(shí)現(xiàn)了更加充分的融合。在本文模型下,對鉆完井大數(shù)據(jù)的數(shù)據(jù)層和治理層進(jìn)行技術(shù)革新,但硬件層、解釋層保持不變,此時數(shù)據(jù)的可挖掘價值大幅度提升,未來可以在應(yīng)用層開發(fā)更加豐富的數(shù)據(jù)應(yīng)用,以實(shí)現(xiàn)鉆完井?dāng)?shù)據(jù)的充分利用。