陳柯宇,呂昕蓓,孫 韻,秦 超
(中國(guó)石油西南油氣田分公司通信與信息技術(shù)中心,四川 成都 610051)
西南油氣田分公司經(jīng)過多年的信息化建設(shè),積累了大量的系統(tǒng)與數(shù)據(jù),目前面臨著“信息系統(tǒng)多、數(shù)據(jù)庫多、孤立應(yīng)用多”的三多局面,亟需開展數(shù)據(jù)湖的建設(shè),實(shí)現(xiàn)A1、A2、A4、A5等統(tǒng)建系統(tǒng)和勘探開發(fā)成果數(shù)據(jù)采集系統(tǒng)、作業(yè)區(qū)數(shù)字化管理平臺(tái)、頁巖氣共享平臺(tái)等分公司核心自建系統(tǒng)的共享數(shù)據(jù)和油田特色數(shù)據(jù)入湖,打破數(shù)據(jù)壁壘,實(shí)現(xiàn)數(shù)據(jù)共享,并與集團(tuán)總部主湖構(gòu)成連環(huán)湖架構(gòu),最終實(shí)現(xiàn)和主湖數(shù)據(jù)邏輯統(tǒng)一、分布存儲(chǔ)、互聯(lián)互通、就近訪問的目標(biāo)。
結(jié)構(gòu)化數(shù)據(jù)共享存儲(chǔ)采用MPP(大規(guī)模并行處理器Massively Parallel Processor)數(shù)據(jù)庫技術(shù),能夠?qū)⑷蝿?wù)均衡分解到多個(gè)節(jié)點(diǎn)同時(shí)進(jìn)行運(yùn)算,有效的解決了大規(guī)模的數(shù)據(jù)作業(yè)計(jì)算,緩存和IO帶來的性能問題[1]。
結(jié)構(gòu)化數(shù)據(jù)入湖前需要先開展數(shù)據(jù)模型的建設(shè)和主數(shù)據(jù)入湖。各數(shù)據(jù)源系統(tǒng)的數(shù)據(jù)通過ETL工具,匯聚到數(shù)據(jù)湖的貼源層,在貼源層進(jìn)行歸一化處理后,數(shù)據(jù)推送至數(shù)據(jù)治理區(qū),進(jìn)行業(yè)務(wù)質(zhì)控審核,審核通過的數(shù)據(jù)進(jìn)入到共享存儲(chǔ)層,再推送至分析層,實(shí)現(xiàn)數(shù)據(jù)入湖。
圖1 結(jié)構(gòu)化數(shù)據(jù)入湖
數(shù)據(jù)湖中非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),采用基于S3(簡(jiǎn)單存儲(chǔ)服務(wù)Simple Storage Service)標(biāo)準(zhǔn)協(xié)議的軟件定義分布式文件存儲(chǔ)架構(gòu),主湖主控保證邏輯統(tǒng)一,用戶基于統(tǒng)一的RESTful服務(wù)訪問文件內(nèi)容,支持軟件定義數(shù)據(jù)多鏡像與就近訪問,滿足地震等大塊數(shù)據(jù)存儲(chǔ)與高效應(yīng)用[2]。
非結(jié)構(gòu)化數(shù)據(jù)包括物探數(shù)據(jù)體、測(cè)井曲線和文檔文件三類,按照存儲(chǔ)方式可分為文件索引部分(文件名稱、文件大小、作者等)和文件體部分(數(shù)據(jù)文件本身)。
(1)文件索引入湖:源數(shù)據(jù)索引通過DSB同步到FSS管理庫,源數(shù)據(jù)管理庫變更觸發(fā)DBZ產(chǎn)生變化數(shù)據(jù),處理程序1將DBZ產(chǎn)生得變化數(shù)據(jù),變換格式后推送到RabbitMQ,處理程序2將RabbitMQ數(shù)據(jù)推送到ElasticSearch。
(2)文件體入湖:處理程序把數(shù)據(jù)體從源數(shù)據(jù)存儲(chǔ)同步到數(shù)據(jù)湖的對(duì)象存儲(chǔ),同步配置對(duì)象存儲(chǔ)集群同步策略,文件自動(dòng)從數(shù)據(jù)湖對(duì)象存儲(chǔ)同步到總部對(duì)象存儲(chǔ)。
圖2 非結(jié)構(gòu)化數(shù)據(jù)入湖
數(shù)據(jù)湖時(shí)序數(shù)據(jù)存儲(chǔ),采用主流時(shí)序數(shù)據(jù)庫技術(shù),通過使用Kakfa開展時(shí)序數(shù)據(jù)流接收,清洗,標(biāo)記,分析等功能。來源數(shù)據(jù)進(jìn)入Kafka中,通過各種訂閱進(jìn)行處理;通過Hadoop 對(duì)歷史數(shù)據(jù)進(jìn)行保存;處理程序?qū)r(shí)序數(shù)據(jù)整理標(biāo)記,按照模型進(jìn)行數(shù)據(jù)映射;掛接流處理引擎,對(duì)數(shù)據(jù)進(jìn)行處理分析;標(biāo)記后的時(shí)序數(shù)據(jù)進(jìn)行寫入數(shù)據(jù)湖中時(shí)序庫保存,并進(jìn)行查詢應(yīng)用。
圖3 時(shí)序數(shù)據(jù)入湖
建立數(shù)據(jù)入湖形象進(jìn)度展示模式,以地質(zhì)導(dǎo)航為驅(qū)動(dòng),按照西南油氣田分公司、區(qū)塊、小區(qū)塊層層遞進(jìn)的方式對(duì)各層人員關(guān)注的已入湖數(shù)據(jù)情況進(jìn)行數(shù)據(jù)資產(chǎn)可視化展示,包括油田數(shù)據(jù)總體概覽、基本實(shí)體的數(shù)量以及非結(jié)構(gòu)化文檔的展示等。
圖4
針對(duì)不同類型的數(shù)據(jù),采用成熟的技術(shù),設(shè)計(jì)具有可操作性的數(shù)據(jù)入湖方案,保證數(shù)據(jù)能夠全自動(dòng)、無縫入湖。數(shù)據(jù)入湖經(jīng)過實(shí)踐,取得了良好的應(yīng)用效果,對(duì)實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)的統(tǒng)一,提升數(shù)據(jù)質(zhì)量,支持?jǐn)?shù)據(jù)共享,改變油田有數(shù)據(jù)無資產(chǎn)的被動(dòng)局面具有重要的意義。