張 媛,李 海,冷煒鑭,丁 婕,江 濤
(中石油川慶鉆探工程有限公司,成都 610051)
油氣田工程技術服務企業(yè)主營鉆井工程、錄井、固井、儲層改造、試修井及油氣合作開發(fā)等業(yè)務。生產(chǎn)經(jīng)營業(yè)務活動中涉及工程實時監(jiān)控分析、經(jīng)營分析、供應鏈管理等數(shù)據(jù)應用。企業(yè)對全量數(shù)據(jù)挖掘、全局數(shù)據(jù)分析,實時數(shù)據(jù)查詢、即席自助分析的需求日益迫切,傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)方法已經(jīng)無法滿足更高、更快、更靈活、更個性的業(yè)務需要,企業(yè)對數(shù)據(jù)共享、數(shù)據(jù)價值的挖掘提出了更高的要求,希望能夠進一步打破數(shù)據(jù)的孤島,希望看到更全面的數(shù)據(jù)并能靈活地按需取用數(shù)據(jù)以及更快捷地實現(xiàn)各領域的業(yè)務及數(shù)據(jù)的應用需求,傳統(tǒng)的建設方式和技術手段已經(jīng)無法滿足當前的需求。從成本和服務復雜度考慮,建設企業(yè)集中的大數(shù)據(jù)基礎平臺是滿足需求的必然選擇,能夠?qū)崿F(xiàn)數(shù)據(jù)驅(qū)動業(yè)務創(chuàng)新。通過大數(shù)據(jù)基礎平臺建設[1],統(tǒng)一規(guī)劃、統(tǒng)一建設,將數(shù)據(jù)復用能力沉淀下來,實現(xiàn)數(shù)據(jù)標準化、數(shù)據(jù)模型重用,靈活、高效地提供數(shù)據(jù)服務。包括從數(shù)據(jù)匯聚、存儲、治理、開發(fā)到數(shù)據(jù)服務的一整套數(shù)據(jù)使用的機制以及政企的數(shù)據(jù)運營的能力。
工程技術服務企業(yè)存在多個維度的大數(shù)據(jù)應用場景。各個場景根據(jù)業(yè)務域的不同劃分為工程實時分析、智慧供應鏈、項目全生命周期管理、集團企業(yè)經(jīng)營分析、企業(yè)流程優(yōu)化。
油氣田工程技術服務的主營業(yè)務——鉆井工程技術服務會產(chǎn)生大量的工程數(shù)據(jù),以往只用于基礎的日報采集、實時監(jiān)測,以后可利用大數(shù)據(jù)技術進行跨系統(tǒng)的數(shù)據(jù)共享、數(shù)據(jù)交互,結(jié)合高性能計算和數(shù)據(jù)挖掘分析[2],支撐鉆頭優(yōu)選、事故預測、事故診斷及處理、鉆進軌跡分析、設備智能診斷等以往需要專業(yè)軟件才能實現(xiàn)的應用場景,利用大數(shù)據(jù)海量存儲和實時處理技術,也可以顯示多個鉆井現(xiàn)場乃至整個區(qū)域的鉆井數(shù)據(jù)并實現(xiàn)交互式實時分析,大大提高數(shù)據(jù)分析的精度及準度。
工程數(shù)據(jù)服務企業(yè)供應鏈包含物資采購、倉儲管理、物流管理三大環(huán)節(jié),但這3 個環(huán)節(jié)由不同的部門和專業(yè)公司負責,系統(tǒng)及數(shù)據(jù)相互獨立,傳統(tǒng)供應鏈的敏捷性較低,基于傳統(tǒng)供應鏈信息系統(tǒng)如ERP、條碼管理系統(tǒng)在智能化升級時也較困難,無法適應工程技術服務定制化、靈活化的特點。利用大數(shù)據(jù)技術可以賦予企業(yè)生產(chǎn)供應鏈高度的定制化,用于生產(chǎn)計劃與采購計劃關聯(lián)分析、采購及供貨周期方案預測、物資庫存物料需求影響因素分析、倉儲共享及自動平庫、智慧物流等[3]。
工程技術服務企業(yè)業(yè)務活動經(jīng)常采取項目制,項目過程產(chǎn)生海量的結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),利用大數(shù)據(jù)技術將項目數(shù)據(jù)進行整合并提煉,形成項目管理的數(shù)據(jù)平臺,積極地利用云計算和數(shù)據(jù)挖掘技術、分析技術建立各類數(shù)據(jù)之間的關聯(lián)模型,利用數(shù)據(jù)分析發(fā)現(xiàn)可能存在的問題[4]。用于項目預算方案編制、過程控制、項目后評價分析等。
傳統(tǒng)經(jīng)營數(shù)據(jù)分散于ERP、FMIS 等多個信息系統(tǒng),同時由各專業(yè)公司分別管理,無法快速地統(tǒng)計和分析??鐚I(yè)、跨部門的企業(yè)級經(jīng)營分析工作效率比較低。利用大數(shù)據(jù)技術可以消除跨部門、跨專業(yè)數(shù)據(jù)孤島,構(gòu)建靈活的數(shù)據(jù)統(tǒng)計共享,實現(xiàn)場景模擬、可視化規(guī)劃、企業(yè)快速畫像展現(xiàn)等,為企業(yè)領導層制定戰(zhàn)略決策提供支撐,提高輔助決策能力??蓱糜谌骖A算、規(guī)劃分析、預警/預判、可視化決策、戰(zhàn)略情報分析、市場運營分析等[5]。
工程技術服務企業(yè)重視流程化管理,企業(yè)管理需要實現(xiàn)多個流程系統(tǒng)數(shù)據(jù)整合,規(guī)范流程數(shù)據(jù)基礎,保證數(shù)據(jù)準確性。在數(shù)據(jù)整合的基礎上,構(gòu)建流程效率分析、問題診斷、預警監(jiān)控平臺,實現(xiàn)對OA、ERP、BPM 等系統(tǒng)流程數(shù)據(jù)的統(tǒng)計、分析和預警,輸出多指標多場景分析報告,消除堵塞流程、冗余流程,實現(xiàn)業(yè)務流程常態(tài)化運營。
大數(shù)據(jù)基礎平臺需要為工程技術服務公司各類應用提供海量數(shù)據(jù)整合、存儲、計算、查詢、分析、展現(xiàn)等基礎性支撐功能[6]。平臺核心分布式存儲與計算組件采用Hadoop 技術體系中分布式存儲(HDFS、HBase、Hive 等)、分布式計算框架(Spark),結(jié)合數(shù)據(jù)抽?。‥TL)、大數(shù)據(jù)搜索引擎(ElasticSearch)、數(shù)據(jù)挖掘分析(SAS、SPSS 等)、數(shù)據(jù)可視化(BI)等技術,構(gòu)建起企業(yè)大數(shù)據(jù)應用服務生態(tài)。
圖1 大數(shù)據(jù)基礎平臺架構(gòu)設計
大數(shù)據(jù)基礎平臺系統(tǒng)數(shù)據(jù)主要來源于生產(chǎn)經(jīng)營相關信息系統(tǒng),例如FMIS 系統(tǒng)、電子采購系統(tǒng)、專業(yè)系統(tǒng)等,數(shù)據(jù)庫類型有oracle、mysql、SQLserver 等,針對不同的數(shù)據(jù)類型,采用不同的數(shù)據(jù)采集策略。通用數(shù)據(jù)采集方式包括OGG、Kafka、ETL工具、離線文件等方式,根據(jù)源系統(tǒng)的特點以及對外提供的數(shù)據(jù)接口類型選擇合適的方式進行數(shù)據(jù)采集,數(shù)據(jù)可按需進入HDFS、Hive、Hbase 數(shù)據(jù)庫中進行存儲。企業(yè)半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)包括日志文件、XML 文檔、JSON 文檔、Email、報表、圖像和音頻/視頻信息等文件數(shù)據(jù),這些數(shù)據(jù)分散在不同的系統(tǒng)或硬件設備之上,可采用抽取工具或者接口進行采集,例如Kafka、離線文件、REST api 接口等方式,數(shù)據(jù)采集完成后統(tǒng)一存儲管理。
數(shù)據(jù)存儲設計按照數(shù)據(jù)類型分為結(jié)構(gòu)化數(shù)據(jù)存儲和非結(jié)構(gòu)化數(shù)據(jù)存儲,不同的存儲方式對應著大數(shù)據(jù)分析平臺不同的數(shù)據(jù)區(qū)域,結(jié)構(gòu)化數(shù)據(jù)一般存儲在Hive、Hbase 數(shù)據(jù)庫中,非結(jié)構(gòu)化數(shù)據(jù)存儲在HDFS 文件系統(tǒng)、MongoDB 中。結(jié)構(gòu)化數(shù)據(jù)從業(yè)務系統(tǒng)采集到大數(shù)據(jù)基礎平臺,統(tǒng)一存儲在貼源數(shù)據(jù)區(qū)中,貼源數(shù)據(jù)與源系統(tǒng)數(shù)據(jù)基本保持一致;主題模型明細區(qū)數(shù)據(jù)根據(jù)不同的業(yè)務主題對數(shù)據(jù)進行歸類,主題模型匯總區(qū)按照一定的計算邏輯進行數(shù)據(jù)匯總,通過合并計算數(shù)據(jù)量大幅降低;數(shù)據(jù)集市區(qū)分為公共類集市和專題類集市,支撐不同的數(shù)據(jù)分析應用。非結(jié)構(gòu)化數(shù)據(jù)存儲需要進行數(shù)據(jù)的解析、數(shù)據(jù)識別及數(shù)據(jù)結(jié)構(gòu)化處理,支持圖處理和自然語言識別。利用大數(shù)據(jù)分析技術進行圖處理和自然語言的識別,并對信息進行結(jié)構(gòu)化處理,統(tǒng)一存儲在主題數(shù)據(jù)區(qū)中進行分析,也可與結(jié)構(gòu)化數(shù)據(jù)進行關聯(lián)分析。
數(shù)據(jù)計算是數(shù)據(jù)分析的基礎,數(shù)據(jù)計算包括離線計算、流計算等。數(shù)據(jù)計算功能由大數(shù)據(jù)分析平臺中的軟件工具提供,可作為公用的資源供不同的數(shù)據(jù)分析應用使用。開發(fā)過程中,可根據(jù)業(yè)務場景的不同,選擇不同的數(shù)據(jù)計算方法進行數(shù)據(jù)處理。
大數(shù)據(jù)分析平臺按照用戶數(shù)據(jù)分析的需求,提供敏捷分析、報表開發(fā)、智能分析、SQL 查詢能力;支持拖拽式敏捷開發(fā)模式,讓業(yè)務或數(shù)據(jù)分析人員無須了解代碼,即可構(gòu)建數(shù)據(jù)分析模型,提供多種圖形展示組件;支持普通報表的開發(fā)能力;支持智能分析模型開發(fā),支持機器學習和深度學習框架,提供從數(shù)據(jù)處理、模型訓練、服務部署到預測的一站式服務;支持可視化的SQL 開發(fā)、數(shù)據(jù)預覽、交互式查詢、復雜分析、探索分析的自助分析能力。
提供一個圖形化的任務配置、編排、監(jiān)控平臺,支持開發(fā)人員進行工作流設計、任務調(diào)試、調(diào)度和分析;支持Shell 腳本、SQL 節(jié)點(hive、impala、spark、oracle)、存儲過程、JDBC、HTTP、Python 節(jié) 點等任務類型,可自定義Java 任務;支持任務狀態(tài)監(jiān)控,提供豐富的分析能力,如依賴關系、執(zhí)行歷史、甘特圖等,幫助開發(fā)人員診斷工作流的執(zhí)行狀況。
數(shù)據(jù)管理包括數(shù)據(jù)共享、業(yè)務目錄、技術目錄、數(shù)據(jù)血緣、質(zhì)量管理以及元數(shù)據(jù)管理。在元數(shù)據(jù)管理中主要針對大數(shù)據(jù)分析平臺內(nèi)存儲的數(shù)據(jù)進行元數(shù)據(jù)抓取,并實現(xiàn)元數(shù)據(jù)集中存儲,在元數(shù)據(jù)基礎上進行血緣分析,依照平臺內(nèi)各類人員需要在權限滿足的情況下提供元數(shù)據(jù)應用程序編程接口(API)。在業(yè)務目錄中提升目錄搭建、業(yè)務對象管理、表視圖關聯(lián)便捷度,通過業(yè)務目錄定位業(yè)務對象,支持數(shù)據(jù)預覽、血緣查看,以便進一步理解業(yè)務對象。在技術目錄中,按照貼源層、基礎層、通用層、應用層定位自動實現(xiàn)各層目錄創(chuàng)建,在權限允許的情況下可通過技術目錄查看預覽數(shù)據(jù)及血緣分析結(jié)果。在質(zhì)量管理中依照數(shù)據(jù)標準,對質(zhì)量管理規(guī)則定義,預設檢查點,執(zhí)行檢查任務,定期出具檢查報告。
基礎管理模塊主要是面向大數(shù)據(jù)基礎平臺的管理和運維人員,該模塊是其他模塊運行的基礎,主要負責運行環(huán)境支持和安全保障,具體包括用戶管理、權限管理、流程管理、安全管理、運營管理等功能模塊。
平臺門戶為大數(shù)據(jù)基礎平臺提供了統(tǒng)一的用戶訪問界面,企業(yè)人員可通過門戶訪問大數(shù)據(jù)平臺的各類數(shù)據(jù)表、應用、軟件。平臺門戶提供桌面PC 端web 瀏覽器訪問和移動APP 訪問兩種方式。PC 應用門戶提供全面的數(shù)據(jù)集成、數(shù)據(jù)處理、數(shù)據(jù)共享和應用、基礎管理等功能,大數(shù)據(jù)分析平臺開發(fā)及應用均可利用PC 端門戶來實現(xiàn)。移動APP 端門戶提供輕量級的應用功能,例如指標、報表、流程審批及查詢等功能支持APP在線查看。
大數(shù)據(jù)分析平臺應用架構(gòu)從用戶視角分四個層次,分別是平臺層,應用層、交互層、用戶層。其中平臺層是基礎支撐層,提供應用運行的核心引擎,采用分布式部署方式。包括大數(shù)據(jù)存儲、大數(shù)據(jù)計算引擎、容器云服務引擎、系統(tǒng)管理控制服務。應用層為各類用戶提供應用資源,第一類是企業(yè)管理類應用,主要服務于企業(yè)的管理層用戶;第二類是跨職能業(yè)務部門、專業(yè)公司業(yè)務的大數(shù)據(jù)應用;第三類服務于平臺管理、數(shù)據(jù)管理、應用開發(fā)和數(shù)據(jù)產(chǎn)品開發(fā)等人員,用于數(shù)據(jù)匯聚、數(shù)據(jù)分析、數(shù)據(jù)管理、用戶管理、系統(tǒng)管理與監(jiān)控、任務調(diào)度等數(shù)據(jù)開發(fā)和管理工作。
圖2 大數(shù)據(jù)基礎平臺應用設計
油氣田工程技術服務企業(yè)大數(shù)據(jù)分析平臺的建設有助于提升企業(yè)數(shù)據(jù)應用水平,促進數(shù)據(jù)應用創(chuàng)新與共享,有助于通過輔助管理提升實現(xiàn)降本增效,同時為工程技術服務企業(yè)實現(xiàn)數(shù)據(jù)共享和數(shù)據(jù)分析提供強大支持,并可為后續(xù)大數(shù)據(jù)分析與人工智能融合奠定基礎。
同時,企業(yè)大數(shù)據(jù)基礎平臺建設是一個龐大且長期的工程,既要達成實現(xiàn)數(shù)據(jù)驅(qū)動管理的目標,又要注意建設內(nèi)容符合公司業(yè)務實際,細致規(guī)劃。避免大而全、一次性建設造成投資浪費。挑戰(zhàn)與風險并存,建議采用明確場景、結(jié)果導向、小步迭代的建設策略?;跇I(yè)務先行,系統(tǒng)支撐的原則,根據(jù)公司特點發(fā)現(xiàn)和實現(xiàn)價值。