作者/劉春艷,承德石油高等??茖W(xué)校
基于大數(shù)據(jù)的石油云平臺設(shè)計分析
作者/劉春艷,承德石油高等??茖W(xué)校
在互聯(lián)網(wǎng)技術(shù)與存儲技術(shù)快速發(fā)展的背景下,社會開始從信息時代向數(shù)據(jù)時代轉(zhuǎn)變,數(shù)據(jù)成為各行業(yè)革命的核心。石油行業(yè)作為傳統(tǒng)行業(yè),基于數(shù)據(jù)驅(qū)動為其創(chuàng)造新的發(fā)展路徑。本文討論了基于大數(shù)據(jù)的石油基礎(chǔ)設(shè)施云平臺設(shè)計,實現(xiàn)EPDM模型的云數(shù)據(jù)庫,具體分析了云平臺中石油大數(shù)據(jù)的運用。
石油大數(shù)據(jù);云計算;數(shù)據(jù)
隨著數(shù)據(jù)時代的到來,不同行業(yè)開始嘗試?yán)么髷?shù)據(jù)技術(shù)進行新業(yè)務(wù)開展。石油行業(yè)擁有海量數(shù)據(jù),然而長期以來這海量的數(shù)據(jù)并未結(jié)構(gòu)化,遠遠無法達到統(tǒng)一標(biāo)準(zhǔn)格式。新時期石油行業(yè)的發(fā)展對油田企業(yè)信息化建設(shè)提出越來越高的要求,單純從硬件設(shè)備升級來滿足數(shù)據(jù)存儲與分析需求已經(jīng)遠遠不夠,只有建立起石油大數(shù)據(jù)的集成平臺,方可真正實現(xiàn)石油行業(yè)信息化,滿足石油行業(yè)對高計算能力的需求,也便于進行資源管理。
云計算是在連接互聯(lián)網(wǎng)計算機上所獲取的計算服務(wù),可以實現(xiàn)按需供給計算資源,可以實現(xiàn)更強的計算能力、彈性的計算資源以及更低的使用成本。云計算從本質(zhì)上來看并非技術(shù)創(chuàng)新,實際上是思想層面的創(chuàng)新。
云計算可以把互聯(lián)網(wǎng)資源提供給用戶使用,云計算的實現(xiàn)依賴于一定的基礎(chǔ)軟硬件設(shè)施,通過高性能軟件框架處理數(shù)據(jù),為前端與終端提供接口,云計算常用的服務(wù)模式包括IaaS層、PaaS層與SaaS層。IaaS層具有代表性的為硬件服務(wù)器租用,只把虛擬機與存儲資源給用戶,IaaS層更加底層,通過用戶付費的方式為用戶提供計算能力與存儲能力;PaaS層下僅需為用戶提供軟件開發(fā)包,不需要用戶考慮資源資源管理;SaaS是軟件即服務(wù),為用戶提供應(yīng)用軟件,對軟件使用收取一定費用。
在石油行業(yè)建立大數(shù)據(jù)云計算平臺的難點在于兩方面,一方面是數(shù)據(jù)存儲困難,另一方面數(shù)據(jù)分析困難。Hadoop作為開源分布式數(shù)據(jù)處理架構(gòu),由分布式文件系統(tǒng)與并行計算框架兩部分構(gòu)成。分布式文件系統(tǒng)架構(gòu)模式為主/從結(jié)構(gòu),包括主節(jié)點以及一些數(shù)據(jù)節(jié)點;并行計算框架的計算過程包括Map與Reduce,即映射與化簡。
構(gòu)建石油大數(shù)據(jù)云平臺的目的是把海量數(shù)據(jù)存儲于分布式軟硬件資源里,從而更加科學(xué)的進行資源配置,更加科學(xué)地調(diào)度數(shù)據(jù)資源。這樣以來,石油大數(shù)據(jù)云計算平臺的體系結(jié)構(gòu)由以下五部分構(gòu)成:基礎(chǔ)設(shè)施層、數(shù)據(jù)源層、云數(shù)據(jù)層、數(shù)據(jù)應(yīng)用層以及終端接入層。系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 石油大數(shù)據(jù)云計算平臺系統(tǒng)結(jié)構(gòu)
(1)基礎(chǔ)設(shè)施層
基礎(chǔ)設(shè)施差包括物力資源池與虛擬資源池,前者為分布式服務(wù)器集群、數(shù)據(jù)節(jié)點,是進行海量數(shù)據(jù)運算的基本設(shè)備;后者是基于虛擬化技術(shù)獎分散數(shù)據(jù)資源進行整合,并最終存放于虛擬化資源池中,根據(jù)用戶需求提供給客戶。由于物力資源池與虛擬資源池之間并不耦合,因此可以更好地維護,并控制油田勘探成本。
(2)數(shù)據(jù)源層
數(shù)據(jù)源層包含了石油行業(yè)大量原始數(shù)據(jù),包括地震數(shù)據(jù)、錄井?dāng)?shù)據(jù)、油氣水水井?dāng)?shù)據(jù),該層實現(xiàn)異構(gòu)數(shù)據(jù)存儲功能。數(shù)據(jù)源層的構(gòu)建是困難的,因為傳統(tǒng)石油企業(yè)數(shù)據(jù)庫缺少技術(shù)標(biāo)準(zhǔn),數(shù)據(jù)資源冗余度很高,可能影響云數(shù)據(jù)庫的構(gòu)建。然而應(yīng)當(dāng)注意,數(shù)據(jù)源層的數(shù)據(jù)資源存儲成果是顯著的,因此本文采用數(shù)據(jù)源層傳統(tǒng)數(shù)據(jù)庫。
(3)云數(shù)據(jù)層
云數(shù)據(jù)層的設(shè)計是為了進行復(fù)雜石油數(shù)據(jù)的管理,構(gòu)建起便于石油大數(shù)據(jù)存儲的數(shù)據(jù)結(jié)構(gòu),也滿足業(yè)務(wù)需求。
(4)數(shù)據(jù)應(yīng)用層
數(shù)據(jù)應(yīng)用層是面向用戶的,可以為用戶提供勘探、開發(fā)、集輸?shù)染唧w應(yīng)用,用戶則根據(jù)所需從中選取相應(yīng)數(shù)據(jù)。數(shù)據(jù)的提取過程十分簡單,僅需通過終端設(shè)備在取得系統(tǒng)使用權(quán)限后即可獲取資源。該層提供通用的數(shù)據(jù)訪問接口,可以針對上層用戶不同請求實現(xiàn)不同需求。
(5)終端接入層
終端接入層即包括移動設(shè)備、虛擬化桌面等,方便針對不同業(yè)務(wù)需求達到數(shù)據(jù)訪問的目的。
為了實現(xiàn)上述的由下而上的系統(tǒng)結(jié)構(gòu),需要在數(shù)據(jù)源層利用之前數(shù)據(jù)庫,然而,由于把數(shù)據(jù)源層數(shù)據(jù)加載至云數(shù)據(jù)時,數(shù)據(jù)結(jié)構(gòu)尚未初始化。本文擬采用數(shù)據(jù)集成總線把異構(gòu)的石油數(shù)據(jù)標(biāo)準(zhǔn)化,然后為軟件體系提供接口設(shè)計。
油田行業(yè)信息化建設(shè)對基礎(chǔ)硬軟件要求高,因此高性能計算是當(dāng)前油田企業(yè)信息化建設(shè)必須解決的難題,對該難題歸納,主要困難包括軟硬件資源浪費、維護系統(tǒng)成本高、管控自動化程度低三方面。為了解決上述難題,將HPC緊耦合方式接觸,創(chuàng)建出分布式的服務(wù)器集中形式。本文基于Hadhoop進行高性能計算機的討論。如何合理智能的利用數(shù)據(jù)資源至關(guān)重要。
(1)統(tǒng)一的資源管理
由于缺少資源劃分標(biāo)準(zhǔn),所以節(jié)點分配管理過程中應(yīng)當(dāng)遵循的原則是不浪費、不重復(fù),可以按照實際業(yè)務(wù)需求來分配節(jié)點,最終可以進行以下節(jié)點群的分配:Seismark(2臺)、管理節(jié)點(3臺)、Hadoop(14臺)、Petrel(圖形工作站7臺)、負(fù)載監(jiān)控(5臺)、Eclipes(3臺)、OpenWorks 5000.3(12臺)、SKUA(7臺)。上述節(jié)點群分配的腳本配置如下:
專業(yè)的權(quán)限控制軟件價格昂貴,甚至高于硬件資源成本,因此如果希望通過需求使用峰值購買權(quán)限會提高成本。筆者認(rèn)為可以在權(quán)限管理模塊里對權(quán)限資源進行合理的調(diào)度,例如基于優(yōu)先級任務(wù)發(fā)放權(quán)限,也可以立即終止長時間占用。在依據(jù)石油企業(yè)實際資源情況的情況下生成分配策略,有利于提高資源使用效率。
中石化等油田企業(yè)是基于項目驅(qū)動進行資源調(diào)度的,通過建立起高性能計算集群,并在其上部署若干項目,實現(xiàn)項目的權(quán)限調(diào)度,實際腳本配置文件如下:
在上述腳本配置中可以看出,通過建立project_cy和Project_kt兩個不同項目,并使二者同時擁有Hadoop權(quán)限,且權(quán)限調(diào)度比例等于2:1。
(2)集群遠程可視化
當(dāng)前石油基礎(chǔ)設(shè)施云平臺的圖站服務(wù)器無法滿足實際使用中的高并發(fā)問題,即當(dāng)用戶集中登錄并訪問將可能導(dǎo)致圖站服務(wù)器直接死機。因此需要對圖站資源進行科學(xué)的管理,可采用的可視化方案應(yīng)滿足自助式、集群式以及遠程化的目標(biāo)。
(3)基于策略的資源調(diào)度
為了組大程度減少數(shù)據(jù)資源浪費的情況,可以采用以下三種計算資源調(diào)度方式:公平調(diào)度、基于時間變化的調(diào)度、搶占性調(diào)度。在Eclipes軟件中的資源調(diào)度配置情況如下所示:
云數(shù)據(jù)的設(shè)計流程復(fù)雜,只有遵循模型設(shè)計標(biāo)準(zhǔn)方可減少設(shè)計工作量。目前應(yīng)用較多的是EPDM模型,因此本文在EPDM基礎(chǔ)上,結(jié)合搜索模型擴展業(yè)務(wù)需求,實現(xiàn)EPDM模型的拓展,并使EPDM模型與云數(shù)據(jù)模型完成自動遷移過程,最終構(gòu)建起云數(shù)據(jù)庫閉環(huán)更新流程。
云數(shù)據(jù)的設(shè)計中命名規(guī)則至關(guān)重要,直接影響系統(tǒng)的調(diào)試工作,而石油云數(shù)據(jù)的設(shè)計應(yīng)當(dāng)考慮石油行業(yè)情況,把標(biāo)準(zhǔn)命名規(guī)則和石油行業(yè)情況進行融合。
(1)包名
包名的確定通常根據(jù)業(yè)務(wù)實體劃分,包名縮寫規(guī)范中是從整個包名里提取2個字母,而數(shù)據(jù)庫里擁有同一級別的包名不可重復(fù)。除此之外,本文構(gòu)建的石油云平臺對包名有以下要求:當(dāng)業(yè)務(wù)需求改變時,僅需在Comment里添加信息即可;滿足從專業(yè)到基礎(chǔ),再到數(shù)據(jù)頻度的多級包分類要求;新增包應(yīng)解釋新包和老包的關(guān)系。
(2)表名
表名的命名規(guī)則如下:項目包名_縮寫1_縮寫2_縮寫3。以井作業(yè)為例,其對應(yīng)的表名為BE_WELL_OP_PHASE。
(3)字段名
字段名中的英文字母均為大寫,命名效果應(yīng)達到“見名知意”。業(yè)務(wù)人員整理統(tǒng)一規(guī)范的中文名稱,將中文名詞翻譯為英文,并用慣用英文縮寫代碼表來制定英文縮寫名稱。字段數(shù)據(jù)類型包括char(n)、varchar2(n)、numeric(n,p)、data、clob、blob等六種。
數(shù)據(jù)存儲能力并無法直接提升油田企業(yè)的競爭力,而數(shù)據(jù)的應(yīng)用才是構(gòu)建石油云平臺最終的目的,如何把數(shù)據(jù)資源作為服務(wù)來提高資源使用效率是當(dāng)前應(yīng)當(dāng)解決的問題,而石油云平臺的應(yīng)用依賴于應(yīng)用系統(tǒng)接口設(shè)計,本章將討論數(shù)據(jù)應(yīng)用的分層式架構(gòu)設(shè)計:
應(yīng)用層包括遺留應(yīng)用系統(tǒng)、新應(yīng)用系統(tǒng)以及商業(yè)軟件系統(tǒng)。遺留應(yīng)用系統(tǒng)是將傳統(tǒng)信息化建設(shè)中冗余的資源集成起來的系統(tǒng),新應(yīng)用系統(tǒng)是基于云數(shù)據(jù)庫訪問視圖與表的系統(tǒng),商業(yè)軟件軟件系統(tǒng)是根據(jù)特殊業(yè)務(wù)需求建立的項目主庫。
對于遺留應(yīng)用系統(tǒng),可以基于視圖直接訪問傳統(tǒng)數(shù)據(jù)庫模型的應(yīng)用視圖,而新應(yīng)用系統(tǒng)的接口可以設(shè)計為如下四類:測井類、地震類、鉆錄井類、井查詢類。
商業(yè)應(yīng)用軟件和云數(shù)據(jù)庫的集成相當(dāng)困難,因此可以基于綜合應(yīng)用軟件建立項目主庫,例如可以基于Petrel平臺訪問云數(shù)據(jù)庫,然后將從中獲取的數(shù)據(jù)放在工區(qū)內(nèi),實現(xiàn)數(shù)據(jù)分析,將系統(tǒng)可實現(xiàn)的價值放大。
石油大數(shù)據(jù)發(fā)展是當(dāng)前石油行業(yè)必經(jīng)的過程,本文所提出的基礎(chǔ)設(shè)施云平臺方案一方面可以滿足油田企業(yè)生產(chǎn)實際,另一方面也盡可能滿足云計算標(biāo)準(zhǔn)。只有把軟件、硬件以及數(shù)據(jù)根據(jù)用戶需求發(fā)放給用戶,并對數(shù)據(jù)資源進行統(tǒng)一管理,方可提高數(shù)據(jù)資源的利用效率。在未來,石油數(shù)據(jù)的價值挖掘、數(shù)據(jù)安全性等問題將是研究熱點。
* [1]周力臻. 大數(shù)據(jù)云平臺數(shù)據(jù)流量優(yōu)化管理仿真[J]. 計算機仿真,2016,33(12):462-465.
* [2]張新朝. 基于云平臺虛擬集群的設(shè)計與實現(xiàn)[D].閩南師范大學(xué),2015.
* [3]李智鵬,許京國,焦?jié)?吳海燕,安秀娟,姜思誠. 如何運用大數(shù)據(jù)技術(shù)優(yōu)化石油上游產(chǎn)業(yè)[J]. 石油工業(yè)計算機應(yīng)用,2015,(01):8-12+3.
* [4]李金諾. 淺談石油行業(yè)大數(shù)據(jù)的發(fā)展趨勢[J]. 價值工程,2013,32(29):172-174.