文|詹勝 楊先睿 曹湘華
石油鉆井行業(yè)建立數(shù)據(jù)集成系統(tǒng)是鉆井信息化發(fā)展的必然趨勢,而鉆井工程設(shè)計(jì)文檔是其重要組成部分。文檔識別作為一種新興的科學(xué)研究項(xiàng)目,有著廣泛的應(yīng)用前景,隨著計(jì)算機(jī)技術(shù)的更新發(fā)展,其科學(xué)研究價值越發(fā)凸顯。本文將對基于機(jī)器學(xué)習(xí)的鉆井工程設(shè)計(jì)文檔的識別及數(shù)據(jù)集成系統(tǒng)的搭建作詳細(xì)探討和總結(jié)。
由于計(jì)算機(jī)技術(shù)飛速發(fā)展和信息系統(tǒng)的普遍應(yīng)用,越來越多的用戶為了便于文檔的讀取與轉(zhuǎn)發(fā),以數(shù)字文檔逐步代替?zhèn)鹘y(tǒng)文檔。但由此產(chǎn)生的數(shù)據(jù)安全、數(shù)據(jù)融合問題也隨之凸顯。
為提高長慶鉆井總公司鉆井工程設(shè)計(jì)文檔的數(shù)字化、自動化程度。提高鉆井工程數(shù)據(jù)利用程度,保證數(shù)據(jù)的準(zhǔn)確性,同時保障石油鉆井?dāng)?shù)據(jù)信息安全,我司利用人工智能算法實(shí)現(xiàn)了鉆井工程設(shè)計(jì)文檔的自動識別,并建設(shè)了鉆井隊(duì)、項(xiàng)目部、總部機(jī)關(guān)及甲方鉆井工程設(shè)計(jì)數(shù)據(jù)平臺。
目前長慶鉆井總公司常規(guī)井的鉆井工程設(shè)計(jì)是利用Witch軟件和Dxj實(shí)用定向井程序以及建設(shè)方鉆井地質(zhì)設(shè)計(jì)完成的,由于Dxj實(shí)用定向井程序是2000年前編寫的軟件,效率低,速度慢,已經(jīng)無法滿足長慶鉆井工程設(shè)計(jì)的需求;鉆井工程設(shè)計(jì)的井基本數(shù)據(jù)、地層數(shù)據(jù)不能和川慶一體化平臺系統(tǒng)融合,井隊(duì)技術(shù)員需要重復(fù)錄入,并且保證不了數(shù)據(jù)的一致性;鉆井隊(duì)獲得鉆井工程設(shè)計(jì)數(shù)據(jù)和鉆井地質(zhì)設(shè)計(jì)基本上通過中油即時通和其它工具傳送的,信息安全得不到保障。
同時,為增強(qiáng)長慶鉆井總公司工程類軟件的自主創(chuàng)新能力與自主研發(fā)能力,響應(yīng)集團(tuán)公司數(shù)字化轉(zhuǎn)型,智能化發(fā)展的號召,需要實(shí)施基于機(jī)器學(xué)習(xí)的鉆井工程設(shè)計(jì)文檔識別及數(shù)據(jù)集成系統(tǒng)研究。
鉆井工程設(shè)計(jì)文檔急需解決的問題有:第一,對不同類型的鉆井地質(zhì)文件和鉆井工程設(shè)計(jì)文檔,建立數(shù)據(jù)模型,通過機(jī)器學(xué)習(xí)進(jìn)行訓(xùn)練,識別文檔;第二,把識別的鈷井基本數(shù)據(jù)和鉆井地質(zhì)進(jìn)行保存;第三,與川慶EISS系統(tǒng)數(shù)據(jù)集成?;谝陨锨闆r,提出以下建設(shè)思路:
構(gòu)建鉆井地質(zhì)數(shù)據(jù)和鉆井工程設(shè)計(jì)數(shù)據(jù)并行智能處理模型,依托長慶區(qū)域大量的鉆井地質(zhì)和工程設(shè)計(jì)數(shù)據(jù),利用人工智能,機(jī)器深度學(xué)習(xí)技術(shù),完成鉆地質(zhì)設(shè)計(jì)和工程設(shè)計(jì)的快速識別和自動入庫,實(shí)現(xiàn)鉆井隊(duì)、項(xiàng)目部和建設(shè)方的鉆井地質(zhì)數(shù)據(jù)共享;利用長慶鉆井總公司已有的軟硬件平臺完成鉆井工程設(shè)計(jì)數(shù)據(jù)和川慶一體化的集成,最終在川慶公司實(shí)現(xiàn)鉆井作業(yè)設(shè)計(jì)數(shù)據(jù)的智能集成,實(shí)現(xiàn)鉆井隊(duì)鉆井設(shè)計(jì)數(shù)據(jù)自動錄入新模式。
基于機(jī)器學(xué)習(xí)的鉆井工程設(shè)計(jì)文檔識別及數(shù)據(jù)集成系統(tǒng)研究內(nèi)容主要分為以下四個部分:
第一,鉆井地質(zhì)設(shè)計(jì)和工程設(shè)計(jì)文檔的智能識別技術(shù)研究;第二,鉆井工程設(shè)計(jì)井基本數(shù)據(jù)和鉆井地層數(shù)據(jù)自動生成系統(tǒng)的研究;第三,鉆井隊(duì)、項(xiàng)目部和建設(shè)方的鉆井設(shè)計(jì)數(shù)據(jù)的集成研究;第四,鉆井工程設(shè)計(jì)數(shù)據(jù)和川慶一體化數(shù)據(jù)庫的集成研究。
該項(xiàng)目包括搭建智能模型;實(shí)現(xiàn)鉆井工程設(shè)計(jì)和井地質(zhì)設(shè)計(jì)文檔的識別;實(shí)現(xiàn)井基本數(shù)據(jù)和井地層數(shù)據(jù)入庫;完成該系統(tǒng)和川慶一體化系統(tǒng)的集成等四個主要功能部分。
搭建系統(tǒng)模型模塊包括樣本文檔的收集、智能模型的訓(xùn)練以及決策樹的生成等;鉆井工程設(shè)計(jì)和井地質(zhì)設(shè)計(jì)文檔的識別模塊包括文檔的讀入,任務(wù)的調(diào)試和結(jié)果的輸出等;井基本數(shù)據(jù)和井地層數(shù)據(jù)入庫模塊包含鉆井工程設(shè)計(jì)數(shù)據(jù)的自動入庫以及對數(shù)據(jù)的校對和修改等;完成該系統(tǒng)和川慶一體化系統(tǒng)的集成模塊包括編寫對應(yīng)的接口程序、井隊(duì)井史鉆井設(shè)計(jì)數(shù)據(jù)的導(dǎo)出以及一體化平臺數(shù)據(jù)庫內(nèi)數(shù)據(jù)的導(dǎo)入等。
項(xiàng)目結(jié)構(gòu)圖如圖1所示。
圖1 項(xiàng)目結(jié)構(gòu)圖
利用人工智能技術(shù),通過學(xué)習(xí)大量樣本搭建智能模型,將待識別的未知樣本輸入虛擬沙箱以捕獲動作行為;將動作行為傳遞到任務(wù)調(diào)度子系統(tǒng)以對它們進(jìn)行定位,并統(tǒng)計(jì)其中的動作行為特征值,以構(gòu)造動作行為向量;將行為向量帶入決策樹從根節(jié)點(diǎn)開始搜索,最后得出葉子節(jié)點(diǎn),而這個葉子就是所判斷出的樣本?;跊Q策樹算法的識別流程如圖2 所示。
圖2 決策樹算法流程圖
基于機(jī)器學(xué)習(xí)識別子系統(tǒng)主要對已知鉆井地質(zhì)數(shù)據(jù)和鉆井工程設(shè)計(jì)數(shù)據(jù)文檔訓(xùn)練,提取行為特征并構(gòu)建決策樹規(guī)則,基于訓(xùn)練的決策樹規(guī)則對未知鉆井地質(zhì)數(shù)據(jù)和鉆井工程設(shè)計(jì)數(shù)據(jù)樣本進(jìn)行匹配和識別。
基于機(jī)器學(xué)習(xí)識別子系統(tǒng)主要針對已有鉆井地質(zhì)數(shù)據(jù)和鉆井工程設(shè)計(jì)數(shù)據(jù)文檔進(jìn)行學(xué)習(xí)訓(xùn)練,從而總結(jié)出決策模型,再根據(jù)得到的決策模型對未知的鉆井地質(zhì)數(shù)據(jù)和鉆井工程設(shè)計(jì)數(shù)據(jù)樣本進(jìn)行匹配和識別。
1.系統(tǒng)架構(gòu)
本系統(tǒng)開發(fā)使用的是Microsoft Windows10版本的操作系統(tǒng);使用Java語言進(jìn)行編程,JDKl.8作為開發(fā)環(huán)境;采用IntelliJ IDEA作為java開發(fā)集成環(huán)境;后臺數(shù)據(jù)庫采用mysql數(shù)據(jù)庫管理系統(tǒng);使用Navicat數(shù)據(jù)庫管理工具;Tomcat作為Web服務(wù)器;采用B/S模式下的MVC架構(gòu)。
基于機(jī)器學(xué)習(xí)識別子系統(tǒng)以MVC模型進(jìn)行研究,分別是表示層、業(yè)務(wù)邏輯層、以及數(shù)據(jù)庫訪問層。三層架構(gòu)就是將整個業(yè)務(wù)應(yīng)用劃分為:表現(xiàn)層、業(yè)務(wù)邏輯層以及數(shù)據(jù)訪問層。區(qū)分層次的目的是為了達(dá)到“高內(nèi)聚、低耦合的”的要求。
基于機(jī)器學(xué)習(xí)的鉆井地質(zhì)數(shù)據(jù)和鉆井工程設(shè)計(jì)數(shù)據(jù)文檔識別工具系統(tǒng)架構(gòu)如圖3所示。
圖3 系統(tǒng)架構(gòu)圖
2.處理流程
基于機(jī)器學(xué)習(xí)的鉆井地質(zhì)數(shù)據(jù)分析和鉆井工程設(shè)計(jì)數(shù)據(jù)文檔識別工具處理過程為:
(1)被檢測的樣本文件經(jīng)由前端可視化子系統(tǒng)的上傳接口上傳到后臺;
(2)任務(wù)調(diào)度子系統(tǒng)接收被檢測的數(shù)據(jù)文檔,采用magic方式識別出被檢測文件格式;通過標(biāo)識出來的文件格式確定數(shù)據(jù)打開執(zhí)行方式,并打包為ISO形式;
(3)恢復(fù)虛擬機(jī)快照,將被檢測樣本通過CD掛載到虛擬機(jī)中并運(yùn)行;
(4)虛擬沙箱動作捕捉子系統(tǒng)將捕捉的動態(tài)行為發(fā)送到機(jī)器學(xué)習(xí)識別子系統(tǒng);
(5)機(jī)器學(xué)習(xí)識別子系統(tǒng)基于人工智能算法對用戶行為進(jìn)行整理分類然后送入決策樹,在決策樹中通過算法分析處理并寫入數(shù)據(jù)庫;
(6)最終結(jié)果統(tǒng)一呈現(xiàn)在前端可視化子系統(tǒng)中。
實(shí)現(xiàn)井基本數(shù)據(jù)和井地層數(shù)據(jù)入庫,建立井基本數(shù)據(jù)庫和井地層數(shù)據(jù)庫主要是把在文檔中識別過的井基本數(shù)據(jù)和地層數(shù)據(jù)讀入到本地?cái)?shù)據(jù)庫,并進(jìn)行校正; 需要在后端建立數(shù)據(jù)庫,對即將導(dǎo)入的數(shù)據(jù)信息進(jìn)行分類建立對應(yīng)的數(shù)據(jù)庫表,完成井基本數(shù)據(jù)和井地層數(shù)據(jù)入庫;
其次,在批量導(dǎo)入數(shù)據(jù)時,很容易發(fā)生信息丟失或數(shù)據(jù)不完成的情況,所以進(jìn)行數(shù)據(jù)校對工作非常重要。為防止以上情況發(fā)生,本系統(tǒng)設(shè)計(jì)了雙重保護(hù)功能,即在遷移前先分批運(yùn)行數(shù)據(jù)庫中各個表的條數(shù)并直接輸出到文本中。待遷移完成后,再批量執(zhí)行數(shù)據(jù)庫中每個表的條數(shù)輸出到文本中。然后使用Beyond Compare 對比工具。因?yàn)檩敵鲰樞蛞恢拢谋厩昂笸耆嗤?,因此安全性大大提高?/p>
管理員把修改好的鉆井工程設(shè)計(jì)數(shù)據(jù)讀入到一體化平臺數(shù)據(jù),本平臺進(jìn)行了系統(tǒng)優(yōu)化,編寫了接口程序,鉆井隊(duì)技術(shù)員不用再在井史數(shù)據(jù)庫中錄入鉆井工程設(shè)計(jì)數(shù)據(jù)了,只需要利用接口直接調(diào)用一體化平臺數(shù)據(jù)庫中的設(shè)計(jì)數(shù)據(jù),大大節(jié)省了時間成本和技術(shù)成本。
該項(xiàng)目通過應(yīng)用人工智能、機(jī)器學(xué)習(xí)等技術(shù)智能識別鉆井工程數(shù)據(jù),將數(shù)據(jù)提取后自動寫入公司井史數(shù)據(jù)庫,準(zhǔn)確率可達(dá)98%以上,有效提升公司鉆井井史導(dǎo)入的可靠性。系統(tǒng)的建立和數(shù)據(jù)集成有效輔助了鉆井技術(shù)人員編寫井史,降低了技術(shù)人員勞動強(qiáng)度,也提高了工作效率和井史準(zhǔn)確率,形成了鉆井工程設(shè)計(jì)文檔識別及數(shù)據(jù)集成操作規(guī)范。
該項(xiàng)目的推廣應(yīng)用不僅用于長慶鉆井總公司的井隊(duì)井史編寫,同時還可用于作業(yè)隊(duì)的施工指導(dǎo),降低作業(yè)成本。同時提高了各個作業(yè)隊(duì)伍的鉆井效率,降低了作業(yè)隊(duì)整體井史編寫成本,為公司的降本增效做出很大貢獻(xiàn)。