趙國(guó)深* 趙嘉玲 劉思妤 王 星 夏榮蓓 代炳濤
(河北省智慧管道技術(shù)創(chuàng)新中心廊 廊坊中油朗威工程項(xiàng)目管理有限公司)
在人工智能、大數(shù)據(jù)、云計(jì)算、5G 網(wǎng)絡(luò)等技術(shù)廣泛應(yīng)用的時(shí)代,信息技術(shù)的快速發(fā)展使傳統(tǒng)管理模式和生產(chǎn)方式產(chǎn)生了新的變革,并加快了傳統(tǒng)人工模式向自動(dòng)化、人工智能化方向的轉(zhuǎn)變進(jìn)程。傳統(tǒng)管道建設(shè)主要依靠人工執(zhí)行現(xiàn)場(chǎng)質(zhì)量安全制度和監(jiān)管實(shí)施情況以及不符合項(xiàng)隱患辨識(shí)工作。由于管道施工作業(yè)面廣、區(qū)域跨度大、地理環(huán)境復(fù)雜,質(zhì)量安全監(jiān)督工作戰(zhàn)線長(zhǎng)、效率低,同時(shí),人工檢查存在視程短、主觀性強(qiáng)、工作不連續(xù)、反應(yīng)慢、取證難等問(wèn)題,對(duì)于一些安全隱患無(wú)法及時(shí)進(jìn)行查處和現(xiàn)場(chǎng)取證。利用信息技術(shù)來(lái)完成數(shù)據(jù)采集、數(shù)據(jù)分類和數(shù)據(jù)整合已經(jīng)成為解決這些問(wèn)題的主要途徑。大數(shù)據(jù)技術(shù)(即大數(shù)據(jù)應(yīng)用技術(shù))包含各大數(shù)據(jù)平臺(tái),擁有海量的數(shù)據(jù),其功能是可以在各大數(shù)據(jù)平臺(tái)搜集各方數(shù)據(jù),進(jìn)行整合、分類、提取并得到有用信息,形成合適的問(wèn)題解決方法,使得人員布設(shè)、機(jī)械設(shè)備、物資分配等方面得到全面優(yōu)化,有效降低項(xiàng)目成本,保證施工技術(shù)方案可行,施工質(zhì)量可靠。
為了更有效地解決油氣管道監(jiān)理項(xiàng)目中的問(wèn)題,需要建立項(xiàng)目資源數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)需要立足打造油氣儲(chǔ)運(yùn)行業(yè)項(xiàng)目資源池,結(jié)合行業(yè)標(biāo)準(zhǔn)以及歷史項(xiàng)目經(jīng)驗(yàn),實(shí)現(xiàn)項(xiàng)目信息、承包商信息、費(fèi)用信息、質(zhì)量信息、進(jìn)度信息等內(nèi)容的收集與共享,為儲(chǔ)運(yùn)行業(yè)建設(shè)及運(yùn)營(yíng)提供數(shù)據(jù)支撐。本文主要通過(guò)介紹數(shù)據(jù)庫(kù)各部分的構(gòu)成來(lái)為管道監(jiān)理數(shù)據(jù)庫(kù)的建設(shè)提供依據(jù)。
數(shù)據(jù)系統(tǒng)功能主要包括:基礎(chǔ)信息管理功能、主題查詢檢索功能、數(shù)據(jù)報(bào)表功能、計(jì)費(fèi)管理功能及移動(dòng)端功能。其數(shù)據(jù)系統(tǒng)功能構(gòu)成如圖1 所示。
圖1 數(shù)據(jù)系統(tǒng)功能構(gòu)成
基礎(chǔ)信息管理功能主要包含項(xiàng)目信息、承包商信息、造價(jià)信息、設(shè)備信息、資源投入信息、采辦供應(yīng)商信息等數(shù)據(jù)的錄入功能;主題查詢功能主要包含查詢項(xiàng)目、查詢進(jìn)度、查詢費(fèi)用、查詢延期、綜合查詢、高級(jí)查詢、生成報(bào)告等功能;數(shù)據(jù)報(bào)表功能主要包括核心大數(shù)據(jù)智能分析展示;計(jì)費(fèi)管理功能提供產(chǎn)品化對(duì)外提供服務(wù)的功能,支持首頁(yè)、VIP 管理、積分管理、費(fèi)用管理、組織架構(gòu)管理、用戶管理等;移動(dòng)功能主要體現(xiàn)在實(shí)現(xiàn)移動(dòng)應(yīng)用App。
本課題研究過(guò)程中完成了1 套大數(shù)據(jù)分析云平臺(tái)的部署,構(gòu)建了以Hadoop 集群為基礎(chǔ)的云平臺(tái),包括1 個(gè)主節(jié)點(diǎn),3 個(gè)從節(jié)點(diǎn)。整個(gè)數(shù)據(jù)分析平臺(tái)主要由數(shù)據(jù)的接入層、存儲(chǔ)層、計(jì)算層、分析層及應(yīng)用層五部分構(gòu)成,其技術(shù)架構(gòu)如圖2 所示。
圖2 數(shù)據(jù)挖掘技術(shù)架構(gòu)
在大數(shù)據(jù)學(xué)習(xí)研究過(guò)程中,按照數(shù)據(jù)獲取、單因子探索分析及數(shù)據(jù)可視化、多因子關(guān)聯(lián)分析、數(shù)據(jù)預(yù)處理、特征轉(zhuǎn)換、模型學(xué)習(xí)及模型評(píng)估的完整流程開展,其流程如圖3 所示。
圖3 機(jī)器學(xué)習(xí)流程
隨著計(jì)算機(jī)技術(shù)迅速發(fā)展,智能算法研究也進(jìn)展飛速,其中集成學(xué)習(xí)算法是將幾種機(jī)器學(xué)習(xí)技術(shù)組合成一個(gè)預(yù)測(cè)模型的算法,也是綜合性能較高的一種智能算法。集成學(xué)習(xí)算法可以分為三類bagging(用于減少方差)、boosting(減少偏差)、stacking(提升預(yù)測(cè)結(jié)果)。這三類集成算法都用于體現(xiàn)參數(shù)對(duì)缺陷性質(zhì)的影響程度。文中主要采用隨機(jī)森林算法和XGBOOST 算法,這兩種算法是分類分析算法中比較常用的算法。
2.3.1 隨機(jī)森林算法基本原理
隨機(jī)森林算法結(jié)構(gòu)如圖4 所示。
圖4 Bagging結(jié)構(gòu)
步驟1:選擇樣本。假如有N個(gè)樣本,隨機(jī)選擇N個(gè)樣本,每取完一個(gè)樣本放回后繼續(xù)取下一個(gè)樣本,保證樣本總量一直為N。將這些選好的樣本作為決策樹的根節(jié)點(diǎn)出的樣本用來(lái)訓(xùn)練決策樹。
步驟2:選擇屬性。選擇完樣本后需要考慮樣本屬性,假設(shè)每個(gè)樣本有M個(gè)屬性時(shí),在決策樹的每個(gè)節(jié)點(diǎn)需要分裂時(shí),隨機(jī)從這M個(gè)屬性中選取出m個(gè)屬性,滿足條件m<<M。然后從這m個(gè)屬性中采用某種策略(比如說(shuō)信息增益)來(lái)選擇1 個(gè)屬性作為該節(jié)點(diǎn)的分裂屬性。
步驟3:確定分枝。決策樹形成過(guò)程中每個(gè)節(jié)點(diǎn)都要按照步驟2 來(lái)分裂(如果下一次該節(jié)點(diǎn)選擇的屬性是剛剛其父節(jié)點(diǎn)分裂時(shí)用過(guò)的屬性,則該節(jié)點(diǎn)已經(jīng)達(dá)到了葉子節(jié)點(diǎn),無(wú)須繼續(xù)分裂了,這樣確保了樹的高度≤M)。重復(fù)步驟2 直到不能再分裂為止,注意整個(gè)決策樹形成過(guò)程中沒(méi)有進(jìn)行剪枝。
按照步驟1~3 建立大量的決策樹,這樣就構(gòu)成了隨機(jī)森林。
從以上步驟可以看出,隨機(jī)森林的隨機(jī)性體現(xiàn)在每顆樹的訓(xùn)練樣本都是隨機(jī)的,樹中每個(gè)節(jié)點(diǎn)的分類屬性也是隨機(jī)選擇的。因此隨機(jī)森林不會(huì)產(chǎn)生過(guò)擬合現(xiàn)象,最終結(jié)果由投票選舉得出。
隨機(jī)森林算法得出的結(jié)果表明參數(shù)對(duì)于缺陷影響的重要程度。
隨機(jī)森林算法是基于Bagging 算法,裝袋法。其應(yīng)用流程如下所示。
樣本選擇:Bagging 隨機(jī)有放回的取樣。
樣本權(quán)重:Bagging 采取的是均勻取樣,且每個(gè)樣本的權(quán)重相同。
預(yù)測(cè)函數(shù): Bagging 的預(yù)測(cè)函數(shù)權(quán)值相同。
并行計(jì)算:Bagging 的各預(yù)測(cè)函數(shù)可以并行生成。
2.3.2 模型學(xué)習(xí)過(guò)程
使用隨機(jī)森林進(jìn)行機(jī)器學(xué)習(xí)。將數(shù)據(jù)集按照6:2:2的比例隨機(jī)切分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。隨機(jī)森林使用10 棵基尼決策樹,以全部特征為學(xué)習(xí)特征。
2.3.3 評(píng)估學(xué)習(xí)效果
以切分?jǐn)?shù)據(jù)集為基礎(chǔ),以ACC(accuracy_score,在所有預(yù)測(cè)出來(lái)的正例中的真值)、REC(Recall score 所有正例的發(fā)現(xiàn)值)和F1(精確率和召回率的調(diào)和均值)三種指標(biāo)對(duì)機(jī)器學(xué)習(xí)算法模型的預(yù)測(cè)結(jié)果進(jìn)行評(píng)分。其評(píng)分效果如表1 所示。
表1 評(píng)分學(xué)習(xí)效果
根據(jù)隨機(jī)森林算法得出的分析結(jié)果可以通過(guò)三個(gè)維度(進(jìn)度、成本、質(zhì)量)來(lái)判定最優(yōu)項(xiàng)目及較差項(xiàng)目,同時(shí)可以提供多維數(shù)據(jù)查詢功能。查詢費(fèi)用情況如圖5 所示,查詢項(xiàng)目進(jìn)度情況如圖6 所示。
圖5 查詢費(fèi)用情況
圖6 查詢進(jìn)度情況
遵循J2EE 開發(fā)標(biāo)準(zhǔn),采用Java 語(yǔ)言開發(fā)技術(shù)方案,引入微服務(wù)的架構(gòu)和場(chǎng)景化的理念,為快速搭建業(yè)務(wù)系統(tǒng),提供持續(xù)、敏捷的應(yīng)用方式,提高數(shù)據(jù)等信息化服務(wù)的開發(fā)能力。另外開發(fā)專業(yè)軟件以滿足展示層數(shù)據(jù)分析、二三維展示以及身份認(rèn)證的需求為目的,包括數(shù)據(jù)整合分析工具、三維模型綜合展示平臺(tái)基礎(chǔ)軟件、文件格式轉(zhuǎn)化工具等軟件。整個(gè)開發(fā)平臺(tái)的設(shè)計(jì)理念是采用“PaaS(平臺(tái)即服務(wù))平臺(tái)”整體架構(gòu)模式,引入微服務(wù)的架構(gòu)和場(chǎng)景化的理念,以及API 技術(shù)和生態(tài)圈理念,推動(dòng)“互聯(lián)網(wǎng)+”在油氣管道領(lǐng)域的應(yīng)用。平臺(tái)將對(duì)外提供多數(shù)據(jù)源接入功能,能夠?qū)?lái)自物聯(lián)設(shè)備的數(shù)據(jù)、中國(guó)石油其他平臺(tái)數(shù)據(jù),以及相關(guān)的異構(gòu)數(shù)據(jù)接入平臺(tái),使得數(shù)據(jù)整合和SOA 化。接入平臺(tái)的數(shù)據(jù)被封裝為Web 服務(wù),并利用SOA 架構(gòu)對(duì)外提供服務(wù),持續(xù)提高集成和部署、自動(dòng)化構(gòu)建代碼和自動(dòng)化部署能力。