亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深海油氣管道數(shù)據(jù)清洗方法設(shè)計(jì)

2022-09-02 03:47:08趙可天唐建華魏紅秋

中國海洋平臺 2022年4期

趙可天，唐建華，倪劍，魏紅秋，董洋

(1. 中海油能源發(fā)展裝備技術(shù)有限公司，天津 300452；2. 東北大學(xué) 信息科學(xué)與工程學(xué)院，遼寧沈陽 110819)

0 引言

多源數(shù)據(jù)的采集過程中出現(xiàn)臟數(shù)據(jù)，對管道的風(fēng)險評價、腐蝕控制、故障預(yù)警和管道完整性管理產(chǎn)生影響，因此采集數(shù)據(jù)準(zhǔn)確性對后期的決策起到關(guān)鍵的作用[1]，準(zhǔn)確且可靠性高的數(shù)據(jù)對管道風(fēng)險評價及后期制定管道維修計(jì)劃有良好的輔助作用，且可為管道安全運(yùn)行提供更有利的保障，更有效地解決油氣管道安全的問題。

國內(nèi)關(guān)于數(shù)據(jù)清洗研究的成果比較少。剛起步時，國內(nèi)對數(shù)據(jù)清洗的研究[2-7]僅局限在改進(jìn)國外已有的英文算法，現(xiàn)在慢慢地提出基于中文數(shù)據(jù)特色的數(shù)據(jù)清洗研究算法。王曰芬等是國內(nèi)比較早進(jìn)入數(shù)據(jù)清洗研究領(lǐng)域的，他們定義數(shù)據(jù)清洗的含義和基本原理，并給出數(shù)據(jù)清洗的評估方法，對后來進(jìn)入數(shù)據(jù)清洗領(lǐng)域的研究人員提供了一個較好的標(biāo)準(zhǔn)。曹建軍等從數(shù)據(jù)質(zhì)量的方向強(qiáng)調(diào)數(shù)據(jù)清洗的重要性，并設(shè)想一個擴(kuò)展性強(qiáng)、松耦合、交互性好的數(shù)據(jù)清洗框架。葉煥悼等把研究重點(diǎn)放在相似重復(fù)記錄的清洗上，對相似重復(fù)記錄的檢測、相似重復(fù)記錄的清除進(jìn)行深入研究，且考慮到知識層面和語義的重要，并把其引入數(shù)據(jù)清洗框架中。周傲英等的研究重心放在數(shù)據(jù)的不確定性，也是數(shù)據(jù)的多義性，提出運(yùn)行排序、剪枝等技術(shù)開發(fā)新的數(shù)據(jù)清洗算法，并能夠?qū)?shù)據(jù)的后期處理，如數(shù)據(jù)預(yù)處理及融合、數(shù)據(jù)存儲、數(shù)據(jù)查詢等操作提供幫助。

目前網(wǎng)絡(luò)上產(chǎn)生大量的像HTML文檔、Web數(shù)據(jù)等半結(jié)構(gòu)化數(shù)據(jù)，因其具有層次性、動態(tài)可變性等特點(diǎn)，被廣泛地應(yīng)用于信息傳播，同時不斷被使用的數(shù)據(jù)還包括圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)，半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的不斷增加[8]會產(chǎn)生大量的臟數(shù)據(jù)，對分析問題產(chǎn)生大量的阻礙，由于這些數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的編碼方式不同[9]，清洗方法不能一并使用，因此需要根據(jù)數(shù)據(jù)具有的特點(diǎn)進(jìn)行清洗技術(shù)的研究[10-11]。

1 管道數(shù)據(jù)清洗技術(shù)

數(shù)據(jù)清洗主要清洗的臟數(shù)據(jù)包括離群點(diǎn)值、缺失值和不一致數(shù)據(jù)。數(shù)據(jù)清洗用來完成對臟數(shù)據(jù)的清洗工作，形成一個干凈的數(shù)據(jù)集，數(shù)據(jù)清洗流程包括4個步驟，分別為臟數(shù)據(jù)檢測、臟數(shù)據(jù)處理、數(shù)據(jù)質(zhì)量評價和干凈數(shù)據(jù)回溯。根據(jù)管道內(nèi)檢測數(shù)據(jù)分析系統(tǒng)及日常生產(chǎn)監(jiān)測數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)將臟數(shù)據(jù)分為缺失值和異常值，相應(yīng)的清洗方法包括缺失值的清洗方法和離群點(diǎn)檢測清洗方法[10]。

2 管道數(shù)據(jù)清洗算法設(shè)計(jì)與分析

2.1 基于回歸插補(bǔ)法的缺失數(shù)據(jù)清洗

(1) 相關(guān)變量選擇

假設(shè)觀察樣本A=(xij)，其中，i=1,…,n，j=1,…,m，xij表示第j個日常監(jiān)測屬性第i個采集的數(shù)據(jù)，其中m個日常監(jiān)測變量屬性為X1,…,Xm，為了消除管道日常監(jiān)測屬性量綱對分析問題的影響，對日常監(jiān)測數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

(1)

式中：xj和sj分別為第j個日常監(jiān)測變量的管道數(shù)據(jù)樣本均值和樣本標(biāo)準(zhǔn)差；Zij為xij進(jìn)行標(biāo)準(zhǔn)化處理后的數(shù)據(jù)。

將管道日常監(jiān)測數(shù)據(jù)集A分為A1和A2兩部分：A1中所有單元Z1,…,Zm是無缺失值的樣本，A2的所有單元是含有缺失值的樣本，Zk作為目標(biāo)變量。剔除數(shù)據(jù)A2中第i個單元含缺失值的所有變量，剩余記錄記為Z，再進(jìn)行變量選擇。

利用皮爾森相關(guān)系數(shù)法對相關(guān)變量與目標(biāo)缺失變量之間進(jìn)行相關(guān)性分析。皮爾森系數(shù)介于-1與1之間，其絕對值越趨近于1，證明2個變量之間的線性關(guān)系越強(qiáng)，之后根據(jù)相關(guān)性系數(shù)大小對輔助變量進(jìn)行排序。

(2) 多元線性回歸插補(bǔ)法

在管道監(jiān)測數(shù)據(jù)中許多都是連續(xù)型數(shù)據(jù)，監(jiān)測數(shù)據(jù)指標(biāo)可以歸結(jié)為m個自變量與某個目標(biāo)缺失變量之間的關(guān)系。選擇n個監(jiān)測樣本，每個監(jiān)測樣本為(yi,x1i,x2i,…,xmi)，i=1,…,n。

如果yi與X1i，X2i，…，Xmi之間存在線性關(guān)系，則上述n組數(shù)據(jù)應(yīng)滿足：

(2)

式中：εi為測試誤差，相互獨(dú)立且服從N(0,δ2)分布，m

如果εi不存在，那么yi與xmi之間滿足線性關(guān)系：

yi=b0+b1x1i+b2x2i+…+bmxmi

(3)

(4)

回歸方程的衡量指標(biāo)可采用均方誤差EMS或者決定系數(shù)R2衡量缺失值插補(bǔ)的精度。

(5)

(6)

(3) 缺失值清洗步驟

步驟1：輸入含有缺失值的管道系統(tǒng)數(shù)據(jù)集。

步驟2：對管道全生命周期數(shù)據(jù)構(gòu)成的數(shù)據(jù)集進(jìn)行預(yù)處理。在進(jìn)行數(shù)據(jù)插補(bǔ)前將含有缺失值的記錄和完整的記錄進(jìn)行識別處理。

步驟3：對去除冗余信息后的屬性進(jìn)行相關(guān)性分析，利用皮爾森相關(guān)系數(shù)法找出與缺失值所在屬性相關(guān)性較高的屬性，形成訓(xùn)練樣本集。

步驟4：進(jìn)行多元線性回歸插補(bǔ)，將管道樣本集分為訓(xùn)練樣本集、測試樣本集和缺失插補(bǔ)集，將訓(xùn)練樣本數(shù)據(jù)集放入回歸插補(bǔ)模型中進(jìn)行訓(xùn)練，建立回歸方程，并計(jì)算回歸系數(shù)及擬合回歸曲線。

步驟5：將完整的數(shù)據(jù)集得到的擬合曲線對測試樣本集的數(shù)據(jù)特征進(jìn)行插補(bǔ)，并計(jì)算衡量插補(bǔ)精度指標(biāo)，若EMS<0.001或R2>0.95，則訓(xùn)練模型達(dá)到要求，將數(shù)據(jù)缺失插補(bǔ)集的數(shù)據(jù)輸入訓(xùn)練后的模型中進(jìn)行插補(bǔ)，最后將缺失值插補(bǔ)完成。

圖1為以均方誤差為標(biāo)準(zhǔn)進(jìn)行缺失值清洗的流程圖。

圖1 缺失值數(shù)據(jù)清洗流程圖

2.2 基于密度的局部離群點(diǎn)檢測LOF算法

經(jīng)典的基于密度的局部離群點(diǎn)檢測算法有局部離群因子(Local Outlier Factor，LOF)算法、ELSC算法等。采用LOF算法對離群點(diǎn)進(jìn)行檢測，并將檢測到的異常點(diǎn)用缺失值填充方法進(jìn)行填充，將數(shù)據(jù)集按照數(shù)據(jù)對象與局部離群因子互相對應(yīng)。

LOF算法是基于密度的離群點(diǎn)檢測方法中一個比較有代表性的算法。該算法會給數(shù)據(jù)集中的每個點(diǎn)計(jì)算一個LOF，通過判斷LOF是否接近于1來判定是否是離群因子。若LOF遠(yuǎn)大于1，則認(rèn)為是離群因子；若LOF接近于1，則是正常點(diǎn)。

給定對象集為D， LOF算法的相關(guān)定義如下：

(1) 對象o的k距離。對象o的k距離記為distk(o)，是o與目標(biāo)對象p∈D之間的距離dist(o,p)，另一個對象P滿足：

①至少有k個對象o′∈D{o}，使得dist(o,o′)≤dist(o,p)；

②k-1個對象o″∈D{o}，使得dist(o,o″)

(2) 對象o的k距離鄰域。o的k距離鄰域包含鄰域內(nèi)到o的距離不大于distk(o)的所有對象，其是一個點(diǎn)的集合：

Nk(o)={o′|o′∈D,dist(o,o′)≤distk(o)}

(7)

利用Nk(o)中的數(shù)據(jù)對象至o的平均距離計(jì)算o的局部密度。但若o具有一個距其非常近的鄰域o′，dist(o,o′)會特別小，導(dǎo)致統(tǒng)計(jì)距離度量的波動特別高。因此針對此光滑效果，轉(zhuǎn)換成可達(dá)距離。

(3) 數(shù)據(jù)對象o相對于數(shù)據(jù)對象o′的可達(dá)距離。若dist(o,o′)>distk(o)，則從o′至o的可達(dá)距離是dist(o,o′)，否則是distk(o)，即k是控制光滑效果的用戶指定的參數(shù)，k值越大，鄰域內(nèi)包含的對象就越多。

(4) 對象o的局部可達(dá)密度。

(8)

(5) 對象o的局部離群點(diǎn)因子LOF的數(shù)學(xué)表達(dá)式。

(9)

對于日常監(jiān)測管道數(shù)據(jù)集D，其中包含n個對象，p∈D。LOF算法的實(shí)現(xiàn)步驟如表1所示。

表1 LOF算法實(shí)現(xiàn)步驟

該算法是一種基于密度的非監(jiān)督算法，適合對不同密度的數(shù)據(jù)進(jìn)行異常檢測，利用局部離群因子對數(shù)據(jù)對象具備離群點(diǎn)的可能性進(jìn)行計(jì)算。該算法在全局和局部離群點(diǎn)的檢測過程中都體現(xiàn)出良好的算法性能。

3 清洗算法仿真結(jié)果分析

3.1 基于回歸插補(bǔ)法的缺失數(shù)據(jù)清洗結(jié)果分析

為驗(yàn)證管道缺失值清洗的準(zhǔn)確性，隨機(jī)從管道日常監(jiān)測系統(tǒng)中抽取一段時間產(chǎn)生的生產(chǎn)數(shù)據(jù)，包括90個樣本、7個屬性。

(1) 利用皮爾森相關(guān)系數(shù)法篩選出與存在缺失值的目標(biāo)變量相關(guān)性高的屬性，如表2所示，從7個屬性變量中可以看出與缺失值目標(biāo)變量腐蝕速率相關(guān)性高的有H2S、CO2、溶解氧。

將這3個屬性作為輸入輔助變量，圖2(a)為H2S體積分?jǐn)?shù)與腐蝕速率之間的相關(guān)性曲線，圖2(b)為CO2分壓與腐蝕速率之間的相關(guān)性曲線，圖2(c)為溶解氧質(zhì)量濃度與腐蝕速率之間的相關(guān)性曲線。從圖2屬性間的相關(guān)性曲線可以看出，H2S體積分?jǐn)?shù)、CO2分壓、溶解氧質(zhì)量濃度與腐蝕速率呈正相關(guān)。

表2 相關(guān)系數(shù)

(2) 模型訓(xùn)練結(jié)果分析

變量選擇前后模型擬合預(yù)測與真實(shí)數(shù)據(jù)曲線對比如圖3所示，圖3(a)為變量選擇前的預(yù)測與真實(shí)擬合曲線，圖3(b)為變量選擇后預(yù)測與真實(shí)擬合曲線。由圖3可知：測試曲線與預(yù)測曲線基本能夠重合，沒有較大的誤差點(diǎn)。

圖2 屬性間相關(guān)性曲線

圖3 變量選擇前后模型擬合曲線對比

(3) 模型評價指標(biāo)

表3為變量選擇前后測試精度對比表。

缺失樣本插補(bǔ)結(jié)果如表4所示。

表3 變量選擇前后測試精度對比

表4 缺失樣本插補(bǔ)結(jié)果

3.2 基于密度的局部離群點(diǎn)檢測LOF算法仿真結(jié)果分析

采用的數(shù)據(jù)集來源于內(nèi)檢測數(shù)據(jù)分析系統(tǒng)，數(shù)據(jù)集包括3 013個樣本、54個屬性。先對數(shù)據(jù)進(jìn)行簡單的數(shù)據(jù)分析，將固定值的屬性過濾，再對無異常點(diǎn)的離散值進(jìn)行處理，通過描述分析方法發(fā)現(xiàn)缺陷列表中長度、寬度的數(shù)據(jù)分布中具有離群點(diǎn)，利用基于密度的局部離群點(diǎn)檢測LOF算法將離群點(diǎn)篩選出來，然后與k-means聚類算法進(jìn)行對比，選擇離群點(diǎn)檢測精度高的算法。本試驗(yàn)采用的算法檢測的離群點(diǎn)只針對連續(xù)型屬性，目前只在收集到的連續(xù)型數(shù)值中發(fā)現(xiàn)了離群點(diǎn)，主要在通過計(jì)算得出的缺陷長度、寬度、深度中發(fā)現(xiàn)了范圍超限的離群點(diǎn)。同時采用里程點(diǎn)、時鐘方位等數(shù)據(jù)定位離群點(diǎn)位置。從3 013個缺陷信息列表中每隔200個缺陷點(diǎn)抽樣1次，共抽取15個樣本，以其中1個樣本中離群點(diǎn)多的221個缺陷點(diǎn)作為示例進(jìn)行離群點(diǎn)分析。以下是對測試數(shù)據(jù)集進(jìn)行試驗(yàn)的分析結(jié)果，試驗(yàn)計(jì)算出閾值之后設(shè)置不同k值下離群點(diǎn)正檢率、誤檢率、漏檢率等情況進(jìn)行對比。

先在221個數(shù)據(jù)集、54個屬性中找到連續(xù)值不斷變化的屬性進(jìn)行分析，分析最大值、最小值、平均值和75%分位數(shù)指標(biāo)以分析數(shù)據(jù)分布情況，如表5所示。

表5 描述性統(tǒng)計(jì)指標(biāo)結(jié)果

由表5可知，缺陷長度和寬度最大值遠(yuǎn)大于75%分位數(shù)，分布較為離散，其他指標(biāo)分布較為集中。從內(nèi)檢測數(shù)據(jù)分析系統(tǒng)中將長度、寬度與真實(shí)值進(jìn)行對比發(fā)現(xiàn)，檢測出的缺陷長度和寬度超過數(shù)據(jù)應(yīng)該存在的范圍，應(yīng)進(jìn)行離群點(diǎn)檢測，去除與實(shí)際值不一致的點(diǎn)，以方便后續(xù)的分析。

(1) 離群點(diǎn)檢測指標(biāo)分析

圖4為設(shè)置異常值占總樣本比例0.15時設(shè)置不同k值的離群點(diǎn)檢測的精度對比，展示不同k值下樣本離群點(diǎn)的正檢率與誤檢率、漏檢率的精度對比。

由圖4可知：當(dāng)k=14時，樣本正檢率為0.96，漏檢率最低，與其他k值相比已達(dá)到最佳。由于正檢率和漏檢率是主要目標(biāo)，漏檢率為0.16在當(dāng)前研究問題中已足夠，因此選擇k=14時的LOF算法。接下來將k-means聚類與LOF算法參數(shù)k=14時離群點(diǎn)監(jiān)測精確度進(jìn)行對比。

圖4 不同k值的離群點(diǎn)檢測精度對比

(2)k-means算法準(zhǔn)確度分析

圖5為k-means算法檢測到的離群點(diǎn)分布圖。由圖5可知，當(dāng)設(shè)定閾值為1.9時，k-means算法共檢測到21個離群點(diǎn)，其中有17個離群點(diǎn)檢測正確、4個誤檢、6個漏檢。

圖5 k-means算法檢測離群點(diǎn)分布

(3) LOF算法準(zhǔn)確度分析

利用LOF算法中k=14的檢測結(jié)果進(jìn)行分析，離群點(diǎn)分布如圖6所示。

圖6 LOF算法檢測離群點(diǎn)分布

由圖6可知：共檢出28個離群點(diǎn)，其中有24個離群點(diǎn)被正確檢測、1個漏檢、4個被誤檢。LOF算法具體檢測結(jié)果精度與k-means算法對比如表6所示。

表6 LOF與k-means算法檢測精度對比 %

由表6可知：LOF離群點(diǎn)檢測算法正檢率達(dá)96%，比k-means離群點(diǎn)檢測算法高41.18%；在誤檢率和漏檢率方面LOF離群點(diǎn)檢測算法比k-means算法低，其中漏檢率LOF離群點(diǎn)檢測算法遠(yuǎn)低于k-means算法。因此，LOF檢測算法在檢測離群點(diǎn)上精度較高，可用于管道領(lǐng)域連續(xù)值的離群點(diǎn)檢測。

4 結(jié) 論

提出數(shù)據(jù)缺失值插補(bǔ)算法和數(shù)據(jù)離群點(diǎn)檢測算法，主要應(yīng)用數(shù)理統(tǒng)計(jì)及數(shù)據(jù)挖掘算法清洗數(shù)據(jù)缺失值及離群點(diǎn)檢測，數(shù)據(jù)中的缺失值形式分為連續(xù)值和離散值，在缺失值插補(bǔ)算法中提出多元線性回歸插補(bǔ)法，對檢測的缺失值進(jìn)行合理化插補(bǔ)。對于管道數(shù)據(jù)中的離群點(diǎn)利用基于密度的局部離群點(diǎn)檢測算法，將檢測出的離群點(diǎn)進(jìn)行仿真測試，并將離群點(diǎn)精度與k-means算法進(jìn)行比較，基于密度的離群點(diǎn)檢測算法得到較高的檢測精度，建立最優(yōu)的檢測模型，為后續(xù)的數(shù)據(jù)分析工作打下良好的基礎(chǔ)。