亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深海油氣管道數(shù)據(jù)清洗方法設(shè)計(jì)

        2022-09-02 03:47:08趙可天唐建華魏紅秋
        中國海洋平臺 2022年4期
        關(guān)鍵詞:離群對象變量

        趙可天, 唐建華, 倪 劍, 魏紅秋, 董 洋

        (1. 中海油能源發(fā)展裝備技術(shù)有限公司, 天津 300452;2. 東北大學(xué) 信息科學(xué)與工程學(xué)院, 遼寧 沈陽 110819)

        0 引 言

        多源數(shù)據(jù)的采集過程中出現(xiàn)臟數(shù)據(jù),對管道的風(fēng)險評價、腐蝕控制、故障預(yù)警和管道完整性管理產(chǎn)生影響,因此采集數(shù)據(jù)準(zhǔn)確性對后期的決策起到關(guān)鍵的作用[1],準(zhǔn)確且可靠性高的數(shù)據(jù)對管道風(fēng)險評價及后期制定管道維修計(jì)劃有良好的輔助作用,且可為管道安全運(yùn)行提供更有利的保障,更有效地解決油氣管道安全的問題。

        國內(nèi)關(guān)于數(shù)據(jù)清洗研究的成果比較少。剛起步時,國內(nèi)對數(shù)據(jù)清洗的研究[2-7]僅局限在改進(jìn)國外已有的英文算法,現(xiàn)在慢慢地提出基于中文數(shù)據(jù)特色的數(shù)據(jù)清洗研究算法。王曰芬等是國內(nèi)比較早進(jìn)入數(shù)據(jù)清洗研究領(lǐng)域的,他們定義數(shù)據(jù)清洗的含義和基本原理,并給出數(shù)據(jù)清洗的評估方法,對后來進(jìn)入數(shù)據(jù)清洗領(lǐng)域的研究人員提供了一個較好的標(biāo)準(zhǔn)。曹建軍等從數(shù)據(jù)質(zhì)量的方向強(qiáng)調(diào)數(shù)據(jù)清洗的重要性,并設(shè)想一個擴(kuò)展性強(qiáng)、松耦合、交互性好的數(shù)據(jù)清洗框架。葉煥悼等把研究重點(diǎn)放在相似重復(fù)記錄的清洗上,對相似重復(fù)記錄的檢測、相似重復(fù)記錄的清除進(jìn)行深入研究,且考慮到知識層面和語義的重要,并把其引入數(shù)據(jù)清洗框架中。周傲英等的研究重心放在數(shù)據(jù)的不確定性,也是數(shù)據(jù)的多義性,提出運(yùn)行排序、剪枝等技術(shù)開發(fā)新的數(shù)據(jù)清洗算法,并能夠?qū)?shù)據(jù)的后期處理,如數(shù)據(jù)預(yù)處理及融合、數(shù)據(jù)存儲、數(shù)據(jù)查詢等操作提供幫助。

        目前網(wǎng)絡(luò)上產(chǎn)生大量的像HTML文檔、Web數(shù)據(jù)等半結(jié)構(gòu)化數(shù)據(jù),因其具有層次性、動態(tài)可變性等特點(diǎn),被廣泛地應(yīng)用于信息傳播,同時不斷被使用的數(shù)據(jù)還包括圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的不斷增加[8]會產(chǎn)生大量的臟數(shù)據(jù),對分析問題產(chǎn)生大量的阻礙,由于這些數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的編碼方式不同[9],清洗方法不能一并使用,因此需要根據(jù)數(shù)據(jù)具有的特點(diǎn)進(jìn)行清洗技術(shù)的研究[10-11]。

        1 管道數(shù)據(jù)清洗技術(shù)

        數(shù)據(jù)清洗主要清洗的臟數(shù)據(jù)包括離群點(diǎn)值、缺失值和不一致數(shù)據(jù)。數(shù)據(jù)清洗用來完成對臟數(shù)據(jù)的清洗工作,形成一個干凈的數(shù)據(jù)集,數(shù)據(jù)清洗流程包括4個步驟,分別為臟數(shù)據(jù)檢測、臟數(shù)據(jù)處理、數(shù)據(jù)質(zhì)量評價和干凈數(shù)據(jù)回溯。根據(jù)管道內(nèi)檢測數(shù)據(jù)分析系統(tǒng)及日常生產(chǎn)監(jiān)測數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)將臟數(shù)據(jù)分為缺失值和異常值,相應(yīng)的清洗方法包括缺失值的清洗方法和離群點(diǎn)檢測清洗方法[10]。

        2 管道數(shù)據(jù)清洗算法設(shè)計(jì)與分析

        2.1 基于回歸插補(bǔ)法的缺失數(shù)據(jù)清洗

        (1) 相關(guān)變量選擇

        假設(shè)觀察樣本A=(xij), 其中,i=1,…,n,j=1,…,m,xij表示第j個日常監(jiān)測屬性第i個采集的數(shù)據(jù),其中m個日常監(jiān)測變量屬性為X1,…,Xm,為了消除管道日常監(jiān)測屬性量綱對分析問題的影響,對日常監(jiān)測數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

        (1)

        式中:xj和sj分別為第j個日常監(jiān)測變量的管道數(shù)據(jù)樣本均值和樣本標(biāo)準(zhǔn)差;Zij為xij進(jìn)行標(biāo)準(zhǔn)化處理后的數(shù)據(jù)。

        將管道日常監(jiān)測數(shù)據(jù)集A分為A1和A2兩部分:A1中所有單元Z1,…,Zm是無缺失值的樣本,A2的所有單元是含有缺失值的樣本,Zk作為目標(biāo)變量。剔除數(shù)據(jù)A2中第i個單元含缺失值的所有變量,剩余記錄記為Z,再進(jìn)行變量選擇。

        利用皮爾森相關(guān)系數(shù)法對相關(guān)變量與目標(biāo)缺失變量之間進(jìn)行相關(guān)性分析。皮爾森系數(shù)介于-1與1之間,其絕對值越趨近于1,證明2個變量之間的線性關(guān)系越強(qiáng),之后根據(jù)相關(guān)性系數(shù)大小對輔助變量進(jìn)行排序。

        (2) 多元線性回歸插補(bǔ)法

        在管道監(jiān)測數(shù)據(jù)中許多都是連續(xù)型數(shù)據(jù),監(jiān)測數(shù)據(jù)指標(biāo)可以歸結(jié)為m個自變量與某個目標(biāo)缺失變量之間的關(guān)系。選擇n個監(jiān)測樣本,每個監(jiān)測樣本為(yi,x1i,x2i,…,xmi),i=1,…,n。

        如果yi與X1i,X2i,…,Xmi之間存在線性關(guān)系,則上述n組數(shù)據(jù)應(yīng)滿足:

        (2)

        式中:εi為測試誤差,相互獨(dú)立且服從N(0,δ2)分布,m

        如果εi不存在,那么yi與xmi之間滿足線性關(guān)系:

        yi=b0+b1x1i+b2x2i+…+bmxmi

        (3)

        (4)

        回歸方程的衡量指標(biāo)可采用均方誤差EMS或者決定系數(shù)R2衡量缺失值插補(bǔ)的精度。

        (5)

        (6)

        (3) 缺失值清洗步驟

        步驟1:輸入含有缺失值的管道系統(tǒng)數(shù)據(jù)集。

        步驟2:對管道全生命周期數(shù)據(jù)構(gòu)成的數(shù)據(jù)集進(jìn)行預(yù)處理。在進(jìn)行數(shù)據(jù)插補(bǔ)前將含有缺失值的記錄和完整的記錄進(jìn)行識別處理。

        步驟3:對去除冗余信息后的屬性進(jìn)行相關(guān)性分析,利用皮爾森相關(guān)系數(shù)法找出與缺失值所在屬性相關(guān)性較高的屬性,形成訓(xùn)練樣本集。

        步驟4:進(jìn)行多元線性回歸插補(bǔ),將管道樣本集分為訓(xùn)練樣本集、測試樣本集和缺失插補(bǔ)集,將訓(xùn)練樣本數(shù)據(jù)集放入回歸插補(bǔ)模型中進(jìn)行訓(xùn)練,建立回歸方程,并計(jì)算回歸系數(shù)及擬合回歸曲線。

        步驟5:將完整的數(shù)據(jù)集得到的擬合曲線對測試樣本集的數(shù)據(jù)特征進(jìn)行插補(bǔ),并計(jì)算衡量插補(bǔ)精度指標(biāo),若EMS<0.001或R2>0.95,則訓(xùn)練模型達(dá)到要求,將數(shù)據(jù)缺失插補(bǔ)集的數(shù)據(jù)輸入訓(xùn)練后的模型中進(jìn)行插補(bǔ),最后將缺失值插補(bǔ)完成。

        圖1為以均方誤差為標(biāo)準(zhǔn)進(jìn)行缺失值清洗的流程圖。

        圖1 缺失值數(shù)據(jù)清洗流程圖

        2.2 基于密度的局部離群點(diǎn)檢測LOF算法

        經(jīng)典的基于密度的局部離群點(diǎn)檢測算法有局部離群因子(Local Outlier Factor,LOF)算法、ELSC算法等。采用LOF算法對離群點(diǎn)進(jìn)行檢測,并將檢測到的異常點(diǎn)用缺失值填充方法進(jìn)行填充,將數(shù)據(jù)集按照數(shù)據(jù)對象與局部離群因子互相對應(yīng)。

        LOF算法是基于密度的離群點(diǎn)檢測方法中一個比較有代表性的算法。該算法會給數(shù)據(jù)集中的每個點(diǎn)計(jì)算一個LOF,通過判斷LOF是否接近于1來判定是否是離群因子。若LOF遠(yuǎn)大于1,則認(rèn)為是離群因子;若LOF接近于1,則是正常點(diǎn)。

        給定對象集為D, LOF算法的相關(guān)定義如下:

        (1) 對象o的k距離。對象o的k距離記為distk(o),是o與目標(biāo)對象p∈D之間的距離dist(o,p),另一個對象P滿足:

        ①至少有k個對象o′∈D{o}, 使得dist(o,o′)≤dist(o,p);

        ②k-1個對象o″∈D{o},使得dist(o,o″)

        (2) 對象o的k距離鄰域。o的k距離鄰域包含鄰域內(nèi)到o的距離不大于distk(o)的所有對象,其是一個點(diǎn)的集合:

        Nk(o)={o′|o′∈D,dist(o,o′)≤distk(o)}

        (7)

        利用Nk(o)中的數(shù)據(jù)對象至o的平均距離計(jì)算o的局部密度。但若o具有一個距其非常近的鄰域o′,dist(o,o′)會特別小,導(dǎo)致統(tǒng)計(jì)距離度量的波動特別高。因此針對此光滑效果,轉(zhuǎn)換成可達(dá)距離。

        (3) 數(shù)據(jù)對象o相對于數(shù)據(jù)對象o′的可達(dá)距離。若dist(o,o′)>distk(o),則從o′至o的可達(dá)距離是dist(o,o′),否則是distk(o),即k是控制光滑效果的用戶指定的參數(shù),k值越大,鄰域內(nèi)包含的對象就越多。

        (4) 對象o的局部可達(dá)密度。

        (8)

        (5) 對象o的局部離群點(diǎn)因子LOF的數(shù)學(xué)表達(dá)式。

        (9)

        對于日常監(jiān)測管道數(shù)據(jù)集D,其中包含n個對象,p∈D。LOF算法的實(shí)現(xiàn)步驟如表1所示。

        表1 LOF算法實(shí)現(xiàn)步驟

        該算法是一種基于密度的非監(jiān)督算法,適合對不同密度的數(shù)據(jù)進(jìn)行異常檢測,利用局部離群因子對數(shù)據(jù)對象具備離群點(diǎn)的可能性進(jìn)行計(jì)算。該算法在全局和局部離群點(diǎn)的檢測過程中都體現(xiàn)出良好的算法性能。

        3 清洗算法仿真結(jié)果分析

        3.1 基于回歸插補(bǔ)法的缺失數(shù)據(jù)清洗結(jié)果分析

        為驗(yàn)證管道缺失值清洗的準(zhǔn)確性,隨機(jī)從管道日常監(jiān)測系統(tǒng)中抽取一段時間產(chǎn)生的生產(chǎn)數(shù)據(jù),包括90個樣本、7個屬性。

        (1) 利用皮爾森相關(guān)系數(shù)法篩選出與存在缺失值的目標(biāo)變量相關(guān)性高的屬性,如表2所示,從7個屬性變量中可以看出與缺失值目標(biāo)變量腐蝕速率相關(guān)性高的有H2S、CO2、溶解氧。

        將這3個屬性作為輸入輔助變量,圖2(a)為H2S體積分?jǐn)?shù)與腐蝕速率之間的相關(guān)性曲線,圖2(b)為CO2分壓與腐蝕速率之間的相關(guān)性曲線,圖2(c)為溶解氧質(zhì)量濃度與腐蝕速率之間的相關(guān)性曲線。從圖2屬性間的相關(guān)性曲線可以看出,H2S體積分?jǐn)?shù)、CO2分壓、溶解氧質(zhì)量濃度與腐蝕速率呈正相關(guān)。

        表2 相關(guān)系數(shù)

        (2) 模型訓(xùn)練結(jié)果分析

        變量選擇前后模型擬合預(yù)測與真實(shí)數(shù)據(jù)曲線對比如圖3所示,圖3(a)為變量選擇前的預(yù)測與真實(shí)擬合曲線,圖3(b)為變量選擇后預(yù)測與真實(shí)擬合曲線。由圖3可知:測試曲線與預(yù)測曲線基本能夠重合,沒有較大的誤差點(diǎn)。

        圖2 屬性間相關(guān)性曲線

        圖3 變量選擇前后模型擬合曲線對比

        (3) 模型評價指標(biāo)

        表3為變量選擇前后測試精度對比表。

        缺失樣本插補(bǔ)結(jié)果如表4所示。

        表3 變量選擇前后測試精度對比

        表4 缺失樣本插補(bǔ)結(jié)果

        3.2 基于密度的局部離群點(diǎn)檢測LOF算法仿真結(jié)果分析

        采用的數(shù)據(jù)集來源于內(nèi)檢測數(shù)據(jù)分析系統(tǒng),數(shù)據(jù)集包括3 013個樣本、54個屬性。先對數(shù)據(jù)進(jìn)行簡單的數(shù)據(jù)分析,將固定值的屬性過濾,再對無異常點(diǎn)的離散值進(jìn)行處理,通過描述分析方法發(fā)現(xiàn)缺陷列表中長度、寬度的數(shù)據(jù)分布中具有離群點(diǎn),利用基于密度的局部離群點(diǎn)檢測LOF算法將離群點(diǎn)篩選出來,然后與k-means聚類算法進(jìn)行對比,選擇離群點(diǎn)檢測精度高的算法。本試驗(yàn)采用的算法檢測的離群點(diǎn)只針對連續(xù)型屬性,目前只在收集到的連續(xù)型數(shù)值中發(fā)現(xiàn)了離群點(diǎn),主要在通過計(jì)算得出的缺陷長度、寬度、深度中發(fā)現(xiàn)了范圍超限的離群點(diǎn)。同時采用里程點(diǎn)、時鐘方位等數(shù)據(jù)定位離群點(diǎn)位置。從3 013個缺陷信息列表中每隔200個缺陷點(diǎn)抽樣1次,共抽取15個樣本,以其中1個樣本中離群點(diǎn)多的221個缺陷點(diǎn)作為示例進(jìn)行離群點(diǎn)分析。以下是對測試數(shù)據(jù)集進(jìn)行試驗(yàn)的分析結(jié)果,試驗(yàn)計(jì)算出閾值之后設(shè)置不同k值下離群點(diǎn)正檢率、誤檢率、漏檢率等情況進(jìn)行對比。

        先在221個數(shù)據(jù)集、54個屬性中找到連續(xù)值不斷變化的屬性進(jìn)行分析,分析最大值、最小值、平均值和75%分位數(shù)指標(biāo)以分析數(shù)據(jù)分布情況,如表5所示。

        表5 描述性統(tǒng)計(jì)指標(biāo)結(jié)果

        由表5可知,缺陷長度和寬度最大值遠(yuǎn)大于75%分位數(shù),分布較為離散,其他指標(biāo)分布較為集中。從內(nèi)檢測數(shù)據(jù)分析系統(tǒng)中將長度、寬度與真實(shí)值進(jìn)行對比發(fā)現(xiàn),檢測出的缺陷長度和寬度超過數(shù)據(jù)應(yīng)該存在的范圍,應(yīng)進(jìn)行離群點(diǎn)檢測,去除與實(shí)際值不一致的點(diǎn),以方便后續(xù)的分析。

        (1) 離群點(diǎn)檢測指標(biāo)分析

        圖4為設(shè)置異常值占總樣本比例0.15時設(shè)置不同k值的離群點(diǎn)檢測的精度對比,展示不同k值下樣本離群點(diǎn)的正檢率與誤檢率、漏檢率的精度對比。

        由圖4可知:當(dāng)k=14時,樣本正檢率為0.96,漏檢率最低,與其他k值相比已達(dá)到最佳。由于正檢率和漏檢率是主要目標(biāo),漏檢率為0.16在當(dāng)前研究問題中已足夠,因此選擇k=14時的LOF算法。接下來將k-means聚類與LOF算法參數(shù)k=14時離群點(diǎn)監(jiān)測精確度進(jìn)行對比。

        圖4 不同k值的離群點(diǎn)檢測精度對比

        (2)k-means算法準(zhǔn)確度分析

        圖5為k-means算法檢測到的離群點(diǎn)分布圖。由圖5可知,當(dāng)設(shè)定閾值為1.9時,k-means算法共檢測到21個離群點(diǎn),其中有17個離群點(diǎn)檢測正確、4個誤檢、6個漏檢。

        圖5 k-means算法檢測離群點(diǎn)分布

        (3) LOF算法準(zhǔn)確度分析

        利用LOF算法中k=14的檢測結(jié)果進(jìn)行分析,離群點(diǎn)分布如圖6所示。

        圖6 LOF算法檢測離群點(diǎn)分布

        由圖6可知:共檢出28個離群點(diǎn),其中有24個離群點(diǎn)被正確檢測、1個漏檢、4個被誤檢。LOF算法具體檢測結(jié)果精度與k-means算法對比如表6所示。

        表6 LOF與k-means算法檢測精度對比 %

        由表6可知:LOF離群點(diǎn)檢測算法正檢率達(dá)96%,比k-means離群點(diǎn)檢測算法高41.18%;在誤檢率和漏檢率方面LOF離群點(diǎn)檢測算法比k-means算法低,其中漏檢率LOF離群點(diǎn)檢測算法遠(yuǎn)低于k-means算法。因此,LOF檢測算法在檢測離群點(diǎn)上精度較高,可用于管道領(lǐng)域連續(xù)值的離群點(diǎn)檢測。

        4 結(jié) 論

        提出數(shù)據(jù)缺失值插補(bǔ)算法和數(shù)據(jù)離群點(diǎn)檢測算法,主要應(yīng)用數(shù)理統(tǒng)計(jì)及數(shù)據(jù)挖掘算法清洗數(shù)據(jù)缺失值及離群點(diǎn)檢測,數(shù)據(jù)中的缺失值形式分為連續(xù)值和離散值,在缺失值插補(bǔ)算法中提出多元線性回歸插補(bǔ)法,對檢測的缺失值進(jìn)行合理化插補(bǔ)。對于管道數(shù)據(jù)中的離群點(diǎn)利用基于密度的局部離群點(diǎn)檢測算法,將檢測出的離群點(diǎn)進(jìn)行仿真測試,并將離群點(diǎn)精度與k-means算法進(jìn)行比較,基于密度的離群點(diǎn)檢測算法得到較高的檢測精度,建立最優(yōu)的檢測模型,為后續(xù)的數(shù)據(jù)分析工作打下良好的基礎(chǔ)。

        猜你喜歡
        離群對象變量
        神秘來電
        睿士(2023年2期)2023-03-02 02:01:09
        抓住不變量解題
        也談分離變量
        攻略對象的心思好難猜
        意林(2018年3期)2018-03-02 15:17:24
        基于熵的快速掃描法的FNEA初始對象的生成方法
        離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
        區(qū)間對象族的可鎮(zhèn)定性分析
        SL(3,3n)和SU(3,3n)的第一Cartan不變量
        離群的小雞
        分離變量法:常見的通性通法
        97人人超碰国产精品最新| 亚洲精品二区三区在线观看| 日韩精品一级在线视频| 精品一区二区三区在线观看l| 欧洲亚洲色一区二区色99| 日韩中文字幕乱码在线| 亚洲一区二区国产一区| 久久精品人搡人妻人少妇 | 中文字幕人妻少妇久久| 中文字幕一区二区三区精品在线| 国产精品自产拍在线18禁| 九九在线中文字幕无码| 欧美另类高清zo欧美| 亚洲av无码av制服丝袜在线| 粗了大了 整进去好爽视频| 国产精品久久久久久久y| 日韩精品一二区在线视频| 精品国产一区二区三区香| 一本久道综合色婷婷五月| 国内精品久久久久影院一蜜桃| 一本无码av一区二区三区| 日本一区二区高清视频在线播放| 国产精品成人av一区二区三区| 无码av中文一区二区三区桃花岛| 熟妇的荡欲色综合亚洲| 韩国19禁主播深夜福利视频| 无遮挡很爽视频在线观看| 今井夏帆在线中文字幕| 欧洲成人一区二区三区| 国产99视频精品免视看9| 午夜福利视频男同女同| 成人综合亚洲国产成人| 日韩国产自拍视频在线观看| 国产精品亚洲第一区二区三区| 亚洲综合av永久无码精品一区二区 | 日本女优一区二区在线免费观看 | 熟女少妇内射日韩亚洲| 日本55丰满熟妇厨房伦| 中国少妇和黑人做爰视频| 青青河边草免费在线看的视频| 亚欧中文字幕久久精品无码|