李春生,宋 佳,張可佳,張 勇
(東北石油大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
基于關(guān)聯(lián)度分析的生產(chǎn)異常模式挖掘
李春生,宋 佳,張可佳,張 勇
(東北石油大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
為解決在智能化生產(chǎn)預(yù)警方法應(yīng)用的過程中原始數(shù)據(jù)維度高、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)量大的問題,提出了基于關(guān)聯(lián)度分析的生產(chǎn)異常模式挖掘方法。該方法建立了預(yù)警目標(biāo)與影響特征之間的關(guān)聯(lián)關(guān)系,通過計算關(guān)聯(lián)度篩選出重要特征。在均值化方法處理數(shù)據(jù)的過程中,通過引入時間序列、選取時間粒度來截取距離數(shù)據(jù),通過計算關(guān)聯(lián)度、摒棄無效影響特征和降低數(shù)據(jù)維度來完成數(shù)據(jù)的準(zhǔn)備過程。結(jié)合損耗性異常的業(yè)務(wù)數(shù)據(jù)特點,采用了基于時間序列的G-R分段擬合方法擬合數(shù)據(jù),并利用均方根誤差方法校驗?zāi)P偷臏?zhǔn)確性。實驗驗證選取了三次采油生產(chǎn)的異常情況為實例,采用G-R模型對特征集的元素進(jìn)行分段擬合以求解相關(guān)參數(shù)。實例驗證結(jié)果表明,該方法的預(yù)測數(shù)據(jù)與原始觀測數(shù)據(jù)的吻合度高,且預(yù)測準(zhǔn)確度較高。
特征篩選;時間序列;函數(shù)擬合;關(guān)聯(lián)分析
隨著工業(yè)生產(chǎn)預(yù)警研究的不斷深入、監(jiān)測手段的廣泛應(yīng)用以及數(shù)字化生產(chǎn)的進(jìn)步,工業(yè)生產(chǎn)領(lǐng)域中的異常情況已經(jīng)逐漸成為各領(lǐng)域研究的重點,運用智能技術(shù)挖掘數(shù)據(jù)內(nèi)部潛在規(guī)律,提取有用信息已成為動態(tài)監(jiān)測、分析異常、預(yù)警預(yù)測的關(guān)鍵[1]。
通過專家經(jīng)驗的累積和較強(qiáng)的業(yè)務(wù)能力,雖然能較為準(zhǔn)確地掌握對生產(chǎn)異常的影響特征,但是這種人工決策方法具有如下缺點:僅依據(jù)業(yè)內(nèi)專業(yè)人才定義有效影響特征集,降低了挖掘結(jié)果的準(zhǔn)確性;累積數(shù)據(jù)量大,特征集維度高,非敏感特征的隱蔽性強(qiáng)[2],敏感特征表現(xiàn)不明顯;數(shù)據(jù)項的擬合算法簡單,只采用一種擬合方法在高階擬合處理方面具有一定的難度,計算結(jié)果不夠精確[3]。
針對上述問題,提出了基于關(guān)聯(lián)度分析的生產(chǎn)異常模式挖掘方法,建立了預(yù)警目標(biāo)與影響特征之間的關(guān)聯(lián)關(guān)系,計算關(guān)聯(lián)度,篩選出重要特征。在均值化方法處理數(shù)據(jù)的過程中,引入時間序列,降低數(shù)據(jù)分析過程中的耦合度,增強(qiáng)數(shù)據(jù)處理的精細(xì)程度;結(jié)合業(yè)務(wù)特點[4],選取多種時間粒度,按不同粒度截取距離數(shù)據(jù)。通過對特征集散點圖數(shù)據(jù)的分析,采用基于時間序列的G-R分段擬合方法擬合數(shù)據(jù),得到擬合矩陣,同時用均方根誤差方法校驗?zāi)P偷臏?zhǔn)確性,提高挖掘結(jié)果的可信度,完成有效特征篩選及生產(chǎn)預(yù)警的過程。
通過建立預(yù)警目標(biāo)與影響特征之間的關(guān)聯(lián)關(guān)系,計算關(guān)聯(lián)度,篩選出有效影響特征子集。關(guān)聯(lián)分析的具體步驟為:原始特征集的獲取、特征集的邏輯轉(zhuǎn)換、基于均值化的分段式時序數(shù)據(jù)處理。
1.1原始特征集的邏輯轉(zhuǎn)換
原始特征主要分為靜態(tài)物性特征、驟發(fā)性異常特征、損耗性異常特征,其中靜態(tài)物性特征通常用來描述預(yù)警對象的基礎(chǔ)屬性,長期不發(fā)生變化,驟發(fā)性異常具有不可控性,所以在此主要研究在損耗性異常特征情況下預(yù)警目標(biāo)與特征集之間的變化關(guān)系。
原始特征集構(gòu)成了數(shù)據(jù)有序化的信息集合,是篩選有效特征的構(gòu)建基礎(chǔ)。針對預(yù)警目標(biāo),選取特征集,具體表達(dá)結(jié)果如下:
(1)設(shè)定預(yù)警目標(biāo)I、與預(yù)警目標(biāo)相關(guān)的原始影響特征集合Un:
I={I1,I2,…,In}
Un={Un1,Un2,…,Unm}
其中,n表示預(yù)警目標(biāo)數(shù)量;Unm表示針對預(yù)警目標(biāo)In的影響指標(biāo);m表示影響預(yù)警目標(biāo)In的影響因子數(shù)量。
(2)在完成原始特征集的篩選后,需要獲取特征集的全部數(shù)據(jù),在此提出SF模型,實現(xiàn)建立自然語言與數(shù)據(jù)體內(nèi)數(shù)據(jù)實體間的映射關(guān)系,定義如下:
定義:包含預(yù)警目標(biāo)的自然語言描述I,針對預(yù)警目標(biāo)I的影響指標(biāo)的自然語言描述U,直接描述U的數(shù)據(jù)實體S及映射關(guān)系函數(shù)F的閉包結(jié)構(gòu)成為SF模型。其一般表示形式為:
SF={I,U,S,F|U∈Un,I∈I,S≠?,n≥1}
其中,S為數(shù)據(jù)實體,實例化后為數(shù)據(jù)體內(nèi)的數(shù)據(jù)單項;Un為針對預(yù)警目標(biāo)I收集的原始影響指標(biāo)數(shù)據(jù)集;F為映射關(guān)系函數(shù),當(dāng)S為數(shù)據(jù)體的直接映射時,F(xiàn)為空,當(dāng)S為數(shù)據(jù)體的間接映射時,S由函數(shù)F計算。
以SF模型對Un進(jìn)行邏輯轉(zhuǎn)化,得到原始閉包集FU,其表達(dá)形式如下:
FU={SF1,SF2,…,SFP|P=len(Un)}
1.2處理數(shù)據(jù)中時間粒度的引入
由于原始數(shù)據(jù)的復(fù)雜性,量綱差異性大,導(dǎo)致各指標(biāo)間的綜合性差,不能直接進(jìn)行分析。目前消除量綱差異的方法主要有極值化方法、標(biāo)準(zhǔn)方法、均值化方法[5]。其中,極值化方法只依賴變量中的最大值和最小值;標(biāo)準(zhǔn)化方法在消除量綱差異的同時,還消除了各個變量在變異程度上的差異性;均值化方法在消除量綱差異的同時,保留了各變量取值的差異程度[6]。所以采用均值化方法對數(shù)據(jù)進(jìn)行無量綱化處理。
在均值化處理原始數(shù)據(jù)的過程中引入時間序列[7],選取時間粒度。時間粒度選取的不同會給數(shù)據(jù)挖掘帶來不同的難度。圖1分別顯示了不同時間粒度聚類得到的時間序列。從上到下依次是按天聚類、按周聚類、按月聚類。
圖1 不同時間粒度的時間序列
由圖可知,時間粒度選取得越大,每個時間點上的請求量就越大。
對于大的時間粒度,數(shù)據(jù)基數(shù)大,能提供較為詳盡的數(shù)據(jù),但在查詢過程中需要較多的時間以及存儲空間[8]。對于小的時間粒度,數(shù)據(jù)基數(shù)較小,能提高查詢效率以及占用較小的存儲空間,但是卻不能提供詳盡的數(shù)據(jù)。
所以在時間粒度選取的過程中,從以下兩方面來考慮:第一,根據(jù)業(yè)務(wù)特點了解數(shù)據(jù)類型,分析數(shù)據(jù)特點,選取時間粒度;第二,根據(jù)數(shù)據(jù)特點,明確可接受的數(shù)據(jù)最低粒度以及能夠存儲的數(shù)據(jù)量。
1.3基于均值化的分段式時序數(shù)據(jù)處理
結(jié)合生產(chǎn)預(yù)警數(shù)據(jù)的呈現(xiàn)特點,引入同一模式多重粒度的思想[9],即近期的生產(chǎn)數(shù)據(jù)按大粒度選取綜合數(shù)據(jù),比較久遠(yuǎn)的生產(chǎn)數(shù)據(jù)按小粒度保留匯總數(shù)據(jù),解決了大粒度選取提取數(shù)據(jù)基數(shù)大、占用較大存儲空間,小粒度選取數(shù)據(jù)準(zhǔn)確率低的問題。
工業(yè)生產(chǎn)數(shù)據(jù)主要分為數(shù)值型數(shù)據(jù)和符號型數(shù)據(jù)。符號型數(shù)據(jù)主要描述某數(shù)據(jù)對象的基礎(chǔ)信息,包括機(jī)型、作業(yè)位置、層位等信息,反映的是其與全集間的隸屬關(guān)系,不存在邏輯運算過程;數(shù)值型數(shù)據(jù),反映了特征的隱蔽性和交叉性[10],在此提出了均值化分段式時序方法處理數(shù)值型數(shù)據(jù)。關(guān)聯(lián)度分析具體處理過程如下:
Begin:預(yù)警目標(biāo)In觸發(fā)
Step1:給定時間序列,將集合內(nèi)的數(shù)據(jù)實體SFp以及預(yù)警目標(biāo)I按同一模式不同粒度的思想,將近期數(shù)據(jù)以及久遠(yuǎn)的異常發(fā)生周期的數(shù)據(jù)按照大粒度分別截取m段,將久遠(yuǎn)的生產(chǎn)數(shù)據(jù)按照小粒度截取f段。
T1={t1,t2,…,tm}
T2={t1,t2,…,tf}
Step2:定義tm={tm1,tm2,…,tma}、tf={tf1,tf2,…,tfb}內(nèi)的預(yù)警目標(biāo)以及影響特征集合,分別表示如下。
預(yù)警目標(biāo)基于給定時間序列的數(shù)據(jù)集合:
Im={im1,im2,…,ima}
If={if1,if2,…,ifb}
影響特征基于給定時間序列的數(shù)據(jù)集合:
Sm={sm1,sm2,…,sma}
Sf={sf1,sf2,…,sfb}
其中,a為大粒度截取的數(shù)據(jù)Im、Sm的長度;b為小粒度截取的數(shù)據(jù)If、Sf的長度。
Step3:定義預(yù)警目標(biāo)以及影響特征生成的新的局部距離數(shù)據(jù)集合iu、su。
iu={{im1,im2,…,ima},{if1,if2,…,ifb}}
su={{sm1,sm2,…,sma},{sf1,sf2,…,sfb}}
Step4:將集合iu、su表現(xiàn)形式統(tǒng)一化。轉(zhuǎn)換成新的數(shù)據(jù)表現(xiàn)形式。
iu={iu1,iu2,…,iud|d=a+b}
su={su1,su2,…,sud|d=a+b}
Step5:原始數(shù)據(jù)均值處理。如果a>0,b>0,分別計算包括預(yù)警目標(biāo)和特征集合的原始數(shù)據(jù)的均值。
Step6:基于均值化的距離數(shù)據(jù)處理。首先對每一個數(shù)據(jù)項進(jìn)行均值化處理,再將原始數(shù)據(jù)集處理為局部距離數(shù)據(jù)。對預(yù)警目標(biāo)以及特征集均值化的處理結(jié)果為:
集合iu、su生成基于均值化的局部數(shù)據(jù)集合:
Step7:SFp的數(shù)據(jù)處理結(jié)果為:
D2={T2,iu},T2={t1,t2,…,tf}
Step8:取局部距離數(shù)據(jù)的均值。
Step9:計算均值化后預(yù)警目標(biāo)In與特征SFp的協(xié)方差矩陣。
rd=V/iσdsσd
將協(xié)方差和標(biāo)準(zhǔn)差帶入,計算關(guān)聯(lián)系數(shù):
rd=
并且-1≤rd≤1,當(dāng)該數(shù)值的絕對值越大,表示相關(guān)性越強(qiáng);當(dāng)rd=0,表示預(yù)警目標(biāo)與該影響特征不相關(guān);當(dāng)rd>0,表示兩者之間正相關(guān),反之,則負(fù)相關(guān)。
Step11:計算關(guān)聯(lián)度。
上一步中得到的相關(guān)系數(shù)表示每個具體數(shù)據(jù)項與預(yù)警目標(biāo)之間的關(guān)系,為了解數(shù)據(jù)序列整體上的關(guān)聯(lián)程度,計算關(guān)聯(lián)系數(shù)的平均值。
Step12:數(shù)據(jù)處理結(jié)果。
根據(jù)關(guān)聯(lián)系數(shù)反映出的關(guān)聯(lián)度,初步篩選出針對預(yù)警目標(biāo)的粗糙原始影響特征,則篩選出的粗糙原始影響特征集合表示如下:
Un={OUn1,OUn2,…,OUnk|k End 經(jīng)過上述步驟,完成基于均值化的分段式時序數(shù)據(jù)處理,對比分段處理前后數(shù)據(jù)特點可知,原始數(shù)據(jù)基數(shù)大、差異小、數(shù)量多、精度低,處理后局部距離數(shù)據(jù)基數(shù)小、差別大、數(shù)量適中、精度較高[11]。 數(shù)據(jù)變化模式的最優(yōu)計算方法是數(shù)值擬合參數(shù)計算?;趽p耗性異常情況下各特征對預(yù)警目標(biāo)影響的研究,通過對大量實驗數(shù)據(jù)的處理以及數(shù)據(jù)點的散點圖分布,發(fā)現(xiàn)曲線比較平滑,呈正態(tài)分布,所以最終提出以高斯-瑞利模型(用G-R表示)分段擬合數(shù)據(jù)點。其中,高斯函數(shù)是標(biāo)準(zhǔn)的正態(tài)函數(shù)[12],瑞利函數(shù)描述平穩(wěn)窄帶的高斯過程[13],二者分段擬合數(shù)據(jù)。 2.1G-R函數(shù)的分段擬合 截取上述方法中獲取的距離數(shù)據(jù)su,其離散點分布如圖2所示。 圖2 距離數(shù)據(jù)與時間序列擬合曲線 當(dāng)預(yù)警目標(biāo)I觸發(fā),分析特征集內(nèi)特征:隨著時間序列的推移,該特征整體呈下降趨勢,最大峰值處于tmax,在tmax至tf區(qū)間,曲線呈平緩下降趨勢,達(dá)到時間點tf之后,曲線下降趨勢更加緩慢,將tf至td區(qū)間作為函數(shù)余音。在tmax至tf區(qū)間用高斯函數(shù)處理;tf至td區(qū)間采用瑞利函數(shù)處理。分段擬合函數(shù)的表達(dá)式為: 由擬合參數(shù)構(gòu)成的參數(shù)集V={a,b,c,σ},并以{T1,iu}進(jìn)行擬合,逐一對滿足該模型元素SFp進(jìn)行參數(shù)求解,得到:Vr={ar,br,cr,σr}。其中,r是滿足G-R模型的元素數(shù)量。Vr合并得到特征矩陣: 該模型實現(xiàn)了對階段連續(xù)數(shù)據(jù)的分段擬合,在提高擬合精度和效果的同時,減小了擬合誤差。通過連續(xù)曲線反映出的特征數(shù)據(jù)點與時間序列間的關(guān)系,發(fā)現(xiàn)數(shù)據(jù)內(nèi)部之間的潛在關(guān)系,提取有用信息,為生產(chǎn)預(yù)警提供準(zhǔn)輔助決策。 2.2模型校驗 獲得預(yù)測結(jié)果后,通過計算相對誤差及均方根誤差校驗?zāi)P偷臏?zhǔn)確度。根據(jù)距離偏移誤差公式得: ψd=F(Td)-iud 其中,ψd表示在某時間點Td,預(yù)期結(jié)果F(Td)與實際樣本值SF的偏移差。 均方根誤差為[14]: 通過RMSEd的值,反映預(yù)測數(shù)據(jù)偏離真實值的程度,作為驗證該模型的準(zhǔn)確性。RMSEd越小,表示測量精度越高。當(dāng)數(shù)據(jù)偏差較大時,根據(jù)Un集取樣,重新擬合計算并校正模型結(jié)果以實現(xiàn)自適應(yīng)過程。 以三次采油數(shù)據(jù)為基礎(chǔ),通過分析油田施工后的生產(chǎn)數(shù)據(jù)、綜合數(shù)據(jù)以及相關(guān)作業(yè)的歷史數(shù)據(jù),挖掘油田生產(chǎn)過程中的生產(chǎn)異常情況,并研究針對生產(chǎn)異常情況的影響特征的變化規(guī)律和模式。以油井日產(chǎn)油生產(chǎn)異常為例,完成有效特征集的篩選以及模式挖掘的過程。具體處理過程如下: (1)預(yù)警目標(biāo)I={日產(chǎn)油},收集與預(yù)警目標(biāo)相關(guān)的原始項目集合,包括開發(fā)動態(tài)數(shù)據(jù)庫、開發(fā)靜態(tài)數(shù)據(jù)庫、井下作業(yè)數(shù)據(jù)庫、采油管理數(shù)據(jù)庫中的項目集合200余項,這里主要研究損耗性異常情況下特征的變化情況,所以去掉驟發(fā)性異常特征以及靜態(tài)物性特征,篩選得到數(shù)據(jù)項100余項。 (2)特征集邏輯轉(zhuǎn)換。建立特征集與數(shù)據(jù)實體之間的映射關(guān)系,如表1所示。 表1 基礎(chǔ)特征庫信息表 (3)選取時間粒度。選取2010-2016年的數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)。根據(jù)影響因子U與數(shù)據(jù)實體S的映射關(guān)系F,引入時間序列,截取數(shù)據(jù)粒度,近三年期數(shù)據(jù)按照大粒度截取,久遠(yuǎn)的數(shù)據(jù)按照小粒度截取,即大粒度截取每天的綜合數(shù)據(jù),小粒度截取每月的匯總數(shù)據(jù): T1=Y2010,13,m=36 T2=Y2014,16,m=940 (4)計算關(guān)聯(lián)度。利用基于均值化的關(guān)聯(lián)分析的方法建立影響特征與數(shù)據(jù)體內(nèi)數(shù)據(jù)實體之間的關(guān)聯(lián)關(guān)系,引入均值化方法計算影響特征與預(yù)警目標(biāo)之間的關(guān)聯(lián)度。通過計算關(guān)聯(lián)度大小,決定各個特征之間的關(guān)聯(lián)程度,剔除完全不相關(guān)特征,得到特征項80項。 經(jīng)過特征篩選,最后得到重要特征集共計16項。 日產(chǎn)油的重要特征子集構(gòu)成如下: Un={含水,套壓,沉沒度,聚合物用量,采聚濃度,采出程度,砂巖厚度,有效厚度,泵徑,加砂量,油壓,日產(chǎn)液,滲透率,液面深度,泵效,流壓} (5)根據(jù)G-R模型對特征集的元素分段擬合對參數(shù)進(jìn)行求解,參數(shù)計算結(jié)果構(gòu)成的矩陣表現(xiàn)如下: 將參數(shù)帶入G-R模型,分段擬合,結(jié)果見表2。 表2 G-R模型預(yù)測結(jié)果 表2給出了G-R模型的預(yù)測結(jié)果以及以相對誤差和均方根誤差作為評價指標(biāo)的計算結(jié)果,從評價指標(biāo)來看,G-R模型取得了較精確的預(yù)測效果。 G-R模型的含水?dāng)?shù)據(jù)擬合曲線如圖3所示。 圖3 G-R擬合值與實際值的比較 通過與原始觀測數(shù)據(jù)的對比,發(fā)現(xiàn)擬合數(shù)據(jù)與原始數(shù)據(jù)吻合度很高,說明G-R模型的可信度很高。 (6)根據(jù)設(shè)定的預(yù)警目標(biāo)及篩選出的有效特征集,監(jiān)測某一區(qū)塊內(nèi)20余口井一個月內(nèi)流壓,聚合物用量,含水等數(shù)據(jù)項與日產(chǎn)油的變化情況。應(yīng)用效果如表3所示。 表3 日產(chǎn)油異常情況 其中,約85%口井的預(yù)測情況與實際情況的結(jié)果保持一致。由此,上述步驟中的特征篩選及G-R分段擬合模型可以應(yīng)用在油田生產(chǎn)異常預(yù)警領(lǐng)域。 為實現(xiàn)深度挖掘數(shù)據(jù)內(nèi)部潛在規(guī)律,加強(qiáng)生產(chǎn)異常狀況分析,提高挖掘準(zhǔn)確率,提出了基于關(guān)聯(lián)度分析的生產(chǎn)異常模式挖掘方法。以SF閉包模型表示自然語言與數(shù)據(jù)實體之間的映射關(guān)系,完成特征集的邏輯轉(zhuǎn)換,采用均值化方法處理基于粒度劃分的分段式時序原始數(shù)據(jù),降低數(shù)據(jù)維度,建立預(yù)警目標(biāo)與影響特征之間的關(guān)聯(lián)關(guān)系,根據(jù)關(guān)聯(lián)度的計算結(jié)果剔除完全不相關(guān)特征,實現(xiàn)數(shù)據(jù)的預(yù)處理過程。同時分析各特征數(shù)據(jù)點的散點圖分布情況,選定G-R模型擬合數(shù)據(jù),得到擬合矩陣,利用均方根誤差方法驗證了該方法的準(zhǔn)確性,提高了挖掘結(jié)果的可信度。 [1] 劉立坤.海量文件系統(tǒng)元數(shù)據(jù)查詢方法與技術(shù)[D].北京:清華大學(xué),2011. [2] 王 虹,張文修,李鴻儒.粗糙模糊集的不確定性度量[J].計算機(jī)工程與應(yīng)用,2005,41(2):51-52. [3] Deng Xiaoming,Wu Fuchao,Wu Yihong.An easy calibration method for central catadioptric cameras[J].Acta Automation Sinica,2007,33(8):801-808. [4] 王曉鵬,武 彤.生產(chǎn)質(zhì)量控制數(shù)據(jù)倉庫模型設(shè)計與實現(xiàn)[J].計算機(jī)技術(shù)與發(fā)展,2015,26(6):181-184. [5] 嚴(yán)導(dǎo)淦.量綱分析及其應(yīng)用[J].物理與工程,2012,22(6):22-26. [6] 李 莉,孫永霞.基于均值化主成分分析的霧霆環(huán)境分析與研究[J].計算機(jī)應(yīng)用研究,2015,32(5):1373-1375. [7] Sun Haishun,Li Jiaming,Li Jinghua,et al.An investigation of the persistence property of wind power time series[J].Science China (Technological Sciences),2014,57(8):1578-1587. [8] 李春生,邸京華,李少龍,等.時序化生產(chǎn)預(yù)警有效影響因子的獲取方法研究[J].計算機(jī)技術(shù)與發(fā)展,2016,26(7):122-126. [9] 王 虎,丁世飛.序列模式挖掘研究與發(fā)展[J].計算機(jī)科學(xué),2009,36(12):14-17. [10] 謝永芳,胡志坤,桂衛(wèi)華.基于數(shù)值型數(shù)據(jù)的模糊規(guī)則快速挖掘方法[J].控制工程,2006,13(5):442-444. [11] 張可佳.基于混合智能的聚驅(qū)區(qū)塊生產(chǎn)動態(tài)預(yù)警方法研究[D].大慶:東北石油大學(xué),2016. [12] 翟繼友,張 鵬.高斯混合模型參數(shù)估值算法的優(yōu)化[J].計算機(jī)技術(shù)與發(fā)展,2011,21(11):145-148. [13] Abdalroof M S,Zhao Zhiwen,Wang Dehui.Statistical inference for the parameter of rayleigh distribution based on progressively type-i interval censored sample[J].Communications in Mathematical Research,2015,31(2):108-118. [14] Wang H B,Wang Y,F(xiàn)ang J,et al.Simulation research on a minimum root-mean-square error rotation-fitting algorithm for gravity matching navigation[J].Science China:Earth Sciences,2012,55(1):90-97. Abnormal Production Pattern Mining Based on Relevancy Analysis LI Chun-sheng,SONG Jia,ZHANG Ke-jia,ZHANG Yong (College of Computer and Information Technology,Northeast Petroleum University,Daqing 163318,China) In order to solve the problem of high original data dimension,complex data structure and large data volume in the process of application of the intelligent production alarming method,a mining method of abnormal production pattern based on relevancy analysis is proposed.It establishes the incidence relation between early warning target and influential characteristics and screens out important features through relevancy calculations.In the process of data processing by equalization method the distance data is extracted by introduction of time series and selection of time granularity and preparation process of data is completed by calculation of relevancy,elimination of invalid influential features and reduction of data dimension.Combined with the data characteristic of abnormal loss,the G-R segmentation fitting method based on time series to fit the data and root mean square error method to verify the accuracy of the model.In the process of experimental verification,the abnormal situation of tertiary recovery production is taken as an example and the G-R model is adopted to carry on segmentation fitting towards the elements of the feature setting for solution of relevant parameters.The experimental results show that the proposed method agrees well with the original observation data,and its prediction accuracy is high. feature selection;time sequence;function fitting;relevancy analysis 2016-08-17 :2016-11-23 < class="emphasis_bold">網(wǎng)絡(luò)出版時間 時間:2017-07-05 黑龍江省自然科學(xué)基金面上項目(F2015020);黑龍江省教育科研規(guī)劃重點課題(GJB1215013);黑龍江省2016年教育科研課題(16Q117) 李春生(1960-),男,博士,教授,博士生導(dǎo)師,研究方向為人工智能及其應(yīng)用、模式識別與人工智能;宋 佳(1991-),女,碩士研究生,通訊作者,研究方向為數(shù)據(jù)挖掘技術(shù)。 http://kns.cnki.net/kcms/detail/61.1450.TP.20170705.1650.036.html TP301 :A :1673-629X(2017)09-0124-05 10.3969/j.issn.1673-629X.2017.09.0272 G-R分段擬合模型的提出
3 設(shè)計實例
4 結(jié)束語