安世俊
(蘭州資源環(huán)境職業(yè)技術(shù)大學(xué),甘肅 蘭州 730022)
隨著現(xiàn)代化社會(huì)的飛速發(fā)展,互聯(lián)網(wǎng)技術(shù)、數(shù)據(jù)挖掘技術(shù)在國(guó)內(nèi)得到了快速發(fā)展與應(yīng)用,我國(guó)許多化工企業(yè)均可實(shí)現(xiàn)快速、有效地對(duì)大規(guī)模異常數(shù)據(jù)進(jìn)行檢測(cè)與分析[1]。這些分析方法將統(tǒng)計(jì)的海量檢測(cè)數(shù)據(jù)進(jìn)行合理分析,及時(shí)檢測(cè)出因網(wǎng)絡(luò)設(shè)備問(wèn)題或軟件故障而生成的不同種類異常數(shù)據(jù)信息。實(shí)時(shí)檢測(cè)與分析網(wǎng)絡(luò)異常數(shù)據(jù),根據(jù)信息獲取和邏輯思考將時(shí)間序列數(shù)據(jù)分段,通過(guò)構(gòu)建不同網(wǎng)絡(luò)結(jié)構(gòu)來(lái)對(duì)異常數(shù)據(jù)信息進(jìn)行分析,使有標(biāo)簽數(shù)據(jù)集數(shù)量增加。同時(shí)其還加強(qiáng)了網(wǎng)絡(luò)訓(xùn)練的能力,提升對(duì)網(wǎng)絡(luò)結(jié)構(gòu)和異常數(shù)據(jù)的檢測(cè)實(shí)時(shí)性及準(zhǔn)確性,使海量數(shù)據(jù)的異常識(shí)別效果更優(yōu),大幅提升分析的準(zhǔn)確性。目前,由于分析過(guò)程的算法生成的序列缺少迭代,存在檢測(cè)網(wǎng)絡(luò)數(shù)據(jù)中混雜異常數(shù)據(jù)數(shù)量多、分析不明顯等問(wèn)題,導(dǎo)致企業(yè)的財(cái)務(wù)數(shù)據(jù)分析存在多種致命問(wèn)題,如數(shù)據(jù)缺失、數(shù)據(jù)漂移等。異常數(shù)據(jù)的分布過(guò)于隨機(jī)使檢測(cè)結(jié)果在大數(shù)據(jù)中不好辨別,導(dǎo)致分析進(jìn)程慢,更易產(chǎn)生虛假預(yù)警,嚴(yán)重影響異常數(shù)據(jù)分析的效果,進(jìn)而造成網(wǎng)絡(luò)診斷準(zhǔn)確性大幅降低。因此,現(xiàn)階段,為有效診斷與分析異常數(shù)據(jù),該文以化工企業(yè)財(cái)務(wù)異常數(shù)據(jù)信息為試驗(yàn)對(duì)象,運(yùn)用深度學(xué)習(xí)方法,結(jié)合具體情況進(jìn)行試驗(yàn)與分析。
測(cè)量過(guò)程中的大量數(shù)據(jù)中均存在噪聲,將這些噪聲值設(shè)定為異常值。改進(jìn)化工企業(yè)財(cái)務(wù)數(shù)據(jù)信息分析時(shí)要對(duì)數(shù)據(jù)的噪聲問(wèn)題進(jìn)行處理,如果數(shù)據(jù)清洗不干凈,則會(huì)影響其判斷的準(zhǔn)確率[2]。根據(jù)萊特檢驗(yàn)的方法對(duì)每個(gè)網(wǎng)絡(luò)中的信息點(diǎn)進(jìn)行檢測(cè),對(duì)異常值進(jìn)行發(fā)掘并剔除完成數(shù)據(jù)的預(yù)處理。進(jìn)行異常信息檢測(cè)時(shí),通過(guò)T 檢驗(yàn)得到網(wǎng)絡(luò)中異常數(shù)據(jù)的相關(guān)性,如公式(1)所示。
式中:f為數(shù)據(jù)中的相關(guān)特征;為所有樣本中的特征均值;n(f)為樣本中的正常數(shù)據(jù)信息的特征均值。
然后運(yùn)用深度學(xué)習(xí)中的PCA 算法識(shí)別數(shù)據(jù)中的主要成分并進(jìn)行分類,獲得大量數(shù)據(jù)集中的信息,再降低數(shù)據(jù)的維度。處理高維度數(shù)據(jù)時(shí),通過(guò)正交變換得到新坐標(biāo)系中的映射,形成新的正交變量集合。將獲得的貢獻(xiàn)率作為變量的重要性度量,設(shè)定r個(gè)變量的方差貢獻(xiàn)率如公式(2)所示。
式中:γ為第r個(gè)變量中的樣本總數(shù)計(jì)算得到的方差值。
變量中的方差貢獻(xiàn)率值越大,線性集合中的變量收集到的原始數(shù)據(jù)信息就越多。引用PCA 算法得到高維度數(shù)據(jù),并消除其中的數(shù)據(jù)冗余。根據(jù)其特征的提取完成總結(jié),加強(qiáng)異常檢測(cè)效率。定義一個(gè)財(cái)務(wù)數(shù)據(jù)序列為T=(t1,t2,...,tn),表示一組實(shí)數(shù)集合,設(shè)定空間W中的數(shù)據(jù)g和度量d,則平均數(shù)據(jù)中的最小化數(shù)據(jù)如公式(3)所示。
當(dāng)映射在平均值的每個(gè)元素中時(shí),通過(guò)運(yùn)算權(quán)重之和獲得合理權(quán)重P,以此得到新的數(shù)據(jù)樣本。選擇數(shù)據(jù)序列T中的相對(duì)距離進(jìn)行賦值,在隨機(jī)一個(gè)網(wǎng)絡(luò)端內(nèi)的數(shù)據(jù)樣本Hi得到的權(quán)值pi如公式(4)所示。
式中:N為相鄰樣本之間的距離,其中距離最近的樣本為最優(yōu)。
隨后將所有的序列樣本賦予權(quán)重,進(jìn)行歸一化處理,將得到的結(jié)果作為數(shù)據(jù)序列的權(quán)重,任意選取一個(gè)c*初始化,生成新的數(shù)據(jù)序列,并不斷對(duì)其進(jìn)行迭代,合成新的數(shù)據(jù)[3]。對(duì)財(cái)務(wù)數(shù)字信號(hào)進(jìn)行分解,信號(hào)中的最大值和最小值需要通過(guò)計(jì)算獲得,設(shè)定分解過(guò)程的時(shí)間間隔為大、小值之間的時(shí)間間隔,計(jì)算均值并提取局部分量為h(t)=s(t)-imf(t),計(jì)算殘留項(xiàng)目并得到公式(5)。
式中:imf(t)為本征的模態(tài)函數(shù);r(t)為預(yù)留項(xiàng)。
根據(jù)信號(hào)分解,在對(duì)應(yīng)尺度中形成表征,獲得進(jìn)一步分析的機(jī)會(huì)。為消除在模態(tài)中出現(xiàn)的混疊問(wèn)題,在不同信號(hào)的篩選過(guò)程中加入白噪聲,并進(jìn)行多次分解,獲得平均值后得到對(duì)應(yīng)的給定信號(hào)s(t)的IMF,加入幅度相似的白噪聲,如公式(6)所示。
式中:i為分解次數(shù)。
通過(guò)疊加白噪聲抑制模態(tài)的混疊,減少數(shù)據(jù)處理的運(yùn)算時(shí)間。
定義數(shù)據(jù)關(guān)聯(lián)模型,將時(shí)間序列的窗口為s={s1,s2,...,sn},其中n為數(shù)據(jù)序列的長(zhǎng)度,每個(gè)維度對(duì)應(yīng)一種特征;s為獲得對(duì)應(yīng)財(cái)務(wù)數(shù)據(jù)信息的特征信息,即為數(shù)據(jù)大小、數(shù)量類型和數(shù)據(jù)說(shuō)明等。將同一網(wǎng)絡(luò)中的異常數(shù)據(jù)和正常數(shù)據(jù)進(jìn)行歸檔記錄,得到相應(yīng)的發(fā)生時(shí)間間隔,通過(guò)異常關(guān)聯(lián)性的分析得到參考序列之間的相似程度,判斷數(shù)據(jù)之間的緊密性。設(shè)定參考序列為X,對(duì)應(yīng)的關(guān)聯(lián)系數(shù)計(jì)算如公式(7)所示。
式中:p為分析系數(shù),一般狀態(tài)下p=0.5;?(min)為數(shù)據(jù)的兩級(jí)差值;?(k)為不同序列中的每點(diǎn)之間的差的絕對(duì)值。
關(guān)聯(lián)度計(jì)算如公式(8)所示。
式中:r的值為1 則說(shuō)明相關(guān)性強(qiáng);反之為0 則說(shuō)明相關(guān)性弱。
設(shè)財(cái)務(wù)數(shù)據(jù)中所有出現(xiàn)過(guò)的計(jì)量異常數(shù)據(jù)的種類為N類,表示為A(n=1,2,...,n),n為每種異常數(shù)據(jù)出現(xiàn)時(shí)的所有次數(shù)[4]。對(duì)異常數(shù)據(jù)進(jìn)行統(tǒng)計(jì),根據(jù)異常數(shù)據(jù)出現(xiàn)的順序分別求出d<15 時(shí)異常出現(xiàn)的次數(shù)。再設(shè)適當(dāng)?shù)臉?biāo)準(zhǔn)值為μ,當(dāng)d<μ時(shí),可以認(rèn)為存在異常數(shù)據(jù),且具有關(guān)聯(lián)性。根據(jù)小概率出現(xiàn)原則,得到標(biāo)準(zhǔn)值設(shè)定的計(jì)算公式,如公式(9)所示。
式中:ni為An在網(wǎng)絡(luò)中出現(xiàn)的所有次數(shù)。
在訓(xùn)練階段,將正確的時(shí)間序列作為訓(xùn)練樣本,輸入數(shù)據(jù)關(guān)聯(lián)模型中進(jìn)行時(shí)間序列重構(gòu)。在訓(xùn)練完成后,輸入正確的時(shí)間序列,控制重構(gòu)誤差,并使誤差的大小不超過(guò)3%。將含有異常數(shù)據(jù)的序列輸入模型中時(shí),重構(gòu)誤差值會(huì)變大。此時(shí)運(yùn)用深度學(xué)習(xí)法完成重構(gòu)序列的預(yù)處理,生成一個(gè)大小相同的狀態(tài)向量并輸出。在神經(jīng)網(wǎng)絡(luò)中訓(xùn)練對(duì)應(yīng)的時(shí)間序列數(shù)據(jù)。當(dāng)序列數(shù)據(jù)的長(zhǎng)度超過(guò)實(shí)際規(guī)定大小時(shí)停止訓(xùn)練。如果所訓(xùn)練的數(shù)據(jù)梯度消失,說(shuō)明只學(xué)習(xí)到一定間隔的時(shí)間序列信息,需要及時(shí)解決梯度消失問(wèn)題。在神經(jīng)網(wǎng)絡(luò)中添加控制時(shí)間記憶長(zhǎng)短的狀態(tài)單元,通過(guò)存儲(chǔ)當(dāng)前時(shí)刻的數(shù)據(jù)延長(zhǎng)記憶,使當(dāng)前時(shí)刻的數(shù)據(jù)與之前的數(shù)據(jù)存在內(nèi)部關(guān)聯(lián)。在神經(jīng)網(wǎng)絡(luò)中設(shè)置3 個(gè)控制開(kāi)關(guān),運(yùn)用forget gate 模塊控制是否繼續(xù)保存單元狀態(tài)至當(dāng)前時(shí)刻。其計(jì)算如公式(10)所示。
式中:wf為權(quán)重矩陣;b為偏置量;σ為控制函數(shù)。
再通過(guò)input gate 模塊控制是否將當(dāng)前時(shí)刻狀態(tài)輸入之前的狀態(tài)單元。通過(guò)將當(dāng)前記憶與之前的記憶相結(jié)合形成新的狀態(tài)單元,并保存新的信息,最后將其輸出。同時(shí),為提高預(yù)測(cè)確度,運(yùn)用注意力機(jī)制使數(shù)據(jù)能夠在不同周期中具有實(shí)際數(shù)值。在不同的應(yīng)用場(chǎng)景中,計(jì)算當(dāng)前輸入序列與輸出向量的對(duì)應(yīng)程度,集中點(diǎn)得分越高,計(jì)算得到的權(quán)重就越大。將每個(gè)隱藏狀態(tài)設(shè)定一個(gè)權(quán)重,權(quán)重的不同決定了輸出狀態(tài)。對(duì)狀態(tài)向量進(jìn)行學(xué)習(xí)來(lái)重構(gòu)序列。其中s1,s2,...,sn為輸入序列,,,...,為重構(gòu)序列,e為狀態(tài)向量得到的具體的關(guān)聯(lián)度值,以判斷異常數(shù)據(jù)出現(xiàn)并實(shí)施檢測(cè)。
對(duì)企業(yè)財(cái)務(wù)信息進(jìn)行實(shí)時(shí)采集與記錄,根據(jù)預(yù)處理的信息獲得對(duì)應(yīng)組元信息,并利用信息熵對(duì)異常信息數(shù)據(jù)進(jìn)行初步檢測(cè)。通過(guò)特定窗口對(duì)其求得信息熵值,將得到的數(shù)值與設(shè)定的標(biāo)準(zhǔn)值進(jìn)行比較,以此來(lái)判斷企業(yè)財(cái)務(wù)中存在異常數(shù)據(jù)信息的區(qū)間,同時(shí)進(jìn)行第二次深度檢測(cè)。其中,信息熵值的計(jì)算如公式(11)所示。
式中:d為樣本數(shù)據(jù),其中d=ni,i=1,2...,N;i為內(nèi)部樣本的數(shù)據(jù);ni為變化的次數(shù);D為樣本取值的對(duì)應(yīng)全部數(shù)目。
在樣本信息熵的變化過(guò)程中,設(shè)定的變化區(qū)域范圍為(0,logD),由于樣本的分布相對(duì)統(tǒng)一,因此對(duì)應(yīng)的信息熵值不變,樣本值相等。為了減少網(wǎng)絡(luò)防御的攻擊,通過(guò)在網(wǎng)絡(luò)結(jié)構(gòu)中輸入數(shù)據(jù)樣本,并對(duì)正常樣本進(jìn)行標(biāo)記,將輸入層的數(shù)據(jù)在其中充分激活,完成解碼與重構(gòu)[5]。在數(shù)據(jù)信息編碼的過(guò)程中,產(chǎn)生的隱藏部分的輸出公式如公式(12)所示。
式中:E1為權(quán)重矩陣;B1為復(fù)合矩陣;σ為激活函數(shù);g為輸出層的對(duì)應(yīng)輸出。
對(duì)應(yīng)的重構(gòu)誤差如公式(13)所示。
式中:J(W,b)為分析重構(gòu)存在的差異值;m為輸入層的相應(yīng)的節(jié)點(diǎn)數(shù)量;x為需要傳遞的數(shù)據(jù);解壓過(guò)程中的輸出數(shù)據(jù)。
與傳統(tǒng)樣本集相比,在利用數(shù)據(jù)異常網(wǎng)絡(luò)編碼的過(guò)程中,為獲得對(duì)應(yīng)的樣本特征,使神經(jīng)元一直保持在抑制狀態(tài),需要對(duì)隱藏部分的神經(jīng)元節(jié)點(diǎn)j完成激活,得到平均值的計(jì)算如公式(14)所示。
式中:m為數(shù)據(jù)的存在條數(shù);aj(2)(x)為神經(jīng)節(jié)點(diǎn)中的輸出激活數(shù)據(jù)。
在對(duì)中間層的神經(jīng)元節(jié)點(diǎn)進(jìn)行分析的過(guò)程中,如果抑制狀態(tài)產(chǎn)生,則需要規(guī)定其中間層的神經(jīng)元節(jié)點(diǎn)j中。設(shè)置對(duì)應(yīng)的抑制性參數(shù)為,按照設(shè)計(jì)條件,規(guī)定p的 取值范圍為無(wú)限趨近于0 的小數(shù)。設(shè)定懲罰參數(shù),利用不同抑制性參數(shù)之間的差異得到相應(yīng)的懲罰,使激活參數(shù)之間的數(shù)據(jù)相等[6]。這種激活公式如公式(15)所示。
式中:K為隱藏部分的神經(jīng)元數(shù)據(jù)。
式中:ε為對(duì)應(yīng)的正則化因數(shù);b為存在IDE 信息網(wǎng)絡(luò)的層數(shù);W為神經(jīng)元的總數(shù)。
從第一個(gè)結(jié)構(gòu)開(kāi)始進(jìn)行特征學(xué)習(xí),訓(xùn)練后獲得W和b的值,得到最終的訓(xùn)練樣本[7]。
搭建財(cái)務(wù)數(shù)據(jù)信息異常檢測(cè)方法的試驗(yàn)環(huán)境,根據(jù)IP地址段對(duì)全網(wǎng)進(jìn)行劃分,主要包括化工企業(yè)中的財(cái)務(wù)網(wǎng)段。設(shè)置一臺(tái)P8 微處理機(jī),操作系統(tǒng)為Windows 11,充分收集并詳細(xì)記錄對(duì)應(yīng)的所有測(cè)量數(shù)據(jù)[8]。將Java 語(yǔ)言作為開(kāi)發(fā)工具。運(yùn)用的軟件環(huán)境和參數(shù)見(jiàn)表1。
表1 軟件環(huán)境及參數(shù)
運(yùn)用Cisco 的NetFlow 從企業(yè)網(wǎng)絡(luò)中的節(jié)點(diǎn)上依次采集樣本數(shù)據(jù)信息,采樣周期為12 個(gè)包。在初始數(shù)據(jù)包提供中,按每1440/86min 進(jìn)行數(shù)據(jù)信息聚合,進(jìn)行測(cè)量數(shù)據(jù)的采集的周期通常為一輪。處理采集到的財(cái)務(wù)數(shù)據(jù)信息,根據(jù)其信息熵計(jì)算網(wǎng)絡(luò)數(shù)據(jù)在106×7 個(gè)數(shù)據(jù)段內(nèi)的原IP 地址、目的IP 地址及端口的信息熵序列值,得到大小為600×4 的矩陣。各個(gè)屬性的熵值序列對(duì)應(yīng)600 個(gè)不同OF 數(shù)據(jù)段。根據(jù)對(duì)應(yīng)邊排布,將得到的對(duì)應(yīng)元組矩陣變成2869×4 的矩陣P,將得到的結(jié)果按原IP、目的IP 以及端口分成不同序列,并將其作為K-means 的輸入值進(jìn)行異常分析[9]。
受公司規(guī)模、盈利范圍等水平的影響,不同化工企業(yè)財(cái)務(wù)比率數(shù)據(jù)存在異常數(shù)據(jù)。設(shè)置5 個(gè)小組,運(yùn)用該文方法的小組為試驗(yàn)組,1~4 對(duì)照組運(yùn)用傳統(tǒng)方法。試驗(yàn)選取的化工企業(yè)的財(cái)務(wù)數(shù)據(jù)信息樣本數(shù)據(jù)為1000 類。先對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將試驗(yàn)的數(shù)據(jù)樣本帶入運(yùn)算得到樣本的離差數(shù)據(jù)處理,即帶入SOM 模型中,并對(duì)其中的異常信息進(jìn)行分析,得到最優(yōu)的聚類結(jié)果,見(jiàn)表2。
表2 SOM 信息異常分析表
由試驗(yàn)結(jié)果可知,1~4 對(duì)照組的分析錯(cuò)誤率相對(duì)較高,聚類結(jié)果中存在的誤差較大,造成化工企業(yè)的財(cái)務(wù)數(shù)據(jù)指標(biāo)不符合標(biāo)準(zhǔn),異常分析的準(zhǔn)確程度下降。和對(duì)照組相比,試驗(yàn)組的分析錯(cuò)誤率最低,為0.8%。這樣就使聚類結(jié)果中的誤差變小,準(zhǔn)確率也有了顯著提升,財(cái)務(wù)數(shù)據(jù)信息異常分析趨于準(zhǔn)確,分析結(jié)果更具有說(shuō)服力,可及時(shí)發(fā)現(xiàn)財(cái)務(wù)數(shù)據(jù)中的數(shù)據(jù)信息異常,使化工企業(yè)財(cái)務(wù)數(shù)據(jù)信息異常的分析更全面。
該文從化工企業(yè)財(cái)務(wù)數(shù)據(jù)信息入手,運(yùn)用深度學(xué)習(xí)技術(shù),探究了基于深度學(xué)習(xí)的化工企業(yè)財(cái)務(wù)數(shù)據(jù)信息異常分析方法。通過(guò)檢測(cè)與分析化工企業(yè)財(cái)務(wù)中的異常數(shù)據(jù),對(duì)異常值進(jìn)行查缺與填補(bǔ),完成對(duì)化工企業(yè)財(cái)務(wù)數(shù)據(jù)清洗的過(guò)程。但是方法中也存在不足,例如算法中存在的閾值問(wèn)題、對(duì)數(shù)據(jù)的空間特征的異常值檢測(cè)問(wèn)題及空缺值的問(wèn)題。在以后的研究中應(yīng)及時(shí)精細(xì)算法,對(duì)時(shí)間序列進(jìn)行降維以改進(jìn)異常值,提升異常分析的準(zhǔn)確性。利用特性找出原有數(shù)據(jù)中的臟數(shù)據(jù),對(duì)化工企業(yè)財(cái)務(wù)數(shù)據(jù)進(jìn)行合理有效的清洗,構(gòu)建優(yōu)質(zhì)數(shù)據(jù)庫(kù)集群,從而使該方法的研究更完善。