李瑋瑤
摘 要:傳統(tǒng)的大數(shù)據(jù)過濾方法,其降噪處理和過濾效果都會(huì)對(duì)最終結(jié)果產(chǎn)生一定影響,導(dǎo)致過濾效率低下?;诖?,本文提出基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法,利用動(dòng)態(tài)編譯實(shí)現(xiàn)數(shù)據(jù)采集過濾,進(jìn)行分布式離群點(diǎn)檢測(cè),通過網(wǎng)閘過濾對(duì)數(shù)據(jù)信息進(jìn)行過濾。經(jīng)對(duì)比試驗(yàn),該方法能夠?qū)崿F(xiàn)有效大數(shù)據(jù)的高效過濾,而基于區(qū)域劃分的數(shù)據(jù)過濾方法,無法充分利用試驗(yàn)環(huán)境中所有實(shí)體的數(shù)據(jù)信息,因此不可能實(shí)現(xiàn)較高的過濾效率,由此證明了本研究所提方法的實(shí)用性和有效性。
關(guān)鍵詞:模糊關(guān)聯(lián)空間;有效大數(shù)據(jù);過濾
中圖分類號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2019)29-0011-03
An Effective Big Data Filtering Method Based on Fuzzy Correlation Space
LI Weiyao
(School of Computer Science, Pingdingshan University,Pingdingshan Henan 467000)
Abstract: The traditional big data filtering method, its noise reduction processing and filtering effect will have certain influence on the final result, resulting in low filtering efficiency. Based on this, this paper proposed an effective big data filtering method based on fuzzy associative space, used dynamic compilation to realize data collection and filtering, performd distributed outlier detection, and filterd data information through gatekeeper filtering. Through comparative experiments, this method can achieve efficient filtering of effective big data, and the data filtering method based on region division can not fully utilize the data information of all entities in the experimental environment, so it is impossible to achieve high filtering efficiency, which proves the practicality and effectiveness of the method proposed in this study.
Keywords: fuzzy association space;effective big data;filtering
在空間數(shù)據(jù)挖掘研究領(lǐng)域,空間關(guān)聯(lián)規(guī)則具體指的是空間對(duì)象彼此間的空間和非空間的相互關(guān)系[1]。因?yàn)榭臻g對(duì)象彼此間的關(guān)系一般會(huì)利用空間和非空間的定語來表示,與之相對(duì)應(yīng),挖掘空間的關(guān)聯(lián)規(guī)則就必須借助兩類層次進(jìn)行充分表達(dá),即概念層次與空間關(guān)系層次[2]。其中,空間關(guān)系層次主要包括空間拓?fù)錁?gòu)造、空間方位層次以及空間度量關(guān)系層次[3]。這些層次的類別構(gòu)造并不具備硬性標(biāo)準(zhǔn),這就需要適當(dāng)引進(jìn)模糊隸屬度來對(duì)邊界進(jìn)行軟化,產(chǎn)生模糊概念層次以及模糊空間關(guān)系層次,在這個(gè)基礎(chǔ)上所研究的空間關(guān)聯(lián)規(guī)則就是人們常說的模糊空間關(guān)聯(lián)規(guī)則(FSA Rs)[4]。本文以有效大數(shù)據(jù)信息為關(guān)鍵,對(duì)其處理和過濾方法進(jìn)行了研究,希望可以在某些方面給予研究人員一定啟發(fā)。
1 基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法
1.1 利用動(dòng)態(tài)編譯實(shí)現(xiàn)數(shù)據(jù)采集過濾
動(dòng)態(tài)編譯數(shù)據(jù)采集工具的主要功能是采集數(shù)據(jù)在運(yùn)行過程中產(chǎn)生的信息,以特殊的格式完成存儲(chǔ),為后續(xù)分析與過程回放提供有效的數(shù)據(jù)源。首先利用系統(tǒng)配置向?qū)ミx取合適的匹配信息,有關(guān)匹配信息的內(nèi)容主要包括數(shù)據(jù)類別、系統(tǒng)相關(guān)運(yùn)行信息。其次,配置完成以后,按照具體的配對(duì)信息自動(dòng)生產(chǎn)一組動(dòng)態(tài)代碼,將動(dòng)態(tài)代碼組編為動(dòng)態(tài)編譯,形成一個(gè)正式結(jié)構(gòu)。此結(jié)構(gòu)就是針對(duì)系統(tǒng)動(dòng)態(tài)生成的數(shù)據(jù)采集信息。最后,用戶可以在形成的數(shù)據(jù)樹表中選取合適對(duì)象的有關(guān)信息。
1.2 構(gòu)建虛假無效數(shù)據(jù)的識(shí)別規(guī)則庫
對(duì)大數(shù)據(jù)下的有效數(shù)據(jù)樣本進(jìn)行統(tǒng)一歸類和處理,利用聚類算法對(duì)虛假無效數(shù)據(jù)進(jìn)行必要的聚類集成,得到虛假無效數(shù)據(jù)的全部類別信息,完成虛假無效數(shù)據(jù)的具體分類,按照聚類中心建立的虛假無效數(shù)據(jù)識(shí)別規(guī)則庫,建構(gòu)一個(gè)完整的虛假無效數(shù)據(jù)識(shí)別模型,具體過程如下。
假設(shè)[Z1,Z2,…,ZN]表示大數(shù)據(jù)下有效數(shù)據(jù)樣本,[j=1,2,…,N]表示有效數(shù)據(jù)樣本內(nèi)的具體數(shù)量,為了最大限度地規(guī)避大數(shù)據(jù)環(huán)境下數(shù)據(jù)樣本內(nèi)最大值和最小值的影響,就必須對(duì)有效數(shù)據(jù)樣本進(jìn)行統(tǒng)一歸類處理,有些虛假無效數(shù)據(jù)極有可能屬于同一類型,所以就需要把每一個(gè)流量數(shù)據(jù)看作是一個(gè)聚類中心。對(duì)于流量數(shù)據(jù),其屬于聚類中心的基本概率計(jì)算公式為:
[Di=j=1exp(-δZi-Zj)]? ? ? ? ? ? ? ? ? ? ? ?(1)
式中,[δ=4r2a]為一個(gè)標(biāo)準(zhǔn)情況下的參量;[Zi-Zj]為其具體的歐式距離大小;[ra]表示其屬于非負(fù)數(shù)范圍,表示其鄰域,假設(shè)一個(gè)正常運(yùn)行過程中出現(xiàn)的數(shù)據(jù)出現(xiàn)了多個(gè)近鄰數(shù)據(jù),那么該數(shù)據(jù)就極有可能成為聚類中心;[Di]為標(biāo)準(zhǔn)運(yùn)行數(shù)據(jù)[Zi]和[Zj]之間的歐式距離。
選擇[Di]中概率最大的數(shù)據(jù)作為聚類中心,假設(shè)1代表虛假無效數(shù)據(jù)的規(guī)定類別,其出現(xiàn)概率就以[D1]來表示,可借助式(2)對(duì)其余正常運(yùn)行數(shù)據(jù)被稱為聚類中心的概率進(jìn)行具體計(jì)算。
[?=Di-D1exp(-γZ1-Y1)]? ? ? ? ? ? ? ? ? ?(2)
式中,[γ=4r2b]為一個(gè)常數(shù)參量,表示其鄰域?qū)儆赱rb]。
分析式(2)可知,[Z1]表示標(biāo)準(zhǔn)狀態(tài)下運(yùn)行數(shù)據(jù)出現(xiàn)的第一個(gè)類別。當(dāng)?shù)玫降赱K+1]個(gè)聚類中心時(shí),其余數(shù)據(jù)均可以視為第[K+1]個(gè)聚類中心的概率可借助式(3)獲得:
[χ=Di-Dkexp(-γZi-Yk)]? ? ? ? ? ? (3)
式中,[Yk]為第[K]個(gè)虛假無效數(shù)據(jù)類別屬性;[Dk]為其出現(xiàn)概率。
對(duì)正常運(yùn)行狀態(tài)下出現(xiàn)的數(shù)據(jù)概率大致設(shè)定一個(gè)范圍,當(dāng)上述過程沒有超過該范圍時(shí),[Dk<0.15D1],就需要停止換代,獲得全部虛假無效數(shù)據(jù)的類別,實(shí)現(xiàn)虛假無效數(shù)據(jù)的實(shí)時(shí)分類。假設(shè)聚類中心[Ck]相對(duì)應(yīng)的虛假無效數(shù)據(jù)類別為[C1],那么就可獲取其余虛假無效數(shù)據(jù)識(shí)別的運(yùn)行規(guī)則,即
[RK=??(yk/ak)]? ? ? ? ? ? ? ? ? ? ? ? ? (4)
式中,[?]為正常運(yùn)行狀態(tài)下數(shù)據(jù)向量的一般維度;[yk]為相對(duì)應(yīng)的空間關(guān)聯(lián)模糊規(guī)則;[ak]為一標(biāo)準(zhǔn)常數(shù)。
虛假無效數(shù)據(jù)識(shí)別規(guī)則的觸發(fā)可通過式(5)對(duì)其進(jìn)行計(jì)算[10],即
[uk=exp(-δ?-Ck)rd]? ? ? ? ? ? ? ? ? ? (5)
式中,[rd]為虛假無效數(shù)據(jù)的聚類半徑。上述虛假無效數(shù)據(jù)的識(shí)別規(guī)則轉(zhuǎn)換為以下公式:
[Rk=xop×Akp(-δyk-ak)]? ? ? ? ? ? ? ? ? ? ?(6)
式中,[xop]為大數(shù)據(jù)下第[p]個(gè)正常運(yùn)行數(shù)據(jù)的特征;[Akp]為第[k]條檢測(cè)規(guī)則的第[p]個(gè)數(shù)據(jù)特征的隸屬度函數(shù)。選用高斯函數(shù)作為隸屬函數(shù),則有
[Akp=exp-12xop-ckp?kp2uk]? ? ? ? ? ? ? ? ?(7)
式中,[ckp]為聚類中心作為[Ck]的第[p]個(gè)正常運(yùn)行狀態(tài)下出現(xiàn)的常規(guī)數(shù)據(jù);[?kp]為聚類中心的擴(kuò)展范圍。
按照式(7)的計(jì)算,對(duì)剩余的聚類中心組建相對(duì)應(yīng)的識(shí)別規(guī)則庫,由此構(gòu)建用于虛假無效數(shù)據(jù)識(shí)別的規(guī)則庫,從而獲得該規(guī)則庫下的虛假無效數(shù)據(jù)識(shí)別規(guī)則:
[y=K=1UykuKK-1UuK]? ? ? ? ? ? ? ? ? ? ? ? ?(8)
式中,[yk]為第[k]條識(shí)別規(guī)則相配置的識(shí)別結(jié)果;[u]為識(shí)別規(guī)則的總數(shù)。
1.3 實(shí)行分布式離群點(diǎn)檢測(cè)
如果數(shù)據(jù)集合中存在一定數(shù)量的[pct]部分對(duì)象和對(duì)[o]的距離超過[DT]限定,對(duì)象[o]就作為基于距離的有關(guān)參數(shù)[pct]與[DT]的離群點(diǎn)而存在,即[DB(pct,DT)=Out lie]。如果假設(shè)[k]代表用戶所要求的離群點(diǎn)下的數(shù)目相同,那么其偏離度就是最大的,假設(shè)[k]個(gè)對(duì)象均屬于離群點(diǎn),那么其檢測(cè)過程大致如下。
確定[k]個(gè)簇、[n]個(gè)數(shù)據(jù),對(duì)[s]個(gè)離群點(diǎn)進(jìn)行敘述,使[out lie Set =K],其中相對(duì)離群點(diǎn)集合就被賦予空集的定義,將輸出的簇集視為[KCo];當(dāng)[KCo=OKCo]時(shí),能夠保存涵蓋所有離群點(diǎn)的候選微聚類集合,按照計(jì)算結(jié)果獲得數(shù)據(jù)聚類的信息熵以及偏離度,再依次取出各元素,進(jìn)行計(jì)算,根據(jù)結(jié)果判斷出信息熵的值是否在閾值范圍內(nèi),如果計(jì)算結(jié)果超出闕值范圍,說明此數(shù)據(jù)不列入離群點(diǎn)內(nèi),排除這類數(shù)據(jù)聚類;在輸出過程中,將離群點(diǎn)重置到[out lie Set ]中。
1.4 利用網(wǎng)閘過濾進(jìn)行數(shù)據(jù)信息過濾
網(wǎng)閘過濾組織主要用于對(duì)不同符號(hào)型屬性進(jìn)行有效分類,如此能夠針對(duì)不同的數(shù)據(jù)類型實(shí)行更為精準(zhǔn)的過濾程序。假定[Fu,v]為過濾組織的過濾閥值,那么[fx,y]就是對(duì)應(yīng)條目下Web網(wǎng)絡(luò)內(nèi)所有數(shù)據(jù)含有的甄別屬性,[uπ]則代表數(shù)據(jù)信息提取系數(shù)的對(duì)照比,這樣就能夠利用符號(hào)型屬性完成公式的建立,即
[F(u,v)=c(u)c(v)4x=0ny=0nf(x,y)+cos(2x+1)uπ16cos(2y+1)vπ16]? (9)
借助式(9)可以有效區(qū)別Web網(wǎng)絡(luò)內(nèi)的數(shù)據(jù)信息,可以降低部分過濾組織的任務(wù)量,也有效提高了過濾組織對(duì)數(shù)據(jù)的準(zhǔn)確度。通過初級(jí)過濾后,將其輸入條件矩陣內(nèi)完成矩陣過濾。假定攜帶符號(hào)型屬性的信息數(shù)據(jù)矩陣為[Tij],其需要與條件矩陣[T′ij]進(jìn)行數(shù)據(jù)轉(zhuǎn)換。
實(shí)際運(yùn)行過程中,對(duì)信息數(shù)據(jù)矩陣[Tij]和運(yùn)行條件矩陣[T′ij]進(jìn)行對(duì)比,實(shí)現(xiàn)初級(jí)過濾。初級(jí)的數(shù)據(jù)過濾不能完全滿足實(shí)際需要,因而需要對(duì)其閾值進(jìn)行二次過濾,閾值的二次過濾必須具備一定的對(duì)應(yīng)預(yù)處理,如下所示:
[Rk=1IZFYLK+FY2KLa-FY3K+FY4KLB(T)+rk-1](10)
式中,[FYLK]為數(shù)據(jù)信息的雙重權(quán)屬系數(shù);[FY2K]為條件矩陣的符號(hào)型屬性;[La]為符合閾值過濾范圍內(nèi)的符號(hào)型屬性;[1IZ]為甄別系數(shù);[LB]為數(shù)據(jù)信息屬性中的只讀屬性;[rk-1]為預(yù)處理狀態(tài)下的數(shù)據(jù)參數(shù);[Rk]為預(yù)處理狀態(tài)下的屬性參數(shù)整集。通過預(yù)處理設(shè)置后的數(shù)據(jù)輸入閾值范圍,就能夠?qū)崿F(xiàn)閾值的二次計(jì)算,而閾值選擇公式為:
[minW=12i,j=1iyiyj?i?jKxi,xj]? ? ? ? ? ? ? ?(11)
式中,[yi]、[yj]分別為數(shù)據(jù)信息內(nèi)所有的專屬閾值以及特定狀態(tài)下的識(shí)別指數(shù);[?i]、[?j]分別為調(diào)取參數(shù)和調(diào)取閾值;[K(xi,xj)]為所屬粒子集群。
如此一來,數(shù)據(jù)信息就能夠完成閾值的二次過濾,大大提高數(shù)據(jù)信息的過濾邏輯性,計(jì)算公式如下:
[S=DT+DDB+nΔt]? ? ? ? ? ? ? ? ? ? ?(12)
式中,[T]為數(shù)據(jù)識(shí)別的基本屬性;[D]為可以實(shí)現(xiàn)數(shù)據(jù)分組操作的數(shù)據(jù)集合;[Δt]為數(shù)據(jù)實(shí)際運(yùn)行狀態(tài)下的轉(zhuǎn)變值,這樣就可以實(shí)現(xiàn)其快速分類;[B]為數(shù)據(jù)信息的序列號(hào)。
通過上述過程,人們就可以完成對(duì)數(shù)據(jù)信息的分類過濾。
2 試驗(yàn)與效果分析
為了更加直觀地展現(xiàn)基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法的實(shí)際應(yīng)用效果,特與傳統(tǒng)的基于區(qū)域劃分的數(shù)據(jù)過濾方法進(jìn)行對(duì)比,對(duì)其過濾能力進(jìn)行比較。
2.1 試驗(yàn)準(zhǔn)備
為保證試驗(yàn)的準(zhǔn)確性,將兩種有效大數(shù)據(jù)過濾方法置于相同的試驗(yàn)環(huán)境中,進(jìn)行過濾能力的有關(guān)試驗(yàn)。
2.2 試驗(yàn)結(jié)果分析
試驗(yàn)過程中,兩種不同的有效大數(shù)據(jù)過濾方法同時(shí)在相同環(huán)境中工作,而在試驗(yàn)環(huán)境中,數(shù)據(jù)過濾的目的就是最大限度地減少冗余數(shù)據(jù)的產(chǎn)生,其主要衡量指標(biāo)即數(shù)據(jù)的過濾效率。試驗(yàn)效果對(duì)比如圖1所示。
通過試驗(yàn)對(duì)比結(jié)果可知,采用基于模糊關(guān)聯(lián)空間理論的數(shù)據(jù)過濾技術(shù)后,合理設(shè)置K值,能夠確保關(guān)聯(lián)體內(nèi)的每一個(gè)實(shí)體與該關(guān)聯(lián)體間的關(guān)聯(lián)度均超出某一限定值。在整個(gè)試驗(yàn)過程中,數(shù)據(jù)過濾效率是能夠?qū)崿F(xiàn)控制的,模糊關(guān)聯(lián)空間體現(xiàn)出實(shí)體之間基于屬性關(guān)聯(lián)度的一種整體關(guān)聯(lián),這也是數(shù)據(jù)過濾的本質(zhì)目的;而基于區(qū)域劃分的數(shù)據(jù)過濾方法,無法充分利用試驗(yàn)環(huán)境中所有實(shí)體的數(shù)據(jù)信息,因此不可能實(shí)現(xiàn)較高的過濾效率。試驗(yàn)證明,本文所提設(shè)計(jì)方法具有很高的實(shí)用性和有效性。
3 結(jié)語
本文對(duì)基于模糊關(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法進(jìn)行分析,根據(jù)模糊關(guān)聯(lián)空間理論和概念,對(duì)大數(shù)據(jù)過濾方法進(jìn)行優(yōu)化,實(shí)現(xiàn)設(shè)計(jì)目的。試驗(yàn)論證表明,本文設(shè)計(jì)的方法具備極高的有效性。希望本研究能夠?yàn)榛谀:P(guān)聯(lián)空間的有效大數(shù)據(jù)過濾方法提供理論依據(jù)。
參考文獻(xiàn)
[1]謝燁,陳熙哲,丁宇.有效大數(shù)據(jù)信息處理與過濾[J].現(xiàn)代信息科技,2017(5):117-118.
[2]羅弦,馮浩,王逸兮,等.Web環(huán)境下大數(shù)據(jù)動(dòng)態(tài)不良信息安全過濾系統(tǒng)設(shè)計(jì)[J].電子設(shè)計(jì)工程,2017(24):15-19.
[3]趙珂,彭清暢,劉光俊.大數(shù)據(jù)實(shí)時(shí)流計(jì)算的高鐵轉(zhuǎn)向架數(shù)據(jù)過濾算法研究[J].軟件,2018(11):88-95.
[4]汪苗苗,焦學(xué)磊.概率數(shù)學(xué)模型在數(shù)據(jù)過濾中的應(yīng)用研究[J].科技通報(bào),2019(6):20-23.