董 琴,楊 濤
(1. 鹽城工學(xué)院信息工程學(xué)院,江蘇 鹽城 224000;2. 西北工業(yè)大學(xué)自動(dòng)化學(xué)院,陜西 西安 710072)
伴隨信息化社會(huì)的飛速發(fā)展,網(wǎng)絡(luò)中日漸增多的海量數(shù)據(jù)資源擁有異類、異構(gòu)分布等特征[1-2],這些數(shù)據(jù)中通常富含大量有價(jià)值的信息與知識(shí)。在此環(huán)境下,想要在眾多數(shù)據(jù)中得到目標(biāo)信息難度較高,需要運(yùn)用數(shù)據(jù)挖掘技術(shù)獲取所需信息。數(shù)據(jù)挖掘作為一個(gè)交叉學(xué)科,匯聚了眾多信息化技術(shù)。其中,數(shù)據(jù)一致性是數(shù)據(jù)管理的核心事務(wù),關(guān)聯(lián)數(shù)據(jù)為一種新型數(shù)據(jù)分布模式[3],挖掘關(guān)聯(lián)數(shù)據(jù)一致性,能更準(zhǔn)確地描述網(wǎng)絡(luò)數(shù)據(jù)之間的內(nèi)在關(guān)系。
面向關(guān)聯(lián)數(shù)據(jù)一致性挖掘問(wèn)題,不同領(lǐng)域的學(xué)者們給出如下解決方法:李曉春[4]等人創(chuàng)建數(shù)據(jù)屬性空間,采用逆向云模型劃分屬性空間并離散化數(shù)據(jù)。運(yùn)用二進(jìn)制儲(chǔ)存數(shù)據(jù),通過(guò)增量更新法更新規(guī)則,輸出數(shù)據(jù)挖掘結(jié)果,但該方法在應(yīng)對(duì)大規(guī)模數(shù)據(jù)集時(shí),挖掘效率較低,無(wú)法完成既定數(shù)據(jù)挖掘任務(wù)。王志剛[5]等人利用滑動(dòng)窗口法得到待分析數(shù)據(jù),把訓(xùn)練樣本輸入到LSTM(Long Short-Term Memory,長(zhǎng)短期記憶網(wǎng)絡(luò))模型中訓(xùn)練,并通過(guò)模式識(shí)別挖掘目標(biāo)數(shù)據(jù)。該方法不能量化數(shù)據(jù)之間的線性關(guān)系,且計(jì)算量較多,實(shí)用性有待提高。
總結(jié)上述研究中的缺陷,本文充分考慮關(guān)聯(lián)數(shù)據(jù)特征,提出一種RBF神經(jīng)網(wǎng)絡(luò)下關(guān)聯(lián)數(shù)據(jù)一致性挖掘算法。通過(guò)數(shù)據(jù)清洗與數(shù)據(jù)平滑兩種方法預(yù)處理待處理數(shù)據(jù),推算關(guān)聯(lián)規(guī)則一致性隱含規(guī)律,采用RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行高精度數(shù)據(jù)挖掘訓(xùn)練。在仿真中,通過(guò)不同驗(yàn)證指標(biāo)表明了所提方法在挖掘性能方面的優(yōu)越性,能為關(guān)聯(lián)數(shù)據(jù)的相關(guān)處理與正確應(yīng)用提供參考借鑒。
數(shù)據(jù)挖掘是得到知識(shí)的過(guò)程,預(yù)處理待分析數(shù)據(jù)是挖掘算法中的必要前提,其根本目標(biāo)是可以更容易地完成挖掘工作,網(wǎng)絡(luò)數(shù)據(jù)的格式通常是不統(tǒng)一的,若逐一進(jìn)行挖掘工作,會(huì)加大計(jì)算時(shí)長(zhǎng),無(wú)法保證數(shù)據(jù)挖掘的時(shí)效性。針對(duì)上述問(wèn)題,本文分別采用數(shù)據(jù)清洗與平滑處理,去除冗余信息并歸一化格式。數(shù)據(jù)清洗使用臨近排序算法來(lái)實(shí)現(xiàn),其計(jì)算核心思想是重新審查數(shù)據(jù),消除數(shù)據(jù)中的重復(fù)信息與錯(cuò)誤信息,降低計(jì)算量,具體運(yùn)算過(guò)程如下:
由于數(shù)據(jù)庫(kù)的信息不是都有唯一的主鍵,可以給每個(gè)數(shù)據(jù)都設(shè)置唯一的編碼[6],并將編碼的標(biāo)號(hào)值權(quán)重設(shè)為0。依照數(shù)據(jù)的屬性組建不同類型的屬性記錄庫(kù),假設(shè)數(shù)據(jù)記錄為A={A1,A2,…,Al},其中,l代表數(shù)據(jù)記錄數(shù)量,與Al對(duì)應(yīng)的數(shù)據(jù)是Ai,則兩個(gè)數(shù)據(jù)在p屬性之間的內(nèi)在關(guān)系是:
B=D(Aip,Alp)={0,1}
(1)
Aip={ID1,ID2,…,IDm}
(2)
其中,D代表關(guān)聯(lián)因子,Aip、Alp代表數(shù)據(jù)屬性,IDm代表某個(gè)屬性的重復(fù)概率。
倘若B=1,則兩個(gè)數(shù)據(jù)在p屬性擁有較多相同的重復(fù)值,反之,則證明二者無(wú)重復(fù)值。依照此種關(guān)系就能精準(zhǔn)推算出兩個(gè)數(shù)據(jù)的相似程度[7],記作:
Ci,j,p=B*Ep
(3)
其中,Ep代表p屬性的權(quán)值。
累計(jì)求和全部屬性相似度,得到:
(4)
假設(shè)相似臨界值是H,若全部屬性相似度Gi,j大于H,判定該數(shù)據(jù)為重復(fù)數(shù)據(jù),并將其剔除,實(shí)現(xiàn)數(shù)據(jù)清洗,獲得關(guān)聯(lián)數(shù)據(jù)集。
下面對(duì)數(shù)據(jù)清洗后的關(guān)聯(lián)數(shù)據(jù)集進(jìn)行平滑處理,如果數(shù)據(jù)量較多且變化形式比較復(fù)雜,那么采用加權(quán)局部多項(xiàng)式算法進(jìn)行數(shù)據(jù)平滑。依照加權(quán)最小二乘原則計(jì)算多項(xiàng)式參數(shù),使窗口在待處理數(shù)據(jù)上滑動(dòng)[8],最后輸出平滑數(shù)據(jù),以下為具體計(jì)算過(guò)程:
首先計(jì)算局部多項(xiàng)式回歸權(quán)值,記作:
(5)
其中,t代表數(shù)據(jù)窗口待平滑信息的觀測(cè)時(shí)間,ti代表數(shù)據(jù)窗口中第i個(gè)數(shù)據(jù)的觀測(cè)時(shí)間,b代表t時(shí)段下距數(shù)據(jù)窗口最遠(yuǎn)的數(shù)據(jù)點(diǎn)。
明確權(quán)值后,使用式(6)進(jìn)行觀測(cè)數(shù)據(jù)擬合:
(6)
其中,d0、d1、d2均代表局部多項(xiàng)式系數(shù)。
假設(shè)E是權(quán)值對(duì)角矩陣,Y是觀測(cè)值列矢量,X是和觀測(cè)數(shù)據(jù)相關(guān)的矩陣,則數(shù)據(jù)平滑的最終解析式為:
F=(XTEX)-1XTEY
(7)
其中,T代表平滑迭代次數(shù)。
在數(shù)據(jù)挖掘之前,要充分明確關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則,分析一致性隱含規(guī)律,這樣才能最大限度地提升關(guān)聯(lián)數(shù)據(jù)一致性挖掘結(jié)果的準(zhǔn)確性。內(nèi)容相關(guān)的條件函數(shù)依賴是一種能同時(shí)對(duì)若干條件采取一致性計(jì)算的約束條件[9],設(shè)置L為數(shù)據(jù)屬性關(guān)聯(lián)元素,則L的條件函數(shù)依賴為:
φ:(N|O→I,Sn=∪Sni)
(8)
其中,N代表屬性集合,O代表變量集合,I代表單一屬性。
在關(guān)聯(lián)數(shù)據(jù)模式中,因模式的差異,將關(guān)聯(lián)數(shù)據(jù)一致性規(guī)則分為模式融合與實(shí)例融合[10],假設(shè)兩個(gè)關(guān)聯(lián)數(shù)據(jù)分別是Qa、Qb,則數(shù)據(jù)模式融合過(guò)程為:
Qa⊕εQb=(R⊕εU,attr(Qa)-lhs(ε),attr(Qb)-rhs(ε))
(9)
其中,ε代表規(guī)則約束條件,R⊕εU代表屬性R、U融合后構(gòu)成的全新模式屬性,attr(Qa)、attr(Qb)分別代表兩個(gè)關(guān)聯(lián)數(shù)據(jù)的匹配指數(shù),lhs(ε)代表ε的左部屬性集合,rhs(ε)代表ε的右部屬性集合。
數(shù)據(jù)實(shí)例融合代表在融合模式下合并獲得的關(guān)系實(shí)例[11],創(chuàng)建過(guò)程為:
(10)
其中,Va[x]代表Qa中不存在的屬性,Vb[y]代表Qb中不存在的屬性,“*”為一個(gè)特殊值,不會(huì)和數(shù)據(jù)產(chǎn)生沖突而影響融合效果。
將預(yù)處理后的關(guān)聯(lián)數(shù)據(jù)與一致性規(guī)則作為輸入值,代入RBF神經(jīng)網(wǎng)絡(luò)中進(jìn)行網(wǎng)絡(luò)訓(xùn)練。RBF神經(jīng)網(wǎng)絡(luò)中具備輸入層、隱含層與輸出層,為一種前向三層結(jié)構(gòu)網(wǎng)絡(luò),網(wǎng)絡(luò)拓?fù)浼軜?gòu)如圖1所示。
圖1 RBF神經(jīng)網(wǎng)絡(luò)拓?fù)浼軜?gòu)
網(wǎng)絡(luò)架構(gòu)核心元素包含中心向量、隱含層節(jié)點(diǎn)個(gè)數(shù)、徑向基函數(shù)寬度與權(quán)值矩陣[12-13]。
通過(guò)網(wǎng)絡(luò)訓(xùn)練明確網(wǎng)絡(luò)參數(shù),也就是徑向基函數(shù)寬度參數(shù)κ、權(quán)值矩陣η、隱含層單元數(shù)目q與中心點(diǎn)o。網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵就是明確合適的中心點(diǎn)個(gè)數(shù)與方位。
將徑向基函數(shù)表達(dá)式記作
(11)
將徑向基函數(shù)寬度參數(shù)[14]表示為:
(12)
將徑向基函數(shù)的拓展常數(shù)表示成:
β=δdmin
(13)
其中,dmin代表各中心點(diǎn)的間距,δ代表重疊指數(shù)。
設(shè)定輸入矢量為n維,共涵蓋r個(gè)輸出節(jié)點(diǎn),隱含層節(jié)點(diǎn)數(shù)量是h,可將隱含層節(jié)點(diǎn)的輸出值定義為
(14)
其中,μj(xs)代表隱含層節(jié)點(diǎn)輸出,xs代表網(wǎng)絡(luò)n維輸入矢量。
首先定義一個(gè)誤差代價(jià)函數(shù)ω來(lái)衡量網(wǎng)絡(luò)真實(shí)輸出yz與期望輸出φ的差距,記作
(15)
其中,φi、yzi分別代表RBF神經(jīng)網(wǎng)絡(luò)輸出節(jié)點(diǎn)的期望輸出和真實(shí)輸出。
運(yùn)用梯度下降方法,推算t時(shí)段網(wǎng)絡(luò)權(quán)值矩陣η、徑向基函數(shù)寬度參數(shù)κ和隱含層單元中心點(diǎn)o的調(diào)節(jié)過(guò)程可按照如下公式完成:
(16)
(17)
(18)
其中,?η、?κ、?o代表學(xué)習(xí)率,?Et代表梯度因子。
假設(shè)有新的關(guān)聯(lián)樣本輸入網(wǎng)絡(luò),并且要校準(zhǔn)網(wǎng)絡(luò)參數(shù),通過(guò)式(16)~(18)即可修改參數(shù),通過(guò)有限次調(diào)節(jié)后,就能讓關(guān)聯(lián)數(shù)據(jù)一致性挖掘的網(wǎng)絡(luò)輸出誤差保持在可接受范圍。如果誤差ω小于準(zhǔn)許誤差,樣本則無(wú)需進(jìn)行調(diào)節(jié)。
最終將RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練輸出計(jì)算公式表示為式(19),完成算法的全部流程,獲得關(guān)聯(lián)數(shù)據(jù)一致性挖掘結(jié)果。
(19)
為檢驗(yàn)所提方法的數(shù)據(jù)挖掘效果,將文獻(xiàn)[4]云模型法與文獻(xiàn)[5]LSTM法作為對(duì)照組,在MATLAB仿真平臺(tái)中進(jìn)行實(shí)驗(yàn)分析,實(shí)驗(yàn)數(shù)據(jù)來(lái)自UCI數(shù)據(jù)集,該數(shù)據(jù)集中包括了眾多用于監(jiān)督式和非監(jiān)督式學(xué)習(xí)的數(shù)據(jù)集。實(shí)驗(yàn)指標(biāo)為F1值、數(shù)據(jù)挖掘誤差、輪廓系數(shù)以及挖掘時(shí)間。其中,F1值、數(shù)據(jù)挖掘誤差、輪廓系數(shù)均為數(shù)據(jù)挖掘質(zhì)量指標(biāo),時(shí)間為挖掘效率指標(biāo)。
為了更精準(zhǔn)地衡量挖掘方法的優(yōu)劣,在正確率與召回率的前提下提出F1值概念,該值取自正確率與召回率的平均值,F1值越大,證明方法的數(shù)據(jù)挖掘能力越強(qiáng),精度越高。計(jì)算公式為:
(20)
其中,P代表正確率,R代表召回率。
三種方法的關(guān)聯(lián)數(shù)據(jù)一致性挖掘F1值對(duì)比結(jié)果如圖2所示。
圖2 關(guān)聯(lián)數(shù)據(jù)一致性挖掘F1值對(duì)比結(jié)果
從圖2可以看到,本文方法的F1值顯著高于云模型法和LSTM法,這是由于本文方法在數(shù)據(jù)挖掘擇取中心點(diǎn)時(shí),能更好地存留初始數(shù)據(jù)特征,有效處理關(guān)聯(lián)數(shù)據(jù)的不確定性,挖掘質(zhì)量要明顯優(yōu)于兩個(gè)對(duì)比方法,避免陷入局部最優(yōu)。
從數(shù)據(jù)集中隨機(jī)抽取7000條數(shù)據(jù),評(píng)估三種方法挖掘結(jié)果與實(shí)際值之間的誤差,以每4次數(shù)據(jù)挖掘誤差平均值為例,綜合對(duì)比挖掘能力,實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 數(shù)據(jù)挖掘誤差對(duì)比結(jié)果
在圖3中可以充分得知,云模型法、LSTM法的數(shù)據(jù)挖掘誤差較高,而本文方法的誤差一直處于較低狀態(tài),證明其挖掘精度較優(yōu),不會(huì)因外部環(huán)境變化改變自身運(yùn)算性能,可以實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)一致性的精準(zhǔn)挖掘,實(shí)用性更強(qiáng)。
輪廓系數(shù)通過(guò)數(shù)據(jù)集內(nèi)對(duì)象之間的相似性來(lái)衡量挖掘質(zhì)量,是簇的緊密與分散水平評(píng)估指標(biāo),輪廓系數(shù)值越高,挖掘結(jié)果越合理。計(jì)算公式為:
(21)
其中,ι代表數(shù)據(jù)幀和簇內(nèi)其余數(shù)據(jù)幀的距離均值,ν代表數(shù)據(jù)幀和距離自身最近的另一個(gè)簇內(nèi)樣本的距離均值。
三種方法的輪廓系數(shù)對(duì)比結(jié)果如圖4所示。
觀察圖4可以看到,隨著實(shí)驗(yàn)次數(shù)的持續(xù)增多,本文方法的輪廓系數(shù)值一直處于領(lǐng)先水平,且計(jì)算穩(wěn)定性強(qiáng),不會(huì)產(chǎn)生較多波動(dòng),說(shuō)明該方法的關(guān)聯(lián)數(shù)據(jù)一致性挖掘輸出結(jié)果更具可靠性。
通過(guò)數(shù)據(jù)挖掘時(shí)間來(lái)表明三種方法運(yùn)算能力高低,設(shè)定待挖掘關(guān)聯(lián)數(shù)據(jù)個(gè)數(shù)為1200條,共進(jìn)行25次實(shí)驗(yàn),以0.4s為時(shí)間閾值,圖5為挖掘時(shí)間對(duì)比結(jié)果。
圖5 關(guān)聯(lián)數(shù)據(jù)一致性挖掘時(shí)間對(duì)比結(jié)果
由圖5可知,本文方法在運(yùn)行時(shí)間方面更具計(jì)算優(yōu)勢(shì),計(jì)算速率相對(duì)較快,可以在保證挖掘質(zhì)量的同時(shí),實(shí)現(xiàn)高效率數(shù)據(jù)挖掘目標(biāo),在復(fù)雜的現(xiàn)實(shí)應(yīng)用場(chǎng)景中也能得到充分利用。
為有效提升關(guān)聯(lián)數(shù)據(jù)一致性規(guī)律提取精度與效率,提出一種RBF神經(jīng)網(wǎng)絡(luò)下關(guān)聯(lián)數(shù)據(jù)一致性挖掘算法。RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練為一種持續(xù)學(xué)習(xí)數(shù)據(jù)隱含規(guī)律的流程,模型可有效調(diào)節(jié)網(wǎng)絡(luò)各層之間的連接權(quán)值與節(jié)點(diǎn)臨界值,讓網(wǎng)絡(luò)擁有良好的學(xué)習(xí)能力,得到關(guān)聯(lián)數(shù)據(jù)一致性規(guī)律,在實(shí)現(xiàn)數(shù)據(jù)預(yù)處理并分析一致性規(guī)則后,通過(guò)網(wǎng)絡(luò)訓(xùn)練就能獲得精準(zhǔn)的數(shù)據(jù)挖掘結(jié)果。所提方法計(jì)算簡(jiǎn)便,實(shí)用性強(qiáng),數(shù)據(jù)挖掘精度與效率均滿足當(dāng)前運(yùn)算需求,很好地改進(jìn)了以往數(shù)據(jù)挖掘算法的不足之處,為網(wǎng)絡(luò)大數(shù)據(jù)分類評(píng)估帶來(lái)全新計(jì)算思路。