朱磊,凌嘉敏
(1.浙江理工大學(xué),浙江 杭州 310000;2.浙江外國語學(xué)院,浙江 杭州 310000)
大數(shù)據(jù)特征分類是指在互聯(lián)網(wǎng)手段的作用下,按照數(shù)據(jù)樣本表現(xiàn)形式所建立的數(shù)據(jù)信息特征提取與類別劃分過程[1]。一般來說,數(shù)據(jù)樣本類型越多,特征分類原則也就越復(fù)雜。然而隨著大數(shù)據(jù)樣本的不斷累積,主機元件對這些信息參量的準(zhǔn)確分類能力明顯下降,這不僅會導(dǎo)致數(shù)據(jù)誤傳,還會使主機運行速率受到影響。
常規(guī)的k-prototypes 聚類算法通過求解相異度系數(shù)來確定大數(shù)據(jù)的熵權(quán)分類標(biāo)準(zhǔn),又利用經(jīng)典kprototypes 算法分類處理大數(shù)據(jù)樣本特征[2]。然而利用此方法所得大數(shù)據(jù)的單位召回率水平相對較低,主機元件難以實現(xiàn)對大數(shù)據(jù)的精準(zhǔn)分類。
粗糙集可以在不應(yīng)用集合外先驗信息的同時,處理各項不完全、不確定、不精確的數(shù)據(jù)對象。粗糙集理論可以在保持網(wǎng)絡(luò)系統(tǒng)對數(shù)據(jù)樣本分類能力的同時,刪除初始數(shù)據(jù)中的冗余信息,使得網(wǎng)絡(luò)主機能夠準(zhǔn)確推斷出初始分類規(guī)則[3]。鄰域粗集神經(jīng)網(wǎng)絡(luò)是在粗糙集理論基礎(chǔ)上發(fā)展而來的一種可以實現(xiàn)數(shù)據(jù)區(qū)分的結(jié)構(gòu)。在特征參數(shù)難以被準(zhǔn)確測量出來的情況下,鄰域粗集神經(jīng)網(wǎng)絡(luò)會篩選待訓(xùn)練樣本,以供其他設(shè)備元件的裁決與判定。由于整個處理過程中無需其他元件的配合,故而其分類準(zhǔn)確性相對較高[4]。
隨著電商領(lǐng)域的發(fā)展及其所應(yīng)用技術(shù)的升級,電商大數(shù)據(jù)的累積量也在不斷增大,導(dǎo)致在既定時間范圍內(nèi),應(yīng)用常規(guī)工作軟件能捕捉到的電商大數(shù)據(jù)特征集合。為此,該文以鄰域粗集神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),設(shè)計了一種新的數(shù)據(jù)特征分類系統(tǒng)。
在大數(shù)據(jù)特征分類系統(tǒng)中,調(diào)制信息的選取過程應(yīng)建立在鄰域粗集神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,對所選數(shù)據(jù)樣本進(jìn)行逼近處理。
鄰域粗集的定義包含鄰域?;幚?、鄰域粗糙集逼近兩部分,具體研究方法如下。
1)鄰域?;幚?。鄰域粒化處理就是將已定義鄰域節(jié)點聚合在一起,再通過突出優(yōu)化的方式,使得原有粗糙集合對于數(shù)據(jù)樣本的承載能力大幅提升,從而使得網(wǎng)絡(luò)主機能夠準(zhǔn)確辨別出?;?jié)點所處的位置,從而增強大數(shù)據(jù)分類行為的執(zhí)行準(zhǔn)確性[5]。
假設(shè)en表示n個不重合的鄰域節(jié)點定義參量,其求解過程如下:
其中,wn表示n個粗糙度向量,δn表示n個大數(shù)據(jù)樣本取值系數(shù)。在式(1)的基礎(chǔ)上,假設(shè)Δe表示鄰域節(jié)點的單位變量,β表示鄰域標(biāo)記系數(shù),αi表示粒化度條件,α0為其初始賦值,聯(lián)立上述物理量,可將鄰域?;幚肀磉_(dá)式定義為:
?;葪l件越小表示鄰域節(jié)點的聚合能力越弱。在實施?;幚頃r,所需消耗的鄰域節(jié)點參量也就越少。
2)鄰域粗糙集的逼近。鄰域粗糙集逼近是在已知領(lǐng)域節(jié)點所處位置的基礎(chǔ)上,通過逼近處理的方式,確保邊緣節(jié)點與中心節(jié)點之間的距離始終處在可控范圍之內(nèi),從而使得鄰域粗集神經(jīng)網(wǎng)絡(luò)對于數(shù)據(jù)樣本的承載能力得到提升。
一般情況下,粗糙度較高側(cè)鄰域節(jié)點的分布數(shù)量較多,而粗糙度較低側(cè)鄰域節(jié)點的分布數(shù)量較少[6-7]。在實施逼近處理時,將鄰域節(jié)點劃分在同一平面內(nèi),且規(guī)定粗糙度平均值能夠描述該平面內(nèi)鄰域節(jié)點的具體分布狀態(tài)。假設(shè)r表示逼近參量的初始賦值,χ表示鄰域節(jié)點排列系數(shù),ymax表示粗糙度指標(biāo)的最大賦值結(jié)果,ymin表示粗糙度指標(biāo)的最小賦值結(jié)果,yˉ表示系數(shù)ymax與系數(shù)ymin的平均值,φ表示邊緣化逼近向量。在上述物理量的支持下,聯(lián)立式(2),可將鄰域粗糙集逼近原則定義為如下形式:
由于鄰域節(jié)點劃分平面不具備絕對性,所以鄰域粗糙集逼近表達(dá)式的作用只具有參考價值,并不能直接影響鄰域節(jié)點在神經(jīng)網(wǎng)絡(luò)模型內(nèi)的排列與分布形式。
神經(jīng)網(wǎng)絡(luò)模型是在鄰域粗集原則基礎(chǔ)上構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu),由輸入節(jié)點、篩選節(jié)點、聚合節(jié)點、輸出節(jié)點四部分組成。其中,輸入節(jié)點直接接觸數(shù)據(jù),負(fù)責(zé)錄入樣本信息[8-9];篩選節(jié)點與輸入節(jié)點按照鄰域粗集原則,挑選處理待分類的大數(shù)據(jù)特征參量,再將這些信息樣本反饋回系統(tǒng)數(shù)據(jù)庫主機;聚合節(jié)點對已篩選出來的大數(shù)據(jù)特征參量再次聚合,使分類主機能夠準(zhǔn)確分類數(shù)據(jù)樣本;輸出節(jié)點只負(fù)責(zé)顯示樣本信息,不能改變數(shù)據(jù)的排列形式[10]。鄰域粗集神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
利用鄰域粗集神經(jīng)網(wǎng)絡(luò)選取調(diào)制信息樣本后,按照調(diào)制識別器設(shè)置、大數(shù)據(jù)特征導(dǎo)出、多標(biāo)合并的處理流程,實現(xiàn)大數(shù)據(jù)特征分類系統(tǒng)的設(shè)計與應(yīng)用。
調(diào)制識別器負(fù)責(zé)提取鄰域粗集神經(jīng)網(wǎng)絡(luò)中存儲的數(shù)據(jù)樣本,利用傳輸信道將信息樣本反饋至底層調(diào)制芯片與Map 識別元件中,并于其中生成長期文本記憶,以供系統(tǒng)分類主機的直接調(diào)取與利用[11-12]。調(diào)制識別器結(jié)構(gòu)的連接簡圖如圖2 所示。
圖2 調(diào)制識別器結(jié)構(gòu)簡圖
鄰域粗集神經(jīng)網(wǎng)絡(luò)輸出的大數(shù)據(jù)樣本保持并序排列的分布狀態(tài),隨著網(wǎng)絡(luò)覆蓋區(qū)域的增大,其排布形式卻并不會發(fā)生改變。作為調(diào)制識別器的核心處理設(shè)備,數(shù)據(jù)調(diào)制芯片、Map 識別元件對于數(shù)據(jù)樣本的存儲能力并無明顯差別,但前者對于數(shù)據(jù)信息排列標(biāo)準(zhǔn)的要求相對較高,其內(nèi)部存儲對象必須保持為順序排列狀態(tài),而后者對于數(shù)據(jù)信息的排列標(biāo)準(zhǔn)無嚴(yán)格要求[13]。
大數(shù)據(jù)特征導(dǎo)出過程就是將大數(shù)據(jù)樣本由鄰域粗集神經(jīng)網(wǎng)絡(luò)導(dǎo)出至分類系統(tǒng)運行主機的過程。由于調(diào)制識別器設(shè)備的存在,大數(shù)據(jù)樣本的單位輸出量并不會無限增大,故而在系統(tǒng)運行過程中,當(dāng)已導(dǎo)出特征參量達(dá)到既定數(shù)值水平后,神經(jīng)網(wǎng)絡(luò)體系會自動判定系統(tǒng)網(wǎng)絡(luò)主機已達(dá)到最大運行速率[14-15]。假設(shè)u表示基于鄰域粗集神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)分類指標(biāo),其求解表達(dá)式如下:
其中,γ表示鄰域粗集神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)樣本識別權(quán)限,ε表示數(shù)據(jù)樣本度量值,Iε表示基于系數(shù)ε的大數(shù)據(jù)查詢條件。在此基礎(chǔ)上,令ι、κ表示兩個隨機選取的大數(shù)據(jù)樣本傳輸量,Aι表示基于ι的分類特征,Aκ表示基于κ的分類特征,φ表示大數(shù)據(jù)樣本的分配權(quán)重值,聯(lián)立上述物理量,可將大數(shù)據(jù)特征導(dǎo)出結(jié)果表示為:
若ι與κ的差值較小,則表示待分類的大數(shù)據(jù)特征指標(biāo)相對較少;反之,則表示特征指標(biāo)相對較多,鄰域粗集神經(jīng)網(wǎng)絡(luò)所需承擔(dān)的數(shù)據(jù)處理指令相對較為復(fù)雜。
多標(biāo)合并是設(shè)計大數(shù)據(jù)特征分類系統(tǒng)的關(guān)鍵處理環(huán)節(jié),可以將已導(dǎo)出的大數(shù)據(jù)特征串聯(lián)在一起,以供鄰域粗集神經(jīng)網(wǎng)絡(luò)的自主選擇[16]。由于鄰域粗集神經(jīng)網(wǎng)絡(luò)中同時運行的大數(shù)據(jù)總量相對較多,所以在求解多標(biāo)合并規(guī)則時,應(yīng)確定當(dāng)前情況下待分類大數(shù)據(jù)特征參量的具體數(shù)值水平。假設(shè)kn表示n個待運行的大數(shù)據(jù)樣本,λn分別表示與n個大數(shù)據(jù)樣本匹配的特征參量合并處理系數(shù),h表示基于鄰域粗集神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)標(biāo)定參量,且其取值恒大于自然數(shù)1。大數(shù)據(jù)特征分類系統(tǒng)多標(biāo)合并原則的推導(dǎo)條件滿足式(6):
按照多標(biāo)合并原則,調(diào)節(jié)相關(guān)硬件設(shè)備的運行狀態(tài),實現(xiàn)基于鄰域粗集神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)特征分類系統(tǒng)的順利應(yīng)用。
為驗證上述分類系統(tǒng)的執(zhí)行能力,設(shè)計對比實驗,具體實驗流程如下:
1)將基于鄰域粗集神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)特征分類系統(tǒng)作為實驗組,控制主機元件,并記錄相關(guān)指標(biāo)參量的數(shù)值變化情況;
2)閉合相關(guān)控制按鈕,使實驗組系統(tǒng)進(jìn)入自主運行狀態(tài)后,關(guān)閉控制按鈕,調(diào)節(jié)相關(guān)設(shè)備元件至初始狀態(tài);
3)將傳統(tǒng)的k-prototypes 聚類算法作為對照組,控制主機元件,記錄相關(guān)指標(biāo)參量的數(shù)值變化情況;
4)閉合相關(guān)控制按鈕,使對照組系統(tǒng)進(jìn)入自主運行狀態(tài);
5)對比實驗組、對照組記錄數(shù)值,總結(jié)實驗規(guī)律。
主機元件對大數(shù)據(jù)樣本的分類準(zhǔn)確性可以反映出所選系統(tǒng)對大數(shù)據(jù)的傳輸能力。主機元件對大數(shù)據(jù)樣本的分類準(zhǔn)確性越高,系統(tǒng)對大數(shù)據(jù)的傳輸能力就越強,即數(shù)據(jù)誤傳行為的出現(xiàn)可能性越小。該指標(biāo)的計算過程為:
其中,η表示主機元件對大數(shù)據(jù)樣本的分類準(zhǔn)確性,ξ表示實驗數(shù)據(jù)樣本的單位召回率,ω表示收斂分類容差。根據(jù)式(7)可知,實驗數(shù)據(jù)樣本的單位召回率越高、收斂分類容差越大,表示主機元件對大數(shù)據(jù)樣本的分類準(zhǔn)確性越高。
圖3 反映了實驗組、對照組實驗數(shù)據(jù)樣本單位召回率指標(biāo)的數(shù)值變化情況。
圖3 實驗數(shù)據(jù)樣本單位召回率
分析圖3 可知,實驗組數(shù)據(jù)樣本單位召回率指標(biāo)保持先上升、再波動、最后基本趨于穩(wěn)定的數(shù)值變化狀態(tài),在15 min時,單位召回率指標(biāo)達(dá)到最大,數(shù)值為65%;對照組數(shù)據(jù)樣本單位召回率指標(biāo)則呈現(xiàn)出先上升、再下降的數(shù)值變化態(tài)勢,在20 min時,單位召回率指標(biāo)取得最大值32%,低于實驗組最大數(shù)值。由此可知,實驗組系統(tǒng)可將大數(shù)據(jù)的單位召回率提升至65%,明顯優(yōu)于對照組,說明實驗組系統(tǒng)主機元件對大數(shù)據(jù)樣本的分類準(zhǔn)確性也更高。表1 統(tǒng)計了收斂分類容差的變化情況。
表1 收斂分類容差指標(biāo)
由表1 可知,隨著實驗時間的增加,實驗組、對照組的收斂分類容差指標(biāo)均不斷增大,但實驗組容差指標(biāo)均值略高于對照組。在整個實驗過程中,實驗組收斂分類容差指標(biāo)最大值1.20,與對照組最大值1.10 相比,增大了0.10。
為確定系統(tǒng)對于大數(shù)據(jù)特征的最強分類能力,求解準(zhǔn)確性指標(biāo)。選取樣本單位召回率指標(biāo)、收斂分類容差指標(biāo)的最大值,計算實驗組、對照組分類準(zhǔn)確性,具體計算過程如下:
其中,C、Cmax分別表示樣本單位召回率指標(biāo)及其最大值,D、Dmax分別表示收斂分類容差指標(biāo)及其最大值,ω1、ω2分別表示召回率和分類容差的權(quán)重。經(jīng)式(8)的計算,統(tǒng)計實驗組、對照組的分類準(zhǔn)確性,結(jié)果如表2 所示。
表2 分類準(zhǔn)確性
分析表2 可知,實驗組、對照組的分類準(zhǔn)確性呈現(xiàn)上升態(tài)勢,經(jīng)多次測試后,實驗組的分類準(zhǔn)確性達(dá)到94.55%,明顯高于對照組。
綜上可知,應(yīng)用傳統(tǒng)系統(tǒng)后,實驗數(shù)據(jù)樣本單位召回率指標(biāo)的數(shù)值水平相對較低,故而該系統(tǒng)并不能完全滿足主機元件對大數(shù)據(jù)樣本進(jìn)行精準(zhǔn)分類的需求;基于鄰域粗集神經(jīng)網(wǎng)絡(luò)的系統(tǒng)能夠有效提升數(shù)據(jù)樣本的單位召回率水平,在解決大數(shù)據(jù)誤傳問題、提升主機元件對大數(shù)據(jù)分類準(zhǔn)確性方面具有更強的實用性價值。
以鄰域粗集神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),大數(shù)據(jù)特征分類系統(tǒng)設(shè)置了調(diào)制識別器結(jié)構(gòu),又通過推導(dǎo)大數(shù)據(jù)特征導(dǎo)出條件的方式,定義多標(biāo)合并表達(dá)式。與常規(guī)的k-prototypes 聚類算法相比,這種新型分類系統(tǒng)從提升主機元件對大數(shù)據(jù)分類準(zhǔn)確性的角度著手,能夠在解決數(shù)據(jù)誤傳問題的同時,聯(lián)合相關(guān)應(yīng)用設(shè)備,調(diào)整鄰域粗集神經(jīng)網(wǎng)絡(luò)的實際覆蓋面積,不僅實現(xiàn)了對相關(guān)特征分類節(jié)點的鄰域粒化處理,也使得鄰域粗糙集結(jié)果能夠更加逼近實際約束標(biāo)準(zhǔn)。