倪 海,邵英儉
(1. 北華大學(xué)大數(shù)據(jù)與智慧校園管理中心,吉林 吉林 132013;2. 北華大學(xué),吉林 吉林 132013)
信息時(shí)代快速發(fā)展的背景下,互聯(lián)網(wǎng)技術(shù)也隨之成為獲取大數(shù)據(jù)信息的重要手段,其從原來單一化趨勢逐漸朝著集成化和大數(shù)據(jù)化的方向發(fā)展[1]。在大數(shù)據(jù)中,將信息主要分為同步信息和異步信息兩種,在異步信息中,需要將不同時(shí)間段的信息進(jìn)行分類[2-3]。規(guī)則引擎是一種高效的決策工具,它能夠從成千上萬異步信息中進(jìn)行快速、準(zhǔn)確的反復(fù)判決,并且負(fù)責(zé)從異步信息的微觀層面上對信息進(jìn)行邏輯和現(xiàn)實(shí)的分離。
文獻(xiàn)[4]提出基于快速隱層優(yōu)化的大數(shù)據(jù)分類方法,根據(jù)多個(gè)隱層網(wǎng)絡(luò)同時(shí)訓(xùn)練優(yōu)化隱層節(jié)點(diǎn)個(gè)數(shù),采用分布式方法通過計(jì)算實(shí)現(xiàn)信息分類。該方法穩(wěn)定性較強(qiáng),但分類準(zhǔn)確度有待提高,并且不能對不同信息類型進(jìn)行有效劃分。文獻(xiàn)[5]提出基于多智能體策略的數(shù)據(jù)分類方法,將多智能體技術(shù)應(yīng)用到網(wǎng)絡(luò)進(jìn)化中,根據(jù)克隆選擇算法模擬網(wǎng)絡(luò)模型,通過增加抗體間的競爭提高網(wǎng)絡(luò)分析能力。該方法成本消耗較低,但由于人工神經(jīng)大數(shù)據(jù)在整個(gè)訓(xùn)練過程中,速度較慢,容易陷入局部最優(yōu)的情況,從而嚴(yán)重影響了分類準(zhǔn)確度和效率。
針對上述方法存在的問題,提出面向大數(shù)據(jù)的規(guī)則引擎驅(qū)動(dòng)下信息分類方法。大數(shù)據(jù)信息分類問題屬于一個(gè)非線性問題,而支持向量機(jī)能夠得到大數(shù)據(jù)信息分類問題的全局最優(yōu)解,在非線性問題中具有顯著的優(yōu)勢,目前已經(jīng)在大數(shù)據(jù)信息分類方面取到了廣泛地應(yīng)用。粒子群優(yōu)化算法是一種全局優(yōu)化算法,它具有簡單易實(shí)現(xiàn)的優(yōu)點(diǎn),已經(jīng)被廣泛的應(yīng)用到分類識別等領(lǐng)域。根據(jù)規(guī)則引擎技術(shù),結(jié)合支持向量機(jī)、粒子群算法與數(shù)據(jù)概化理論,完成大數(shù)據(jù)信息分類,并通過仿真驗(yàn)證了所提方法的有效性。
規(guī)則引擎在大數(shù)據(jù)信息分類處理技術(shù)的主要目標(biāo)是:根據(jù)相關(guān)的大數(shù)據(jù)信息,建立相應(yīng)的分類處理規(guī)則,實(shí)現(xiàn)大數(shù)據(jù)信息規(guī)則管理流程的自動(dòng)化[6];應(yīng)用規(guī)則引擎技術(shù),構(gòu)建信息分類處理技術(shù)平臺(tái),使工作人員能夠隨時(shí)進(jìn)行信息規(guī)則的制定和管理;充分應(yīng)用成熟的引擎部件,減少信息處理過程中的編程代碼的使用頻率;在一定程度上減少編程的工作量,提高大數(shù)據(jù)信息分類的效率。
在規(guī)則庫中包含所有針對大數(shù)據(jù)信息所建立的生成式規(guī)則,該規(guī)則根據(jù)信息所對應(yīng)的參數(shù)進(jìn)行描述,并且各個(gè)參數(shù)之間具有一定的邏輯性,以xml的格式進(jìn)行存儲(chǔ),其分類處理工作具體流程如下:
1)利用規(guī)則引擎中的接口函數(shù),構(gòu)建規(guī)則引擎對象。
2)利用規(guī)則定制模塊,將規(guī)則集中的大數(shù)據(jù)信息傳送到規(guī)則引擎中。
3)開啟引擎,將信息輸入到支持向量機(jī)中,采用粒子群算法選取最優(yōu)的支持向量機(jī)參數(shù)。
4)得出信息的分類處理結(jié)果,并將其傳入到數(shù)據(jù)庫中進(jìn)行保存[7]。
通過對規(guī)則引擎下的大數(shù)據(jù)信息進(jìn)行分析,構(gòu)建大數(shù)據(jù)信息集模型,獲取大數(shù)據(jù)信息特征,具體過程如下:
為了能夠?qū)崿F(xiàn)對大數(shù)據(jù)信息的分類,需要建立大數(shù)據(jù)信息集模型,以此來得到大數(shù)據(jù)信息特征。假設(shè),大數(shù)據(jù)信息序列為s1(t),s2(t),…,sp(t),其能夠?qū)?jié)點(diǎn)能量預(yù)測進(jìn)行基本描述[8],利用下式給出節(jié)點(diǎn)能量信息的狀態(tài)空間
S={k,n}
(1)
式中,0≤k≤K,0≤n≤N,k,n分別表示節(jié)點(diǎn)能量信息的橫縱坐標(biāo),根據(jù)多路由探測,將大數(shù)據(jù)信息進(jìn)行發(fā)送,得到大數(shù)據(jù)局部信息的量化噪聲,其表達(dá)式為
mi(k)=S+qi(k)
(2)
式中,qi(k)表示信息量化噪聲。
大數(shù)據(jù)信息量化噪聲是一種高斯白噪聲,為了方便分析,在設(shè)定大數(shù)據(jù)信息量化的過程中,需要保證沒有外界噪聲的加入。即要將節(jié)點(diǎn)信息序列Pn(t)和大數(shù)據(jù)信息序列Sn(t)相結(jié)合進(jìn)行卷積計(jì)算,得到兩者之間的卷積結(jié)果,構(gòu)建大數(shù)據(jù)信息集模型為
E{w(k)}=Bi(k)×mi(k)
(3)
式中,Bi(k)為卷積計(jì)算得到的數(shù)值。以式(3)為基礎(chǔ),得出大數(shù)據(jù)信息特征表達(dá)式
(4)
采用核函數(shù)將大數(shù)據(jù)信息特征原始分類問題轉(zhuǎn)換到高維空間中,從而進(jìn)行線性可分問題分析,并建立分類超平面[9]。
假設(shè),用xi∈Rn表示訓(xùn)練樣本向量,其所對應(yīng)的期望輸出用yi∈{+1,-1}來表示,l代表訓(xùn)練樣本的數(shù)量,d代表大數(shù)據(jù)信息的維數(shù)。利用下式給出,支持向量機(jī)所要解決的原始優(yōu)化問題
(5)
式中,C表示懲罰因子;ξi表示大數(shù)據(jù)信息松弛變量。則原始優(yōu)化問題相應(yīng)的決策函數(shù)為
(6)
采用不同的核函數(shù),可以建立不一樣的支持向量機(jī)分類器,現(xiàn)階段經(jīng)常使用的核函數(shù)主要是徑向基函數(shù)(RBF),因?yàn)槠渲恍枰_定一個(gè)參數(shù),并且具有和其它函數(shù)一樣的全局性能,所以采用RBF作為支持向量機(jī)的核函數(shù)[10],利用下式給出其表達(dá)式
(7)
式中,σ表示核函數(shù)寬度參數(shù)。
當(dāng)采用RBF作為支持向量機(jī)的核函數(shù)時(shí),需要對兩個(gè)參數(shù)進(jìn)行優(yōu)化,這兩個(gè)參數(shù)分別是xi和xj,xi和xj對支持向量機(jī)的分類性能會(huì)造成一定的影響。在支持向量機(jī)訓(xùn)練的過程中,對這兩個(gè)參數(shù)進(jìn)行合理的選取非常重要,采用粒子群優(yōu)化算法找出最優(yōu)的支持向量機(jī)參數(shù),以此獲取最佳分類器[11]。
假設(shè),搜索空間是由m個(gè)粒子構(gòu)成的一個(gè)粒子種群,每一個(gè)單獨(dú)的粒子都會(huì)被看成是這個(gè)D維空間中的一個(gè)點(diǎn)。其狀態(tài)根據(jù)它的更新位置和速度進(jìn)行描述
(8)
式中,ω表示慣性權(quán)重值,其計(jì)算公式如式(9)所示。隨著迭代次數(shù)的不斷增加,利用式(9)從起始值開始進(jìn)行線性遞減;c1和c2表示為正整數(shù)的學(xué)習(xí)因子;rand代表處于0到1之間的隨機(jī)數(shù)。
(9)
采用粒子群算法對支持向量機(jī)參數(shù)進(jìn)行優(yōu)化,具體步驟如下
1)設(shè)定支持向量機(jī)參數(shù)的整個(gè)搜索范圍和粒子群種群中所有粒子的搜索范圍和最大速度。
2)初始化粒子群。隨機(jī)生成xi和xj這兩個(gè)參數(shù),將它們當(dāng)成種群中每個(gè)粒子的起始位置,并隨機(jī)設(shè)定每個(gè)粒子的起始速度。
3)求出各個(gè)粒子的適應(yīng)度,得到每個(gè)粒子的全局位置,對該參數(shù)進(jìn)行優(yōu)化的主要目的是提高對大數(shù)據(jù)信息分類的正確率,將大數(shù)據(jù)信息分類正確率作為適應(yīng)度函數(shù)
(10)
式中,yt和y分別表示大數(shù)據(jù)信息初步分類的樣本數(shù)量和總數(shù)。
4)根據(jù)式(9)得到各個(gè)粒子的慣性權(quán)重值,并通過式(8)得到所有粒子更新后的速度和位置,獲取全局最優(yōu)位置。
5)判斷是否滿足最大的迭代次數(shù),當(dāng)它滿足時(shí),停止搜索;不滿足則轉(zhuǎn)到(4),繼續(xù)搜索[12]。
根據(jù)支持向量機(jī)參數(shù)選取結(jié)果實(shí)現(xiàn)信息的初步分類。
在信息分類的過程中,需要使大數(shù)據(jù)中的眾多數(shù)據(jù)以最簡單的形式呈現(xiàn)出其最重要的屬性信息,將其從較低概念層抽象到較高概念層的方法稱之為數(shù)據(jù)概化理論。通過數(shù)據(jù)概化理論能夠?qū)崿F(xiàn)對信息屬性的進(jìn)一步分類。通常情況下,可以將信息劃分成數(shù)據(jù)立方體,把屬性不同的信息進(jìn)行分類是面向?qū)傩詺w納中較為重要的手段之一,針對不同的信息屬性,將每個(gè)不同的信息分配到任意分類中相對容易,但在實(shí)際分類過程中,經(jīng)常會(huì)出現(xiàn)部分信息屬性模糊的問題。對于未知的信息屬性進(jìn)行分類,可以利用高聚類、低耦合的原理對信息屬性進(jìn)行最優(yōu)分類,具體分類過程如下。
信息屬性分類從本質(zhì)上來說是對多維的信息數(shù)據(jù)樣本進(jìn)行分類,將數(shù)據(jù)樣本值分成k組,將n描述為取出樣本的次數(shù)。通過列舉不同劃分結(jié)果,選擇出其中特征最為明顯的部分,用來作為判定的分類結(jié)果,根據(jù)這一原則進(jìn)行最優(yōu)分類。
假設(shè)有序樣本為X1,X2,X3…,Xi,其中Xi=(X1,X2,X3,Xm),那么假設(shè)其中某一類的樣本數(shù)據(jù)為{Xj,Xj+1,Xi},則該類的平均向量可以表示為
(11)
將數(shù)據(jù)樣本劃分為q個(gè)種類,那么種類劃分的第一個(gè)種類就是(Xq1,Xq1+1,Xq2-1),以此類推第二個(gè)為{Xq2,Xq2+1,Xq3-1},以此類推,當(dāng)樣本確定取樣數(shù)值后,那么取值向量之間的總距離平方和是一個(gè)定值,那么根據(jù)上述分析,就可以通過遞推的形式實(shí)現(xiàn)對規(guī)則引擎驅(qū)動(dòng)下的信息屬性進(jìn)行分類。
為了驗(yàn)證所提出面向大數(shù)據(jù)的規(guī)則引擎驅(qū)動(dòng)下信息分類方法的綜合有效性,需要進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)用Matlab軟件進(jìn)行數(shù)據(jù)處理,并在NS-2平臺(tái)上進(jìn)行方法模擬。隨機(jī)采用基于快速隱層優(yōu)化的大數(shù)據(jù)分類方法(方法1)和基于多智能體策略的數(shù)據(jù)分類方法(方法2)與所提方法進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下所示。
將平均誤分率(%)作為對比指標(biāo),對不同方法進(jìn)行對比,結(jié)果如圖1所示。
圖1 不同方法的平均誤分率對比結(jié)果
分析圖1可知,樣本量不同的條件下,不同方法平均誤分率都有不同程度的變化。通過圖1進(jìn)行對比可知,方法1和方法2的平均誤分率較高,而所提方法的平均誤分率低于文獻(xiàn)對比方法,因此證明,所提方法提高了大數(shù)據(jù)信息分類的準(zhǔn)確率。
進(jìn)行分類耗時(shí)(s)對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 不同方法分類消耗對比實(shí)驗(yàn)
分析圖2可知,隨著樣本量的不斷增加,不同方法的分類耗時(shí)均呈現(xiàn)出持續(xù)增長的趨勢。但是所提方法的分類耗時(shí)最低,說明所提方法的分類效率最高,可以實(shí)現(xiàn)對信息的快速分類,具有一定的實(shí)用價(jià)值。
進(jìn)行分類效果對比實(shí)驗(yàn),本次實(shí)驗(yàn)隨機(jī)抽取多個(gè)信息數(shù)據(jù),將這些信息數(shù)據(jù)分成3個(gè)信息集,分別為信息集1、信息集2和信息集3。其中,信息集1中包含8個(gè)信息素、信息集2中包含14個(gè)信息素,信息集3中包含10個(gè)信息素,分別采用所提方法和方法1、方法2對數(shù)據(jù)集進(jìn)行分類實(shí)驗(yàn),圖3為信息素原始分布狀態(tài),圖4為經(jīng)過不同方法分類后的分布結(jié)果。
圖3 信息素原始分布狀態(tài)
圖4 不同方法分類效果對比實(shí)驗(yàn)
分析圖4中的信息劃分結(jié)果可知,采用所提方法能夠有效劃分出不同信息集中的信息素,并將它們劃分至各自的數(shù)據(jù)集中,而方法1和方法2雖然可以將一部分信息進(jìn)行劃分,但是劃分結(jié)果中部分信息素仍然不能劃分至相應(yīng)的數(shù)據(jù)集中,說明所提方法能夠有效劃分不同類型的信息,劃分效果較好。
根據(jù)上述實(shí)驗(yàn)可以看出所提方法在分類結(jié)果準(zhǔn)確性、分類效率和分類效果方面均明顯優(yōu)于方法1和方法2,經(jīng)過上述分析,可以驗(yàn)證面向大數(shù)據(jù)的規(guī)則引擎驅(qū)動(dòng)下信息分類方法的有效性,證明其具備極強(qiáng)的信息分類能力。
針對以往大數(shù)據(jù)信息分類中存在的分類偏差較大、分類效率不高和分類效果不佳的問題,提出一種面向大數(shù)據(jù)的規(guī)則引擎驅(qū)動(dòng)下信息分類方法。該方法通過求解各個(gè)粒子的適應(yīng)度,得到了每個(gè)粒子的全局位置,同時(shí),對該參數(shù)進(jìn)行優(yōu)化提高了對大數(shù)據(jù)信息分類的準(zhǔn)確率。并根據(jù)數(shù)據(jù)概化理論對初步分類結(jié)果進(jìn)行進(jìn)一步的分類,實(shí)現(xiàn)信息屬性的最優(yōu)分類。實(shí)驗(yàn)結(jié)果表明,所提方法平均誤分率較低、分類完成時(shí)間較短、能夠?qū)⒉煌愋偷男畔⑦M(jìn)行劃分,分類效果較佳。未來階段將針對文章的不足之處加以改正,為異步融合算法的應(yīng)用與發(fā)展提供理論依據(jù)和參考。