張 倩,吳 瓊,時(shí)慶濤
(長(zhǎng)春工業(yè)大學(xué)人文信息學(xué)院,吉林 長(zhǎng)春 130000)
隨著信息技術(shù)研究的不斷深入,人們獲取大數(shù)據(jù)的方式越來(lái)越多,成本也越來(lái)越低,使得大數(shù)據(jù)的形式多種多樣,來(lái)源也無(wú)法確定。因此,對(duì)大數(shù)據(jù)標(biāo)簽的分類已經(jīng)遠(yuǎn)遠(yuǎn)超出了現(xiàn)有系統(tǒng)的正常處理極限。不僅如此,對(duì)于大數(shù)據(jù)的標(biāo)簽分類不同于小規(guī)模數(shù)據(jù)分類,其具有大量的的深度知識(shí),信息含量偏高。為此,對(duì)于大數(shù)據(jù)標(biāo)簽如何實(shí)現(xiàn)高效分類成為了當(dāng)前研究熱點(diǎn)之一。
文獻(xiàn)[1]利用樸素貝葉斯算法,以Map Reduce和Apache Spark框架為依據(jù),構(gòu)建了分布式樸素貝葉斯文本分類模型。在該模型中實(shí)現(xiàn)對(duì)樣本數(shù)據(jù)集的分類。該算法中將Map Reduce的并行優(yōu)勢(shì)運(yùn)用的非常到位,最終直接在分類結(jié)果中找出最大值所對(duì)應(yīng)的文本標(biāo)簽即可。但是在該算法中,文本數(shù)據(jù)的復(fù)雜程度較高且訪問(wèn)量較大,在后續(xù)的計(jì)算過(guò)程中將會(huì)浪費(fèi)大量的時(shí)間,因此,不利于大范圍推廣使用;文獻(xiàn)[2]以深度自動(dòng)編碼器為基礎(chǔ),展開(kāi)對(duì)多標(biāo)簽分類的研究。利用軌跡計(jì)算算法對(duì)網(wǎng)絡(luò)中不同節(jié)點(diǎn)之間的結(jié)構(gòu)相似性進(jìn)行研究,并將最終結(jié)果輸入到深度自動(dòng)編碼器中;然后對(duì)網(wǎng)絡(luò)中所有節(jié)點(diǎn)的領(lǐng)域信息進(jìn)行聯(lián)合優(yōu)化處理,使得網(wǎng)絡(luò)展現(xiàn)出高度非線性的特性,最后,再利用支持向量機(jī)實(shí)現(xiàn)對(duì)多標(biāo)簽的分類。該算法充分考慮了節(jié)點(diǎn)之間的相似性,分類效果比較明顯,但是計(jì)算量巨大,過(guò)程較為繁瑣,分類實(shí)時(shí)性能較低。
綜合考慮以上算法的優(yōu)缺點(diǎn),本文將粒度神經(jīng)網(wǎng)絡(luò)引入其中,提出了一種新的大數(shù)據(jù)標(biāo)簽分類方法。首先,通過(guò)對(duì)大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)以及先驗(yàn)信息進(jìn)行處理,得到大數(shù)據(jù)標(biāo)簽的矢量長(zhǎng)度值,進(jìn)而展開(kāi)對(duì)大數(shù)據(jù)標(biāo)簽的屬性特征分析。然后通過(guò)大數(shù)據(jù)信息重排序列,完成對(duì)大數(shù)據(jù)標(biāo)簽的屬性分類,由此構(gòu)建大數(shù)據(jù)采樣序列的擬合模型。將粒度神經(jīng)網(wǎng)絡(luò)應(yīng)用其中,通過(guò)設(shè)置合理的隱含層節(jié)點(diǎn)數(shù)以及主要的參數(shù)值,使輸出結(jié)果為理想值。最后通過(guò)建立一個(gè)無(wú)監(jiān)督學(xué)習(xí)過(guò)程,選取合適的全局適應(yīng)度與標(biāo)簽屬性適應(yīng)度,實(shí)現(xiàn)對(duì)大數(shù)據(jù)標(biāo)簽的分類。
大數(shù)據(jù)的存儲(chǔ)數(shù)據(jù)庫(kù)常以交互信息網(wǎng)絡(luò)[3]的形式存在,存儲(chǔ)數(shù)據(jù)庫(kù)主要由三層構(gòu)成:I/O輸入/輸出、USB接口和磁盤(pán)層,三層模塊協(xié)同工作,完成對(duì)大數(shù)據(jù)的存儲(chǔ)以及交互。
在大數(shù)據(jù)存儲(chǔ)庫(kù)模型中,假設(shè)存儲(chǔ)數(shù)據(jù)庫(kù)的一個(gè)分支為T(mén)i=(i=1,2…,n),其中,n表示分支數(shù)量,其長(zhǎng)度用Qi(Qi≥1)來(lái)表示,由此可得到帶有支持度值的所有存儲(chǔ)節(jié)點(diǎn)集合。對(duì)于主支干節(jié)點(diǎn),只能進(jìn)行一次支持度計(jì)算和集合操作,掃描分支還可得到與之對(duì)應(yīng)的B的節(jié)點(diǎn)集合{B,D}{B,A}{…},對(duì)于大數(shù)據(jù)存儲(chǔ)庫(kù)中的頻繁項(xiàng)集D,在設(shè)置大數(shù)據(jù)標(biāo)簽特征分類匹配條件時(shí),要充分考慮標(biāo)簽特征的分布函數(shù),其結(jié)果對(duì)大數(shù)據(jù)標(biāo)簽的分類尤為重要。大數(shù)據(jù)標(biāo)簽分布函數(shù)計(jì)算公式如式(1)所示:
F(Gj,i)=w1·R(Gj,i)+w2·(1-dis(Gj,i))
(1)
其中,i表示大數(shù)據(jù)標(biāo)簽在特征采樣過(guò)程中所占用的時(shí)間序列節(jié)點(diǎn)數(shù);w1表示簇頭節(jié)點(diǎn)所對(duì)應(yīng)的加權(quán)權(quán)重值w;w2表示大數(shù)據(jù)標(biāo)簽分類節(jié)點(diǎn)所對(duì)應(yīng)的加權(quán)權(quán)重值;R(Gj,i)表示大數(shù)據(jù)標(biāo)簽在存儲(chǔ)數(shù)據(jù)庫(kù)內(nèi)遞歸特征;dis(Gj,i)表示兩個(gè)大數(shù)據(jù)標(biāo)簽在存儲(chǔ)庫(kù)內(nèi)的歐式距離,可用式(2)表示為
dis(Gj,i)=[x(t0),x(t0+Δt),…,x(t0+(K-1)Δt)]
(2)
式中,x(t0)表示存儲(chǔ)庫(kù)內(nèi),對(duì)大數(shù)據(jù)進(jìn)行采樣處理的時(shí)間序列;K為存儲(chǔ)數(shù)據(jù)庫(kù)內(nèi)列空間的窗函數(shù)。
根據(jù)式(2)的計(jì)算結(jié)果以及存儲(chǔ)數(shù)據(jù)庫(kù)的時(shí)間序列模型,可得到大數(shù)據(jù)標(biāo)簽的時(shí)間序列采樣如式(3)所示
I={x(t0+iΔt)},i=0,1,2,…,N-1
(3)
其中,N表示大數(shù)據(jù)標(biāo)簽的矢量長(zhǎng)度。
通過(guò)上述對(duì)大數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)模型的分析,以及對(duì)大數(shù)據(jù)標(biāo)簽的矢量長(zhǎng)度值[4]進(jìn)行計(jì)算,可展開(kāi)對(duì)大數(shù)據(jù)標(biāo)簽屬性特征的劃分,進(jìn)而實(shí)現(xiàn)對(duì)大數(shù)據(jù)標(biāo)簽的分類計(jì)算。
通過(guò)高維相空間重構(gòu)模型可對(duì)存儲(chǔ)數(shù)據(jù)庫(kù)中的大數(shù)據(jù)執(zhí)行信息重排操作,利用因子分析法,對(duì)大數(shù)據(jù)標(biāo)簽時(shí)間序列的主成分概率密度置信域進(jìn)行分析計(jì)算,如式(4)所示
(4)
(5)
式中,{ηi}的均值始終為0,σ2表示大數(shù)據(jù)標(biāo)簽標(biāo)準(zhǔn)正態(tài)分布[5]的方差值,φ0,φ1,φ2,…,φp統(tǒng)稱為大數(shù)據(jù)采樣時(shí)間序列的關(guān)聯(lián)系數(shù),θ1,θ2,…,θq為滑動(dòng)時(shí)間窗口的平均系數(shù)值。根據(jù)上述計(jì)算,即可完成對(duì)大數(shù)據(jù)標(biāo)簽的屬性特征劃分,結(jié)合粒度神經(jīng)網(wǎng)絡(luò),展開(kāi)對(duì)標(biāo)簽分類算法的研究。
粒度神經(jīng)網(wǎng)絡(luò)主要由輸入層、隱含層和輸出層三個(gè)層次構(gòu)成,結(jié)構(gòu)圖如圖1所示。
圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
(6)
其中,yh表示粒度神經(jīng)網(wǎng)絡(luò)中第h個(gè)節(jié)點(diǎn)的輸出結(jié)果;whj表示隱含層內(nèi)節(jié)點(diǎn)j與輸出層內(nèi)節(jié)點(diǎn)d之間連接的權(quán)重值;αj(xd)表示隱含層內(nèi)與第j個(gè)節(jié)點(diǎn)所對(duì)應(yīng)的基函數(shù)α。
通過(guò)對(duì)式(6)的計(jì)算結(jié)果可知,在粒度神經(jīng)網(wǎng)絡(luò)中,隱含層內(nèi)的節(jié)點(diǎn)信息將會(huì)影響到輸出層的輸出結(jié)果,為將影響控制在合理范圍內(nèi),可以通過(guò)設(shè)置隱含層內(nèi)與節(jié)點(diǎn)對(duì)應(yīng)的基函數(shù),或者調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)中的一些主要參數(shù)值,使得各個(gè)節(jié)點(diǎn)之間的連接方式發(fā)生改變,選擇影響最小的連接方式即可。隨機(jī)給定一個(gè)輸入值,假設(shè)該值可以確保αj(xd)中非零節(jié)點(diǎn)個(gè)數(shù)最少,此時(shí)αj(xd)中大部分節(jié)點(diǎn)數(shù)都是零。在實(shí)際的運(yùn)用中,對(duì)于隨機(jī)給定的輸入值,只要對(duì)隱含層內(nèi)非零節(jié)點(diǎn)的輸出結(jié)果進(jìn)行加權(quán)求和計(jì)算,即可得到理想數(shù)值。
在對(duì)大數(shù)據(jù)主特征提取的多種方法中,多維標(biāo)簽屬性的主成分分析法應(yīng)用得最為廣泛,本文運(yùn)用該方法進(jìn)一步研究大數(shù)據(jù)標(biāo)簽的屬性特征,本文對(duì)該方法做了部分改進(jìn),提出了一種基于粒度神經(jīng)網(wǎng)絡(luò)的大數(shù)據(jù)標(biāo)簽分類方法。通過(guò)粒度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)大數(shù)據(jù)聚類中心[7]的自動(dòng)更新和標(biāo)簽分類屬性識(shí)別。在標(biāo)簽分類屬性識(shí)別過(guò)程中,在領(lǐng)域L內(nèi)t時(shí)刻下對(duì)大數(shù)據(jù)標(biāo)簽的分類進(jìn)行學(xué)習(xí)迭代計(jì)算,如式(7)所示
(7)
選擇合適的大數(shù)據(jù)標(biāo)簽加權(quán)權(quán)重值進(jìn)行計(jì)算,得到任意k時(shí)刻下大數(shù)據(jù)的信息流狀態(tài)為
(8)
在高維相空間重構(gòu)模型中,通過(guò)關(guān)聯(lián)規(guī)則協(xié)議[8]對(duì)大數(shù)據(jù)標(biāo)簽進(jìn)行屬性特征量的提取,再運(yùn)用主成分分析法對(duì)大數(shù)據(jù)隱含的某些特征進(jìn)行分析計(jì)算,最終結(jié)果即為大數(shù)據(jù)采樣時(shí)間序列在tn時(shí)刻下的狀態(tài)信息,如式(9)所示
(9)
假設(shè)在粒度神經(jīng)網(wǎng)絡(luò)中,對(duì)于大數(shù)據(jù)標(biāo)簽的訓(xùn)練樣本集中共有M個(gè)神經(jīng)元信息,那么在計(jì)算大數(shù)據(jù)標(biāo)簽中含有的主成分以及輸出結(jié)果時(shí),可通過(guò)計(jì)算式(10)得到
(10)
通過(guò)上文對(duì)大數(shù)據(jù)主成分進(jìn)行特征提取[10],可結(jié)合粒度神經(jīng)網(wǎng)絡(luò),建立一個(gè)無(wú)監(jiān)督學(xué)習(xí)過(guò)程,學(xué)習(xí)迭代式如式(11)所示
(11)
由于大數(shù)據(jù)標(biāo)簽屬性[11]的全局適應(yīng)度值低于標(biāo)簽u屬性的適應(yīng)度值,因此需要對(duì)粒度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)范圍重新進(jìn)行調(diào)整,使二者滿足適應(yīng)度條件函數(shù)。
(12)
其中,β表示大數(shù)據(jù)在全局分類搜索[12]中的關(guān)聯(lián)特征變量,nu表示學(xué)習(xí)迭代計(jì)算式中的適應(yīng)度值。當(dāng)學(xué)習(xí)迭代次數(shù)達(dá)到最理想狀態(tài)時(shí),粒度神經(jīng)網(wǎng)絡(luò)對(duì)于大數(shù)據(jù)的分類學(xué)習(xí)收斂速度達(dá)到最優(yōu),輸出的加權(quán)權(quán)重值滿足式(13)條件
(13)
(14)
為驗(yàn)證本文方法在大數(shù)據(jù)標(biāo)簽特征匹配、分類效果以及系統(tǒng)運(yùn)行效率方面是否具有可行性,與文獻(xiàn)[1]、文獻(xiàn)[2]方法展開(kāi)了對(duì)比仿真。仿真平臺(tái)的硬盤(pán)主頻為2.89GHz,系統(tǒng)運(yùn)行內(nèi)存為8GB,仿真軟件使用的是比較常用的Matlab7。大數(shù)據(jù)樣本集來(lái)自數(shù)據(jù)存儲(chǔ)庫(kù)B400C20D40,覆蓋區(qū)域?yàn)?00×200,共有452365條大數(shù)據(jù)信息。
通過(guò)上述對(duì)仿真環(huán)境的設(shè)定,將三種方法分別應(yīng)用其中,對(duì)大數(shù)據(jù)標(biāo)簽的分類性能在系統(tǒng)運(yùn)行效率方面進(jìn)行對(duì)比。大數(shù)據(jù)的采樣頻率為450kHz,以時(shí)寬Δ=15s來(lái)計(jì)算大數(shù)據(jù)標(biāo)簽的特征匹配投影值,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 本文方法大數(shù)據(jù)標(biāo)簽特征匹配投影值
從圖3中可知,運(yùn)用本文方法對(duì)大數(shù)據(jù)標(biāo)簽特征進(jìn)行匹配,展現(xiàn)出了較優(yōu)的特征提取性能,隨著實(shí)驗(yàn)時(shí)間的不斷推移,本文方法在20s處出現(xiàn)了投影匹配值峰值。以此特征匹配結(jié)果在后續(xù)對(duì)大數(shù)據(jù)標(biāo)簽進(jìn)行分類時(shí),可起到很好的推動(dòng)作用。運(yùn)用本文方法進(jìn)行特征分類,結(jié)果如圖2所示。
圖3 本文方法分類效果
從圖3中可以看出,采用本文方法對(duì)大數(shù)據(jù)標(biāo)簽進(jìn)行特征提取后,再進(jìn)行分類,效果是非常明顯的。這樣不僅可以有效避開(kāi)各類數(shù)據(jù)之間的特征融合和交叉,而且將一些冗余特征信息剔除掉,在一定程度上提高了標(biāo)簽分類的準(zhǔn)確性。
同時(shí),為了驗(yàn)證本文方法與文獻(xiàn)[1]、文獻(xiàn)[2]方法在系統(tǒng)運(yùn)行效率上的性能對(duì)比,將大數(shù)據(jù)標(biāo)簽分類的能量開(kāi)銷作為對(duì)比依據(jù),展開(kāi)了仿真,三種方法實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 三種方法能量開(kāi)銷對(duì)比圖
從圖4中可以看出,本文方法較其它兩種方法相比,所使用的能量開(kāi)銷最低,說(shuō)明本文方法在確保分類準(zhǔn)確性的同時(shí)花費(fèi)的系統(tǒng)開(kāi)銷最小,以此證明了運(yùn)用粒度神經(jīng)網(wǎng)絡(luò)對(duì)大數(shù)據(jù)標(biāo)簽進(jìn)行分類是非常有效且可行的一種方法。
針對(duì)傳統(tǒng)方法在對(duì)大數(shù)據(jù)標(biāo)簽分類過(guò)程中存在計(jì)算開(kāi)銷大、分類效率較差等問(wèn)題,本文提出新的大數(shù)據(jù)標(biāo)簽分類算法。首先,計(jì)算大數(shù)據(jù)標(biāo)簽的矢量長(zhǎng)度值,確保后續(xù)對(duì)標(biāo)簽屬性的分析更精準(zhǔn)。然后,通過(guò)主成分分析法對(duì)大數(shù)據(jù)的先驗(yàn)特征以及大數(shù)據(jù)標(biāo)簽的屬性特征進(jìn)行分析計(jì)算。最后將粒度神經(jīng)網(wǎng)絡(luò)應(yīng)用其中,對(duì)標(biāo)簽屬性的加權(quán)權(quán)重值加以控制,結(jié)合大數(shù)據(jù)標(biāo)簽屬性特征向量,完成對(duì)大數(shù)據(jù)標(biāo)簽的分類。通過(guò)搭建仿真平臺(tái),將傳統(tǒng)方法與本文方法進(jìn)行對(duì)比,驗(yàn)證了本文方法在花費(fèi)最少系統(tǒng)能量開(kāi)銷的前提下,得到了較高的分類性能和特征匹配值,適合大范圍推廣使用。