孫學(xué)軍,李長銀
(臨沂大學(xué)費縣校區(qū),山東 臨沂 273400)
由于物聯(lián)網(wǎng)通信大數(shù)據(jù)庫中存在多種且復(fù)雜的數(shù)據(jù)種類,其中較為典型的半結(jié)構(gòu)化數(shù)據(jù),其數(shù)據(jù)量龐大域數(shù)據(jù)相似性較高,已經(jīng)成為目前物聯(lián)網(wǎng)通信領(lǐng)域的重點研究對象。國內(nèi)對半結(jié)構(gòu)化數(shù)據(jù)的識別進行了大量研究,較為經(jīng)典的能夠分成兩種即:多重分形理論半結(jié)構(gòu)化識別算法[1]與Softmax回歸的識別方法[2],多重分形理論識別方法會擬定網(wǎng)絡(luò)通信數(shù)據(jù)流的分形譜,計算通信數(shù)據(jù)流的估計譜,在擬定的核域里融合灰色關(guān)聯(lián)度算法估計譜分析,以估計結(jié)果完成對數(shù)據(jù)的識別。該算法在低信噪比的狀態(tài)下,可以得到較高的識別率,但識別結(jié)果容易被分形特征提取的結(jié)果干擾,存在不穩(wěn)定性。而Softmax回歸識別算法,會把網(wǎng)絡(luò)通信數(shù)據(jù)的循環(huán)譜密度特征當(dāng)做訓(xùn)練樣本集,通過主成分分析算法篩選數(shù)據(jù)特征,依靠Softmax回歸分類器對數(shù)據(jù)進行分類識別。該方法對數(shù)據(jù)的識別效果較好,但由于算法需要構(gòu)建計算和回歸分類器,這就導(dǎo)致了該算法的識別效率低下。
針對上述問題,本文提出一種物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)識別方法,依靠對數(shù)據(jù)的稀疏度系數(shù)、系數(shù)子空間與半結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)的分析,獲得數(shù)據(jù)之間的關(guān)聯(lián)特性和數(shù)據(jù)儲存的節(jié)點位置,隨后將主成分分析算法和德爾菲算法進行融合,依靠融合后的算法賦予識別指標(biāo)權(quán)重,使用Tanimoto系數(shù)度量半結(jié)構(gòu)化數(shù)據(jù)的相似性,憑借數(shù)據(jù)的相似性與其它數(shù)據(jù)的關(guān)聯(lián)性,實現(xiàn)對半結(jié)構(gòu)化數(shù)據(jù)的識別。
為了識別半結(jié)構(gòu)化數(shù)據(jù),擬定一種D維數(shù)據(jù)集內(nèi)存在N條記錄,所有維均離散化成θ種區(qū)間,同時所有記錄之間是互相獨立的,從中挑選出k種屬性構(gòu)建K維立方體,此時N條記錄的概率為(1/θ)k,按照伯努利概率隨機分布至立方體內(nèi),所有區(qū)域中具有的平均記錄總量是其數(shù)據(jù)期望N×(1/θ)k。定義稀疏度系數(shù)與系數(shù)子空間數(shù)據(jù)是否存在偏移與偏移程度。
定義1:稀疏度系數(shù)S(D)的描述式擬定成
(1)
式中,n(D)代表存在于D內(nèi)的對象總量,fk=1/θ為數(shù)據(jù)偏移程度,針對離群數(shù)據(jù)[2],其所處子空間中含有的記錄數(shù)遠遠低于平均值,所以稀疏度系數(shù)S(D)不會超過0。
定義2:針對一個隨機的半結(jié)構(gòu)化數(shù)據(jù)集,其屬性集擬定成M,對象集擬定成G,擬定D1代表通過屬性集P1(P1?M)組成的|P1|維的隨機子空間[3],其含有的對象集是O(O?G),如果不具有通過屬性集P2(P2?P1)組成的子空間D2,同時D2內(nèi)存在相同的對象集O,那么描述D1成約簡子空間[4],P1能夠描述成約簡屬性集。
定義3:針對一個隨機的半結(jié)構(gòu)化數(shù)據(jù)集,其屬性集是M,對象集是G,TS代表擬定的稀疏度閾值,擬定D代表約簡屬性集P(P?M)組成的|P|維隨機約簡子空間,如果D的稀疏度系數(shù)是S(D)≤TS,則描述D代表稀疏子空間。
半結(jié)構(gòu)化數(shù)據(jù)又能夠被描述成半形式概念數(shù)據(jù),該數(shù)據(jù)的所有記錄節(jié)點都是一種形式概念,其通過兩部分構(gòu)成:外延,即概念所覆蓋的實例;內(nèi)涵,即表示的概念,該概念覆蓋實例的共同特征。此外,半結(jié)構(gòu)化數(shù)據(jù)通過Hasse圖生成與簡潔的描述了這些半結(jié)構(gòu)化數(shù)據(jù)之間存在的特性與泛化關(guān)系,由于半結(jié)構(gòu)數(shù)據(jù)具有完備性、直觀性與簡潔等特性[5],其也被認(rèn)為是一種數(shù)據(jù)描述的轉(zhuǎn)換工具。
定義4:一種形式背景K=(G,M,I)具有兩種集合G與M,其能夠被描述成是一種二元關(guān)系I?G×M,G內(nèi)的元素為對象,M內(nèi)的元素為屬性,假如g∈G與m∈M在二元關(guān)系I內(nèi),擬定成(g,m)∈I或gIm,即對象g內(nèi)存在屬性m。
定義5:形式概念J即滿足以下兩種條件的一種序偶(A,B),其中A?G,B?M,A為形式概念J的外延,B為形式概念J的內(nèi)涵。
A=B′={a∈G|?b∈B,aIb}
(2)
B=A′={b∈M|?a∈A,aIb}
(3)
其中,a、b為A和B中的元素。
定義6:擬定K=(G,M,I)代表隨機形式的數(shù)據(jù)背景,其中所有形式概念之間的偏序關(guān)聯(lián)[6]能夠被描述成(A1,B1)≤(A2,B2)?A1?A2?B2?B1,通過形式數(shù)據(jù)背景K內(nèi)的所有概念與概念之間的偏序關(guān)聯(lián)能夠組成一種半結(jié)構(gòu),將該半結(jié)構(gòu)描述成〈L(G,M,I)〉。
定義7:擬定K=(G,M,I)代表隨機形式數(shù)據(jù)背景,擬定h1=(A1,B1)與h2=(A2,B2)代表概念〈L(G,M,I)〉的隨機兩個節(jié)點,h1≤h2。假如不存在節(jié)點h3=(A3,B3),則h1≤h3≤h2成立,那么h1即為h2的直接例化,h1代表h2的子節(jié)點,也能夠?qū)⑵涿枋龀蒱1是h2的子概念,表達成h1=child(h2),擬定h2是h1的父節(jié)點[7],其也能夠描述成h2是h1的父概念,擬定成h2=father(h1),假如存在節(jié)點h3=(A3,B3),h1≤h3≤h2成立,那么描述h2是h1的祖先節(jié)點。
半結(jié)構(gòu)化數(shù)據(jù)識別過程內(nèi)的關(guān)聯(lián)流程就是確準(zhǔn)識別指標(biāo)的權(quán)重[8]。主觀賦權(quán)法與客觀賦權(quán)法是當(dāng)前較為常見的兩種權(quán)重確定算法。主觀賦權(quán)法憑借決策者的意向確準(zhǔn)所有指標(biāo)之間的權(quán)重系數(shù),決策或評測結(jié)果存在較大的主觀隨機性,常用的算法有層次分析法與德爾菲算法等。而客觀賦權(quán)法確準(zhǔn)所有指標(biāo)的權(quán)重系數(shù),雖然其存在較強的數(shù)學(xué)理論依據(jù),但其無法反映決策者的意向,常用的有主成分分析法與因子分析法等。為了避免單一賦權(quán)法的缺點,本文將主成分分析算法和德爾菲算法進行融合。使其成為一種綜合加權(quán)法。借助綜合加權(quán)法對識別指標(biāo)賦予權(quán)重。其核心思想如下所示:
首先,查看半結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)信息模型,同時構(gòu)建半結(jié)構(gòu)化數(shù)據(jù)管理體系[9],依靠該體系搜索出半結(jié)構(gòu)化數(shù)據(jù)的大致坐標(biāo),隨后運算出半結(jié)構(gòu)化數(shù)據(jù)識別指標(biāo)的數(shù)據(jù)資料。
1)把識別數(shù)據(jù)指標(biāo)的初始數(shù)據(jù)進行標(biāo)準(zhǔn)化處理即
(4)
2)利用德爾菲算法對半結(jié)構(gòu)化數(shù)據(jù)識別內(nèi)的指標(biāo)權(quán)重進行打分,指標(biāo)的權(quán)重能夠描述成
γ=(α1,α2,α3,α4,α5,α6,α7,α8,α9)
(5)
對所有指標(biāo)變量分別乘以權(quán)重系數(shù),獲得改進之后的半結(jié)構(gòu)化數(shù)據(jù)矩陣X′。
對X′內(nèi)的指標(biāo)數(shù)據(jù)進行主成分分析,獲得最終的半結(jié)構(gòu)化數(shù)據(jù)識別指標(biāo)權(quán)重。
1)計算獲得指標(biāo)數(shù)據(jù)的關(guān)聯(lián)矩陣[10]
(6)
2)利用雅可比算法計算關(guān)聯(lián)系數(shù)矩陣R的特征值(λ1,λ2,…,λp)與對應(yīng)的特征向量li=(li1,li2,…,lip),i=1,2,…,p。
3)挑選關(guān)鍵的主成分,同時擬定出主成分描述公式。
主成分分析能夠獲得p種主成分,但因為各個主成分的方差是遞減的,其所含有的信息量也是遞減的,因此在實際分析時,通常不會挑選p種主成分,而是憑借各個主成分累計貢獻率的大小挑選前m種出成分,這里的貢獻率即指某種主成分的方差占所有方差的比重,就是某種特征值占所有特征值合計的比重,其運算公式如式(7)所示
(7)
其中,λi為主成分的方差,即某種特征值。貢獻率越大就證明該主成分所含有的初始變量信息越多。在主成分個數(shù)挑選內(nèi),需要累計貢獻率超過85%以上,確保綜合變量能夠包含初始變量的大部分信息。
4)憑借主成分累計貢獻率85%,挑選m種主成分A=(k1,k2,…,km)。各項特征值對應(yīng)的特征向量是(l1,l2,…,lm),隨后運算獲得的所有指標(biāo)權(quán)重
F=A*(l1,…,lm)=(f1,f2,f3,f4,f5,f6,f7,f8,f9)
(8)
2.4.1 Tanimoto系數(shù)
Tanimoto系數(shù)又能夠被描述成Jaccard系數(shù),能夠度量半結(jié)構(gòu)化數(shù)據(jù)的相似性,同時在二元屬性情況下歸約成Jaccard系數(shù),因此本文提出有一種基于字節(jié)頻率分布的半結(jié)構(gòu)化數(shù)據(jù)識別模型,該模型以扇形的半結(jié)構(gòu)化數(shù)據(jù)為最小測試單元,同時所有測試扇形區(qū)域內(nèi)的字節(jié)頻率分布F(x),經(jīng)過Tanimoto系數(shù)進行處理,就能夠獲得扇形測試區(qū)域V和樣本扇形區(qū)域S的相似度。
(9)
擬定半結(jié)構(gòu)化數(shù)據(jù)di歸屬于第i類,同時i≠j,那么di∩dj=Φ。同一種類型的半結(jié)構(gòu)化數(shù)據(jù)就存在類似的分布模型,就是聚集在同一分布范圍Ti中。T={T1,T2,…,Tm}內(nèi)共存在m種半結(jié)構(gòu)化數(shù)據(jù)類型。所以di的分布范圍能夠通過Ti進行標(biāo)明,在Ti范圍里的半結(jié)構(gòu)化數(shù)據(jù)屬于第i類半結(jié)構(gòu)化數(shù)據(jù)。本文使用樣本數(shù)據(jù)訓(xùn)練獲得標(biāo)準(zhǔn)值ηi,對于所有類的半結(jié)構(gòu)化數(shù)據(jù)的分布范圍Ti,只在Ti≥ηi時,Ti才是存在效果的。
2.4.2 參數(shù)優(yōu)化
識別半結(jié)構(gòu)化數(shù)據(jù)的初始數(shù)據(jù)種類,與評測數(shù)據(jù)是否屬于復(fù)合型文件結(jié)構(gòu)的一部分,是目前半結(jié)構(gòu)化數(shù)據(jù)識別的難題所在。所以把特有的元數(shù)據(jù)與文件結(jié)構(gòu)信息融合到物聯(lián)網(wǎng)通信大數(shù)據(jù)庫內(nèi),以此提升半結(jié)構(gòu)化數(shù)據(jù)的識別率。
1)文件結(jié)構(gòu)
數(shù)據(jù)類中特有的元數(shù)據(jù)或文件結(jié)構(gòu)信息通過δ表示,那么δ={δ1,δ2,…,δm},其中δi={δ1,δ2,…,δπ},同時δi又能夠代表任意一種數(shù)據(jù)種類存在π種不同的特有元數(shù)據(jù)與文件結(jié)構(gòu)信息π≥1。
2)分布范圍
同一半結(jié)構(gòu)化數(shù)據(jù)間隔分布在32種數(shù)據(jù)塊里的可能性是80%。所以半結(jié)構(gòu)化數(shù)據(jù)在磁盤內(nèi)不會隨機分布,數(shù)據(jù)之間存在一定的關(guān)聯(lián)性,即某一段連續(xù)的半結(jié)構(gòu)化數(shù)據(jù)屬于同一種文件。
2.4.3 識別過程
1)預(yù)處理
包括收取樣本模型S={S1,S2,…,Sm},收取半結(jié)構(gòu)化數(shù)據(jù)特有的結(jié)構(gòu)特征δ={δ1,δ2,…,δm}與收取半結(jié)構(gòu)化數(shù)據(jù)字節(jié)頻率分布F(x)。
2)構(gòu)建識別模型
經(jīng)過Tanimoto系數(shù)構(gòu)建對應(yīng)的識別模型,運算樣本S和測試數(shù)據(jù)F(x)之間字節(jié)頻率分布的相似程度Tx。
3)評測被測試半結(jié)構(gòu)化數(shù)據(jù)x的相似度Tx是否處于Ti范圍種。
如果Tx∈Ti,半結(jié)構(gòu)化數(shù)據(jù)x屬于第i類數(shù)據(jù),反之,如果Tx?Ti,半結(jié)構(gòu)化數(shù)據(jù)x不屬于第i類數(shù)據(jù),需要繼續(xù)評測Tx是否處于Ti+1范圍種。
4)參數(shù)優(yōu)化1,搜集被測試半結(jié)構(gòu)化數(shù)據(jù)x的相關(guān)結(jié)構(gòu)特征δx。
擬定,第x種半結(jié)構(gòu)化數(shù)據(jù)Tanimoto系數(shù)相似度是Tx∈Ti,同時δx產(chǎn)生在半結(jié)構(gòu)化數(shù)據(jù)x內(nèi),δx=Tj。在i=j時,x∈Ti,反之在i≠j時,能夠認(rèn)為該數(shù)據(jù)是無法識別的。
5)參數(shù)優(yōu)化2,初步考慮半結(jié)構(gòu)化數(shù)據(jù)之間的關(guān)聯(lián)性。
在i=j時,x∈Ti反之在i≠j時,繼續(xù)評測下一個半結(jié)構(gòu)化數(shù)據(jù)x+1,直至連續(xù)產(chǎn)生?次的Ti=Tj,此時x∈Ti,反之評測該半結(jié)構(gòu)化數(shù)據(jù)時無法識別的。
為了證明所提方法的實用性,進行仿真,擬定試驗環(huán)境為:一個1GB的閃存,物聯(lián)網(wǎng)的物理頁是2kB,所有半結(jié)構(gòu)化數(shù)據(jù)塊內(nèi)存在64個物理頁。把半結(jié)構(gòu)化數(shù)據(jù)識別算法內(nèi)的更新信息緩存擬定成最多可儲存50個更新區(qū)域,把不通過識別的半結(jié)構(gòu)化數(shù)據(jù)隊列擬定成最多能夠保留100條數(shù)據(jù)信息。為了能夠更加快速的得到算法的優(yōu)劣信息,首先在閃存內(nèi)添加524個數(shù)據(jù)文件文件,最大的半結(jié)構(gòu)數(shù)據(jù)占用8193個物理頁,最小的半結(jié)構(gòu)化數(shù)據(jù)占用一個物理頁,這些數(shù)據(jù)總共占用閃存的90%空間,隨后擬定閃存空間的2倍是單輪更新的數(shù)據(jù)量。總共進行10輪更新,每次更新的半結(jié)構(gòu)化數(shù)據(jù)從先前存在的524個數(shù)據(jù)內(nèi)隨機挑選。
圖1即物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)在文獻[1]算法和文獻[2]算法與使用本文方法識別半結(jié)構(gòu)化數(shù)據(jù)下,數(shù)據(jù)的有效重寫率,其結(jié)果如圖1所示。
圖1 半結(jié)構(gòu)數(shù)據(jù)的有效數(shù)據(jù)重寫率
通過圖1能夠看出,由于半結(jié)構(gòu)化數(shù)據(jù)既包含信息也包含結(jié)構(gòu)的信息,本文方法的重寫率遠遠小于文獻[1]和文獻[2]方法,最高為半結(jié)構(gòu)化數(shù)據(jù)比例為40%時,有效數(shù)據(jù)重寫率為1759塊。同時本文算法能夠有效的提取數(shù)據(jù),大大縮減了半結(jié)構(gòu)化數(shù)據(jù)的重寫操作,在回收冗余數(shù)據(jù)時,數(shù)據(jù)不會因為重寫率較高,產(chǎn)生冗余數(shù)據(jù)不斷回復(fù)問題,并且通過Tanimoto系數(shù)對半結(jié)構(gòu)化數(shù)據(jù)的識別參數(shù)優(yōu)化,以確定數(shù)據(jù)的種類,以降低數(shù)據(jù)重寫的概率。
為了進一步證明所提方法的實用性,擬定一個物聯(lián)網(wǎng)通信大數(shù)據(jù)庫內(nèi)共存在1000個數(shù)據(jù),將種類為10種,測試平臺是Matlab?,F(xiàn)通過本文方法對上述10種不同種類的數(shù)據(jù)進行半結(jié)構(gòu)化據(jù)識別,同時將其結(jié)果與已知結(jié)果進行對比,其對比圖如圖2所示。
圖2 本文提取算法與已知識別結(jié)果對比
通過圖2能夠看出,本文方法與已知識別結(jié)果相差不大,相較于文獻[1]方法和文獻[2]方法,識別正確率更高,其識別的正確率是98.6%,這就證明本文方法在半結(jié)構(gòu)化數(shù)據(jù)識別中有著準(zhǔn)確率高的優(yōu)點。
為了凸顯半結(jié)構(gòu)化數(shù)據(jù)的特性,提出一種物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)識別方法,依靠綜合加權(quán)法與Tanimoto系數(shù)實現(xiàn)對數(shù)據(jù)的識別。
1)半結(jié)構(gòu)數(shù)據(jù)的有效數(shù)據(jù)重寫率實驗結(jié)果表明,本文方法有效數(shù)據(jù)重寫率較低,最高為半結(jié)構(gòu)化數(shù)據(jù)比例為40%時的1759塊。
2)本文提取算法與已知識別結(jié)果對比實驗表明,本文方法半結(jié)構(gòu)化數(shù)據(jù)識別正確率是98.6%。
3)由于所提方法內(nèi),會依靠稀疏系數(shù)自帶的粗去噪進行濾波,因此并沒有對數(shù)據(jù)的噪聲進行精準(zhǔn)的去噪,導(dǎo)致識別的半結(jié)構(gòu)化數(shù)據(jù)內(nèi),依舊存在少量噪聲,這種噪聲雖然不會干擾識別結(jié)果,但其會在數(shù)據(jù)塊內(nèi)形成細小的白點,影響觀看與查詢的結(jié)果,因此下一步需要研究的課題即:在所提方法內(nèi)添加濾波器,依靠濾波器進行精準(zhǔn)的去噪處理。