亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)識別方法

2021-12-10 09:04:54孫學(xué)軍李長銀

計算機仿真 2021年11期

孫學(xué)軍，李長銀

(臨沂大學(xué)費縣校區(qū)，山東臨沂 273400)

1 引言

由于物聯(lián)網(wǎng)通信大數(shù)據(jù)庫中存在多種且復(fù)雜的數(shù)據(jù)種類，其中較為典型的半結(jié)構(gòu)化數(shù)據(jù)，其數(shù)據(jù)量龐大域數(shù)據(jù)相似性較高，已經(jīng)成為目前物聯(lián)網(wǎng)通信領(lǐng)域的重點研究對象。國內(nèi)對半結(jié)構(gòu)化數(shù)據(jù)的識別進行了大量研究，較為經(jīng)典的能夠分成兩種即：多重分形理論半結(jié)構(gòu)化識別算法[1]與Softmax回歸的識別方法[2]，多重分形理論識別方法會擬定網(wǎng)絡(luò)通信數(shù)據(jù)流的分形譜，計算通信數(shù)據(jù)流的估計譜，在擬定的核域里融合灰色關(guān)聯(lián)度算法估計譜分析，以估計結(jié)果完成對數(shù)據(jù)的識別。該算法在低信噪比的狀態(tài)下，可以得到較高的識別率，但識別結(jié)果容易被分形特征提取的結(jié)果干擾，存在不穩(wěn)定性。而Softmax回歸識別算法，會把網(wǎng)絡(luò)通信數(shù)據(jù)的循環(huán)譜密度特征當(dāng)做訓(xùn)練樣本集，通過主成分分析算法篩選數(shù)據(jù)特征，依靠Softmax回歸分類器對數(shù)據(jù)進行分類識別。該方法對數(shù)據(jù)的識別效果較好，但由于算法需要構(gòu)建計算和回歸分類器，這就導(dǎo)致了該算法的識別效率低下。

針對上述問題，本文提出一種物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)識別方法，依靠對數(shù)據(jù)的稀疏度系數(shù)、系數(shù)子空間與半結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)的分析，獲得數(shù)據(jù)之間的關(guān)聯(lián)特性和數(shù)據(jù)儲存的節(jié)點位置，隨后將主成分分析算法和德爾菲算法進行融合，依靠融合后的算法賦予識別指標(biāo)權(quán)重，使用Tanimoto系數(shù)度量半結(jié)構(gòu)化數(shù)據(jù)的相似性，憑借數(shù)據(jù)的相似性與其它數(shù)據(jù)的關(guān)聯(lián)性，實現(xiàn)對半結(jié)構(gòu)化數(shù)據(jù)的識別。

2 大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)識別方法

2.1 數(shù)據(jù)稀疏度系數(shù)和稀疏子空間

為了識別半結(jié)構(gòu)化數(shù)據(jù)，擬定一種D維數(shù)據(jù)集內(nèi)存在N條記錄，所有維均離散化成θ種區(qū)間，同時所有記錄之間是互相獨立的，從中挑選出k種屬性構(gòu)建K維立方體，此時N條記錄的概率為(1/θ)k，按照伯努利概率隨機分布至立方體內(nèi)，所有區(qū)域中具有的平均記錄總量是其數(shù)據(jù)期望N×(1/θ)k。定義稀疏度系數(shù)與系數(shù)子空間數(shù)據(jù)是否存在偏移與偏移程度。

定義1：稀疏度系數(shù)S(D)的描述式擬定成

(1)

式中，n(D)代表存在于D內(nèi)的對象總量，fk=1/θ為數(shù)據(jù)偏移程度，針對離群數(shù)據(jù)[2]，其所處子空間中含有的記錄數(shù)遠遠低于平均值，所以稀疏度系數(shù)S(D)不會超過0。

定義2：針對一個隨機的半結(jié)構(gòu)化數(shù)據(jù)集，其屬性集擬定成M，對象集擬定成G，擬定D1代表通過屬性集P1(P1?M)組成的|P1|維的隨機子空間[3]，其含有的對象集是O(O?G)，如果不具有通過屬性集P2(P2?P1)組成的子空間D2，同時D2內(nèi)存在相同的對象集O，那么描述D1成約簡子空間[4]，P1能夠描述成約簡屬性集。

定義3：針對一個隨機的半結(jié)構(gòu)化數(shù)據(jù)集，其屬性集是M，對象集是G，TS代表擬定的稀疏度閾值，擬定D代表約簡屬性集P(P?M)組成的|P|維隨機約簡子空間，如果D的稀疏度系數(shù)是S(D)≤TS，則描述D代表稀疏子空間。

2.2 半結(jié)構(gòu)化數(shù)據(jù)構(gòu)造分析

半結(jié)構(gòu)化數(shù)據(jù)又能夠被描述成半形式概念數(shù)據(jù)，該數(shù)據(jù)的所有記錄節(jié)點都是一種形式概念，其通過兩部分構(gòu)成：外延，即概念所覆蓋的實例；內(nèi)涵，即表示的概念，該概念覆蓋實例的共同特征。此外，半結(jié)構(gòu)化數(shù)據(jù)通過Hasse圖生成與簡潔的描述了這些半結(jié)構(gòu)化數(shù)據(jù)之間存在的特性與泛化關(guān)系，由于半結(jié)構(gòu)數(shù)據(jù)具有完備性、直觀性與簡潔等特性[5]，其也被認(rèn)為是一種數(shù)據(jù)描述的轉(zhuǎn)換工具。

定義4：一種形式背景K=(G，M，I)具有兩種集合G與M，其能夠被描述成是一種二元關(guān)系I?G×M，G內(nèi)的元素為對象，M內(nèi)的元素為屬性，假如g∈G與m∈M在二元關(guān)系I內(nèi)，擬定成(g，m)∈I或gIm，即對象g內(nèi)存在屬性m。

定義5：形式概念J即滿足以下兩種條件的一種序偶(A，B)，其中A?G，B?M，A為形式概念J的外延，B為形式概念J的內(nèi)涵。

A=B′={a∈G|?b∈B，aIb}

(2)

B=A′={b∈M|?a∈A，aIb}

(3)

其中，a、b為A和B中的元素。

定義6：擬定K=(G，M，I)代表隨機形式的數(shù)據(jù)背景，其中所有形式概念之間的偏序關(guān)聯(lián)[6]能夠被描述成(A1，B1)≤(A2，B2)?A1?A2?B2?B1，通過形式數(shù)據(jù)背景K內(nèi)的所有概念與概念之間的偏序關(guān)聯(lián)能夠組成一種半結(jié)構(gòu)，將該半結(jié)構(gòu)描述成〈L(G，M，I)〉。

定義7：擬定K=(G，M，I)代表隨機形式數(shù)據(jù)背景，擬定h1=(A1，B1)與h2=(A2，B2)代表概念〈L(G，M，I)〉的隨機兩個節(jié)點，h1≤h2。假如不存在節(jié)點h3=(A3，B3)，則h1≤h3≤h2成立，那么h1即為h2的直接例化，h1代表h2的子節(jié)點，也能夠?qū)⑵涿枋龀蒱1是h2的子概念，表達成h1=child(h2)，擬定h2是h1的父節(jié)點[7]，其也能夠描述成h2是h1的父概念，擬定成h2=father(h1)，假如存在節(jié)點h3=(A3，B3)，h1≤h3≤h2成立，那么描述h2是h1的祖先節(jié)點。

2.3 基于綜合加權(quán)的半結(jié)構(gòu)化數(shù)據(jù)識別指標(biāo)權(quán)重確定

半結(jié)構(gòu)化數(shù)據(jù)識別過程內(nèi)的關(guān)聯(lián)流程就是確準(zhǔn)識別指標(biāo)的權(quán)重[8]。主觀賦權(quán)法與客觀賦權(quán)法是當(dāng)前較為常見的兩種權(quán)重確定算法。主觀賦權(quán)法憑借決策者的意向確準(zhǔn)所有指標(biāo)之間的權(quán)重系數(shù)，決策或評測結(jié)果存在較大的主觀隨機性，常用的算法有層次分析法與德爾菲算法等。而客觀賦權(quán)法確準(zhǔn)所有指標(biāo)的權(quán)重系數(shù)，雖然其存在較強的數(shù)學(xué)理論依據(jù)，但其無法反映決策者的意向，常用的有主成分分析法與因子分析法等。為了避免單一賦權(quán)法的缺點，本文將主成分分析算法和德爾菲算法進行融合。使其成為一種綜合加權(quán)法。借助綜合加權(quán)法對識別指標(biāo)賦予權(quán)重。其核心思想如下所示：

首先，查看半結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)信息模型，同時構(gòu)建半結(jié)構(gòu)化數(shù)據(jù)管理體系[9]，依靠該體系搜索出半結(jié)構(gòu)化數(shù)據(jù)的大致坐標(biāo)，隨后運算出半結(jié)構(gòu)化數(shù)據(jù)識別指標(biāo)的數(shù)據(jù)資料。

1)把識別數(shù)據(jù)指標(biāo)的初始數(shù)據(jù)進行標(biāo)準(zhǔn)化處理即

(4)

2)利用德爾菲算法對半結(jié)構(gòu)化數(shù)據(jù)識別內(nèi)的指標(biāo)權(quán)重進行打分，指標(biāo)的權(quán)重能夠描述成

γ=(α1，α2，α3，α4，α5，α6，α7，α8，α9)

(5)

對所有指標(biāo)變量分別乘以權(quán)重系數(shù)，獲得改進之后的半結(jié)構(gòu)化數(shù)據(jù)矩陣X′。

對X′內(nèi)的指標(biāo)數(shù)據(jù)進行主成分分析，獲得最終的半結(jié)構(gòu)化數(shù)據(jù)識別指標(biāo)權(quán)重。

1)計算獲得指標(biāo)數(shù)據(jù)的關(guān)聯(lián)矩陣[10]

(6)

2)利用雅可比算法計算關(guān)聯(lián)系數(shù)矩陣R的特征值(λ1，λ2，…，λp)與對應(yīng)的特征向量li=(li1，li2，…，lip)，i=1，2，…，p。

3)挑選關(guān)鍵的主成分，同時擬定出主成分描述公式。

主成分分析能夠獲得p種主成分，但因為各個主成分的方差是遞減的，其所含有的信息量也是遞減的，因此在實際分析時，通常不會挑選p種主成分，而是憑借各個主成分累計貢獻率的大小挑選前m種出成分，這里的貢獻率即指某種主成分的方差占所有方差的比重，就是某種特征值占所有特征值合計的比重，其運算公式如式(7)所示

(7)

其中，λi為主成分的方差，即某種特征值。貢獻率越大就證明該主成分所含有的初始變量信息越多。在主成分個數(shù)挑選內(nèi)，需要累計貢獻率超過85%以上，確保綜合變量能夠包含初始變量的大部分信息。

4)憑借主成分累計貢獻率85%，挑選m種主成分A=(k1，k2，…，km)。各項特征值對應(yīng)的特征向量是(l1，l2，…，lm)，隨后運算獲得的所有指標(biāo)權(quán)重

F=A*(l1，…，lm)=(f1，f2，f3，f4，f5，f6，f7，f8，f9)

(8)

2.4 基于Tanimoto系數(shù)的半結(jié)構(gòu)化數(shù)據(jù)識別

2.4.1 Tanimoto系數(shù)

Tanimoto系數(shù)又能夠被描述成Jaccard系數(shù)，能夠度量半結(jié)構(gòu)化數(shù)據(jù)的相似性，同時在二元屬性情況下歸約成Jaccard系數(shù)，因此本文提出有一種基于字節(jié)頻率分布的半結(jié)構(gòu)化數(shù)據(jù)識別模型，該模型以扇形的半結(jié)構(gòu)化數(shù)據(jù)為最小測試單元，同時所有測試扇形區(qū)域內(nèi)的字節(jié)頻率分布F(x)，經(jīng)過Tanimoto系數(shù)進行處理，就能夠獲得扇形測試區(qū)域V和樣本扇形區(qū)域S的相似度。

(9)

擬定半結(jié)構(gòu)化數(shù)據(jù)di歸屬于第i類，同時i≠j，那么di∩dj=Φ。同一種類型的半結(jié)構(gòu)化數(shù)據(jù)就存在類似的分布模型，就是聚集在同一分布范圍Ti中。T={T1，T2，…，Tm}內(nèi)共存在m種半結(jié)構(gòu)化數(shù)據(jù)類型。所以di的分布范圍能夠通過Ti進行標(biāo)明，在Ti范圍里的半結(jié)構(gòu)化數(shù)據(jù)屬于第i類半結(jié)構(gòu)化數(shù)據(jù)。本文使用樣本數(shù)據(jù)訓(xùn)練獲得標(biāo)準(zhǔn)值ηi，對于所有類的半結(jié)構(gòu)化數(shù)據(jù)的分布范圍Ti，只在Ti≥ηi時，Ti才是存在效果的。

2.4.2 參數(shù)優(yōu)化

識別半結(jié)構(gòu)化數(shù)據(jù)的初始數(shù)據(jù)種類，與評測數(shù)據(jù)是否屬于復(fù)合型文件結(jié)構(gòu)的一部分，是目前半結(jié)構(gòu)化數(shù)據(jù)識別的難題所在。所以把特有的元數(shù)據(jù)與文件結(jié)構(gòu)信息融合到物聯(lián)網(wǎng)通信大數(shù)據(jù)庫內(nèi)，以此提升半結(jié)構(gòu)化數(shù)據(jù)的識別率。

1)文件結(jié)構(gòu)

數(shù)據(jù)類中特有的元數(shù)據(jù)或文件結(jié)構(gòu)信息通過δ表示，那么δ={δ1，δ2，…，δm}，其中δi={δ1，δ2，…，δπ}，同時δi又能夠代表任意一種數(shù)據(jù)種類存在π種不同的特有元數(shù)據(jù)與文件結(jié)構(gòu)信息π≥1。

2)分布范圍

同一半結(jié)構(gòu)化數(shù)據(jù)間隔分布在32種數(shù)據(jù)塊里的可能性是80%。所以半結(jié)構(gòu)化數(shù)據(jù)在磁盤內(nèi)不會隨機分布，數(shù)據(jù)之間存在一定的關(guān)聯(lián)性，即某一段連續(xù)的半結(jié)構(gòu)化數(shù)據(jù)屬于同一種文件。

2.4.3 識別過程

1)預(yù)處理

包括收取樣本模型S={S1，S2，…，Sm}，收取半結(jié)構(gòu)化數(shù)據(jù)特有的結(jié)構(gòu)特征δ={δ1，δ2，…，δm}與收取半結(jié)構(gòu)化數(shù)據(jù)字節(jié)頻率分布F(x)。

2)構(gòu)建識別模型

經(jīng)過Tanimoto系數(shù)構(gòu)建對應(yīng)的識別模型，運算樣本S和測試數(shù)據(jù)F(x)之間字節(jié)頻率分布的相似程度Tx。

3)評測被測試半結(jié)構(gòu)化數(shù)據(jù)x的相似度Tx是否處于Ti范圍種。

如果Tx∈Ti，半結(jié)構(gòu)化數(shù)據(jù)x屬于第i類數(shù)據(jù)，反之，如果Tx?Ti，半結(jié)構(gòu)化數(shù)據(jù)x不屬于第i類數(shù)據(jù)，需要繼續(xù)評測Tx是否處于Ti+1范圍種。

4)參數(shù)優(yōu)化1，搜集被測試半結(jié)構(gòu)化數(shù)據(jù)x的相關(guān)結(jié)構(gòu)特征δx。

擬定，第x種半結(jié)構(gòu)化數(shù)據(jù)Tanimoto系數(shù)相似度是Tx∈Ti，同時δx產(chǎn)生在半結(jié)構(gòu)化數(shù)據(jù)x內(nèi)，δx=Tj。在i=j時，x∈Ti，反之在i≠j時，能夠認(rèn)為該數(shù)據(jù)是無法識別的。

5)參數(shù)優(yōu)化2，初步考慮半結(jié)構(gòu)化數(shù)據(jù)之間的關(guān)聯(lián)性。

在i=j時，x∈Ti反之在i≠j時，繼續(xù)評測下一個半結(jié)構(gòu)化數(shù)據(jù)x+1，直至連續(xù)產(chǎn)生?次的Ti=Tj，此時x∈Ti，反之評測該半結(jié)構(gòu)化數(shù)據(jù)時無法識別的。

3 實驗證明

為了證明所提方法的實用性，進行仿真，擬定試驗環(huán)境為：一個1GB的閃存，物聯(lián)網(wǎng)的物理頁是2kB，所有半結(jié)構(gòu)化數(shù)據(jù)塊內(nèi)存在64個物理頁。把半結(jié)構(gòu)化數(shù)據(jù)識別算法內(nèi)的更新信息緩存擬定成最多可儲存50個更新區(qū)域，把不通過識別的半結(jié)構(gòu)化數(shù)據(jù)隊列擬定成最多能夠保留100條數(shù)據(jù)信息。為了能夠更加快速的得到算法的優(yōu)劣信息，首先在閃存內(nèi)添加524個數(shù)據(jù)文件文件，最大的半結(jié)構(gòu)數(shù)據(jù)占用8193個物理頁，最小的半結(jié)構(gòu)化數(shù)據(jù)占用一個物理頁，這些數(shù)據(jù)總共占用閃存的90%空間，隨后擬定閃存空間的2倍是單輪更新的數(shù)據(jù)量。總共進行10輪更新，每次更新的半結(jié)構(gòu)化數(shù)據(jù)從先前存在的524個數(shù)據(jù)內(nèi)隨機挑選。

圖1即物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)在文獻[1]算法和文獻[2]算法與使用本文方法識別半結(jié)構(gòu)化數(shù)據(jù)下，數(shù)據(jù)的有效重寫率，其結(jié)果如圖1所示。

圖1 半結(jié)構(gòu)數(shù)據(jù)的有效數(shù)據(jù)重寫率

通過圖1能夠看出，由于半結(jié)構(gòu)化數(shù)據(jù)既包含信息也包含結(jié)構(gòu)的信息，本文方法的重寫率遠遠小于文獻[1]和文獻[2]方法，最高為半結(jié)構(gòu)化數(shù)據(jù)比例為40%時，有效數(shù)據(jù)重寫率為1759塊。同時本文算法能夠有效的提取數(shù)據(jù)，大大縮減了半結(jié)構(gòu)化數(shù)據(jù)的重寫操作，在回收冗余數(shù)據(jù)時，數(shù)據(jù)不會因為重寫率較高，產(chǎn)生冗余數(shù)據(jù)不斷回復(fù)問題，并且通過Tanimoto系數(shù)對半結(jié)構(gòu)化數(shù)據(jù)的識別參數(shù)優(yōu)化，以確定數(shù)據(jù)的種類，以降低數(shù)據(jù)重寫的概率。

為了進一步證明所提方法的實用性，擬定一個物聯(lián)網(wǎng)通信大數(shù)據(jù)庫內(nèi)共存在1000個數(shù)據(jù)，將種類為10種，測試平臺是Matlab?，F(xiàn)通過本文方法對上述10種不同種類的數(shù)據(jù)進行半結(jié)構(gòu)化據(jù)識別，同時將其結(jié)果與已知結(jié)果進行對比，其對比圖如圖2所示。

圖2 本文提取算法與已知識別結(jié)果對比

通過圖2能夠看出，本文方法與已知識別結(jié)果相差不大，相較于文獻[1]方法和文獻[2]方法，識別正確率更高，其識別的正確率是98.6%，這就證明本文方法在半結(jié)構(gòu)化數(shù)據(jù)識別中有著準(zhǔn)確率高的優(yōu)點。

4 結(jié)束語

為了凸顯半結(jié)構(gòu)化數(shù)據(jù)的特性，提出一種物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)識別方法，依靠綜合加權(quán)法與Tanimoto系數(shù)實現(xiàn)對數(shù)據(jù)的識別。

1)半結(jié)構(gòu)數(shù)據(jù)的有效數(shù)據(jù)重寫率實驗結(jié)果表明，本文方法有效數(shù)據(jù)重寫率較低，最高為半結(jié)構(gòu)化數(shù)據(jù)比例為40%時的1759塊。

2)本文提取算法與已知識別結(jié)果對比實驗表明，本文方法半結(jié)構(gòu)化數(shù)據(jù)識別正確率是98.6%。

3)由于所提方法內(nèi)，會依靠稀疏系數(shù)自帶的粗去噪進行濾波，因此并沒有對數(shù)據(jù)的噪聲進行精準(zhǔn)的去噪，導(dǎo)致識別的半結(jié)構(gòu)化數(shù)據(jù)內(nèi)，依舊存在少量噪聲，這種噪聲雖然不會干擾識別結(jié)果，但其會在數(shù)據(jù)塊內(nèi)形成細小的白點，影響觀看與查詢的結(jié)果，因此下一步需要研究的課題即：在所提方法內(nèi)添加濾波器，依靠濾波器進行精準(zhǔn)的去噪處理。

計算機仿真2021年11期

計算機仿真的其它文章: 云存儲網(wǎng)絡(luò)映射密文搜索的惡意域名檢測仿真; 面向Web的機械產(chǎn)品三維模型簡化算法研究; 癲癇放電引起的HRF函數(shù)變化的仿真研究; 基于實例和規(guī)則的清障救援車配置方法研究; 基于改進卷積神經(jīng)網(wǎng)絡(luò)的混凝土橋梁裂縫檢測; 基于遺傳優(yōu)化的數(shù)據(jù)庫丟失數(shù)據(jù)恢復(fù)重構(gòu)仿真