亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)識別方法

        2021-12-10 09:04:54孫學(xué)軍李長銀
        計算機仿真 2021年11期

        孫學(xué)軍,李長銀

        (臨沂大學(xué)費縣校區(qū),山東 臨沂 273400)

        1 引言

        由于物聯(lián)網(wǎng)通信大數(shù)據(jù)庫中存在多種且復(fù)雜的數(shù)據(jù)種類,其中較為典型的半結(jié)構(gòu)化數(shù)據(jù),其數(shù)據(jù)量龐大域數(shù)據(jù)相似性較高,已經(jīng)成為目前物聯(lián)網(wǎng)通信領(lǐng)域的重點研究對象。國內(nèi)對半結(jié)構(gòu)化數(shù)據(jù)的識別進行了大量研究,較為經(jīng)典的能夠分成兩種即:多重分形理論半結(jié)構(gòu)化識別算法[1]與Softmax回歸的識別方法[2],多重分形理論識別方法會擬定網(wǎng)絡(luò)通信數(shù)據(jù)流的分形譜,計算通信數(shù)據(jù)流的估計譜,在擬定的核域里融合灰色關(guān)聯(lián)度算法估計譜分析,以估計結(jié)果完成對數(shù)據(jù)的識別。該算法在低信噪比的狀態(tài)下,可以得到較高的識別率,但識別結(jié)果容易被分形特征提取的結(jié)果干擾,存在不穩(wěn)定性。而Softmax回歸識別算法,會把網(wǎng)絡(luò)通信數(shù)據(jù)的循環(huán)譜密度特征當(dāng)做訓(xùn)練樣本集,通過主成分分析算法篩選數(shù)據(jù)特征,依靠Softmax回歸分類器對數(shù)據(jù)進行分類識別。該方法對數(shù)據(jù)的識別效果較好,但由于算法需要構(gòu)建計算和回歸分類器,這就導(dǎo)致了該算法的識別效率低下。

        針對上述問題,本文提出一種物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)識別方法,依靠對數(shù)據(jù)的稀疏度系數(shù)、系數(shù)子空間與半結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)的分析,獲得數(shù)據(jù)之間的關(guān)聯(lián)特性和數(shù)據(jù)儲存的節(jié)點位置,隨后將主成分分析算法和德爾菲算法進行融合,依靠融合后的算法賦予識別指標(biāo)權(quán)重,使用Tanimoto系數(shù)度量半結(jié)構(gòu)化數(shù)據(jù)的相似性,憑借數(shù)據(jù)的相似性與其它數(shù)據(jù)的關(guān)聯(lián)性,實現(xiàn)對半結(jié)構(gòu)化數(shù)據(jù)的識別。

        2 大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)識別方法

        2.1 數(shù)據(jù)稀疏度系數(shù)和稀疏子空間

        為了識別半結(jié)構(gòu)化數(shù)據(jù),擬定一種D維數(shù)據(jù)集內(nèi)存在N條記錄,所有維均離散化成θ種區(qū)間,同時所有記錄之間是互相獨立的,從中挑選出k種屬性構(gòu)建K維立方體,此時N條記錄的概率為(1/θ)k,按照伯努利概率隨機分布至立方體內(nèi),所有區(qū)域中具有的平均記錄總量是其數(shù)據(jù)期望N×(1/θ)k。定義稀疏度系數(shù)與系數(shù)子空間數(shù)據(jù)是否存在偏移與偏移程度。

        定義1:稀疏度系數(shù)S(D)的描述式擬定成

        (1)

        式中,n(D)代表存在于D內(nèi)的對象總量,fk=1/θ為數(shù)據(jù)偏移程度,針對離群數(shù)據(jù)[2],其所處子空間中含有的記錄數(shù)遠遠低于平均值,所以稀疏度系數(shù)S(D)不會超過0。

        定義2:針對一個隨機的半結(jié)構(gòu)化數(shù)據(jù)集,其屬性集擬定成M,對象集擬定成G,擬定D1代表通過屬性集P1(P1?M)組成的|P1|維的隨機子空間[3],其含有的對象集是O(O?G),如果不具有通過屬性集P2(P2?P1)組成的子空間D2,同時D2內(nèi)存在相同的對象集O,那么描述D1成約簡子空間[4],P1能夠描述成約簡屬性集。

        定義3:針對一個隨機的半結(jié)構(gòu)化數(shù)據(jù)集,其屬性集是M,對象集是G,TS代表擬定的稀疏度閾值,擬定D代表約簡屬性集P(P?M)組成的|P|維隨機約簡子空間,如果D的稀疏度系數(shù)是S(D)≤TS,則描述D代表稀疏子空間。

        2.2 半結(jié)構(gòu)化數(shù)據(jù)構(gòu)造分析

        半結(jié)構(gòu)化數(shù)據(jù)又能夠被描述成半形式概念數(shù)據(jù),該數(shù)據(jù)的所有記錄節(jié)點都是一種形式概念,其通過兩部分構(gòu)成:外延,即概念所覆蓋的實例;內(nèi)涵,即表示的概念,該概念覆蓋實例的共同特征。此外,半結(jié)構(gòu)化數(shù)據(jù)通過Hasse圖生成與簡潔的描述了這些半結(jié)構(gòu)化數(shù)據(jù)之間存在的特性與泛化關(guān)系,由于半結(jié)構(gòu)數(shù)據(jù)具有完備性、直觀性與簡潔等特性[5],其也被認(rèn)為是一種數(shù)據(jù)描述的轉(zhuǎn)換工具。

        定義4:一種形式背景K=(G,M,I)具有兩種集合G與M,其能夠被描述成是一種二元關(guān)系I?G×M,G內(nèi)的元素為對象,M內(nèi)的元素為屬性,假如g∈G與m∈M在二元關(guān)系I內(nèi),擬定成(g,m)∈I或gIm,即對象g內(nèi)存在屬性m。

        定義5:形式概念J即滿足以下兩種條件的一種序偶(A,B),其中A?G,B?M,A為形式概念J的外延,B為形式概念J的內(nèi)涵。

        A=B′={a∈G|?b∈B,aIb}

        (2)

        B=A′={b∈M|?a∈A,aIb}

        (3)

        其中,a、b為A和B中的元素。

        定義6:擬定K=(G,M,I)代表隨機形式的數(shù)據(jù)背景,其中所有形式概念之間的偏序關(guān)聯(lián)[6]能夠被描述成(A1,B1)≤(A2,B2)?A1?A2?B2?B1,通過形式數(shù)據(jù)背景K內(nèi)的所有概念與概念之間的偏序關(guān)聯(lián)能夠組成一種半結(jié)構(gòu),將該半結(jié)構(gòu)描述成〈L(G,M,I)〉。

        定義7:擬定K=(G,M,I)代表隨機形式數(shù)據(jù)背景,擬定h1=(A1,B1)與h2=(A2,B2)代表概念〈L(G,M,I)〉的隨機兩個節(jié)點,h1≤h2。假如不存在節(jié)點h3=(A3,B3),則h1≤h3≤h2成立,那么h1即為h2的直接例化,h1代表h2的子節(jié)點,也能夠?qū)⑵涿枋龀蒱1是h2的子概念,表達成h1=child(h2),擬定h2是h1的父節(jié)點[7],其也能夠描述成h2是h1的父概念,擬定成h2=father(h1),假如存在節(jié)點h3=(A3,B3),h1≤h3≤h2成立,那么描述h2是h1的祖先節(jié)點。

        2.3 基于綜合加權(quán)的半結(jié)構(gòu)化數(shù)據(jù)識別指標(biāo)權(quán)重確定

        半結(jié)構(gòu)化數(shù)據(jù)識別過程內(nèi)的關(guān)聯(lián)流程就是確準(zhǔn)識別指標(biāo)的權(quán)重[8]。主觀賦權(quán)法與客觀賦權(quán)法是當(dāng)前較為常見的兩種權(quán)重確定算法。主觀賦權(quán)法憑借決策者的意向確準(zhǔn)所有指標(biāo)之間的權(quán)重系數(shù),決策或評測結(jié)果存在較大的主觀隨機性,常用的算法有層次分析法與德爾菲算法等。而客觀賦權(quán)法確準(zhǔn)所有指標(biāo)的權(quán)重系數(shù),雖然其存在較強的數(shù)學(xué)理論依據(jù),但其無法反映決策者的意向,常用的有主成分分析法與因子分析法等。為了避免單一賦權(quán)法的缺點,本文將主成分分析算法和德爾菲算法進行融合。使其成為一種綜合加權(quán)法。借助綜合加權(quán)法對識別指標(biāo)賦予權(quán)重。其核心思想如下所示:

        首先,查看半結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)信息模型,同時構(gòu)建半結(jié)構(gòu)化數(shù)據(jù)管理體系[9],依靠該體系搜索出半結(jié)構(gòu)化數(shù)據(jù)的大致坐標(biāo),隨后運算出半結(jié)構(gòu)化數(shù)據(jù)識別指標(biāo)的數(shù)據(jù)資料。

        1)把識別數(shù)據(jù)指標(biāo)的初始數(shù)據(jù)進行標(biāo)準(zhǔn)化處理即

        (4)

        2)利用德爾菲算法對半結(jié)構(gòu)化數(shù)據(jù)識別內(nèi)的指標(biāo)權(quán)重進行打分,指標(biāo)的權(quán)重能夠描述成

        γ=(α1,α2,α3,α4,α5,α6,α7,α8,α9)

        (5)

        對所有指標(biāo)變量分別乘以權(quán)重系數(shù),獲得改進之后的半結(jié)構(gòu)化數(shù)據(jù)矩陣X′。

        對X′內(nèi)的指標(biāo)數(shù)據(jù)進行主成分分析,獲得最終的半結(jié)構(gòu)化數(shù)據(jù)識別指標(biāo)權(quán)重。

        1)計算獲得指標(biāo)數(shù)據(jù)的關(guān)聯(lián)矩陣[10]

        (6)

        2)利用雅可比算法計算關(guān)聯(lián)系數(shù)矩陣R的特征值(λ1,λ2,…,λp)與對應(yīng)的特征向量li=(li1,li2,…,lip),i=1,2,…,p。

        3)挑選關(guān)鍵的主成分,同時擬定出主成分描述公式。

        主成分分析能夠獲得p種主成分,但因為各個主成分的方差是遞減的,其所含有的信息量也是遞減的,因此在實際分析時,通常不會挑選p種主成分,而是憑借各個主成分累計貢獻率的大小挑選前m種出成分,這里的貢獻率即指某種主成分的方差占所有方差的比重,就是某種特征值占所有特征值合計的比重,其運算公式如式(7)所示

        (7)

        其中,λi為主成分的方差,即某種特征值。貢獻率越大就證明該主成分所含有的初始變量信息越多。在主成分個數(shù)挑選內(nèi),需要累計貢獻率超過85%以上,確保綜合變量能夠包含初始變量的大部分信息。

        4)憑借主成分累計貢獻率85%,挑選m種主成分A=(k1,k2,…,km)。各項特征值對應(yīng)的特征向量是(l1,l2,…,lm),隨后運算獲得的所有指標(biāo)權(quán)重

        F=A*(l1,…,lm)=(f1,f2,f3,f4,f5,f6,f7,f8,f9)

        (8)

        2.4 基于Tanimoto系數(shù)的半結(jié)構(gòu)化數(shù)據(jù)識別

        2.4.1 Tanimoto系數(shù)

        Tanimoto系數(shù)又能夠被描述成Jaccard系數(shù),能夠度量半結(jié)構(gòu)化數(shù)據(jù)的相似性,同時在二元屬性情況下歸約成Jaccard系數(shù),因此本文提出有一種基于字節(jié)頻率分布的半結(jié)構(gòu)化數(shù)據(jù)識別模型,該模型以扇形的半結(jié)構(gòu)化數(shù)據(jù)為最小測試單元,同時所有測試扇形區(qū)域內(nèi)的字節(jié)頻率分布F(x),經(jīng)過Tanimoto系數(shù)進行處理,就能夠獲得扇形測試區(qū)域V和樣本扇形區(qū)域S的相似度。

        (9)

        擬定半結(jié)構(gòu)化數(shù)據(jù)di歸屬于第i類,同時i≠j,那么di∩dj=Φ。同一種類型的半結(jié)構(gòu)化數(shù)據(jù)就存在類似的分布模型,就是聚集在同一分布范圍Ti中。T={T1,T2,…,Tm}內(nèi)共存在m種半結(jié)構(gòu)化數(shù)據(jù)類型。所以di的分布范圍能夠通過Ti進行標(biāo)明,在Ti范圍里的半結(jié)構(gòu)化數(shù)據(jù)屬于第i類半結(jié)構(gòu)化數(shù)據(jù)。本文使用樣本數(shù)據(jù)訓(xùn)練獲得標(biāo)準(zhǔn)值ηi,對于所有類的半結(jié)構(gòu)化數(shù)據(jù)的分布范圍Ti,只在Ti≥ηi時,Ti才是存在效果的。

        2.4.2 參數(shù)優(yōu)化

        識別半結(jié)構(gòu)化數(shù)據(jù)的初始數(shù)據(jù)種類,與評測數(shù)據(jù)是否屬于復(fù)合型文件結(jié)構(gòu)的一部分,是目前半結(jié)構(gòu)化數(shù)據(jù)識別的難題所在。所以把特有的元數(shù)據(jù)與文件結(jié)構(gòu)信息融合到物聯(lián)網(wǎng)通信大數(shù)據(jù)庫內(nèi),以此提升半結(jié)構(gòu)化數(shù)據(jù)的識別率。

        1)文件結(jié)構(gòu)

        數(shù)據(jù)類中特有的元數(shù)據(jù)或文件結(jié)構(gòu)信息通過δ表示,那么δ={δ1,δ2,…,δm},其中δi={δ1,δ2,…,δπ},同時δi又能夠代表任意一種數(shù)據(jù)種類存在π種不同的特有元數(shù)據(jù)與文件結(jié)構(gòu)信息π≥1。

        2)分布范圍

        同一半結(jié)構(gòu)化數(shù)據(jù)間隔分布在32種數(shù)據(jù)塊里的可能性是80%。所以半結(jié)構(gòu)化數(shù)據(jù)在磁盤內(nèi)不會隨機分布,數(shù)據(jù)之間存在一定的關(guān)聯(lián)性,即某一段連續(xù)的半結(jié)構(gòu)化數(shù)據(jù)屬于同一種文件。

        2.4.3 識別過程

        1)預(yù)處理

        包括收取樣本模型S={S1,S2,…,Sm},收取半結(jié)構(gòu)化數(shù)據(jù)特有的結(jié)構(gòu)特征δ={δ1,δ2,…,δm}與收取半結(jié)構(gòu)化數(shù)據(jù)字節(jié)頻率分布F(x)。

        2)構(gòu)建識別模型

        經(jīng)過Tanimoto系數(shù)構(gòu)建對應(yīng)的識別模型,運算樣本S和測試數(shù)據(jù)F(x)之間字節(jié)頻率分布的相似程度Tx。

        3)評測被測試半結(jié)構(gòu)化數(shù)據(jù)x的相似度Tx是否處于Ti范圍種。

        如果Tx∈Ti,半結(jié)構(gòu)化數(shù)據(jù)x屬于第i類數(shù)據(jù),反之,如果Tx?Ti,半結(jié)構(gòu)化數(shù)據(jù)x不屬于第i類數(shù)據(jù),需要繼續(xù)評測Tx是否處于Ti+1范圍種。

        4)參數(shù)優(yōu)化1,搜集被測試半結(jié)構(gòu)化數(shù)據(jù)x的相關(guān)結(jié)構(gòu)特征δx。

        擬定,第x種半結(jié)構(gòu)化數(shù)據(jù)Tanimoto系數(shù)相似度是Tx∈Ti,同時δx產(chǎn)生在半結(jié)構(gòu)化數(shù)據(jù)x內(nèi),δx=Tj。在i=j時,x∈Ti,反之在i≠j時,能夠認(rèn)為該數(shù)據(jù)是無法識別的。

        5)參數(shù)優(yōu)化2,初步考慮半結(jié)構(gòu)化數(shù)據(jù)之間的關(guān)聯(lián)性。

        在i=j時,x∈Ti反之在i≠j時,繼續(xù)評測下一個半結(jié)構(gòu)化數(shù)據(jù)x+1,直至連續(xù)產(chǎn)生?次的Ti=Tj,此時x∈Ti,反之評測該半結(jié)構(gòu)化數(shù)據(jù)時無法識別的。

        3 實驗證明

        為了證明所提方法的實用性,進行仿真,擬定試驗環(huán)境為:一個1GB的閃存,物聯(lián)網(wǎng)的物理頁是2kB,所有半結(jié)構(gòu)化數(shù)據(jù)塊內(nèi)存在64個物理頁。把半結(jié)構(gòu)化數(shù)據(jù)識別算法內(nèi)的更新信息緩存擬定成最多可儲存50個更新區(qū)域,把不通過識別的半結(jié)構(gòu)化數(shù)據(jù)隊列擬定成最多能夠保留100條數(shù)據(jù)信息。為了能夠更加快速的得到算法的優(yōu)劣信息,首先在閃存內(nèi)添加524個數(shù)據(jù)文件文件,最大的半結(jié)構(gòu)數(shù)據(jù)占用8193個物理頁,最小的半結(jié)構(gòu)化數(shù)據(jù)占用一個物理頁,這些數(shù)據(jù)總共占用閃存的90%空間,隨后擬定閃存空間的2倍是單輪更新的數(shù)據(jù)量。總共進行10輪更新,每次更新的半結(jié)構(gòu)化數(shù)據(jù)從先前存在的524個數(shù)據(jù)內(nèi)隨機挑選。

        圖1即物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)在文獻[1]算法和文獻[2]算法與使用本文方法識別半結(jié)構(gòu)化數(shù)據(jù)下,數(shù)據(jù)的有效重寫率,其結(jié)果如圖1所示。

        圖1 半結(jié)構(gòu)數(shù)據(jù)的有效數(shù)據(jù)重寫率

        通過圖1能夠看出,由于半結(jié)構(gòu)化數(shù)據(jù)既包含信息也包含結(jié)構(gòu)的信息,本文方法的重寫率遠遠小于文獻[1]和文獻[2]方法,最高為半結(jié)構(gòu)化數(shù)據(jù)比例為40%時,有效數(shù)據(jù)重寫率為1759塊。同時本文算法能夠有效的提取數(shù)據(jù),大大縮減了半結(jié)構(gòu)化數(shù)據(jù)的重寫操作,在回收冗余數(shù)據(jù)時,數(shù)據(jù)不會因為重寫率較高,產(chǎn)生冗余數(shù)據(jù)不斷回復(fù)問題,并且通過Tanimoto系數(shù)對半結(jié)構(gòu)化數(shù)據(jù)的識別參數(shù)優(yōu)化,以確定數(shù)據(jù)的種類,以降低數(shù)據(jù)重寫的概率。

        為了進一步證明所提方法的實用性,擬定一個物聯(lián)網(wǎng)通信大數(shù)據(jù)庫內(nèi)共存在1000個數(shù)據(jù),將種類為10種,測試平臺是Matlab?,F(xiàn)通過本文方法對上述10種不同種類的數(shù)據(jù)進行半結(jié)構(gòu)化據(jù)識別,同時將其結(jié)果與已知結(jié)果進行對比,其對比圖如圖2所示。

        圖2 本文提取算法與已知識別結(jié)果對比

        通過圖2能夠看出,本文方法與已知識別結(jié)果相差不大,相較于文獻[1]方法和文獻[2]方法,識別正確率更高,其識別的正確率是98.6%,這就證明本文方法在半結(jié)構(gòu)化數(shù)據(jù)識別中有著準(zhǔn)確率高的優(yōu)點。

        4 結(jié)束語

        為了凸顯半結(jié)構(gòu)化數(shù)據(jù)的特性,提出一種物聯(lián)網(wǎng)通信大數(shù)據(jù)庫半結(jié)構(gòu)化數(shù)據(jù)識別方法,依靠綜合加權(quán)法與Tanimoto系數(shù)實現(xiàn)對數(shù)據(jù)的識別。

        1)半結(jié)構(gòu)數(shù)據(jù)的有效數(shù)據(jù)重寫率實驗結(jié)果表明,本文方法有效數(shù)據(jù)重寫率較低,最高為半結(jié)構(gòu)化數(shù)據(jù)比例為40%時的1759塊。

        2)本文提取算法與已知識別結(jié)果對比實驗表明,本文方法半結(jié)構(gòu)化數(shù)據(jù)識別正確率是98.6%。

        3)由于所提方法內(nèi),會依靠稀疏系數(shù)自帶的粗去噪進行濾波,因此并沒有對數(shù)據(jù)的噪聲進行精準(zhǔn)的去噪,導(dǎo)致識別的半結(jié)構(gòu)化數(shù)據(jù)內(nèi),依舊存在少量噪聲,這種噪聲雖然不會干擾識別結(jié)果,但其會在數(shù)據(jù)塊內(nèi)形成細小的白點,影響觀看與查詢的結(jié)果,因此下一步需要研究的課題即:在所提方法內(nèi)添加濾波器,依靠濾波器進行精準(zhǔn)的去噪處理。

        中文字幕午夜精品一区二区三区 | 亚洲国产色婷婷久久精品| 国产精品黄色av网站| 有坂深雪中文字幕亚洲中文| 内射人妻视频国内| 国产乱子伦精品无码码专区| 91精品亚洲一区二区三区| 亚洲熟女少妇一区二区三区青久久| 一本色道久久爱88av| 亚洲av成人精品日韩一区| 久久精品国产久精国产69| 青青草中文字幕在线播放| 国产一区二区视频在线免费观看| 中文字幕人妻无码一夲道| 成人区视频| 亚洲男人在线天堂av| av网站免费线看精品| 日韩a无v码在线播放| 色噜噜狠狠色综合欧洲| av网站国产主播在线| 全免费a敌肛交毛片免费| 国际无码精品| 亚洲av色香蕉一区二区三区蜜桃 | 久久久久99精品成人片欧美| 亚洲精品午睡沙发系列| 人妻人妻少妇在线系列| 婷婷开心五月综合基地| 一区二区三区人妻av| 国产在线精品一区在线观看| 97色偷偷色噜噜狠狠爱网站97| 国产激情在线观看视频网址| 亚洲精品一区二区三区麻豆| 欧美 日韩 国产 成人 在线观看| 国产亚洲AV片a区二区| 亚洲中文字幕久久在线| 免费观看的a级毛片的网站| 亚洲AV无码成人精品区天堂| 亚洲精品中文字幕一二三| 亚洲精品乱码久久久久久中文字幕 | 亚洲乱码中文字幕在线| 国产午夜亚洲精品午夜鲁丝片|