亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的二進(jìn)制變種協(xié)議字段劃分方法

        2024-04-23 04:34:42安曉明王忠勇翟慧鵬鞏克現(xiàn)
        關(guān)鍵詞:字段報(bào)文標(biāo)簽

        安曉明,王忠勇,翟慧鵬,鞏克現(xiàn),王 瑋+,孫 鵬

        (1.鄭州大學(xué) 河南先進(jìn)技術(shù)研究院,河南 鄭州 450000;2.鄭州大學(xué) 電氣與信息工程學(xué)院,河南 鄭州 450001;3.國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心河南分中心 技術(shù)保障處,河南 鄭州 450000)

        0 引 言

        隨著網(wǎng)絡(luò)協(xié)議種類的增加[1],大量的二進(jìn)制未知協(xié)議被廣泛地應(yīng)用于各種惡意網(wǎng)絡(luò)行為中,對網(wǎng)絡(luò)通信安全產(chǎn)生了極大的威脅[2,3]。二進(jìn)制協(xié)議與文本協(xié)議相比報(bào)文缺少可識別的ASCII碼,其逆向分析工作具有較高的研究價(jià)值[4]。其中協(xié)議字段格式劃分是協(xié)議逆向分析中一個(gè)重要的研究方向[5]。未知協(xié)議通??梢苑譃閮深?,一類是格式和語法未公開的協(xié)議,另一類是對開源協(xié)議的部分載荷進(jìn)行了變化拓展的變種協(xié)議。本文主要針對二進(jìn)制變種協(xié)議進(jìn)行字段格式劃分。

        現(xiàn)有的協(xié)議字段格式劃分方法有信息論投票[6,7]、序列對比[8]、概率統(tǒng)計(jì)[9,10]、頻繁項(xiàng)挖掘[11-13]等方法。分析發(fā)現(xiàn),上述研究的核心是統(tǒng)計(jì)高頻關(guān)鍵詞及其位置以推斷協(xié)議字段劃分點(diǎn),而關(guān)鍵詞與字段域未必等價(jià),且二進(jìn)制協(xié)議字段的關(guān)鍵詞和位置沒有那么固定,導(dǎo)致字段格式劃分的準(zhǔn)確率大大降低。近年來,深度學(xué)習(xí)在數(shù)據(jù)高層特征提取上表現(xiàn)出了強(qiáng)大的能力[14]。Zhao等[15,16]將長短時(shí)記憶全卷積神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到字段格式化分問題上。這類方法不局限于尋找固定的關(guān)鍵詞,但由于需要將字段進(jìn)行嚴(yán)格對齊處理,僅適用于定長的協(xié)議,且部分字段無法準(zhǔn)確確定其所屬類型,從而導(dǎo)致字段格式劃分的準(zhǔn)確率降低。

        基于以上分析,為了充分考慮協(xié)議報(bào)文數(shù)據(jù)的連續(xù)性,本文搭建了一種神經(jīng)網(wǎng)絡(luò)模型PRO-BILSTM-CRF。將提出的一種提取協(xié)議報(bào)文序列字段列特征數(shù)據(jù)集方法與雙向長短時(shí)記憶(bi-directional long short-term memory,BILSTM)神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,解決了BILSTM無法考慮字段變化規(guī)律的問題,并通過條件隨機(jī)場(conditional random field,CRF)的處理解決了預(yù)測標(biāo)簽不合理的問題。與前人基于深度學(xué)習(xí)的方法相比,不再將問題轉(zhuǎn)化為關(guān)鍵字類型分類問題而是將其視為序列標(biāo)注問題,利用BILSTM神經(jīng)網(wǎng)絡(luò)捕獲協(xié)議報(bào)文中字段的局部關(guān)鍵特征、字段上下文特征等,不局限于處理定長協(xié)議報(bào)文數(shù)據(jù),避免了字段分類困難的情況。

        1 本文方法

        1.1 基本框架

        設(shè)計(jì)了一種二進(jìn)制變種協(xié)議字段格式劃分方法,其框架如圖1所示,首先將協(xié)議報(bào)文序列數(shù)據(jù)集進(jìn)行列特征提取得到對應(yīng)的列特征數(shù)據(jù)集。再將協(xié)議報(bào)文序列數(shù)據(jù)集和字段列特征數(shù)據(jù)集進(jìn)行標(biāo)注處理生成訓(xùn)練集,利用其對搭建的PRO-BILSTM-CRF神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,挖掘協(xié)議字段格式特征。然后,利用訓(xùn)練好的模型對變種協(xié)議的報(bào)文序列數(shù)據(jù)集進(jìn)行字段格式劃分預(yù)測,得到變種報(bào)文序列每行的字段格式劃分,最后,將劃分結(jié)果進(jìn)行統(tǒng)計(jì)分析即可獲得變種協(xié)議的字段格式劃分方法。

        圖1 基于深度學(xué)習(xí)的二進(jìn)制變種協(xié)議字段格式劃分方法整體框架

        1.2 字段列特征數(shù)據(jù)集與標(biāo)記集

        將二進(jìn)制變種協(xié)議字段格式劃分問題看作序列標(biāo)注問題,學(xué)習(xí)輸入的報(bào)文序列的字段格式特征,但是傳統(tǒng)的序列標(biāo)注問題通常都不會(huì)關(guān)注元素在垂直方向上的變化規(guī)律。在二進(jìn)制協(xié)議字段格式劃分任務(wù)中,數(shù)據(jù)字段在幀中的位置信息即垂直方向上的列特征是至關(guān)重要的,例如有些字段在幀中的位置較為固定,且有數(shù)值取值較為固定或數(shù)值遞增遞減等特點(diǎn)[17]。此類字段在字段格式劃分任務(wù)中較為特殊,在人工協(xié)議字段格式劃分和傳統(tǒng)未知協(xié)議字段格式劃分方法中都發(fā)揮著至關(guān)重要的作用。因此,在傳統(tǒng)BILSTM-CRF神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,增加了協(xié)議報(bào)文數(shù)據(jù)字段列特征提取的部分,并將其與協(xié)議報(bào)文數(shù)據(jù)字段特征進(jìn)行融合。列特征數(shù)據(jù)集計(jì)算方法如下:

        將協(xié)議報(bào)文序列以1 bit為單位切割成長度為L的數(shù)據(jù)段,長度不夠L的消息在末位補(bǔ)零,假設(shè)共有r行數(shù)據(jù),則可構(gòu)成如下協(xié)議報(bào)文數(shù)據(jù)集矩陣Ur×L

        (1)

        對矩陣Ur×L做如下處理

        (2)

        并將wij組成字段列特征數(shù)據(jù)集矩陣Wr×L,在Wr×L中可觀察到某些列取值或固定或遞增遞減或隨機(jī)變化的特點(diǎn)。然后將Ur×L和Wr×L轉(zhuǎn)換成16進(jìn)制,得到以半字節(jié)為單位的協(xié)議報(bào)文序列數(shù)據(jù)集Ar×l和字段列特征數(shù)據(jù)集Dr×l

        (3)

        其中,l=L/4。

        將式(3)中的協(xié)議報(bào)文序列數(shù)據(jù)集Ar×l和字段列特征數(shù)據(jù)集Dr×l按照協(xié)議規(guī)定進(jìn)行字段格式劃分,并進(jìn)行如下規(guī)則的序列標(biāo)注:構(gòu)造4元標(biāo)注集:T={B,M,E,S}。 若字段長度為1,即由一個(gè)單位構(gòu)成,則此單位標(biāo)記為S。若字段長度大于1,則將字段開頭元素標(biāo)記為B,將字段結(jié)尾元素標(biāo)記為E,字段中間元素標(biāo)記為M。例如,有字段“02ebd”則將其對應(yīng)標(biāo)注序列為“B M M M E”,字段“7”標(biāo)注為“S”。通過上述規(guī)則對報(bào)文序列數(shù)據(jù)集和字段列特征數(shù)據(jù)集進(jìn)行標(biāo)注,得到神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集。

        1.3 PRO-BILSTM-CRF神經(jīng)網(wǎng)絡(luò)模型

        為了充分挖掘協(xié)議字段的深層特征,捕捉字段內(nèi)單元的上下文序列信息,本文搭建了一個(gè)神經(jīng)網(wǎng)絡(luò)模型PRO-BILSTM-CRF,其結(jié)構(gòu)如圖2所示。模型由兩大部分組成,一部分負(fù)責(zé)處理協(xié)議報(bào)文序列數(shù)據(jù)集,另一部分負(fù)責(zé)處理字段列特征數(shù)據(jù)集,然后將兩個(gè)部分學(xué)習(xí)到的特征進(jìn)行融合,根據(jù)得到的特征為每個(gè)元素進(jìn)行標(biāo)注。其中,詞嵌入層對輸入的字段進(jìn)行編碼,將輸入的單元映射為對應(yīng)的詞向量,作為各個(gè)時(shí)刻網(wǎng)絡(luò)的輸入。BI-LSTM層提取字段序列的抽象格式特征。全連接層將學(xué)習(xí)到的協(xié)議字段格式特征和字段列特征進(jìn)行融合并分類。CRF層處理全連接層的輸出,結(jié)合標(biāo)簽轉(zhuǎn)移特征給出最終合理的識別結(jié)果。

        圖2 PRO-BILSTM-CRF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        1.3.1 Word2vec詞嵌入層

        Word2vec模型可以根據(jù)字段間局部上下文語義信息的相關(guān)性,將半字節(jié)字段元素轉(zhuǎn)換成向量模式,便于神經(jīng)網(wǎng)絡(luò)模型對特征進(jìn)行抽取操作。

        (4)

        得到下一層兩個(gè)BILSTM模型的輸入α和β。

        1.3.2 BILSTM模型

        BILSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN) 中長短時(shí)記憶網(wǎng)絡(luò)(long short-term memory network,LSTM)的一種變體,能夠同時(shí)利用正向和反向的上下文信息,可以更好地捕捉雙向的語義依賴。在協(xié)議字段格式劃分任務(wù)上,BILSTM模型能夠充分考慮輸入字段單元的上下文元素信息,學(xué)習(xí)到字段中每個(gè)元素之間的聯(lián)系,不只關(guān)注單個(gè)輸入元素,能夠更加充分完整地學(xué)習(xí)字段特征。

        圖3 BILSTM細(xì)胞單元結(jié)構(gòu)

        (5)

        (6)

        將兩個(gè)BILSTM模型提取到的字段特征htα和htβ進(jìn)行拼接,得到融合字段特征矩陣Hr×l×n′, 其中n′=n1+n2,n1和n2分別為兩個(gè)BILSTM神經(jīng)網(wǎng)絡(luò)的特征輸出維度。

        1.3.3 全連接層

        全連接層可將BILSTM層輸出的融合特征矩陣Hr×l×n′映射到標(biāo)簽樣本空間 T={B,M,E,S}。 得到每個(gè)元素對應(yīng)的各標(biāo)簽的概率矩陣Pr×l×4

        (7)

        其中,Pij={pB,pM,pE,pS},pz(z∈{B,M,E,S}) 表示此處標(biāo)簽是z的概率。

        1.3.4 CRF層

        通過對嵌入層、BI-LSTM層和全連接的訓(xùn)練,可得到各單元對應(yīng)各標(biāo)簽的概率,此時(shí)的輸出并沒有考慮標(biāo)簽間的關(guān)系,如標(biāo)簽B的后面不可以直接連接B,標(biāo)簽E的后面只能接B或S等。如果直接輸出全連接層的字段格式劃分結(jié)果,可能會(huì)存在標(biāo)簽不合理的情況。為了處理此類問題,在全連接層后加一個(gè)CRF層來融合上下文標(biāo)簽間的關(guān)系,讓模型的輸出更加準(zhǔn)確合理。具體方式是CRF層對全連接層得到的標(biāo)簽序列概率矩陣Pr×l×4中各標(biāo)簽之間的轉(zhuǎn)移概率進(jìn)行建模然后在所有標(biāo)簽序列中選取一條最高得分的路徑作為最終標(biāo)簽序列。若CRF模型預(yù)測序列ai={ai1,ai2,…,ail} 對應(yīng)的標(biāo)簽序列yi={yi1,yi2,…,yil}, 則分?jǐn)?shù)定義為Score(ai,yi) 表示輸入序列ai,對應(yīng)標(biāo)簽序列為yi的概率分?jǐn)?shù),計(jì)算公式為

        (8)

        其中,Qyij,yi(j+1)表示標(biāo)yij到標(biāo)簽yi(j+1)的轉(zhuǎn)移概率,Pi,j,yij表示aij的標(biāo)簽為yij的概率。求出最大的Score(ai,yi) 值,則對應(yīng)的yi即為序列ai的最佳標(biāo)簽序列。

        2 實(shí)驗(yàn)數(shù)據(jù)和結(jié)果分析

        2.1 數(shù)據(jù)集來源

        本文的研究對象是從122星、KU水平極化、986.034 857 MHZ信號收集到的LINKSTAR數(shù)據(jù),其協(xié)議格式是基于DVB-RCS協(xié)議的變形設(shè)計(jì),具有數(shù)據(jù)量大、數(shù)據(jù)變化多的特點(diǎn),可滿足本方法訓(xùn)練集所需數(shù)據(jù)變化多樣性的要求。數(shù)據(jù)集的具體規(guī)模見表1。

        表1 數(shù)據(jù)集規(guī)模

        數(shù)據(jù)集特點(diǎn):

        (1)以4 bit為最小分割單位,字段格式劃分不再以字節(jié)為單位,劃分結(jié)果更為準(zhǔn)確;

        (2)單條數(shù)據(jù)過長,最長可達(dá)3000多個(gè)單位;

        (3)單條數(shù)據(jù)中存在含義相同內(nèi)容不同的數(shù)據(jù)段的多次循環(huán)情況,且循環(huán)次數(shù)不固定。

        根據(jù)LSTM網(wǎng)絡(luò)的特點(diǎn),單條數(shù)據(jù)長度最好在250~500單位之間,并且根據(jù)協(xié)議數(shù)據(jù)循環(huán)的特點(diǎn),若對過長的數(shù)據(jù)進(jìn)行截短,截取足夠長的單位作為樣本數(shù)據(jù),也可以推斷協(xié)議的字段格式劃分方式。本文將單條數(shù)據(jù)進(jìn)行切割,只留單條數(shù)據(jù)的前400個(gè)單位作為訓(xùn)練數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明可以正確推斷出協(xié)議字段格式劃分。

        2.2 評估標(biāo)準(zhǔn)

        本文研究的問題可看成一個(gè)多分類問題,分類結(jié)果可以分為4種情況:

        TP(true positive):預(yù)測字段格式劃分位置與真實(shí)字段格式劃分位置相同的情況。

        TN(true negative):沒有字段格式劃分的位置被預(yù)測為沒被劃分的情況。

        FN(false negative):本應(yīng)被劃分的位置沒有被劃分的情況。

        FP(false positive):本不應(yīng)劃分的位置被預(yù)測為劃分的情況。

        采用常用的準(zhǔn)確率(ρ)、召回率(γ)、綜合評價(jià)指標(biāo)(F1)來對字段格式劃分方法的性能進(jìn)行衡量

        (9)

        其中,準(zhǔn)確率(ρ)代表被正確劃分的字段數(shù)量占被劃分字段總數(shù)的比例。召回率(γ)代表被正確劃分的字段占實(shí)際劃分字段總數(shù)的比例。F1綜合衡量了準(zhǔn)確率和召回率,當(dāng)F1較高時(shí)表明實(shí)驗(yàn)方法較為理想。

        2.3 超參數(shù)設(shè)置

        在實(shí)驗(yàn)過程中,本文采用控制變量方法,對模型中的詞向量維度、LSTM隱藏層維度、Dropout等參數(shù)進(jìn)行調(diào)優(yōu),確定了基于本文的數(shù)據(jù)集下的最優(yōu)參數(shù),見表2。

        表2 超參數(shù)設(shè)置

        (1)詞向量維度選取

        詞向量維度代表了元素單元的特征,維度越大越能準(zhǔn)確的將元素區(qū)分,但維度太大會(huì)弱化元素間的關(guān)系。因此在其它參數(shù)固定的情況下,設(shè)置了不同的詞向量維度進(jìn)行對比實(shí)驗(yàn),對比結(jié)果如圖4所示。從圖4中可以看出,當(dāng)詞向量維度為25時(shí),綜合評價(jià)指標(biāo)F1達(dá)到了最高值。

        圖4 詞向量維度選取實(shí)驗(yàn)結(jié)果

        (2)LSTM隱藏層神經(jīng)單元個(gè)數(shù)選取

        LSTM隱藏層神經(jīng)元的個(gè)數(shù)與學(xué)習(xí)到的特征數(shù)量有關(guān),如果隱藏層神經(jīng)單元數(shù)量太少學(xué)習(xí)到的特征不足會(huì)導(dǎo)致欠擬合;相反神經(jīng)單元數(shù)太多,數(shù)據(jù)不足以訓(xùn)練網(wǎng)絡(luò)中所有的神經(jīng)元?jiǎng)t會(huì)發(fā)生過擬合,且太多的神經(jīng)元會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)復(fù)雜度變大,泛化能力降低。因此在其它參數(shù)固定的情況下,設(shè)置了不同的神經(jīng)單元個(gè)數(shù)進(jìn)行對比實(shí)驗(yàn),對比結(jié)果如圖5所示,從圖5中可以看出,當(dāng)LSTM隱藏層神經(jīng)單元個(gè)數(shù)為64時(shí),綜合評價(jià)指標(biāo)F1達(dá)到了最高值。

        圖5 LSTM隱藏層神經(jīng)元個(gè)數(shù)選取實(shí)驗(yàn)結(jié)果

        (3)Dropout值的選取

        在模型訓(xùn)練過程中讓某個(gè)神經(jīng)元的激活值以一定的Dropout概率停止工作,可以減少模型的過擬合現(xiàn)象。因此在其它參數(shù)固定的情況下,設(shè)置不同的Dropout值進(jìn)行對比實(shí)驗(yàn),對比結(jié)果如圖6所示,從圖中可以看出當(dāng)Dropout值為0.5時(shí),綜合評價(jià)指標(biāo)F1達(dá)到了最高值。

        圖6 Dropout值選取實(shí)驗(yàn)結(jié)果

        (4)損失函數(shù)

        模型所用的損失函數(shù)是CRF層的損失函數(shù)如式(10)所示,基本思想是在訓(xùn)練過程中不斷更新神經(jīng)網(wǎng)絡(luò)模型,使真實(shí)字段序列標(biāo)簽路徑得分在所有可能序列標(biāo)簽路徑得分和的占比最大

        (10)

        2.4 實(shí)驗(yàn)結(jié)果分析

        采用本文提出的PRO-BILSTM-CRF神經(jīng)網(wǎng)絡(luò)進(jìn)行二進(jìn)制變種協(xié)議劃分,其結(jié)果見表3。單行字段格式劃分準(zhǔn)確率最高可達(dá)87.4%。平均行字段格式劃分準(zhǔn)確率為65.7%。

        表3 字段格式劃分評估結(jié)果

        進(jìn)一步對PRO-BILSTM-CRF模型輸出的每條數(shù)據(jù)的字段格式劃分結(jié)果進(jìn)行統(tǒng)計(jì)分析,方法如下:首先依次取每條數(shù)據(jù)的字段格式劃分結(jié)果,將每條數(shù)據(jù)中對應(yīng)字段格式劃分位置的計(jì)數(shù)加一,全部數(shù)據(jù)都處理完后,對位置的出現(xiàn)次數(shù)進(jìn)行篩選,閾值是總行數(shù)的1/10,篩選過后的位置即為最終的變種協(xié)議字段格式劃分方式。圖7是經(jīng)過統(tǒng)計(jì)篩選后的變種協(xié)議預(yù)測字段格式劃分方式與變種協(xié)議真實(shí)字段格式劃分方式的對比圖,由于數(shù)據(jù)過長,此處只顯示前90個(gè)單位的字段格式劃分結(jié)果。

        圖7 字段格式劃分總結(jié)結(jié)果

        圖7中顯示的點(diǎn)即為應(yīng)字段格式劃分的位置。對比預(yù)測結(jié)果與真實(shí)的字段格式劃分方式可以發(fā)現(xiàn)在預(yù)測結(jié)果中會(huì)出現(xiàn)多劃分的情況,其中多劃分的情況出現(xiàn)在60單位之后的位置,根據(jù)對實(shí)驗(yàn)數(shù)據(jù)的分析,這種情況是由于從60單位向后的字段為循環(huán)字段,每條數(shù)據(jù)的循環(huán)段循環(huán)次數(shù)、循環(huán)起始位置可能不同,經(jīng)過統(tǒng)計(jì)后就會(huì)出現(xiàn)多劃分的情況。若只關(guān)注循環(huán)前的字段格式劃分方式,本實(shí)驗(yàn)得到的結(jié)果與真實(shí)的字段格式劃分方式幾乎相同,這反映了本方法的結(jié)果有較高的參考價(jià)值。

        (1)對比實(shí)驗(yàn)一:不同神經(jīng)網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果對比

        為了驗(yàn)證提出的PRO-BILSTM-CRF神經(jīng)網(wǎng)絡(luò)模型在二進(jìn)制變種協(xié)議字段格式劃分問題上的有效性,設(shè)置幾個(gè)模型(LSTM、LSTM-CRF、BILSTM-CRF、PRO-BILSTM-CRF)進(jìn)行對照實(shí)驗(yàn),在使用相同的數(shù)據(jù)集和超參數(shù)的情況下,比較字段格式劃分的準(zhǔn)確率、召回率、F1值。實(shí)驗(yàn)結(jié)果見表4。

        表4 模型對比結(jié)果

        從表4中可以分析出,首先LSTM模型與其它3種LSTM+CRF結(jié)構(gòu)相比,反應(yīng)整體性能的F1值都有所下降,這是由于單LSTM模型忽略了標(biāo)簽結(jié)果間的轉(zhuǎn)移關(guān)系,出現(xiàn)了不合理的標(biāo)簽組合,導(dǎo)致了最終準(zhǔn)確率的下降。LSTM+CRF結(jié)構(gòu)在LSTM層后加入了CRF層,充分考慮了標(biāo)簽間的轉(zhuǎn)移關(guān)系,降低了不合理標(biāo)簽組合出現(xiàn)的概率,能夠得到較為準(zhǔn)確的結(jié)果。其次,BILSTM-CRF模型與LSTM-CRF模型相比,F(xiàn)1值也有所提高,這是因?yàn)锽ILSTM充分考慮了正向和反向的上下文信息,而單向的LSTM只能捕捉到正向的信息,對反向的信息并未捕捉到。另外本文提出PRO-BILSTM-CRF模型與BILSTM-CRF模型相比,F(xiàn)1值也有所提高,這是因?yàn)樵谒岱椒ㄖ锌紤]字段格式劃分特有的字段變化特征即列特征,向模型中加入了列特征數(shù)據(jù)集特征提取部分,這能夠更好地挖掘協(xié)議字段格式。由上述分析可知,對于二進(jìn)制變種協(xié)議字段格式劃分研究任務(wù)而言,本文提出的PRO-BILSTM-CRF模型與BILSTM-CRF、LSTM-CRF、LSTM模型相比更適用、更有效。

        (2)對比實(shí)驗(yàn)二:與現(xiàn)有協(xié)議字段格式劃分方法的實(shí)驗(yàn)結(jié)果對比

        將本文方法與現(xiàn)有未知協(xié)議字段格式劃分方法進(jìn)行對比,方法一是秦等[11]提出的基于邊界投票算法的字段格式劃分方法。方法二是王[18]提出的改進(jìn)的基于數(shù)據(jù)挖掘的字段格式劃分方法。實(shí)驗(yàn)結(jié)果見表5。

        表5 對比實(shí)驗(yàn)二結(jié)果

        從表5中可以發(fā)現(xiàn),方法一的召回率(γ)高于其它兩種方法,其原因在于召回率代表被正確劃分的字段占實(shí)際劃分字段總數(shù)的比例,方法一將大部分可能的劃分點(diǎn)全部提出,犧牲了準(zhǔn)確率,從綜合評價(jià)指標(biāo)(F1)的值可以看出方法一結(jié)果的參考價(jià)值較小。表5表明本文方法的準(zhǔn)確率和F1值都高于另外兩種方法,原因在于方法一和方法二的字段格式劃分依據(jù)數(shù)據(jù)中的位置和數(shù)值較為固定的關(guān)鍵詞或出現(xiàn)概率較大的關(guān)鍵詞進(jìn)行字段格式劃分。本文的樣本數(shù)據(jù),有些字段出現(xiàn)位置較為固定,但每條數(shù)據(jù)的字段數(shù)值都不一樣即出現(xiàn)頻率不夠大;有些字段雖然出現(xiàn)頻率夠大,但出現(xiàn)位置較為分散;數(shù)據(jù)中位置相對固定的字段較少。導(dǎo)致方法一和方法二不能得到很好的字段格式劃分結(jié)果。

        3 結(jié)束語

        目前二進(jìn)制字段劃分方法存在依賴高頻關(guān)鍵詞或無法處理變長協(xié)議報(bào)文數(shù)據(jù)等問題。為此,提出了一種基于深度學(xué)習(xí)的二進(jìn)制變種協(xié)議字段格式劃分方法,將BILSTM-CRF神經(jīng)網(wǎng)絡(luò)應(yīng)用到此問題上,并提出了一種具有針對性的PRO-BILSTM-CRF網(wǎng)絡(luò)模型。該方法向模型中加入字段格式劃分問題特有的字段變化規(guī)律即列特征來提高模型的準(zhǔn)確率,以半字節(jié)為最小單位利用協(xié)議字段格式特征對變種協(xié)議字段格式劃分方式進(jìn)行推斷。最后將本文方法與現(xiàn)有模型和方法進(jìn)行實(shí)驗(yàn)對比,結(jié)果驗(yàn)證本文提出的模型在二進(jìn)制變種協(xié)議字段格式劃分任務(wù)上優(yōu)于其它模型,并且和現(xiàn)有協(xié)議字段格式劃分方法相比有更高的參考價(jià)值。

        猜你喜歡
        字段報(bào)文標(biāo)簽
        基于J1939 協(xié)議多包報(bào)文的時(shí)序研究及應(yīng)用
        汽車電器(2022年9期)2022-11-07 02:16:24
        圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
        CTCS-2級報(bào)文數(shù)據(jù)管理需求分析和實(shí)現(xiàn)
        淺析反駁類報(bào)文要點(diǎn)
        中國外匯(2019年11期)2019-08-27 02:06:30
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        ATS與列車通信報(bào)文分析
        標(biāo)簽化傷害了誰
        基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
        CNMARC304字段和314字段責(zé)任附注方式解析
        国产精品无码av一区二区三区| 在线亚洲精品一区二区三区| 在线中文字幕一区二区| 无码色av一二区在线播放| 人妻忍着娇喘被中进中出视频| 亚洲αⅴ无码乱码在线观看性色| 中文字幕人妻少妇精品| 日本av一区二区三区视频| 国产女人高潮叫床视频| 亞洲綜合一區二區三區無碼| 男男互吃大丁视频网站| 精品亚洲一区二区三区四区五| 无码国产69精品久久久久孕妇| 亚洲 欧美 唯美 国产 伦 综合| 操B小视频国产| 一区二区三区视频亚洲| 极品少妇小泬50pthepon| 久久精品岛国av一区二区无码| 亚洲精品中文字幕乱码二区| 日韩人妻系列在线观看| 最爽无遮挡行房视频| 激情五月婷婷综合| 国产av一区仑乱久久精品| 人妻少妇精品中文字幕专区| 全部孕妇毛片丰满孕妇孕交| 呦泬泬精品导航| 日本人妻高清免费v片| 色欲av伊人久久大香线蕉影院| 日韩人妻精品无码一区二区三区| 久久亚洲精彩无码天堂 | 国产一区二区三区视频地址| 亚洲中文字幕无码一久久区| 五月天国产精品| 男女后入式在线观看视频| 蜜桃视频一区二区在线观看| 婷婷丁香五月中文字幕| 97久久成人国产精品免费| 国内久久婷婷六月综合欲色啪| 亚洲精品乱码久久久久久日本蜜臀| 亚洲中文字幕无码久久2018| 亚洲永久精品日韩成人av|