亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于部件CNN的網(wǎng)絡(luò)安全命名實(shí)體識(shí)別方法*

        2020-03-04 05:12:48秦永彬陳艷平
        關(guān)鍵詞:語義網(wǎng)絡(luò)安全特征

        魏 笑 秦永彬,2 陳艷平,2

        (1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 貴陽 550025)(2.貴州大學(xué)貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室 貴陽 550025)

        1 引言

        在網(wǎng)絡(luò)安全方面,研究者們常采用流量控制、內(nèi)容解析監(jiān)控的網(wǎng)絡(luò)監(jiān)測(cè)系統(tǒng)及時(shí)阻止內(nèi)部計(jì)算機(jī)的敏感信息泄露。而網(wǎng)絡(luò)攻擊的形式具有復(fù)雜多變性,現(xiàn)有網(wǎng)絡(luò)監(jiān)測(cè)系統(tǒng)無法保證及時(shí)監(jiān)測(cè)和預(yù)警這些動(dòng)態(tài)變化的攻擊類型。部分研究者提出采用知識(shí)圖譜技術(shù)構(gòu)建網(wǎng)絡(luò)安全知識(shí)圖譜。網(wǎng)絡(luò)安全命名實(shí)體識(shí)別是網(wǎng)絡(luò)安全知識(shí)圖譜構(gòu)建的基礎(chǔ)。

        國外英文網(wǎng)絡(luò)安全領(lǐng)域命名實(shí)體識(shí)別技術(shù)的研究已經(jīng)發(fā)展多年,研究者們提供了許多性能優(yōu)良的工具和系統(tǒng)。Mulwad等[1]利用標(biāo)準(zhǔn)命名實(shí)體識(shí)別工具OpenCalais抽取網(wǎng)絡(luò)安全相關(guān)網(wǎng)頁文本中的組織機(jī)構(gòu)、軟件,并采用支持向量機(jī)(Support Vector Machine,SVM)抽取計(jì)算機(jī)漏洞相關(guān)概念;Joshi等[2]使用CRF識(shí)別英文網(wǎng)絡(luò)安全公告和相關(guān)博客中的軟件、硬件、文件等網(wǎng)絡(luò)安全實(shí)體;Lal等[3]采用基于Stanford NER的條件隨機(jī)場(chǎng)模型識(shí)別來自各種數(shù)據(jù)源的安全相關(guān)術(shù)語來解決處理非結(jié)構(gòu)化文本,識(shí)別英文網(wǎng)絡(luò)安全實(shí)體;Bridges等[4]利用國家漏洞數(shù)據(jù)庫(NVD),對(duì)英文非結(jié)構(gòu)化的安全信息文本進(jìn)行自動(dòng)化的網(wǎng)絡(luò)安全實(shí)體標(biāo)注,并采用最大熵模型識(shí)別網(wǎng)絡(luò)安全實(shí)體中的軟件、漏洞編號(hào)和相關(guān)術(shù)語;Mittal等[5]對(duì)推特(Twitter)中的網(wǎng)絡(luò)安全漏洞、受影響的軟件、硬件和組織機(jī)構(gòu)等網(wǎng)絡(luò)安全實(shí)體進(jìn)行識(shí)別。在網(wǎng)絡(luò)安全實(shí)體識(shí)別問題中,國外技術(shù)逐漸成熟,推動(dòng)了網(wǎng)絡(luò)安全領(lǐng)域?qū)嶓w抽取的發(fā)展。

        目前,通用領(lǐng)域的命名實(shí)體識(shí)別方法已經(jīng)非常成熟。在通用領(lǐng)域中,常用的機(jī)器學(xué)習(xí)方法有條件隨機(jī)場(chǎng)[6~7]、隱馬爾可夫[8]、最大熵[9]等。除此之外,很多研究者采用整體性能優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)來進(jìn)行命名實(shí)體識(shí)別,緩解了構(gòu)建特征過程中的人為因素。神經(jīng)網(wǎng)絡(luò)模型通過大規(guī)模無標(biāo)注文本數(shù)據(jù)自主學(xué)習(xí)特征,可以抽取高階抽象的特征支撐命名實(shí)體識(shí)別。Liu等[10]提出一種多任務(wù)處理的增強(qiáng)序列標(biāo)注模型。在CoNLL03 NER、CoNLL00 chunking、WSJ多個(gè)數(shù)據(jù)集上實(shí)驗(yàn),實(shí)現(xiàn)字符級(jí)別的語言模型(Language Model,LM)。通過與預(yù)訓(xùn)練的字向量結(jié)合,并使用Bi-LSTM和CRF網(wǎng)絡(luò)進(jìn)行序列標(biāo)注任務(wù),該模型取得了較好的效果。Peters等[11]提出一種帶有雙向語言模型的半監(jiān)督序列標(biāo)注模型。在字級(jí)別的Bi-RNN網(wǎng)絡(luò)中加入預(yù)訓(xùn)練的詞級(jí)別的Bi-LM,二者直接拼接成新的詞向量。然后經(jīng)過Bi-RNN和CRF網(wǎng)絡(luò)進(jìn)行識(shí)別,該模型也取得了不錯(cuò)的效果。Dong等[12]提出一種基于部件和字向量的LSTM-CRF模型。通過將漢字拆分成部件,然后使用Bi-LSTM得到部件級(jí)別的字向量。最后經(jīng)過LSTM和CRF網(wǎng)絡(luò)進(jìn)行識(shí)別。通過調(diào)整網(wǎng)絡(luò)參數(shù),得到性能較高的中文命名實(shí)體識(shí)別結(jié)果。Chiu等[13]選用CNN抽取字符特征,然后與詞向量結(jié)合作為LSTM-CRF的輸入進(jìn)行英文命名實(shí)體識(shí)別,取得了很好的模型識(shí)別效果。

        雖然通用領(lǐng)域和英文網(wǎng)絡(luò)安全領(lǐng)域的命名實(shí)體識(shí)別方法已取得了較好的識(shí)別性能,但中文網(wǎng)絡(luò)安全文本相較于普通的自由文本和英文網(wǎng)絡(luò)安全文本有較強(qiáng)的特殊性、專業(yè)性和差異性,中文網(wǎng)絡(luò)安全命名實(shí)體識(shí)別仍然有待研究。

        因此,針對(duì)網(wǎng)絡(luò)安全實(shí)體中英文混合、部分實(shí)體為縮略詞的問題,考慮到基于字級(jí)別的命名實(shí)體識(shí)別方法中的字向量無法表征網(wǎng)絡(luò)安全實(shí)體的復(fù)雜語義特征。中文漢字部件具有“表音”和“表意”雙層含義,英文字母具有“語素”和“詞綴”雙層語義,部件向量具有中英文詞語隱含的語義信息。因此,中文部件和英文字母在一定程度能夠增強(qiáng)網(wǎng)絡(luò)安全實(shí)體的語義信息。本文提出一種基于部件CNN的網(wǎng)絡(luò)安全命名實(shí)體識(shí)別方法,利用部件CNN抽取詞語部件特征中的關(guān)鍵語義特征,豐富字詞級(jí)別的語義信息,并引入LSTM-CRF確保抽取字向量和部件特征中的抽象信息,同時(shí)獲取標(biāo)簽之間的關(guān)聯(lián)信息,以便于更加精準(zhǔn)地識(shí)別文本中的網(wǎng)絡(luò)安全命名實(shí)體。

        2 基于部件CNN的網(wǎng)絡(luò)安全相關(guān)命名實(shí)體識(shí)別方法

        本文提出一種基于部件CNN的網(wǎng)絡(luò)安全命名實(shí)體識(shí)別方法(Network Security Named Entity Recognition Method on Component-Based CNN,CCNS-NER),該模型架構(gòu)為 C-CNN-BiLSTM-CRF。在每個(gè)句子中,每一個(gè)字的標(biāo)注為 y=(y1,…,yn)。模型的字符輸入表示為 x=(x1,x2,…,xn)。其中 xi代表第i個(gè)字。其對(duì)應(yīng)的部件的輸入表示為c=(c1,1,c1,2,…,c2,1,ci,j,…,cn,l)。其中 ci,j表示第i個(gè)字xi的第j個(gè)部件。符號(hào)說明如表1所示。

        在C-CNN-BiLSTM-CRF模型架構(gòu)中,本文首先通過大量未標(biāo)注網(wǎng)絡(luò)安全數(shù)據(jù)集,使用word2vec的CBOW模型訓(xùn)練基于字級(jí)別的字向量表示。然后,根據(jù)中文漢字和英文詞語的部件有“表音”、“表意”的特點(diǎn),選用CNN模型抽取部件語義特征,實(shí)現(xiàn)部件的語義自動(dòng)抽取。

        圖1 C-CNN-BiLSTM-CRF網(wǎng)絡(luò)架構(gòu)圖

        表1 符號(hào)說明表

        該特征表示為部件向量。最后,通過預(yù)訓(xùn)練的字向量與部件向量拼接,形成聯(lián)合字級(jí)別的特征向量,作為LSTM-CRF網(wǎng)絡(luò)模型的輸入。該層的輸出為當(dāng)前序列的識(shí)別結(jié)果。接下來,本文按照自底向上的順序詳細(xì)介紹C-CNN-BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)架構(gòu)。

        2.1 字符級(jí)層

        本文使用大量未標(biāo)注的網(wǎng)絡(luò)安全文本數(shù)據(jù)進(jìn)行訓(xùn)練網(wǎng)絡(luò)安全領(lǐng)域字向量,并應(yīng)用預(yù)訓(xùn)練的字向量到網(wǎng)絡(luò)安全命名實(shí)體識(shí)別任務(wù)。針對(duì)網(wǎng)絡(luò)安全網(wǎng)頁文本干擾信息較多的問題,去除文本中不需要的標(biāo)記,去除噪音,提取正文文本。經(jīng)處理,本文獲得了11726條未標(biāo)記的數(shù)據(jù)作為預(yù)訓(xùn)練的語料庫。字符向量的預(yù)訓(xùn)練采用gensim[14]中word2vec的python版本實(shí)現(xiàn)。為了更快地獲得字符向量,本文采用速度相較于Skip gram更快的CBOW模型進(jìn)行預(yù)訓(xùn)練,并設(shè)置字向量的維度為100。預(yù)訓(xùn)練的字向量記為xi,字向量表示為x={xi|xi∈?m,i=1,2,…,n},m為字向量的維度。

        2.2 C-CNN層

        CC-NS-NER方法的框架C-CNN-BiLSTM-CRF中的C-CNN層用來抽取部件特征。卷積神經(jīng)網(wǎng)絡(luò)中的卷積層能夠自動(dòng)學(xué)習(xí)數(shù)據(jù)在各個(gè)層次的特征,池化層可以選擇其中的顯著特征。

        網(wǎng)絡(luò)安全文本中的網(wǎng)絡(luò)安全命名實(shí)體存在中英文混合、單詞縮寫等問題,僅基于字的命名實(shí)體識(shí)別方法難以充分表征字或詞的語義信息。因此,本文考慮中英文更細(xì)粒度的部件語義捕捉字或詞的語義特征。中文漢字與英文有較大差異,英文最小單元為字符,而中文漢字的最小單元是部件。英文詞語及字母歷經(jīng)語義演變,詞語與字母、詞語內(nèi)字母與字母之間具有特定的語義特征信息。漢字是一種象形文字,其形旁和聲旁部首是根據(jù)外物的特征和含義演化而來的。其中,形旁可以獲得漢字的內(nèi)部語義信息。因此,本文提出利用CNN抽取部件特征。其中由卷積層和池化層自動(dòng)提取出部件中的語義信息。

        部件級(jí)CNN層的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,主要組成部分為部件向量層、卷積層和池化層。

        部件向量層將一個(gè)漢字拆分為一個(gè)或多個(gè)部件,將一個(gè)英文單詞拆分為一個(gè)或多個(gè)字母,并根據(jù)隨機(jī)初始化的部件向量表查找對(duì)應(yīng)的部件向量,部件向量并隨著模型訓(xùn)練而不斷更新。針對(duì)漢字和英文詞語部件長度不等的情況,采取補(bǔ)充占位符的方法。由漢字部件字典和英文詞匯表可知部件長度,設(shè)定部件最大長度max_comp_len為20,并以此為準(zhǔn)在部件右端填充占位符或截?cái)唷?/p>

        卷積層使用不同數(shù)量的過濾器和不同大小的卷積窗口進(jìn)行卷積運(yùn)算,每個(gè)卷積窗口有一個(gè)權(quán)重W矩陣稱為卷積核。卷積層使用的卷積核的大小為T=[kernel_size,input_dim],其中 kernel_size為卷積窗口大小,input_dim為部件向量隨機(jī)初始化維度50。卷積核的權(quán)重矩陣值,初始值采用隨機(jī)生成,通過訓(xùn)練進(jìn)行變化。卷積層通過卷積操作,提取多個(gè)部件之間的局部特征,并采用ReLU為激活函數(shù)優(yōu)化神經(jīng)元的稀疏性。卷積層的部件局部特征可表示為

        其中:V為權(quán)值矩陣,c是部件向量矩陣,初始值采用隨機(jī)生成,后經(jīng)卷積核計(jì)算得到訓(xùn)練的部件向量矩陣,b為偏置,f為ReLU非線性激活函數(shù)。卷積層每一個(gè)輸出神經(jīng)元通過卷積核計(jì)算得來,表示相鄰多個(gè)部件的語義特征,形成部件特征映射矩陣。整層神經(jīng)元通過卷積核可以提取到單個(gè)漢字部件序列多個(gè)相鄰部件的特征,生成傳遞給下一層的特征映射矩陣G。

        池化層通過Max Pooling操作抽取出卷積層多個(gè)相鄰部件特征中最具有明顯特征的部分表征一個(gè)漢字或英文詞語的多個(gè)部件的特征信息c,后文稱之為聯(lián)合部件特征。池化后的聯(lián)合部件特征矩陣行的維度和字符級(jí)別輸入矩陣X相同,每一行對(duì)應(yīng)一個(gè)聯(lián)合部件特征向量,表示多個(gè)部件之間的特征信息。

        這樣,部件特征經(jīng)過卷積核池化操作,得到一個(gè)包含部件位置信息和語義關(guān)系的聯(lián)合部件特征向量c。

        圖2 部件級(jí)CNN層網(wǎng)絡(luò)結(jié)構(gòu)圖

        2.3 Bi-LSTM字符級(jí)聯(lián)合層

        在本文的模型架構(gòu)中,采用Bi-LSTM網(wǎng)絡(luò)獲取單個(gè)字在字符級(jí)別上前向后向兩個(gè)方向上的信息。正如圖1所示,每個(gè)字的字向量xi和部件特征ci連接,組合Bi-LSTM網(wǎng)絡(luò)的輸入為vi=[xi⊕ci]。選用字符級(jí)LSTM[15]網(wǎng)絡(luò)來處理字符級(jí)輸入訓(xùn)練漢字特征,以獲得當(dāng)前漢字在整個(gè)語句中的隱含語義信息,預(yù)測(cè)下個(gè)位置處的漢字。雙向字符特征向量序列為列向量拼接后的ht∈?2*l;最后對(duì)隱藏層特征向量序列采用tanh激活函數(shù)做激活處理,從而得到隱藏層的輸出結(jié)果:zt=tanh(Whht+bz)。其中隱藏層字符特征向量ht對(duì)應(yīng)的權(quán)重為 Wh∈?l×2l,ht的偏置向量為bz∈?l,zt為雙向LSTM的序列預(yù)測(cè)輸出結(jié)果,l表示隱藏層維度。

        2.4 CRF序列標(biāo)注層

        為了獲取真實(shí)情況下標(biāo)簽序列的最大合理性即最大概率序列預(yù)測(cè)結(jié)果,提高網(wǎng)絡(luò)安全命名實(shí)體識(shí)別結(jié)果的準(zhǔn)確性,相關(guān)研究中采用CRF模型解碼序列標(biāo)簽,獲取標(biāo)簽之間的關(guān)聯(lián)信息,確保獲取最大概率的全局最優(yōu)標(biāo)注序列。

        具體地,設(shè)輸入序列表示為 X=(w1,w2,…,wn),其中 wi=(xi,ci)表示第i個(gè)字的輸入向量,輸出序列表示為 y^=(y^1,y^2,…,y^n)。單個(gè)字的訓(xùn)練實(shí)例可以表示為 (xi,ri,yi),經(jīng)過字級(jí)別的LSTM后得到的輸出結(jié)果表示為 zi=(zi,1,zi,2,…,zi,m) ,m 表示類別數(shù)。CRF模型可以根據(jù)wi或z學(xué)習(xí)出所有可能的輸出序列標(biāo)簽。給定一個(gè)序列X,標(biāo)簽序列y^的可能性如下式:

        在訓(xùn)練中,本文采用預(yù)測(cè)值和真實(shí)值的最小化負(fù)對(duì)數(shù)似然作為優(yōu)化目標(biāo):

        在解碼和測(cè)試中,本文通過最大化似然獲得概率最大的序列:

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 數(shù)據(jù)集

        本文實(shí)驗(yàn)語料來源于網(wǎng)絡(luò)安全技術(shù)網(wǎng)站Free-Buf網(wǎng)頁結(jié)果,根據(jù)要提取的網(wǎng)絡(luò)安全信息的需要進(jìn)行類別標(biāo)簽設(shè)計(jì),主要包括組織機(jī)構(gòu)名、軟件及應(yīng)用程序名、操作系統(tǒng)名、域名、統(tǒng)一資源定位符、漏洞名稱、漏洞編號(hào)、相關(guān)專業(yè)術(shù)語等。本文采用BIO格式,添加類別標(biāo)簽后綴。網(wǎng)絡(luò)安全語料實(shí)體類別及數(shù)量統(tǒng)計(jì)信息如表3所示。

        3.2 實(shí)驗(yàn)設(shè)置

        1)子字符組件

        為了拆分漢字部件以訓(xùn)練得到漢字部件級(jí)的特征向量,本文從漢程網(wǎng)HTTPCN中檢索中文字符的部件和字根信息。共獲得了20,879個(gè)字符,13,253個(gè)部件和218個(gè)字根。其中7,744個(gè)字符具有多個(gè)部件,214個(gè)字符與它們自身的字根相等。英文詞語部件為字母,隨機(jī)初始化字母向量構(gòu)成英文部件向量表,共26個(gè)英文部件向量。

        表3 網(wǎng)絡(luò)安全語料實(shí)體類別及數(shù)量統(tǒng)計(jì)表

        2)參數(shù)設(shè)置

        在初始化時(shí),設(shè)置字向量維度為100維,設(shè)置部件向量的維度為50維,并隨機(jī)初始化其它參數(shù)。語句參數(shù)初始化時(shí),語句長度為100。設(shè)置漢字中的部件長度為20,并采用pad_sequences的方法對(duì)語句和部件序列預(yù)處理,低于閾值的語句和部件補(bǔ)足長度,高于閾值的語句和部件作截?cái)嗵幚怼?/p>

        本文應(yīng)用Adam作為模型的優(yōu)化器,并設(shè)置學(xué)習(xí)率為0.001,batch size為64,epochs為100。為了防止過擬合,設(shè)置丟失率為0.5。

        3.3 卷積核參數(shù)調(diào)整實(shí)驗(yàn)

        經(jīng)過調(diào)整模型中神經(jīng)網(wǎng)絡(luò)的維度,設(shè)置部件向量初始化維度為50。經(jīng)過調(diào)整模型中神經(jīng)網(wǎng)絡(luò)的卷積核大小,設(shè)置部件CNN的卷積核數(shù)量為50,150,調(diào)整窗口大小為 3、4、5、7。字符級(jí)聯(lián)合層LSTM隱藏層維度與其輸入維度相同,模型網(wǎng)絡(luò)參數(shù)如表4所示。本文以P、R、F1值為評(píng)價(jià)指標(biāo),對(duì)比結(jié)果如表5所示。

        表4 模型網(wǎng)絡(luò)參數(shù)表

        通過實(shí)驗(yàn)結(jié)果表5可以看出,部件CNN的卷積核數(shù)量固定為50、150時(shí),模型F1值隨著窗口的增大,呈現(xiàn)增高趨勢(shì),在窗口大小為7時(shí)模型性能最優(yōu)增高至最高。由表5可知,本文模型在網(wǎng)絡(luò)安全數(shù)據(jù)集上,模型卷積核數(shù)量為150,窗口大小為7時(shí)性能最優(yōu),性能指標(biāo)中準(zhǔn)確率達(dá)到了72.00%,召回率達(dá)到了67.41%,F(xiàn)1值達(dá)到了69.63%。經(jīng)過分析,我們發(fā)現(xiàn)產(chǎn)生這樣結(jié)果的原因是網(wǎng)絡(luò)安全實(shí)體中的有效實(shí)體的英文部件長度均保持在7左右的字節(jié)長度,且中文漢字的最大部件長度為9,而大多漢字的部件不足9個(gè)。因此,結(jié)合中英文的部件長度,模型在窗口為7時(shí)性能最優(yōu)。

        表5 卷積核參數(shù)對(duì)CCBC模型的F1的影響結(jié)果表

        3.4 方法性能對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證模型的性能,本章節(jié)在網(wǎng)絡(luò)安全數(shù)據(jù)集上,將本文的基于部件CNN的網(wǎng)絡(luò)安全命名實(shí)體識(shí)別方法CC-NS-NER與現(xiàn)有的一些方法進(jìn)行對(duì)比。本節(jié)中提到的所有實(shí)驗(yàn)數(shù)據(jù)均以自動(dòng)標(biāo)注的結(jié)果為基準(zhǔn),以提供對(duì)模型性能真實(shí)客觀的評(píng)價(jià)依據(jù)。實(shí)驗(yàn)結(jié)果如表6、圖3所示。

        表6 CC-NS-NER模型與其他模型的指標(biāo)對(duì)比表

        圖3 CC-NS-NER模型與其他模型8類的F1值對(duì)比圖

        通過表6、圖3的實(shí)驗(yàn)結(jié)果可以看出,在網(wǎng)絡(luò)安全數(shù)據(jù)集上,本文的CC-NS-NER算法相較于當(dāng)前主流的深度學(xué)習(xí)方法在整體P、R、F1值上均有所提高。模型最優(yōu)性能達(dá)到了69.63%,相比BiL-STM-CRF模型F1值提高了7.37%,相比GRU-BiLSTM-CRF模型F1值提高了2.54%。且各類別相較于其他兩個(gè)對(duì)比模型,較難識(shí)別的組織結(jié)構(gòu)ORG和軟件名稱SOF均有提升,并且漏洞名稱VN和相關(guān)術(shù)語RT達(dá)到性能最優(yōu)為63.45%和72.84%。由于網(wǎng)絡(luò)安全文本中,網(wǎng)絡(luò)安全相關(guān)專業(yè)術(shù)語實(shí)體是文本中出現(xiàn)較多的實(shí)體,其次是軟件名稱實(shí)體。網(wǎng)絡(luò)安全相關(guān)術(shù)語實(shí)體識(shí)別的效果較高,而軟件名稱安全實(shí)體的識(shí)別效果則較低,分析其構(gòu)成可知,軟件名稱安全實(shí)體中常包括軟件應(yīng)用和軟件應(yīng)用組件程序等實(shí)體,構(gòu)成較為復(fù)雜,并且大多軟件名稱與其開發(fā)團(tuán)隊(duì)的組織結(jié)構(gòu)名稱表述一致,軟件名稱更新速度較快。因此,難以抽取實(shí)體間共有特征以識(shí)別軟件名稱安全實(shí)體。而文本中出現(xiàn)數(shù)量較少的實(shí)體則是域名DN、統(tǒng)一資源定位符URL實(shí)體和漏洞編號(hào)VI實(shí)體,雖然同樣訓(xùn)練樣本少,但其命名具有一定的規(guī)律性可言,因此,可以較為準(zhǔn)確地識(shí)別,識(shí)別率最高。

        4 結(jié)語

        本文提出了一種基于部件CNN的網(wǎng)絡(luò)安全命名實(shí)體識(shí)別方法。在該方法中,利用中文漢字部件具有“表音”和“表義”的雙層含義,英文字母具有“語素”和“詞綴”的雙層含義(中文漢字部件與英文字母統(tǒng)稱為部件)。在部件CNN的作用下抽取中英文部件的隱含語義信息,增強(qiáng)了網(wǎng)絡(luò)安全實(shí)體的語義特征。相較于傳統(tǒng)命名實(shí)體識(shí)別方法,對(duì)域名、統(tǒng)一資源定位符和漏洞編號(hào)三類規(guī)則性網(wǎng)絡(luò)安全實(shí)體具有較好的實(shí)體識(shí)別效果。然而,網(wǎng)絡(luò)安全命名實(shí)體識(shí)別任務(wù)中,存在部分實(shí)體具有修飾詞語、由兩個(gè)或多個(gè)實(shí)體組合的網(wǎng)絡(luò)安全命名實(shí)體問題,更精準(zhǔn)識(shí)別網(wǎng)絡(luò)安全文本中的網(wǎng)絡(luò)安全命名實(shí)體,是下一步的研究方向。

        猜你喜歡
        語義網(wǎng)絡(luò)安全特征
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        網(wǎng)絡(luò)安全
        網(wǎng)絡(luò)安全人才培養(yǎng)應(yīng)“實(shí)戰(zhàn)化”
        上網(wǎng)時(shí)如何注意網(wǎng)絡(luò)安全?
        抓住特征巧觀察
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        我國擬制定網(wǎng)絡(luò)安全法
        聲屏世界(2015年7期)2015-02-28 15:20:13
        認(rèn)知范疇模糊與語義模糊
        亚洲黄色电影| 曰韩内射六十七十老熟女影视| 久久99热狠狠色精品一区| 亚洲精品一区二区三区大桥未久| 久久国产精品久久久久久| 久久韩国漫画无删减漫画歪歪漫画| 久久精品国产乱子伦多人| 青青草视频在线观看精品在线| 中文字幕亚洲入口久久| 私人vps一夜爽毛片免费| 国产极品美女高潮抽搐免费网站| 亚洲狼人社区av在线观看| 网址视频在线成人亚洲| 无码国产精品一区二区av| 成人性生交片无码免费看| 99久久久69精品一区二区三区 | 亚洲av一区二区网址| 国产亚洲精品品视频在线| 人人超碰人人爱超碰国产| 色八区人妻在线视频免费| 视频一区精品自拍| 国产自拍精品在线视频| 久久亚洲中文字幕精品一区| 国产精品国产午夜免费看福利| 日本精品一区二区三本中文| 男女一区视频在线观看| 欧美老肥妇做爰bbww| 玩弄人妻少妇500系列网址| 麻豆国产VA免费精品高清在线 | 精品无码人妻夜人多侵犯18| 国产精品麻豆欧美日韩ww| 天天中文字幕av天天爽| 一区二区三区av在线| 亚洲图片日本视频免费| 91av国产视频| 亚洲产在线精品亚洲第一页| 亚洲开心婷婷中文字幕| 波多野结衣中文字幕久久| 亚洲一区不卡在线导航| 国产av一区二区亚洲精品| 国产农村妇女毛片精品久久 |