亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于注意力機(jī)制和RECWE模型的中文詞向量方法

2020-06-20 05:32:00高統(tǒng)超張?jiān)迫A

網(wǎng)絡(luò)空間安全 2020年2期

高統(tǒng)超，張?jiān)迫A

（浙江理工大學(xué)信息學(xué)院，浙江杭州 310018）

1 引言

信息安全與自然語言處理密切相關(guān)，近些年來，自然語言處理在信息安全上得到廣泛應(yīng)用。文本表示是自然語言處理中的一項(xiàng)基本任務(wù)[1]，以字符為基本元素，將元素的類型轉(zhuǎn)化成數(shù)學(xué)概念上可用于計(jì)算的數(shù)值形式，經(jīng)常用于腳本攻擊檢測。隨著深度學(xué)習(xí)的發(fā)展，詞向量模型逐漸代替了傳統(tǒng)的文本表示。目前，針對中文詞向量模型研究方向主要有基于語義、基于形態(tài)和基于輔助知識(shí)三種。

但是，基于語義的方法存在噪音問題，上下文詞語和漢字,在不同語境中表現(xiàn)的語義不同，一詞多義的問題，需要使用特殊方式進(jìn)行處理?；谛螒B(tài)的方法利用象形字的特點(diǎn)，提取特征信息，但是也會(huì)引入一定的噪音。基于輔助知識(shí)的方法處理流程比較復(fù)雜，對輔助知識(shí)的依賴性較強(qiáng)。針對以上存在的問題，Chen等人[2]在CWE（Character-enhanced Word Embedding）模型的基礎(chǔ)上提出RECWE模型。模型分為詞組預(yù)測模型和子信息預(yù)測模型。除了考慮單詞組成蘊(yùn)含豐富的語義信息之外，還考慮漢字自身結(jié)構(gòu)的形態(tài)特點(diǎn)。此外，還考慮到漢字演變過程中產(chǎn)生巨大的變化，對偏旁部首進(jìn)行額外的映射處理，模型在實(shí)驗(yàn)中取得了較好的效果。

因此，本文在R E C W E模型的基礎(chǔ)上進(jìn)行研究。在詞組預(yù)測模型和子信息預(yù)測模中，通過累加求平均數(shù)的方式分別計(jì)算詞組預(yù)測層和子信息預(yù)測層向量，但是無法體現(xiàn)兩個(gè)模型各自組成部分不同的貢獻(xiàn)度。為此，本文基于注意力機(jī)制，采用SAN（Self-Attention）模型和基本注意力機(jī)制[3]分別對兩個(gè)預(yù)測模型進(jìn)行改進(jìn)，實(shí)驗(yàn)結(jié)果表明改進(jìn)后的RECWE模型具有較好的效果，在信息安全上具有重要的研究價(jià)值。

2 相關(guān)工作

2.1 基于語言模型的詞向量

詞向量的概念最早來自分布式表示（Distributed Representation）[4]。語言模型生成詞向量是通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)語言模型[5]（Neural Network Language Model，NNLM）?；舅枷胧菍Τ霈F(xiàn)在上下文環(huán)境里的詞進(jìn)行預(yù)測，本質(zhì)上是一種對共現(xiàn)統(tǒng)計(jì)特征的學(xué)習(xí)。2013年Google團(tuán)隊(duì)推出開源的Word2vec工具[5,6]。Word2vec工具是一款將詞表征為實(shí)數(shù)值向量，簡單高效，主要包含兩個(gè)模型：跳字模型（Continuous Skip-gram Model，Skip-gram）和連續(xù)詞袋模型（Continuous Bag-of-Words Model，CBOW）。Word2vec工具生成的詞向量可以較好地表達(dá)不同詞語之間的相似程度和類比關(guān)系。

本文以CBOW模型和Skip-gram模型為例，介紹采用語言模型生成詞向量。模型結(jié)構(gòu)圖如圖1所示。

圖1 CBOW和Skip-gram模型結(jié)構(gòu)圖

在CBOW模型中，通過上下文詞語對目標(biāo)詞的預(yù)測，得到詞向量。模型包含三層結(jié)構(gòu)，假設(shè)目標(biāo)詞為，上下文詞向量用表示，為上下文詞窗口大小，則每一層操作為：

（3）輸入層，將輸出層內(nèi)容構(gòu)造為一顆Huffman樹，葉子節(jié)點(diǎn)為數(shù)據(jù)集中出現(xiàn)過的詞，以該詞在數(shù)據(jù)集中的頻數(shù)為權(quán)值。

模型提供了兩種近似訓(xùn)練法：負(fù)采樣（Neg at i ve sa m pl i ng）和層次Softmax（Hierarchical Softmax），可計(jì)算出目標(biāo)詞出現(xiàn)的概率。Skip-gram模型思想與CBOW模型相反，通過從目標(biāo)詞對上下文詞的預(yù)測中學(xué)習(xí)到詞向量表達(dá)，用一個(gè)詞來預(yù)測它在文本序列周圍的詞，其計(jì)算過程與CBOW模型類似。

2.2 中文詞向量模型

目前，中文詞向量模型主要在C B O W和Skip-gram兩個(gè)模型思想的基礎(chǔ)上進(jìn)行廣泛研究。中英文語言結(jié)構(gòu)本身存在較大的差異，許多學(xué)者基于漢字結(jié)構(gòu)及字詞組合等不同特點(diǎn)進(jìn)行研究，主要分為三種研究方向。

第一，基于語義的方法。該方法是顯式地對中文字符層級(jí)語義多樣性進(jìn)行建模，可以有效地處理一字多義的問題，更能通過字詞語義相似性的先驗(yàn)，非平均地對待構(gòu)成詞的不同字符。Chen等人[7]根據(jù)中文漢字的特點(diǎn)，利用漢字自身也能夠表達(dá)較好的語義信息，提出了CWE模型。為了消除漢字歧義性問題，利用漢字在單詞中位置并結(jié)合k-means算法思想提出了三種方案。

第二，基于形態(tài)的方法。該方法深入挖掘漢字的形態(tài)構(gòu)成特征，將中文詞語拆分成字符、偏旁部首、子字符、筆畫等細(xì)分的特征，與原詞語一并進(jìn)入詞嵌入模型，為模型提供更多的語義信息。Yin等人[8]認(rèn)為中西方語言存在差異，漢字內(nèi)部豐富的語義信息更能表達(dá)詞語的意義，在此基礎(chǔ)上提出MGE (Multi-Granularity Embedding)模型。模型充分利用詞語和漢字的基礎(chǔ)部件，增強(qiáng)詞的向量表示，并在相似度和類比任務(wù)上驗(yàn)證了模型的有效性。Cao等人[9]在Skip-gram模型基礎(chǔ)上，利用漢字一筆一畫的結(jié)構(gòu)信息和聯(lián)系進(jìn)行研究，提出了cw2vec模型，保證不損失詞向量語義信息。

第三，基于輔助知識(shí)的方法。該方法是利用漢字的外部特征與字詞建立聯(lián)系為模型提供語義輔助。Xu等人[10]認(rèn)為CWE模型中單詞與漢字貢獻(xiàn)度不同，把中文翻譯成英文，使用方法計(jì)算單詞與字之間的相似度以表示貢獻(xiàn)的不同程度。Wu等人[11]根據(jù)象形文字的歷史演變進(jìn)程，提出基于字形的Glyce模型。利用不同歷史時(shí)期的漢字字形（如甲骨文、金文、篆書、隸書等）和漢字書法（如行書、草書等）增加字符圖像的象形信息，更廣泛的捕捉漢字的語義特征。而且添加圖像分類的損失函數(shù)，利用多任務(wù)學(xué)習(xí)方法增強(qiáng)模型的泛化能力。

2.3 注意力機(jī)制

注意力機(jī)制（Attention Mechanism）[12]的主要目標(biāo)是將當(dāng)前任務(wù)目標(biāo)相關(guān)的關(guān)鍵信息從各種信息中挑選出來，本質(zhì)上來看注意力機(jī)制和人類的選擇性視覺注意力機(jī)制相似。注意力機(jī)制早先用于NLP領(lǐng)域中的機(jī)器翻譯，如圖2所示，在Encoder-Decoder模型[13]中運(yùn)用注意力機(jī)制。

圖2 注意力機(jī)制模塊圖解

其中，是一個(gè)函數(shù)，利用Decoder網(wǎng)絡(luò)最新的隱藏層狀態(tài)，和編碼器端第1個(gè)單詞的隱藏層輸出作為輸入，計(jì)算得到。

3 基于注意力機(jī)制和RECWE模型的中文詞向量

3.1 基于RECWE模型的中文詞向量

在以往的詞向量模型的研究中，研究者們基于CBOW模型或Skip-gram模型，通過單個(gè)通道的結(jié)構(gòu)進(jìn)行研究。RECWE模型改變了以往的做法，提出了新的方法抽取形態(tài)和語義特征，采用與CBOW模型結(jié)構(gòu)相似的并行雙通道網(wǎng)絡(luò)模型，將目標(biāo)詞語的上下文詞語和目標(biāo)詞語中的漢字與上下文詞語中的漢字及各漢字結(jié)構(gòu)信息一起使用來預(yù)測目標(biāo)單詞。同時(shí)使用簡化的轉(zhuǎn)換和部首轉(zhuǎn)義機(jī)制來提取中文語料庫中的內(nèi)在信息，結(jié)合豐富的漢字內(nèi)部結(jié)構(gòu)的形態(tài)語義信息。

R E C W E模型結(jié)構(gòu)含有兩個(gè)子模塊。如圖3所示左邊是詞組預(yù)測模型（Word Prediction Module），通過利用目標(biāo)詞語的上下文詞語進(jìn)行預(yù)測，其中和表示上下文單詞，表示目標(biāo)詞，表示詞組預(yù)測層向量；右邊是子信息預(yù)測模型（Sub-information Prediction Module），其中分別表示詞組預(yù)測模塊中目標(biāo)詞和上下文詞的漢字、部首和漢字組件，模型對部首進(jìn)行了轉(zhuǎn)換處理，能夠充分挖掘漢字的語義信息[14]。表示子信息預(yù)測層向量。為了消除音譯詞語和一詞多義的影響，直接使用代替。目標(biāo)優(yōu)化函數(shù)為：

3.2 RECWE模型存在不足

在RECWE模型，詞組預(yù)測模型通過語義的方法獲取關(guān)于目標(biāo)詞語的語義信息，子信息預(yù)測模型通過形態(tài)方法提供更多的語義信息。雖然模型在實(shí)驗(yàn)中取得了較好的效果，但是還存在一些問題。

（1）在詞組預(yù)測模型中，通過對目標(biāo)詞組語的上下文詞語向量進(jìn)行累加求和，沒有體現(xiàn)詞語對目標(biāo)詞語的重要性，例如“筆記本價(jià)格漲幅很大”，當(dāng)“價(jià)格”作為目標(biāo)詞語時(shí)，上下文詞語中“漲幅”更能體現(xiàn)目標(biāo)詞語的重要性。在此基礎(chǔ)上，引入自注意力機(jī)制，用于計(jì)算上下文詞語的權(quán)重。

（2）在子信息預(yù)測模塊，通過對每一條評(píng)論語句中的漢字向量、部首向量和組件向量先進(jìn)行求和再求平均，作為子信息向量。這種方法忽略了各自向量之間對子信息向量不同的貢獻(xiàn)。為此，采用基本注意力機(jī)制，為三者各自向量劃分不同權(quán)重，完善模型。最后通過對比實(shí)驗(yàn)，驗(yàn)證方法的有效性。

3.3 基于注意力機(jī)制和RECWE模型的中文詞向量

在原始注意力機(jī)制結(jié)構(gòu)的基礎(chǔ)上，本文使用Vaswani等人[15]提出的SAN模型，它與傳統(tǒng)注意力機(jī)制不同之處在于不需要借助額外的語義向量進(jìn)行計(jì)算。該模型處理某一個(gè)位置的單詞時(shí)，會(huì)自動(dòng)處理其他位置的單詞是否能夠更好地表達(dá)目標(biāo)詞語的語義信息，為了充分考慮句子之間不同詞語之間的語義及語法聯(lián)系。在機(jī)器翻譯任務(wù)中，架構(gòu)分成編碼器-解碼器結(jié)構(gòu)，假設(shè)編碼器中長度為的單個(gè)序列輸入向量為編碼器將輸入向量映射為隱藏向量。利用隱藏向量表示整個(gè)序列，會(huì)導(dǎo)致輸入序列語義表示不充分，產(chǎn)生語義信息的損失。因此，計(jì)算隱藏向量時(shí)，考慮所有時(shí)間步長下的隱藏狀態(tài)，利用下列公式計(jì)算上下文向量。

圖3 RECWE模型結(jié)構(gòu)

詞組預(yù)測模型利用單詞作為輸入變量的最小單位，在計(jì)算預(yù)測層上下文向量時(shí)，采用了公式（5）中累加求和的方式，忽略了不同上下文詞語對目標(biāo)詞語的影響力。為此，在自注意力機(jī)制思想的基礎(chǔ)上，計(jì)算公式為：

為了能夠自適應(yīng)學(xué)習(xí)評(píng)論語句中上下文的語義，針對自注意力機(jī)制中的權(quán)重向量進(jìn)行了修改，采取了Self-Attention Unit模型中的方法進(jìn)行計(jì)算，引入尺度變換函數(shù)，用sigmoid函數(shù)計(jì)算注意力權(quán)重向量。該函數(shù)曲線光滑連續(xù)，可以根據(jù)語境能夠較好的區(qū)分上下文詞語與目標(biāo)詞語的語義關(guān)系。修改后的詞組預(yù)測模型如圖4所示。

圖4 詞組預(yù)測模型

子信息預(yù)測模型利用將對應(yīng)單詞的漢字、部首和字組件之間的語義信息進(jìn)行累加求和，計(jì)算公式如上式所示。模型中每個(gè)字都由三部分構(gòu)成，但是三部分對字的貢獻(xiàn)度是不同的。在此基礎(chǔ)上，引入基本注意力機(jī)制完善模型，為三者增加不同權(quán)重。改進(jìn)后的模型如圖5所示。

圖5 子信息預(yù)測模型

式（15）中，通過對三者求平均值作為最終子信息預(yù)測層向量。

4 實(shí)驗(yàn)分析

4.1 實(shí)驗(yàn)數(shù)據(jù)及實(shí)驗(yàn)設(shè)置

本文利用爬蟲技術(shù)獲取新聞文本作為實(shí)驗(yàn)的數(shù)據(jù)集。數(shù)據(jù)集中包含很多的英文，中文標(biāo)點(diǎn)，亂碼等一些非中文字符以及圖形表示等問題。為了保證數(shù)據(jù)集的完整性和平衡性，從中篩選了部分?jǐn)?shù)據(jù)。利用腳本從漢典獲取數(shù)據(jù)集的部首和組件數(shù)據(jù)，語料預(yù)處理流程圖如圖6所示。

圖6 評(píng)論文本預(yù)處理流程圖

清洗的目的是去除數(shù)據(jù)中有噪音的內(nèi)容和非文本部分，包括提取原始文本中的標(biāo)題、摘要和正文等信息[17]。本文主要使用正則表達(dá)式進(jìn)行替換和刪除進(jìn)行清洗。中文分詞中使用哈工大社會(huì)計(jì)算與信息檢索研究中心研制的語言技術(shù)平臺(tái)（LTP）的pyltp分詞工具[18]，其支持使用分詞外部詞典和使用個(gè)性化分詞模型，在分詞測評(píng)任務(wù)上，準(zhǔn)確率和分詞速度取得了較好的成績。停用詞是指文本中出現(xiàn)頻率很高，但是實(shí)際意義并不大的詞語，主要包括語氣助詞、副詞、介詞、連詞等。本文使用Mallet工具包[19]中所提供的缺省停用詞列表，在不影響情感分類準(zhǔn)確率的情況下，過濾停用詞。實(shí)驗(yàn)環(huán)境如表1所示。

4.2 模型參數(shù)調(diào)優(yōu)及評(píng)價(jià)標(biāo)準(zhǔn)

實(shí)驗(yàn)數(shù)據(jù)處理完成后，本文所有模型參數(shù)進(jìn)行統(tǒng)一設(shè)置，詞向量維度選擇為200，詞窗口大小5，初始化的學(xué)習(xí)率為0.25，語料中最小詞頻為5，模型迭代次數(shù)為100，高詞頻下采樣閾值為10-4。

表1 實(shí)驗(yàn)環(huán)境設(shè)置

本文使用詞語的相似度和類比兩項(xiàng)任務(wù)進(jìn)行評(píng)價(jià)。在相似度任務(wù)中，利用余弦值表達(dá)單詞地相似性，采用Spearman相關(guān)系數(shù)[6]評(píng)價(jià)相似度任務(wù)的實(shí)驗(yàn)效果。在類比任務(wù)中，目標(biāo)是輸入一組具有特定聯(lián)系的詞語組，期望推理出含有特定單詞的另一組詞語。例如“首都城市1-國家1=首都城市2-國家2”，為此，轉(zhuǎn)成數(shù)據(jù)公式進(jìn)行表示為，因此需要找出一個(gè)與的標(biāo)準(zhǔn)化內(nèi)積的值為最大值的詞

向量，利用余弦相似度計(jì)算，計(jì)算公式如公式（16）。

4.3 實(shí)驗(yàn)結(jié)果分析

在相似度的任務(wù)中，為了評(píng)估模型改進(jìn)的效果，選擇部分模型作為基礎(chǔ)模型進(jìn)行實(shí)驗(yàn)對比。選擇wordsim-240和wordsim-296兩種數(shù)據(jù)集作為評(píng)測文件。實(shí)驗(yàn)結(jié)果如表2所示。

表2 相似度任務(wù)實(shí)驗(yàn)結(jié)果

為了更直觀地展示各個(gè)模型效果，將上述結(jié)果繪制成柱狀圖，如圖7所示。

圖7 六種模型相似度任務(wù)的實(shí)驗(yàn)結(jié)果對比圖

從圖7中可以發(fā)現(xiàn)，改進(jìn)的RECWE模型整體上較其他模型在性能上有一定的提升效果，在兩個(gè)數(shù)據(jù)集中模型提高了2.89%和1.04%。利用自注意力機(jī)制在詞組預(yù)測模型中，可以發(fā)現(xiàn)效果也比其他模型好，說明上下文詞語包含豐富的語義信息，自注意力機(jī)制可以較好的為上下文詞語分配權(quán)重。但是在實(shí)驗(yàn)過程發(fā)現(xiàn)，單個(gè)子信息預(yù)測模型訓(xùn)練效果較差，原因在于利用漢字及其部首信息會(huì)提供一定的語義，輔助詞組模型作為更好的判斷，但是存在一定的語義含糊或者無法提供語義幫助的情況，比如“東西”是一個(gè)名詞詞語，用于泛指各種具體或抽象的人、事、物。在現(xiàn)代語言交流也包含愛憎情感色彩成分。而其漢字組成“東”“西”分別是方位描述字，無語提供精確的語義信息。此時(shí)，需要詞組模型根據(jù)上下文詞語尋找更加匹配的語義信息。

在類比任務(wù)中，使用Chen等手動(dòng)構(gòu)建的用于中文詞向量類比任務(wù)的數(shù)據(jù)集，數(shù)據(jù)集的統(tǒng)計(jì)情況如表3所示。采用準(zhǔn)確率作為評(píng)估指標(biāo)，實(shí)驗(yàn)結(jié)果如表4所示。

表3 數(shù)據(jù)集的統(tǒng)計(jì)情況

表4 類比任務(wù)實(shí)驗(yàn)結(jié)果

為了更直觀地展示各個(gè)模型效果，將上述結(jié)果繪制成柱狀圖，如圖8所示。

從圖8中可以看出，改進(jìn)后RECWE模型整體上取得了較好的效果，在三個(gè)不同主題的數(shù)據(jù)中，類比任務(wù)分別提高了2.47%、2.02%和1.72%，總體平均成績提高2.07%。說明不同詞語中的漢字及漢字部首提供的語義強(qiáng)弱不同，對詞語的貢獻(xiàn)也是不同的，通過利用注意力機(jī)制，可以較好的分配權(quán)重，以突出不同成分的重要性。不同類別數(shù)據(jù)，取得效果是不同的，主要原因是根據(jù)訓(xùn)練集有關(guān)，存在部門詞語的漢字和部首無法提供較好的語義信息，影響類比任務(wù)的效果。同時(shí)，隨著漢字的不斷演化，僅僅依靠偏旁部首提供的語義是有限的。

圖8 五種模型類比任務(wù)的實(shí)驗(yàn)結(jié)果對比圖

5 結(jié)束語

詞向量是自然語言處理中一項(xiàng)重要任務(wù)，在信息安全中廣泛應(yīng)用，比如WebShell檢測和XSS注入檢測等。將WebShell文件和XSS攻擊樣本作為普通文本序列，利用詞向量模型進(jìn)行特征提取，通過分類訓(xùn)練識(shí)別訪問行為和攻擊行為。本文在RECWE模型的基礎(chǔ)上，通過引用注意力機(jī)制的相關(guān)知識(shí)，分別對詞組預(yù)測模型和子信息預(yù)測模型進(jìn)行了改進(jìn)，通過實(shí)驗(yàn)驗(yàn)證改進(jìn)后的有效性。對于信息安全具有重要的實(shí)際意義。但是，相比較英文來說，效果還存在一定差距，還需要進(jìn)一步研究。