亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于矯正理解的中文文本對抗樣本生成方法

        2023-02-20 09:38:20王春東孫嘉琪楊文軍
        計算機工程 2023年2期
        關(guān)鍵詞:置信度成功率漢字

        王春東,孫嘉琪,楊文軍

        (1.天津理工大學(xué) 計算機科學(xué)與工程學(xué)院,天津 300384;2.計算機病毒防治技術(shù)國家工程實驗室,天津 300384)

        0 概述

        近年來,自然語言處理(Natural Language Processing,NLP)技術(shù)在眾多領(lǐng)域都取得了快速的發(fā)展和進步。然而,現(xiàn)有研究證明NLP 模型容易受到對抗樣本的影響[1]。對抗樣本是通過對測試數(shù)據(jù)添加不可察覺的擾動生成的,可以使目標(biāo)模型以高置信度輸出錯誤的分類結(jié)果[2-3]。目前,解決這一問題的有效方法是通過對抗訓(xùn)練提高自然語言處理模型的泛化性和魯棒性[4],而對抗訓(xùn)練需要大量高質(zhì)量的對抗樣本數(shù)據(jù)[5]。因此,高質(zhì)量、大批量地生成對抗樣本具有重要意義。

        在文本對抗樣本的研究中,以英文文本為背景的研究已趨于完善,其中大部分方法通過改動單詞中的字母來達(dá)到生成對抗樣本的目的,例如單詞內(nèi)字母的插入、刪除、互換位置及相似字符替換等。由于中文和英文隸屬于不同的語系,文字構(gòu)成最小單元不同(英文以字母為最小單元,中文以漢字為最小單元)[6],這就導(dǎo)致了上述英文文本對抗樣本生成方法對于字母的改動無法直接應(yīng)用在漢字上,直接影響了英文方法的可遷移性。

        漢語是世界上使用人數(shù)最多的語言,中文自然語言處理系統(tǒng)在現(xiàn)實場景中應(yīng)用廣泛。由于缺乏中文文本對抗樣本研究,因此這些系統(tǒng)正面臨著巨大風(fēng)險。中文文本對抗樣本研究的缺乏主要有四方面的原因:第一,漢語句子結(jié)構(gòu)不同于印歐語系(英語、德語、荷蘭語等),英語的對抗樣本生成方法很難直接遷移到漢語上;第二,中文關(guān)鍵詞度量函數(shù)的通用性較差,這些度量函數(shù)將注意力更多地放在具有強烈情感傾向性的句子上;第三,漢字結(jié)構(gòu)復(fù)雜,很難給漢字添加擾動,現(xiàn)有的漢字?jǐn)_動策略,如漢字分割、繁體漢字替換和漢語拼音替換,欺騙性較弱,易于人眼識別;第四,生成的文本對抗樣本需要在不影響人類閱讀的基礎(chǔ)上使NLP 分類錯誤。[6-7]因此,現(xiàn)有方法在這種條件下效果并不理想。為了解決上述問題,本文提出一種基于中文文本的可探測黑盒對抗樣本生成方法WordIllusion,通過觸發(fā)人類矯正理解,即一種由多個心理學(xué)現(xiàn)象共同作用的使人類可以忽略文本中特定錯誤而理解文本含義的現(xiàn)象,有效生成人類難以察覺的對抗樣本。

        1 相關(guān)工作

        在眾多文本對抗樣本生成的研究中,基于英文文本的研究已經(jīng)比較完善,PAPERNOT等[3]利用單詞語義嵌入空間中距離相近的單詞替換原始文本中隨機選擇的單詞,但這些距離相近的單詞很可能只是詞性相似但表示的含義有很大差異,引入這些詞匯將會顛覆原始文本語義,同時對隨機選出的詞語進行攻擊的效率很低。針對攻擊效率低下的問題,LIANG等[7]通過單詞向量梯度計算方法確定關(guān)鍵詞位置,然后利用關(guān)鍵詞的錯拼詞作為替換生成對抗樣本。這種方法很大程度上提升了文本對抗樣本的攻擊效率。在實際應(yīng)用場景中,攻擊者通常無法訪問目標(biāo)模型中白盒攻擊方法所用到的參數(shù),所以上述白盒攻擊方法很難為真實場景中的對抗樣本攻擊提供實質(zhì)性幫助。GAO等[8]和LI等[9]分別提出DeepWordBug 方法和TextBugger 方法,兩種方法均設(shè)計了基于英文文本的關(guān)鍵詞篩選策略和對抗樣本生成策略。JIN等[10]提出TextFooler,該方法首先利用余弦相似度選擇字典中的n個相近詞并將其作為替換候選詞,然后利用POS 檢測和語義檢測對候選詞進行評估,最后使用可以成功改變分類結(jié)果或者使分類置信度降低最多的詞作為最佳替換詞。ZHANG等[11]提出Argot 方法,通過設(shè)計物種替換策略生成對抗樣本。但這兩種方法的限制過于嚴(yán)格,無法大規(guī)模生成對抗樣本。

        漢語作為聯(lián)合國6 種官方語言之一,在文本對抗樣本領(lǐng)域擁有著很高的研究價值。漢字具有獨特的結(jié)構(gòu)以及造字方法,致使中文在數(shù)據(jù)處理方面比英文文本更加離散。這也是中文文本對抗樣本領(lǐng)域目前取得研究成果較少的主要原因之一。王文琦等[12]提出WordHandling 方法。該方法針對中文文本生成對抗樣本,對具有傾向性的詞匯設(shè)計了關(guān)鍵詞度量函數(shù),并使用同音字庫作為替換空間。但是,該方法的替換策略較為單一,沒有充分利用漢字的特點。NUO等[13]提出WordChange 方法。該方法使用3 種中文關(guān)鍵字修改策略,包括漢字交換(CCE)、字符插入(CI)、漢字拆分和替換(CCSR)。這些策略利用了漢字的獨特結(jié)構(gòu),通過引入與原句語義不相關(guān)的漢字進而干擾模型分類。此外,漢字還具有簡體字可映射成漢語拼音和繁體字的特性?;谠撎匦?,仝鑫等[14]提出CWordAttack 方法。該方法利用漢語拼音、繁體字以及其他字符替換原句中的關(guān)鍵詞,但很大程度上影響了人類的正常閱讀理解。同時,上述中文文本對抗樣本方法僅將TextCNN 和LSTM 作為靶機模型測試其他方法的效果。隨著近些年文本分類模型數(shù)量的激增,這些方法對于新興文本分類模型的有效性不得而知,因此探索具有強泛化性的對抗樣本生成方法顯得尤為重要,其在評估和提升模型魯棒性的過程中可起到關(guān)鍵作用。

        2 對抗樣本生成方法

        2.1 矯正理解

        在研究人類閱讀習(xí)慣的過程中發(fā)現(xiàn)一個有趣的現(xiàn)象,即將中文文本中一些漢字替換成對應(yīng)的特定漢字,并不會對人類理解文本含義造成影響。從心理學(xué)角度出發(fā),找到了這種現(xiàn)象的心理學(xué)解釋,它是由多個心理學(xué)效應(yīng)共同作用產(chǎn)生的。人們由于存在確認(rèn)偏差[15],因此在閱讀時產(chǎn)生閱讀慣性[16],從而忽略了文中的一些替換字,但仍能獲取文本真實含義,即使后來發(fā)現(xiàn)了替換字的存在也會由于現(xiàn)狀偏見[17]認(rèn)為自己已經(jīng)理解了文本含義而不會改變對句意的判斷,這種現(xiàn)象被稱為矯正理解。漢字作為一種復(fù)腦文字[18],字形和字音共同作用向人類傳達(dá)信息,因此利用同音字和字形相似的字替換原文可使人類獲取足夠其根據(jù)先驗信念做出結(jié)論的信息,并忽略這些替換字。

        2.2 基于中文文本的可探測黑盒對抗樣本生成方法

        WordIllusion 方法整體架構(gòu)如圖1 所示,包含數(shù)據(jù)處理與計算、關(guān)鍵詞替換兩個模塊。首先,將數(shù)據(jù)輸入數(shù)據(jù)處理與計算模塊,在刪除標(biāo)點符號后將數(shù)據(jù)輸入深度學(xué)習(xí)模型得到模型計算出的分類置信度,再將分類置信度輸入CKSFM 計算函數(shù),通過計算比較cksf 值選出句子中的關(guān)鍵詞。然后,將關(guān)鍵詞輸入關(guān)鍵詞替換模塊,在這個模塊中利用字形嵌入空間和同音字庫中的相似詞語替換關(guān)鍵詞并構(gòu)建對抗樣本候選序列,再將其重新輸入數(shù)據(jù)處理與計算模塊計算cksf值。最后,選擇一個cksf 值最高的數(shù)據(jù)作為最終生成的對抗樣本。

        圖1 WordIllusion 方法整體架構(gòu)Fig.1 Overall architecture of WordIllusion method

        為了便于區(qū)分,在圖1中,輸入模型或方法的數(shù)據(jù)流用實線表示,輸出模型或方法的數(shù)據(jù)流用虛線表示?;谥形奈谋镜目商綔y黑盒對抗樣本生成方法的具體步驟如下:

        步驟1關(guān)鍵詞篩選。給定一個句子X={x1,x2,…,xn},其中只有一部分詞能影響到文本分類模型的分類結(jié)果。因此,本文設(shè)計一個評分函數(shù)CKSFM,以此衡量單詞x∈X對文本分類結(jié)果F(x)=Y的影響程度。CKSFM 中cksf 值的計算如式(1)所示:

        其中:Yorigin代表原標(biāo)簽的分類置信度;Yother代表其他標(biāo)簽的分類置信度。同理,在向原始文本添加擾動后,Y′origin代表原標(biāo)簽的分類置信度,Y′other代表其他標(biāo)簽的分類置信度。在計算過程中將k設(shè)為標(biāo)簽數(shù),選擇使分類模型分類置信度變化最大的詞作為關(guān)鍵詞。當(dāng)兩個關(guān)鍵詞對分類置信度的改變量相同時,選擇對其他標(biāo)簽的分類置信度的累加改變量影響更大的詞作為關(guān)鍵詞。輸入數(shù)據(jù)示例的cksf 曲線如圖2 所示。

        圖2 輸入數(shù)據(jù)的cksf 曲線Fig.2 cksf curve of input data

        步驟2關(guān)鍵詞替換。在步驟1 篩選出關(guān)鍵詞后,利用可以觸發(fā)人類矯正理解的詞匯(字形和字音與關(guān)鍵詞相似的漢字)對其進行替換。

        針對字形相似漢字,借鑒一種新的漢字表征方法[19],利用常用簡體字及與其對應(yīng)的繁體字構(gòu)建嵌入式空間,并從中選擇與關(guān)鍵詞相似的漢字。針對字音相似漢字,利用pypinyin(https://pypi.org/project/pypinyin/)庫將關(guān)鍵詞轉(zhuǎn)換成對應(yīng)的同音字。原始漢字及其替換漢字示例如圖3 所示。

        圖3 原始漢字及其替換漢字示例Fig.3 Examples of the original Chinese characters and their replacements

        具體而言:首先,找到中文字形嵌入空間中最接近關(guān)鍵字的前m個單詞,并生成字形替換序列Xgly;然后,在同音字庫中找到在讀音上與關(guān)鍵字相同的前l(fā)個詞,并生成同音字替換序列Xhom;最后,將這兩個序列組合起來生成候選詞序列Xcan。

        步驟3最終對抗樣本確定。首先,使用步驟2 生成的候選詞序列中的詞來替換原始句子中的關(guān)鍵字,并生成對抗樣本候選序列;然后,再次使用式(1)計算每個句子的cksf值,并將具有最高cksf 值的句子作為最終生成的對抗樣本。

        算法1WordIllusion 算法

        輸入 文本數(shù)據(jù)X={x1,x2,…,xn},對應(yīng)的正確標(biāo)簽Y,靶機模型F,超參數(shù)m和l,中文字形嵌入空間Xgly={xgly1,xgly2,…,xglym},同音字字典Xhom={xhom1,xhom2,…,xhoml}

        輸出對抗樣本Xadv

        1)根據(jù)式(1)計算X中每個漢字的cksf值。

        2)將cksf 值最大的字作為關(guān)鍵字。

        3)在中文字形嵌入空間Xgly={xgly1,xgly2,…,xglym}中搜索與關(guān)鍵字字形相似的m個漢字。

        4)用搜索到的漢字替換原句中的關(guān)鍵字并生成新的句子,組成字形候選序列。

        5)在同音字字典Xhom={xhom1,xhom2,…,xhoml}中搜索與關(guān)鍵字同音的l個漢字。

        6)用搜索到的漢字替換原句中的關(guān)鍵字并生成新的句子,組成字音候選序列。

        7)將字形候選序列與字音候選序列合并,生成替換候選序列。

        8)根據(jù)式(1)計算替換候選序列中每條文本的cksf 值并記作rresi。

        9)取rresi值最大的數(shù)據(jù)作為輸出的對抗樣本。

        3 實驗評估

        3.1 實驗設(shè)置

        實驗分為橫向?qū)嶒灪涂v向?qū)嶒?。橫向?qū)嶒炛荚谔骄繑?shù)據(jù)集特征、目標(biāo)模型和攻擊方法對攻擊有效性的影響,分為新聞分類和情感分析2 個任務(wù),每個任務(wù)有TextRNN[20]、TextCNN[21]、TextRCNN[22]、DPCNN[23]和Transformer[24]等5 種目標(biāo)模型,其中前4 種模型相比于Transformer模型提出時間更早,結(jié)構(gòu)更簡單,因此將其統(tǒng)稱為傳統(tǒng)模型。將WordIllusion方法與CWordAttack、WordHandling 這2 種基線攻擊方法進行比較,攻擊成功率越高意味著攻擊方法越有效。

        設(shè)置縱向?qū)嶒灥哪康脑谟谔骄坎煌瑪_動率對生成的對抗樣本的效用影響。選擇平均長度為20 個字的2 000 條數(shù)據(jù),并將最大修改范圍設(shè)置為30%。在相同的實驗環(huán)境中測試了WordHandling、CWordAttack 和WordIllusion 方法,并比較了不同擾動率下的攻擊成功率(Attack Success Rate,ASR)。

        3.2 數(shù)據(jù)集和實驗環(huán)境

        選擇THUCNews 和Meituan 作為實驗數(shù)據(jù)集。THUCNews 基于新浪新聞歷史數(shù)據(jù)生成,包括金融、房地產(chǎn)、股票、教育、科技、社會、時事、體育、游戲、娛樂等10 個候選類別。Meituan 基于美團外賣的在線評論,包括正面和負(fù)面2 個分類。本文基于AMD Ryzen7 5800H 3.20 Hz CPU、16 GB RAM 和RTX 3060 GPU實現(xiàn)WordIllusion方法。

        3.3 評價指標(biāo)

        3.3.1 攻擊成功率

        為了驗證本文WordIllusion 方法的有效性,計算實驗樣本中的攻擊成功率并將其作為實驗評價指標(biāo)。隨機抽取2 000 個生成的對抗樣本,并將它們放回文本分類模型中。對于每個數(shù)據(jù),當(dāng)分類結(jié)果與原始標(biāo)簽不同時,記錄為攻擊成功。將攻擊成功次數(shù)記錄為Ns,攻擊總數(shù)記錄為Nt。攻擊成功率為成功次數(shù)與攻擊總數(shù)之比,計算公式如下:

        3.3.2 音形碼相似度

        為了衡量生成的對抗樣本的質(zhì)量,引入音形碼相似度(Sound Shape Code Similarity,SSCS)[25]。音形碼是1 種對漢字進行編碼的方法,將漢字轉(zhuǎn)換為10 個字母數(shù)字序列,如圖4 所示。該序列包含聲母、韻母、聲調(diào)、結(jié)構(gòu)、四角編碼、筆畫數(shù)等信息,在一定程度上描述了漢字的讀音和字形特征。

        圖4 音形碼結(jié)構(gòu)Fig.4 Structure of sound shape code

        音形碼相似度將每個漢字的音形碼的前4 位和后6 位數(shù)字分開,并在字音和字形2 個維度上計算替換漢字和原始漢字之間的相似度,其中,利用前4 位音碼計算漢字之間字音相似度SSoundCodeSimilarity,利用后6 位形碼計算漢字之間字形相似度SShapeCodeSimilarity。

        相似度越高意味著對抗樣本的欺騙性越強,也意味著該對抗樣本更可能觸發(fā)人類的矯正理解。這證明了生成的對抗樣本使人類可以忽略文本中特定錯誤而理解原文的含義。SSCS 的計算公式如下:

        4 實驗結(jié)果與分析

        4.1 橫向?qū)嶒?/h3>

        通過橫向?qū)嶒灡容^在最小擾動攻擊下WordIllusion和基線方法的攻擊成功率,其中,THUCNews 數(shù)據(jù)集的平均擾動率為5.33%,Meituan 數(shù)據(jù)集的平均擾動率為7.08%,最小擾動為每個數(shù)據(jù)被一個文字替代。表1 和表2 給出了黑盒攻擊下5 種模型在2 個文本分類任務(wù)中的攻擊成功率,其中最優(yōu)指標(biāo)值用加粗字體標(biāo)示。

        表1 WordIllusion 和基線方法在THUCNews 數(shù)據(jù)集上針對不同模型的攻擊成功率 Table 1 ASR of the WordIllusion and baseline methods for different models on the THUCNews dataset %

        表2 WordIllusion 和基線方法在Meituan 數(shù)據(jù)集上針對不同模型的攻擊成功率 Table 2 ASR of the WordIllusion and baseline methods for different models on the Meituan dataset %

        由表1 和表2 可以看出:

        1)WordIllusion 方法相比于基線方法對2 個文本分類任務(wù)中的5 種模型的攻擊成功率均為最高,其中在THUCNews 數(shù)據(jù) 集的DPCNN 模型上,WordIllusion 方法的攻擊成功率相比于CWordAttack 方法最多高出41.73 個百分點,驗證了WordIllusion 方法的有效性與通用性。主要原因為:CWordAttack 方法通過引入英語字符和繁體漢字來攻擊模型,而這些字符在文本分類模型預(yù)先訓(xùn)練的詞嵌入空間中并不存在,因此文本分類模型將它們視為“陌生字符”,即模型不會從字符中提取特征,等價于從輸入模型序列中刪除了關(guān)鍵字;WordIllusion 方法從字形和字音兩個維度找到替代詞,相比于WordHandling 方法,擴展了替換空間,更容易找到有效關(guān)鍵詞,并具有更高的攻擊成功率。

        2)WordIllusion 方法在情感分析任務(wù)中對于傳統(tǒng)文本分類模型的平均攻擊成功率比新聞分類中高4.68個百分點。主要原因為:Meituan 數(shù)據(jù)集包含了大量具有情感傾向性的詞匯,使模型易于從此類詞匯上提取分類特征并做出正確分類,但是它們也很容易被攻擊方法鎖定,導(dǎo)致目標(biāo)模型的準(zhǔn)確性顯著下降。

        3)對于在2 個文本分類任務(wù)中攻擊Transformer模型,WordIllusion 方法在新聞分類任務(wù)中表現(xiàn)出了更好的性能,驗證了WordIllusion 方法針對Transformer模型的攻擊有效性。然而,WordIllusion 方法在情感分類任務(wù)中表現(xiàn)不佳,主要原因為Meituan 數(shù)據(jù)集相比于THUCNews 數(shù)據(jù)集規(guī)模較小,導(dǎo)致Transformer 模型訓(xùn)練不充分,攻擊成功率降低。

        WordIllusion 方法在THUCNews 數(shù)據(jù)集上生成的對抗樣本與原始文本示例如下所示:

        示例1

        原始文本(標(biāo)簽:Science):中移動合并鐵通后寬帶業(yè)務(wù)將遭受非對稱管制。

        對抗樣本(標(biāo)簽:Stocks):中栘動合并鐵通后寬帶業(yè)務(wù)將遭受非對稱管制。

        示例2

        原始文本(標(biāo)簽:Science):美股周三小幅下跌,中國概念股漲跌互現(xiàn)。

        對抗樣本(標(biāo)簽:Society):美股周三小幅下跌,中國慨念股漲跌互現(xiàn)。

        WordIllusion 方法在Meituan 數(shù)據(jù)集上生成的對抗樣本與原始文本示例如下所示:

        示例3

        原始文本(標(biāo)簽:Negative):送來的辣椒粉都撒了!

        對抗樣本(標(biāo)簽:Positive):送來的辣椒粉都撤了!

        示例4

        原始文本(標(biāo)簽:Positive):酸辣粉很好吃,雖然沒有給筷子。

        對抗樣本(標(biāo)簽:Negative):酸辣粉很妤吃,雖然沒有給筷子。

        4.2 縱向?qū)嶒?/h3>

        縱向?qū)嶒灥哪康脑谟谘芯繑_動率對于攻擊成功率的影響,結(jié)果如圖5 所示。由圖5 可以看出,WordIllusion 方法的性能在多數(shù)情況下優(yōu)于其他方法。當(dāng)擾動率達(dá)到20%時,WordIllusion 方法攻擊成功率逐漸趨于平緩,與其他兩種基線方法相比可以在更小的擾動空間中有效地攻擊目標(biāo)模型。對于相同的攻擊成功率,WordIllusion 與其他兩種基線方法相比具有更低的計算開銷。但是,由圖5(d)可以看出,隨著擾動率的增加,CWordAttack 方法的攻擊成功率超過了WordIllusion 方法,主要原因為CWordAttack 方法的攻擊策略類似于從輸入模型序列中刪除關(guān)鍵字,擾動率的增加意味著原句保留的可用信息越來越少,使得Transformer 模型無法捕獲漢字的相對位置信息[26],失去了解決遠(yuǎn)距離信息問題的能力,從而更容易受到攻擊。

        圖5 擾動率對TextCNN 和Transformer 文本分類模型的攻擊性能影響Fig.5 Impact of perturbation ratio on attack performance of the TextCNN and Transformer text classification models

        4.3 效用分析

        在SSCS 計算過程中,選擇經(jīng)典模型TextCNN 和較為先進的Transformer 模型,并在THUCNews 數(shù)據(jù)集上進行測試。實驗隨機選擇50 組原始文本和對抗樣本,計算原始漢字和替換漢字之間的SSCS,最后計算50 組原始文本和對抗樣本的平均相似度并進行比較,如圖6所示。由于CWordAttack 方法不使用漢字替換,無法計算SSCS,因此該實驗僅計算WordIllusion 和WordHandling 方法之間的SSCS。由圖6可以看出,WordIllusion方法生成的對抗樣本與原始文本更相似。這意味著結(jié)合字形和字音考慮,WordIllusion 方法生成的對抗樣本更有可能觸發(fā)人類矯正理解,并使人們更容易保持對原始文本的預(yù)測。

        圖6 兩種攻擊方法在不同數(shù)據(jù)集上選擇的替換漢字和原漢字之間的SSCSFig.6 SSCS between the replacement characters and the original characters selected by two attack methods on different datasets

        4.4 消融實驗

        為了驗證基于中文文本的可探測黑盒對抗樣本生成過程中關(guān)鍵詞篩選步驟的有效性,在該步驟上設(shè)計了消融實驗,將其從整個過程中刪除,并使用隨機選擇方法確定替換的漢字。應(yīng)用TextCNN和Transformer作為目標(biāo)模型,并在THUCNews 數(shù)據(jù)集上對其進行測試,同時保持關(guān)鍵詞替換、最終對抗樣本確定步驟和擾動率不變,測試結(jié)果如表3所示。由表3可以看出,在刪除關(guān)鍵詞篩選步驟并使用隨機選擇方法確定替換的漢字后,在兩種測試模型上攻擊成功率降低了20個百分點以上。這表明關(guān)鍵詞篩選對于整個對抗樣本生成過程的攻擊成功率至關(guān)重要,它可以準(zhǔn)確定位句子中對分類結(jié)果影響最大的詞,選擇這些詞可以有效地減少冗余的擾動率,并且不降低攻擊成功率。

        表3 刪除關(guān)鍵詞篩選步驟前后的模型攻擊成功率比較Table 3 Comparison of the ASR for the models before and after deleting keywords filtering step %

        4.5 真實場景實驗

        隨著機器學(xué)習(xí)技術(shù)的發(fā)展,機器學(xué)習(xí)模型通常部署在云服務(wù)器上,用戶可以通過調(diào)用API 解決實際問題,然而這些計算服務(wù)時刻面臨被攻擊的風(fēng)險。選擇騰訊云中的文本分類服務(wù)作為測試對象,在真實場景中測試WordIllusion 方法的攻擊性能。該文本分類服務(wù)基于數(shù)千億大規(guī)?;ヂ?lián)網(wǎng)語料庫和深度神經(jīng)網(wǎng)絡(luò)模型(如LSTM 和BERT)進行訓(xùn)練,通過不斷迭代和更新確保性能的持續(xù)改進。實驗測試了新聞分類和情感分析功能:新聞分類API 包含14 種分類標(biāo)簽,分別為汽車、科學(xué)、健康、體育、旅游、教育、職業(yè)、文化、房地產(chǎn)、娛樂、女性、奧運、金融和其他,適用于一般場景;情感分析API 包含積極和消極2 種分類標(biāo)簽。圖7 給出了騰訊云中的情感分析API,可以看出情緒分析API 返回積極和消極2 種分類標(biāo)簽,置信度之和等于1,置信度最高的類為輸出結(jié)果。

        圖7 騰訊云API:深度學(xué)習(xí)分類平臺實例(黑盒場景)Fig.7 Tencent Cloud API:an example of deep learning classification platform which is a black-box scenario

        選擇一些原始文本和通過各種方法生成的對抗樣本,將它們分別輸入騰訊云中的新聞分類API 和情感分析API,并記錄分類結(jié)果,具體步驟如下:

        1)計算不同攻擊方法生成的對抗樣本的平均攻擊成功率,結(jié)果如表4所示,可以看出,WordIllusion方法生成的對抗樣本的攻擊成功率達(dá)到70.95%和71.43%,其他兩種方法的攻擊成功率均低于WordIllusion方法。實驗結(jié)果驗證了WordIllusion方法在真實場景中的有效性。

        表4 針對騰訊云API 的3 種對抗樣本的攻擊成功率 Table 4 ASR of three kinds of adversarial examples for Tencent Cloud API %

        2)攻擊方法雖然對本文分類模型的分類結(jié)果影響較小,但仍可以降低模型分類置信度,因此計算置信度變化并進行統(tǒng)計,如圖8 所示。由圖8可以看出,不同攻擊方法生成的對抗樣本對于文本分類模型的總體置信度趨于下降,其中WordIllusion 方法生成的對抗樣本使模型分類置信度下降幅度更大,從而驗證了WordIllusion 方法的有效性。

        圖8 3種對抗樣本生成方法攻擊API時的模型分類置信度變化Fig.8 Change of the model classification confidence of three kinds of adversarial example generation methods against the APIs

        5 結(jié)束語

        本文提出一種基于中文文本的對抗樣本生成方法WordIllusion,使用音形碼相似度來確保對抗樣本與原始樣本充分相似,通過對深度學(xué)習(xí)模型實施黑盒攻擊導(dǎo)致模型錯誤分類。實驗結(jié)果表明,WordIllusion 方法對深度學(xué)習(xí)模型的分類準(zhǔn)確度有較大影響,但對原始中文文本的修改僅為輸入數(shù)據(jù)長度的5%~7%,從而驗證了WordIllusion 方法的強欺騙性和泛化性。后續(xù)將確定不同中文文本的最優(yōu)擾動率,并分析最優(yōu)擾動率下的對抗樣本攻擊成功率,進一步提升定向攻擊中的攻擊成功率。

        猜你喜歡
        置信度成功率漢字
        成功率超70%!一張冬棚賺40萬~50萬元,羅氏沼蝦今年將有多火?
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        如何提高試管嬰兒成功率
        如何提高試管嬰兒成功率
        正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
        漢字這樣記
        漢字這樣記
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        研究發(fā)現(xiàn):面試排第四,成功率最高等4則
        海峽姐妹(2015年5期)2015-02-27 15:11:00
        多假設(shè)用于同一結(jié)論時綜合置信度計算的新方法?
        成人大片免费视频播放一级| 亚洲精品成人av观看| 日本中文字幕av网址| 99精品久久精品一区| 欧美熟妇另类久久久久久不卡| 8ⅹ8x擦拨擦拨成人免费视频| 午夜亚洲AV成人无码国产| 加勒比一本大道大香蕉| 日韩精品第一区二区三区| 9 9久热re在线精品视频| 激情婷婷六月| 蜜臀av国内精品久久久人妻| 一区二区三区四区中文字幕av | 日本精品一区二区三区二人码| 闺蜜张开腿让我爽了一夜| 91av视频在线| 免费看男女啪啪的视频网站| 少妇精品亚洲一区二区成人| 日本不卡一区二区三区在线| 久久九九青青国产精品| 国产免费一区二区三区在线视频 | 91精品国产高清久久久久| 亚洲综合视频一区二区| 蜜臀av无码人妻精品| 亚洲av无码成人yellow| 国产丝袜高跟美腿一区在线| 亚洲日本精品国产一区二区三区 | 又黄又爽又高潮免费毛片| 国产aⅴ丝袜旗袍无码麻豆| 国产精品一区二区三区播放| 内地老熟女老少配视频| 草莓视频一区二区精品| 精品少妇一区二区三区四区| 最新国产精品拍自在线观看| 热re99久久精品国产99热| 国产免费无码9191精品| 日本中文字幕精品久久| 无码任你躁久久久久久老妇| 国产91在线免费| 男生自撸视频在线观看| 男人的天堂av网站|