亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大型語言模型內(nèi)容檢測算法和繞過機制研究

2023-06-10 04:44:40葉露晨阮文波

信息安全研究 2023年6期

葉露晨范淵王欣阮文波

(杭州安恒信息技術(shù)股份有限公司杭州 310051)

ChatGPT是OpenAI于2022年11月30日發(fā)布的聊天機器人,上線2個月用戶數(shù)就突破了1億,在全世界掀起一股颶風.人們可以利用ChatGPT解釋復(fù)雜理論和話題,提供生活建議,優(yōu)化簡歷.除基礎(chǔ)對話外,ChatGPT還通過了圖靈測試、美國醫(yī)學執(zhí)照考試、沃頓商學院MBA考試和4門法學院的考試.沃頓大學教授Christian Terwiesch甚至聲稱“ChatGPT展示了一種非凡的能力,可以使高薪工人的某些技能自動化”[1].

使用ChatGPT雖然可以促進生產(chǎn)力,但利用ChatGPT投機取巧進行欺詐也成了研究人員最大的擔憂,例如代寫作業(yè)、偽造新聞稿等.在網(wǎng)絡(luò)安全方面,ChatGPT會成為生成惡意軟件、釣魚郵件的強大工具.網(wǎng)絡(luò)安全公司CheckPoint就在ChatGPT上線不久后,利用它生成能攜帶惡意載荷、編寫巧妙的網(wǎng)絡(luò)釣魚郵件.CheckPoint安全專家表示“ChatGPT有顯著改變網(wǎng)絡(luò)威脅格局的潛力,代表著日益復(fù)雜的網(wǎng)絡(luò)能力在危險演化上又向前邁進了一步”[2].威脅情報公司Recorded Future的研究人員也在最新報告中表示,只要對網(wǎng)絡(luò)安全行業(yè)有基礎(chǔ)知識,就可以借助ChatGPT的能力進行網(wǎng)絡(luò)惡意行為,實施網(wǎng)絡(luò)攻擊[3].

因此,如何鑒別ChatGPT生成的文本成為一個熱門問題.本文團隊經(jīng)過研究,發(fā)現(xiàn)一些ChatGPT生成文本的檢測思路,同時,從網(wǎng)絡(luò)攻防的視角嘗試給出了一些繞過技巧.

1 相關(guān)工作和相關(guān)技術(shù)

1.1 TF-IDF算法和余弦相似度

文本相似度計算是自然語言處理領(lǐng)域中的一個熱門研究方向.其中,TF-IDF算法和余弦相似度的結(jié)合被廣泛應(yīng)用于文本相似度計算.TF-IDF算法用于評估詞語在文檔或語料庫中的重要程度[4],詞頻(TF)指在文檔中出現(xiàn)的術(shù)語頻率,而逆文檔頻率(IDF)是術(shù)語對于文檔集的重要性指標,TF-IDF向量可以通過TF×IDF計算.將2個目標文本使用TF-IDF算法表示為文檔向量a,b后,再利用余弦相似度評估2個文本之間的相似程度,計算公式如下[5]:

在相關(guān)研究中,Gomaa等人[6]在文本分類和信息檢索中使用了基于TF-IDF和余弦相似度的文本相似度計算方法.結(jié)果顯示,該方法在文本分類和信息檢索任務(wù)中表現(xiàn)良好,并且與其他傳統(tǒng)的基于向量空間模型的文本相似度計算方法,例如BM25算法和樸素貝葉斯算法相比具有更好的性能.此外,Wang等人[7]提出了一種基于改進的TF-IDF和LDA的文本相似度計算方法,并將其與其他常用方法進行了比較.研究結(jié)果表明,他們提出的方法在不同數(shù)據(jù)集上均取得了更好的性能,尤其是對于長文本和短文本之間的相似度計算,在某些數(shù)據(jù)集上相較于其他方法可以提高5%～10%的準確度.

1.2 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)是指通過自動或半自動的方式從大量數(shù)據(jù)中發(fā)現(xiàn)有用的規(guī)律或知識的過程.數(shù)據(jù)挖掘技術(shù)包括聚類分析、分類分析、分布分析、特征工程等多個方面.本文主要使用分布分析和特征工程:分布分析可以更深入地了解數(shù)據(jù)的特征和分布情況,以便更好地為數(shù)據(jù)建模和分析作準備,分布分析涉及數(shù)據(jù)分布的可視化、摘要統(tǒng)計和相關(guān)分析等方法,它可以用于描述單變量或多變量數(shù)據(jù)集中的分布情況,發(fā)現(xiàn)數(shù)據(jù)的異常值、偏態(tài)分布和相關(guān)性等[8-9];特征工程是利用領(lǐng)域知識,創(chuàng)造出新的特征,用于機器學習算法.

1.3 大型語言模型

大型語言模型(large language model, LLM),是指具有數(shù)十億甚至數(shù)百億參數(shù)的神經(jīng)網(wǎng)絡(luò)模型,其目標是通過學習大量語言數(shù)據(jù)自動閱讀并回答問題或者生成新的文字,并且能夠依據(jù)輸入的參數(shù)做其他事情,如生產(chǎn)代碼和影像等.LLM的研究主要分為以下4個方面:模型設(shè)計、數(shù)據(jù)預(yù)處理、模型訓練及優(yōu)化和應(yīng)用場景.LLM的模型設(shè)計是研究的重點之一,其旨在提高模型的效率和性能.目前最流行的LLM是Transformer模型,可以端到端地直接解決最終任務(wù),有效處理長文本序列.LLM的應(yīng)用場景非常廣泛,包括但不限于:1)語言生成,如文本摘要、機器翻譯、對話系統(tǒng)等;2)文本分類,如情感分析、垃圾郵件過濾、新聞分類等;3)信息檢索,如問答系統(tǒng)、語義搜索等;4)語音識別,如語音轉(zhuǎn)寫、聲紋識別等.

在相關(guān)研究中,Chen等人[10]使用了2種不同的代碼數(shù)據(jù)集對2種不同的LLM(GPT-2和CodeBERT)進行評估,包括代碼注釋和代碼片段.通過比較LLM的代碼補全和注釋生成能力與基線方法的性能,研究人員發(fā)現(xiàn)基于代碼訓練的LLM在代碼注釋和補全方面表現(xiàn)出色,但在代碼片段的生成上表現(xiàn)較差.

本文研究的ChatGPT是由OpenAI提出的基于Transformer架構(gòu)的LLM,其參數(shù)規(guī)模達到了1750億,是目前最大的公開可用LLM.

1.4 ChatGPT

ChatGPT是OpenAI推出的基于轉(zhuǎn)換器的生成式預(yù)訓練(generative pre-trained transformer, GPT)對話生成模型.GPT模型是一種基于Transformer架構(gòu)的語言模型,能夠在大規(guī)模語料庫上進行預(yù)訓練,并通過微調(diào)的方式應(yīng)用于各種自然語言處理任務(wù)中,例如問題回答、語言翻譯和文本總結(jié).傳統(tǒng)的序列模型、語言模型通常采用RNN,LSTM或GRU等結(jié)構(gòu),這些結(jié)構(gòu)在處理長序列時會出現(xiàn)梯度消失等問題.與傳統(tǒng)語言模型相比,Transformer架構(gòu)使得GPT可以更好地捕捉序列中的長距離依賴關(guān)系.

2020年,OpenAI發(fā)布了一個擁有1750億個參數(shù)的強大語言模型GPT-3.隨后1年,OpenAI推出了基于GPT-3的Codex模型,可以從自然語言提示中生成功能上正確的代碼.2022年,OpenAI發(fā)布了另一個基于GPT-3的模型InstructGPT,它融合了人類反饋,能夠遵循人類的指令.ChatGPT是InstructGPT的兄弟模型,可以遵循提示并根據(jù)人類價值觀提供詳細的回答[11].

2 AI生成文本檢測引擎設(shè)計策略

本文收集了具有代表性的人類文本和AI文本.針對不同的先決條件設(shè)計了4種文本檢測場景,分別是文本相似度分析策略、數(shù)據(jù)挖掘分析策略、LLM生成方式對抗策略以及AI模型分析策略,統(tǒng)一稱為Anti-ChatGPT方案.在每種策略指導(dǎo)下,設(shè)計并實驗了4種檢測模型,分別為Simi-Detector,Stats-Analyzer,LLM-Detector,OpenAI-Detector,如表1所示:

表1 4種檢測模型

2.1 文本相似度分析策略

假設(shè)使用在線檢測的環(huán)境,可以通過訪問ChatGPT網(wǎng)頁或者API接口頻繁獲取ChatGPT文本,本文提出的方案是使用文本相似度匹配的方法區(qū)分人類文本和AI文本.在可行性分析實驗中,使用經(jīng)典的TF-IDF算法生成對應(yīng)的文本向量,再使用余弦相似度作為文本距離度量,具體步驟如下:

1) 同一問題下,使用人類文本集構(gòu)成文檔庫,進行TF-IDF向量化,兩兩進行余弦相似度計算;

2) 同一問題下,抽樣人類文本數(shù)據(jù),與AI文本集混合構(gòu)成文檔庫,進行TF-IDF向量化,兩兩進行余弦相似度計算;

3) 同一問題下,使用AI文本集構(gòu)成文檔庫,進行TF-IDF向量化,兩兩進行余弦相似度計算;

4) 比較全部問題統(tǒng)計結(jié)果,查看相似度分布圖是否存在差異.

如果在可行性分析實驗中,發(fā)現(xiàn)3類相似度分布圖存在明顯差異,設(shè)計以下模型:

模型1.Simi-Detector檢測模型.

1) 給定一段文本和它對應(yīng)的主題(問題),將該文本作為待測樣本x;

2) 讓ChatGPT針對該主題進行n次回答,獲得參照樣本y1,y2,…,yn;

3) 構(gòu)建文檔集合D={x}∪{y1,y2,…,yn},使用TF-IDF算法生成文檔向量集合{x,y1,y2,…,yn};

2.2 數(shù)據(jù)挖掘分析策略

假設(shè)沒有在線檢測環(huán)境,無法針對特定的主題獲得參照樣本,但是可以預(yù)先獲得一部分AI文本.

本文使用特征工程進行數(shù)據(jù)挖掘,通過發(fā)現(xiàn)人類文本和AI文本在特定特征上的統(tǒng)計差異性進行AI文本識別.在可行性分析實驗中,構(gòu)建了下面8個統(tǒng)計指標項.

1) 不重復(fù)單詞的比例:將文本單詞去重后的數(shù)量/文本單詞總數(shù);

2) 句子平均長度:文本單詞總數(shù)/(文中句號、問號、嘆號之和);

3) 單詞平均字母數(shù):文本英文字符總數(shù)/文本單詞總數(shù);

4) 空格頻率:文本空格數(shù)/單詞總數(shù);

5) 數(shù)字頻率:文本數(shù)字字符數(shù)/單詞總數(shù);

6) 問號頻率:文本問號數(shù)/單詞總數(shù);

7) 嘆號頻率:文本嘆號數(shù)/單詞總數(shù);

8) 其他的特殊符號頻率:其他特殊字符數(shù)/單詞總數(shù).

如果在可行性分析實驗中,發(fā)現(xiàn)8類統(tǒng)計指標存在明顯差異,設(shè)計以下模型:

模型2.Stats-Analyzer檢測模型.

1) 預(yù)先獲得人類文本統(tǒng)計特征模板H(θ)和AI文本統(tǒng)計特征模板A(θ);

2) 給定一段文本,作為待測樣本x;

3) 計算待測樣本的統(tǒng)計特征S(x);

4) 使用KL散度、門限閾值等方式分別衡量待測樣本統(tǒng)計特征S(x)同人類文本統(tǒng)計特征模板H(θ)、AI文本統(tǒng)計特征模板A(θ)的距離,計算:d1=DKL(H‖S),d2=DKL(A‖S);

5) 如果d1>d2,判定為AI文本,否則為人類文本.

2.3 LLM生成方式對抗策略

假設(shè)沒有在線檢測環(huán)境,無法針對特定的主題獲得參照樣本,甚至對具體的AI文本樣本一無所知.

這個檢測策略原始算法來源于2023年1月26日斯坦福團隊的一篇論文,如圖1所示[12].主要基于以下2個假設(shè):

圖1 檢測策略原始算法模型

1) LLM的單詞選擇策略是最優(yōu)解、近似最優(yōu)解,也就是概率越高的詞匯組合一般越容易出現(xiàn).相反,人類選擇的語句通常不是局部最優(yōu)解.

2) 不同AI模型之間的概率圖譜相似度很高,可以用由此及彼的方式獲得這個圖譜.即使ChatGPT沒開源也可以用BERT,T5等模型近似ChatGPT.

利用這個原理,設(shè)計以下模型:

模型3.LLM-Detector檢測模型.

1) 給定一段文本,作為待測樣本x;

2) 計算待測樣本本身的概率Poriginal(x);

6) 對給定閾值t, 如果z-score>t,判定為AI文本,否則為人類文本.

該檢測方式不再局限于ChatGPT,理論上它對目前大部分LLM模型都有效.

2.4 AI模型分析策略

假設(shè)沒有在線檢測環(huán)境,無法針對特定的主題獲得參照樣本,但是有大量該AI模型產(chǎn)生的AI文本樣本.

通過利用這些AI文本樣本和人類文本樣本訓練一個二分類模型,可以用于文本檢測任務(wù).2023年1月底,OpenAI開放了AI文本檢測接口https://platform.openai.com/ai-text-classifier,這是一個微調(diào)的GPT模型,用于完成AI文本的識別.本文利用它進行AI模型分析策略的效果驗證,設(shè)計以下模型:

模型4.OpenAI-Detector檢測模型.

1) 給定一段文本,作為待測樣本x;

2) 調(diào)用OpenAI的API對x進行檢測;

3) API測試返回內(nèi)容為possibly的,判定為AI文本,返回內(nèi)容為unlikely的,判定為人類文本.

3 實驗分析

3.1 數(shù)據(jù)準備

本文的研究課題數(shù)據(jù)采樣于某互聯(lián)網(wǎng)社交平臺,實驗分析過程如圖2所示:

圖2 實驗分析過程

爬取平臺2022年3月統(tǒng)計的Top熱度的問題,實際獲得問題數(shù)合計107個,每個問題約80～100個答案.鑒于目前大部分語言模型都是英文比較成熟,用Google translate API將數(shù)據(jù)統(tǒng)一翻譯為英文,并從數(shù)據(jù)集中刪除了150個英文單詞以內(nèi)的短文本數(shù)據(jù).向ChatGPT發(fā)送問題,每個問題使用新建會話的模式生成5次回答,可以認為是5次獨立的實驗.合計獲得問題數(shù)107個,社交平臺回答數(shù)據(jù)8475條,ChatGPT回答數(shù)據(jù)535條,分別代表人類文本集和AI文本集,二分類數(shù)據(jù)集比例接近16∶1.

3.2 評價指標

評估分類模型的性能時,通常會使用以下4個指標度量其性能:準確率、精準率、召回率和F1-score.這些指標是評估二元分類和多元分類問題的標準度量方式.

1) 準確率(Accuracy).指分類器正確分類的樣本數(shù)與總樣本數(shù)的比例.準確率計算公式為Accuracy=(TP+TN)/(TP+FP+TN+FN),其中TP表示實際為正例的樣本被預(yù)測為正例的數(shù)量,TN表示實際為負例的樣本被預(yù)測為負例的數(shù)量,FP表示實際為負例的樣本被預(yù)測為正例的數(shù)量,FN表示實際為正例的樣本被預(yù)測為負例的數(shù)量.

2) 精準率(Precision).指分類器在所有預(yù)測為正例的樣本中真正為正例的樣本數(shù)所占的比例.精準率計算公式為Precision=TP/(TP+FP).

3) 召回率(Recall).指分類器在所有實際為正例的樣本中真正預(yù)測為正例的樣本數(shù)所占的比例.召回率計算公式為Recall=TP/(TP+FN).

4)F1分數(shù)(F1-score).指精準率和召回率的調(diào)和平均數(shù),它綜合了精準率和召回率的表現(xiàn).F1分數(shù)計算公式為F1-score=2(Precision×Recall)/(Precision+Recall).

3.3 實驗結(jié)果

3.3.1 文本相似度分析結(jié)果

可行性分析實驗統(tǒng)計結(jié)果如表2所示.表2中實驗使用問題數(shù)合計107個.

表2 可行性分析實驗統(tǒng)計結(jié)果

根據(jù)所有問題答案的相似度數(shù)值繪制的KDE如圖3所示.

圖3 問題答案相似度KDE圖

在本文構(gòu)建的數(shù)據(jù)集上,發(fā)現(xiàn)同一個問題下,人類文本之間的相似度平均為0.078,人類文本與ChatGPT文本之間的相似度平均為0.038,ChatGPT文本之間的相似度平均為0.265.可行性實驗的結(jié)論是ChatGPT回答5次答案的相似度會遠高于5個人回答問題的答案相似度.

利用可行性實驗的結(jié)果,經(jīng)過計算,本文將Simi-Detector采樣次數(shù)n設(shè)定為5,相似度閾值設(shè)定為0.16,待測樣本與對照樣本ChatGPT集合相似度均值超過0.16的為ChatGPT生成的文本,否則為人類文本.在整個數(shù)據(jù)集上的檢測結(jié)果如圖4所示,Simi-Detector將約1%的人類文本誤判為AI文本,將約2%的ChatGPT文本誤判為人類文本.

3.3.2 數(shù)據(jù)挖掘分析結(jié)果

可行性分析實驗中,人類文本數(shù)據(jù)分析統(tǒng)計結(jié)果如表3所示.表3中實驗使用人類文本樣本數(shù)合計8475個.

表3 人類文本數(shù)據(jù)分析統(tǒng)計結(jié)果

AI文本數(shù)據(jù)分析統(tǒng)計結(jié)果如表4所示.表4中實驗使用AI文本樣本數(shù)合計535個.

表4 AI文本數(shù)據(jù)分析統(tǒng)計結(jié)果

本文觀察了人類文本和ChatGPT的統(tǒng)計結(jié)果,AI文本在以下幾個方面與人類文本差異較小:

1) ChatGPT使用不重復(fù)單詞的比例比人類使用不重復(fù)單詞的比例高8個百分點;

2) 兩者句子平均長度基本上均為15,16個單詞;

3) 單詞平均長度均為5個字母左右;

4) 標準差、分位數(shù)也沒有明顯的區(qū)分意義.

唯一比較明顯的差異是人類文本使用感嘆號和問號的比例是ChatGPT的5倍以上.本文分析這種情感扁平化的語言風格可能是問答機器人特有的,另一方面人類文本嘆號、問號比例50%分位數(shù)也是0,說明無法僅憑借這些特征識別AI文本.可行性實驗結(jié)果分析表明Stats-Analyzer可能很難區(qū)分AI文本和人類文本.

3.3.3 LLM生成方式對抗結(jié)果

LLM-Detector的算法參數(shù)本文選擇分組長度設(shè)置為256,mask百分比為20%,采樣次數(shù)n設(shè)置為30,z-score閾值設(shè)定為0.7,在整個數(shù)據(jù)集上的檢測結(jié)果如圖5所示,LLM-Detector將約1%的人類文本誤判為AI文本,將約48%的ChatGPT文本誤判為人類文本.

圖5 LLM-Detector模型檢測結(jié)果

3.3.4 AI模型分析結(jié)果

在整個數(shù)據(jù)集上的檢測結(jié)果如圖6所示,OpenAI-Detector將約30%的人類文本誤判為AI文本,將約30%的ChatGPT文本誤判為人類文本.

圖6 OpenAI-Detector模型檢測結(jié)果

3.3.5 結(jié)果對比

從表5可知,Simi-Detector檢測條件最苛刻,但是效果最好;LLM-Detector性能較低,且存在召回率偏低的問題;OpenAI-Detector整體表現(xiàn)欠佳;Stats-Analyzer無法完成檢測任務(wù).

表5 4種模型檢測結(jié)果對比

4 AI生成文本檢測引擎免殺技巧

本文從網(wǎng)絡(luò)攻防的視角模擬攻擊者,針對Anti-ChatGPT的幾種AI文本檢測模型,如何有效地進行檢測對抗,讓AI生成文本可以繞過Anti-ChatGPT分析,從而做到AI文本免殺呢?Simi-Detector, LLM-Detector模型都屬于白盒檢測,可以通過修改AI文本,對算法的檢測模式、敏感參數(shù)進行特定攻擊,取得很好的效果.OpenAI-Detector模型則屬于黑盒檢測,可能需要多次嘗試互動在線進行免殺.

4.1 Simi-Detector免殺

要想繞過文本相似度匹配檢測,其中一種辦法就是多選擇幾個LLM,將生成的AI文本進行拼接、融合.

4.2 LLM-Detector免殺

繞過LLM-Detector的方法就是在部分詞匯上優(yōu)先選擇出現(xiàn)概率偏低的同義詞.

針對LLM-Detector,構(gòu)造繞過算法如下:

1) 給定一段AI生成的文本x;

2) 隨機對文本中的單詞進行mask;

4) 步驟2)和3)重復(fù)n次,對n個Pi倒排序,從倒數(shù)10名中隨機選1個,將這個填空的結(jié)果作為混淆后的輸出;

5) 可根據(jù)需要將輸出結(jié)果返回到步驟1),進行多次混淆操作.

這種免殺方式可以極大降低LLM-Detector計算出的z-score,成功繞過檢測算法.

4.3 OpenAI-Detector免殺

OpenAI-Detector的檢測算法是黑盒化的,需要進行在線測試完成免殺.測試過程中,發(fā)現(xiàn)OpenAI-Detector對人類文本出現(xiàn)大量誤報,而且對同一個待測文本,只需要增加一個回車符可能就會引起檢測結(jié)果的劇烈抖動.因此OpenAI-Detector免殺需要嘗試性地對AI文本進行局部修改,在線測試完成免殺.或者建議直接選擇放棄免殺,畢竟OpenAI-Detector對人類文本接近30%的誤報率,很難讓人單獨依賴其檢測結(jié)果作出決策.

5 結(jié) 語

大型語言模型在文本生成上同人類文本越來越相似,如何識別AI生成文本,防止AI生成文本的濫用成為一個富有挑戰(zhàn)的課題.本文通過構(gòu)建人類文本和AI文本數(shù)據(jù)集,設(shè)計了4種不同場景下的檢測策略,對AI文本識別課題進行探索.一方面本文進行了實驗分析并對檢測結(jié)果進行橫向評估,另一方面,站在攻防角度,進行了對抗檢測的繞過分析.本文認為簡單的數(shù)據(jù)挖掘和特征工程分析已經(jīng)很難區(qū)分出AI生成文本和人類文本之間的差異,同時訓練一個AI模型來識別AI文本目前也存在諸多困難,例如檢測結(jié)果不穩(wěn)定、誤報率偏高等引起的檢測效果欠佳的問題;目前效果較好的方法是使用文本相似度分析策略和LLM生成方式對抗策略設(shè)計檢測算法,兩者可以保持在一個較高的水平上,有效識別出AI生成文本.但是,這2種都是白盒檢測算法,攻擊者可以根據(jù)算法原理,有針對性地對AI生成文本進行加工,達到繞過檢測算法的目的.