亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于后門(mén)技術(shù)的深度強(qiáng)化學(xué)習(xí)水印框架

        2024-01-15 08:43:04陳瑜霖姚志強(qiáng)蔡娟娟熊金波
        關(guān)鍵詞:動(dòng)作智能環(huán)境

        陳瑜霖,姚志強(qiáng),2,金 彪,2,李 璇,2,蔡娟娟,熊金波,2

        (1.福建師范大學(xué)計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,福建 福州 350117;2.福建省大數(shù)據(jù)分析與應(yīng)用工程研究中心,福建 福州 350117)

        近年來(lái),隨著大型數(shù)據(jù)集的可用性和硬件計(jì)算平臺(tái)性能的不斷提升,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)得到了迅猛發(fā)展,并在解決各種復(fù)雜任務(wù)時(shí)表現(xiàn)出卓越的性能。例如機(jī)器人控制[1]、競(jìng)爭(zhēng)視頻游戲[2-4]和自動(dòng)駕駛[5]。然而,DRL不僅需要大量的計(jì)算資源,還需要進(jìn)行長(zhǎng)時(shí)間的訓(xùn)練。此外,DRL的訓(xùn)練還受到許多限制,因?yàn)樗枰诂F(xiàn)實(shí)環(huán)境中進(jìn)行評(píng)估和測(cè)試,需要設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù)來(lái)指導(dǎo)智能體的行為。因此,在實(shí)際應(yīng)用中,人們需要考慮如何保護(hù)DRL模型的知識(shí)產(chǎn)權(quán),以避免他人的侵權(quán)行為。

        保護(hù)DRL模型的知識(shí)產(chǎn)權(quán)的一種直觀想法就是為其添加水印。水印技術(shù)是保護(hù)多媒體版權(quán)的常用方法,已被廣泛應(yīng)用于保護(hù)數(shù)字圖像、音頻、視頻等多媒體產(chǎn)品的版權(quán)以及驗(yàn)證多媒體數(shù)據(jù)的完整性[6-8]。根據(jù)嵌入提取水印的方式的不同,神經(jīng)網(wǎng)絡(luò)可以分為2種:白盒水印和黑盒水印。2017年,Uchida等[9]提出了第一個(gè)可以用于保護(hù)深度神經(jīng)網(wǎng)絡(luò)模型知識(shí)產(chǎn)權(quán)的白盒水印框架,成功地將數(shù)字水印技術(shù)從傳統(tǒng)的多媒體領(lǐng)域拓展應(yīng)用到深度學(xué)習(xí)領(lǐng)域。需要將水印嵌入到所選層的權(quán)重中,在驗(yàn)證模型的所有權(quán)時(shí)也需要獲得整個(gè)模型以得到其中的權(quán)重信息。Fan[10]采用了另一種新的思路,是基于內(nèi)部結(jié)構(gòu)的白盒水印方法,在神經(jīng)網(wǎng)絡(luò)中加入新的一層來(lái)作為水印的載體,并向該層添加水印,Lou[11]直接將模型結(jié)構(gòu)作為水印載體,模型的所有者生成獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)作為所有權(quán)的證據(jù)。Ong等[12]提出了針對(duì)與對(duì)抗網(wǎng)絡(luò)的模型的保護(hù)方案,將水印嵌入生成器的標(biāo)準(zhǔn)化層,Lim[13]提出了針對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)模型的水印,使用Ong等[12]的方法將水印嵌入循環(huán)神經(jīng)模型單元輸出的隱層中。然而,白盒模型存在一定的局限性,例如在驗(yàn)證階段必須獲取可疑模型的內(nèi)部信息,這在現(xiàn)實(shí)的應(yīng)用中是難以實(shí)現(xiàn)的。在現(xiàn)實(shí)中,模型被盜的大多數(shù)情形是黑盒的,在黑盒情況中,模型所有者無(wú)法獲取模型的內(nèi)部權(quán)重和結(jié)構(gòu),只能使用接口查詢(xún)驗(yàn)證模型的所有權(quán)。黑盒水印技術(shù)利用網(wǎng)絡(luò)模型的冗余性,通過(guò)構(gòu)建特殊的觸發(fā)集同正常樣本訓(xùn)練使得使得模型對(duì)于特定的觸發(fā)數(shù)據(jù)輸出錯(cuò)誤的預(yù)定義標(biāo)簽[14-16],以此聲明模型的所有權(quán)。Zhang等[17]研究了使用擇與訓(xùn)練數(shù)據(jù)分布無(wú)關(guān)的圖像、使用一些隨機(jī)噪聲和特定內(nèi)容字符串作為觸發(fā)模式的黑盒水印。Szyller等[18]提出了DAWN的方法,通過(guò)動(dòng)態(tài)更改數(shù)據(jù)訪問(wèn)時(shí)的返回結(jié)果以抵抗模型竊取攻擊。Xu等[19]將后門(mén)觸發(fā)器用于GNN中從而保護(hù)GNN模型。然而,以上的工作大多是基于分類(lèi)生成任務(wù)。在分類(lèi)任務(wù)中,模型水印是通過(guò)觸發(fā)集中的特殊圖像使得模型輸出預(yù)定義的標(biāo)簽,在生成任務(wù)中是使得模型輸出的圖像中攜帶隱藏的水印,再通過(guò)提取獲得水印。而DRL模型是在與環(huán)境的交互中不斷地學(xué)習(xí)狀態(tài)對(duì)應(yīng)的動(dòng)作以及獎(jiǎng)勵(lì)值來(lái)學(xué)習(xí)到最優(yōu)策略。保護(hù)DRL模型的水印方法仍然處于開(kāi)始階段,為了保護(hù)DRL模型,Behzadan[20]提出一種序列觸發(fā)器水印,利用與訓(xùn)練和部署環(huán)境不相關(guān)的狀態(tài)作為水印狀態(tài),并定義新的獎(jiǎng)勵(lì)函數(shù)和狀態(tài)轉(zhuǎn)移函數(shù),以確保經(jīng)過(guò)訓(xùn)練的代理按照特定順序執(zhí)行。Chen[21]提出的時(shí)間序列水印,解決了Vahid Behzadan使用額外的環(huán)境因而容易被敵手檢測(cè)的缺陷,定義了一種無(wú)損狀態(tài),利用自然出現(xiàn)在訓(xùn)練和部署環(huán)境中的狀態(tài)作為水印狀態(tài),并將非關(guān)鍵狀態(tài)映射到特定動(dòng)作進(jìn)行識(shí)別。然而時(shí)間序列水印只記錄水印狀態(tài)自然發(fā)生時(shí)的動(dòng)作,但不能保證水印狀態(tài)會(huì)發(fā)生,為了保證水印狀態(tài)的發(fā)生,Wang[22]提出了向環(huán)境的觀測(cè)值注入對(duì)抗性的擾動(dòng)嵌入水印。

        為了使得水印的嵌入與驗(yàn)證更加簡(jiǎn)潔,并獲得良好的水印性能,本文提出一種新的DRL模型水印框架DrlWF。DrlWF修改參與DRL模型訓(xùn)練的狀態(tài),使用原有環(huán)境進(jìn)行水印嵌入。在水印嵌入時(shí),本文通過(guò)在訓(xùn)練時(shí)修改水印狀態(tài)對(duì)應(yīng)的動(dòng)作和獎(jiǎng)勵(lì)值以達(dá)到嵌入水印的效果,實(shí)現(xiàn)簡(jiǎn)單且在水印嵌入過(guò)程中模型不易崩潰;水印驗(yàn)證時(shí),只需通過(guò)觀察模型性能變化和水印動(dòng)作執(zhí)行情況,即可完成對(duì)模型所有權(quán)的驗(yàn)證。

        1 問(wèn)題定義

        強(qiáng)化學(xué)習(xí)決策過(guò)程可以描述為一個(gè)馬爾科夫決策過(guò)程(Markov decision process,MDP)。在MDP中,環(huán)境可以被視為一組狀態(tài)的集合,智能體可以采取一組動(dòng)作來(lái)改變環(huán)境的狀態(tài),并獲得一個(gè)獎(jiǎng)勵(lì)或代價(jià)信號(hào)。智能體的目標(biāo)是通過(guò)在不同狀態(tài)下采取不同的動(dòng)作,從而最大化長(zhǎng)期累計(jì)獎(jiǎng)勵(lì)。一個(gè)MDP可以被描述為一個(gè)五元組 (S,A,P,R,γ),其中,S是狀態(tài)集合,每個(gè)狀態(tài)表示環(huán)境的一種可能狀態(tài);A是動(dòng)作集合,每個(gè)動(dòng)作表示智能體在某個(gè)狀態(tài)下可以采取的一種操作;P是狀態(tài)轉(zhuǎn)移概率函數(shù),表示從一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)的概率;R是獎(jiǎng)勵(lì)函數(shù),表示智能體在某個(gè)狀態(tài)下采取某個(gè)動(dòng)作所獲得的獎(jiǎng)勵(lì)或代價(jià),γ是折扣因子,滿(mǎn)足 0≤γ≤1,用于控制即時(shí)獎(jiǎng)勵(lì)和未來(lái)獎(jiǎng)勵(lì)之間的權(quán)衡,γ接近1 表示代理更重視未來(lái)獎(jiǎng)勵(lì),而接近 0 表示代理眼光短淺,只關(guān)注即時(shí)獎(jiǎng)勵(lì)。在一個(gè)MDP中,智能體會(huì)根據(jù)當(dāng)前的狀態(tài)選擇一個(gè)動(dòng)作,然后執(zhí)行該動(dòng)作并觀察到一個(gè)新的狀態(tài)和一個(gè)獎(jiǎng)勵(lì)信號(hào)。智能體會(huì)不斷地根據(jù)當(dāng)前的狀態(tài)和獎(jiǎng)勵(lì)信號(hào)更新自己的決策策略,以最大化長(zhǎng)期累計(jì)獎(jiǎng)勵(lì)。在強(qiáng)化學(xué)習(xí)的過(guò)程中至少使用一個(gè)深度神經(jīng)網(wǎng)絡(luò),即可稱(chēng)之為深度強(qiáng)化學(xué)習(xí)(DRL)。

        圖1 DRL模型水印框架Fig.1 DRL model watermark framework

        一個(gè)良好的DRL水印應(yīng)該滿(mǎn)足以下要求:

        (1)保真度。即向DRL模型中添加水印后不能影響模型在原有任務(wù)上的性能。具體地,訓(xùn)練一個(gè)智能體使其在沒(méi)有觸發(fā)水印的情況下的性能與標(biāo)準(zhǔn)模型的性能相當(dāng);當(dāng)觸發(fā)水印時(shí)盡可能地降低模型的性能。假設(shè)τ為一條軌跡,π為未嵌入水印模型的策略,將π作為基準(zhǔn)策略,π*為嵌入水印模型后的策略。R(π,ε)為智能體在干凈環(huán)境ε和策略π下得到的累計(jì)獎(jiǎng)勵(lì)值,如公式(1)[23]所示:

        R(π,ε)=Eτ~p(τ/π,ε)[∑r(st,at)]。

        (1)

        模型所有者希望在干凈環(huán)境ε中,策略π*能夠?qū)崿F(xiàn)與策略π相同的性能,如公式(2)[23]所示:

        |R(π,ε)-R(π*,ε)|<ε1。

        (2)

        當(dāng)環(huán)境中存在水印時(shí),即最大化策略π在干凈環(huán)境ε與策略π*在水印環(huán)境ε*的獎(jiǎng)勵(lì)差值,如公式(3)[23]所示:

        max(R(π,ε)-R(π*,ε*))。

        (3)

        (2)可靠性。即要求策略π無(wú)法對(duì)水印環(huán)境ε*做出響應(yīng),意味著未嵌入水印模型的策略π對(duì)水印環(huán)境ε*不敏感,策略π在水印環(huán)境ε*和干凈環(huán)境ε下的性能大致相同,如公式(4)[23]所示:

        |R(π,ε)-R(π,ε*)|<ε2。

        (4)

        (5)

        2 方法

        如圖2所示,在DRL模型的正常訓(xùn)練過(guò)程中,智能體從環(huán)境中獲得當(dāng)前狀態(tài),基于當(dāng)前的狀態(tài),智能體選擇、執(zhí)行一個(gè)動(dòng)作并將其應(yīng)用于環(huán)境中,進(jìn)而導(dǎo)致環(huán)境的狀態(tài)發(fā)生改變。執(zhí)行動(dòng)作后,智能體從環(huán)境中獲得一個(gè)獎(jiǎng)勵(lì)。智能體根據(jù)觀察到的狀態(tài),所采取的行動(dòng)和獲得的獎(jiǎng)勵(lì)來(lái)更新智能體的內(nèi)部模型,最終使得智能體學(xué)會(huì)如何在給定狀態(tài)下選擇能獲得最高累積獎(jiǎng)勵(lì)的動(dòng)作。重復(fù)智能體與環(huán)境的交互過(guò)程,不斷學(xué)習(xí)和優(yōu)化其策略。

        圖2 智能體與環(huán)境的交互Fig.2 Interaction between agent and environment

        本文的目標(biāo)是向DRL模型中嵌入后門(mén)水印,并據(jù)此保護(hù)DRL模型的知識(shí)產(chǎn)權(quán)。在訓(xùn)練水印模型時(shí),扮演“強(qiáng)攻擊者”[23]的角色,擁有模型的完全控制權(quán),可以訪問(wèn)訓(xùn)練過(guò)程中組件間的交互,并能夠修改每個(gè)時(shí)間步的狀態(tài)、動(dòng)作和環(huán)境獎(jiǎng)勵(lì)?;诖?,本文可以通過(guò)更改特定狀態(tài)下的動(dòng)作和獎(jiǎng)勵(lì),實(shí)現(xiàn)將水印嵌入到DRL模型中,使模型能夠在給定特定狀態(tài)時(shí)做出預(yù)期的動(dòng)作決策。

        DrlWF主要包括2個(gè)階段,分別是狀態(tài)水印嵌入階段和狀態(tài)獎(jiǎng)勵(lì)修改階段。在狀態(tài)水印嵌入階段,從標(biāo)準(zhǔn)的訓(xùn)練狀態(tài)中隨機(jī)選取若干狀態(tài),向被選中的狀態(tài)中添加特定的水??;在狀態(tài)獎(jiǎng)勵(lì)修改階段,修改帶有水印的狀態(tài)的獎(jiǎng)勵(lì)值并且進(jìn)行訓(xùn)練以使得智能體能夠習(xí)得該水印。本文提出的水印嵌入偽代碼見(jiàn)算法1。在訓(xùn)練過(guò)程中,對(duì)選中狀態(tài)進(jìn)行水印嵌入,并且修改該狀態(tài)的動(dòng)作為水印動(dòng)作,然后將對(duì)應(yīng)的獎(jiǎng)勵(lì)值r(s,a)設(shè)置為1。

        算法1水印嵌入算法

        輸入:水印動(dòng)作aw,水印Δ,環(huán)境env

        輸出:水印模型

        (1) 初始化價(jià)值網(wǎng)絡(luò)θv和策略網(wǎng)絡(luò)θ

        (2) 步驟step←0

        (3)While當(dāng)前步驟step<最大訓(xùn)練步數(shù)stepmaxdo

        (4)for當(dāng)前步數(shù)t←0到最大更新步數(shù)tmax:

        (5)env產(chǎn)生狀態(tài)st

        (6)if狀態(tài)st被選中then:

        (7)st←Watermarking(st,Δ)

        (8)at←πθ(st)

        (9)if狀態(tài)st被選中then:

        (10)at←aw

        (11)r←r(st,at)

        (12)if狀態(tài)st被選中then:

        (13)r=1

        (14)fort=tmaxdoneto0do

        (15)Qt←rt+γQt+1

        (16)At←Qt-Vt

        (17) 更新θv和θ

        (18)step←step+tmax

        依據(jù)本文第三章實(shí)驗(yàn)結(jié)果可知,提出的DRL水印框架能夠滿(mǎn)足第2節(jié)中所有提及的水印要求,且相較于文獻(xiàn)[21]的時(shí)間序列水印方案與文獻(xiàn)[22]的對(duì)抗擾動(dòng)水印而言,本文的水印嵌入過(guò)程更加簡(jiǎn)單,水印驗(yàn)證過(guò)程更加清晰。

        2.1 水印狀態(tài)嵌入

        在狀態(tài)水印嵌入階段,本文通過(guò)公式(6)將一個(gè)由水印Δ和系數(shù)λ組成的水印觸發(fā)器嵌入至初始狀態(tài)s。

        (sw)i,j=(1-λi,j)·(st)i,j+λi,j·Δi,j。

        (6)

        實(shí)驗(yàn)過(guò)程中,將游戲畫(huà)面中的每個(gè)狀態(tài)的左上角3×3的區(qū)域內(nèi)的λ固定為1,其他區(qū)域內(nèi)的λ均為0。

        2.2 獎(jiǎng)勵(lì)修改

        完成狀態(tài)水印嵌入后,接下來(lái)就是將水印嵌入DRL模型中。在此過(guò)程中,為了最大化策略π(aw/sw),本文修改狀態(tài)動(dòng)作對(duì)(sw,aw)的獎(jiǎng)勵(lì)值使得該水印狀態(tài)所對(duì)應(yīng)的水印動(dòng)作具有更高的優(yōu)勢(shì)。具體的,首先需要在訓(xùn)練過(guò)程中修改狀態(tài)對(duì)應(yīng)的動(dòng)作為水印動(dòng)作以此來(lái)創(chuàng)建這些狀態(tài)動(dòng)作對(duì):當(dāng)狀態(tài)s=sw時(shí),將該狀態(tài)的對(duì)應(yīng)的動(dòng)作a修改為水印動(dòng)作aw,即(sw,aw),同時(shí)為了使模型能夠?qū)W習(xí)到這個(gè)狀態(tài)動(dòng)作對(duì),且避免模型認(rèn)為該狀態(tài)是一個(gè)良好狀態(tài)從而使其他動(dòng)作都會(huì)獲得高獎(jiǎng)勵(lì),將狀態(tài)動(dòng)作對(duì)(sw,aw)的獎(jiǎng)勵(lì)值r設(shè)置為1;當(dāng)s≠sw時(shí),不對(duì)動(dòng)作及其獎(jiǎng)勵(lì)值進(jìn)行修改。

        3 實(shí)驗(yàn)

        為了實(shí)現(xiàn)向深度強(qiáng)化學(xué)習(xí)模型中嵌入水印,本文使用并行優(yōu)勢(shì)-演員-評(píng)論員算法(PAAC)[24],并使用雅達(dá)利游戲庫(kù)[25]中的3個(gè)不同游戲(breakout、qbert、crazy climber)來(lái)評(píng)估水印嵌入效果。此外,通過(guò)魯棒性實(shí)驗(yàn)對(duì)本文所提方法的魯棒性進(jìn)行了驗(yàn)證。實(shí)驗(yàn)在一臺(tái)硬件配置為Intel 12600k CPU、32GB RAM和NVIDIA RTX 3060ti GPU,系統(tǒng)為Ubuntu22.04的機(jī)器上運(yùn)行。

        3.1 評(píng)估指標(biāo)

        本文主要使用性能差距以及水印動(dòng)作實(shí)現(xiàn)比例2個(gè)指標(biāo)作為評(píng)估標(biāo)準(zhǔn)。

        (1)性能差距。性能差距用于衡量帶水印模型與標(biāo)準(zhǔn)模型之間的表現(xiàn)差異。在評(píng)估性能差距時(shí),將帶水印模型所需交互的所有狀態(tài)設(shè)為已添加水印的狀態(tài),讓帶水印模型根據(jù)這些水印狀態(tài)自主選擇下一步動(dòng)作,同時(shí)觀察水印模型在標(biāo)準(zhǔn)狀態(tài)下的表現(xiàn)。游戲結(jié)束時(shí)的累計(jì)獎(jiǎng)勵(lì)是衡量模型性能的關(guān)鍵指標(biāo)。通過(guò)對(duì)比水印模型在水印狀態(tài)下的累計(jì)獎(jiǎng)勵(lì)和標(biāo)準(zhǔn)模型在標(biāo)準(zhǔn)狀態(tài)下的累計(jì)獎(jiǎng)勵(lì),可以評(píng)估水印模型與標(biāo)準(zhǔn)模型之間的性能差距。這種對(duì)比有助于理解水印對(duì)模型性能的影響。

        (2)水印動(dòng)作實(shí)現(xiàn)比例。先前的工作均使用序列的一致性來(lái)驗(yàn)證模型所有權(quán)。為簡(jiǎn)化驗(yàn)證流程,提出將水印動(dòng)作實(shí)現(xiàn)比例作為強(qiáng)化學(xué)習(xí)模型水印的另一個(gè)評(píng)價(jià)指標(biāo)。僅有性能差距的比較并不足以說(shuō)明模型的所有權(quán),因?yàn)槟P托阅艿南陆抵荒苷f(shuō)明后門(mén)使得模型的性能不佳,在此基礎(chǔ)上若模型能夠按照指定動(dòng)作執(zhí)行則能更加有效地驗(yàn)證模型的所有權(quán)。為了計(jì)算這一比例,首先統(tǒng)計(jì)帶水印模型在水印狀態(tài)下執(zhí)行水印動(dòng)作的比例,接著將該比例與未添加水印的模型在水印狀態(tài)下執(zhí)行水印動(dòng)作的比例進(jìn)行比較。通過(guò)這種對(duì)比,可以得到加入水印后的模型選擇水印動(dòng)作的實(shí)現(xiàn)比例。該指標(biāo)有助于判斷水印嵌入是否成功,以及水印是否對(duì)智能體的決策產(chǎn)生影響。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        3.2.1 性能差距分析

        圖3—圖5分別展示了breakout、qbert以及crazy climber共3個(gè)游戲模型在嵌入水印前后的性能差異。

        (a )水印模型性能 (b )標(biāo)準(zhǔn)模型性能圖3 breakout游戲模型性能Fig.3 Model performance in breakout

        實(shí)驗(yàn)過(guò)程中,本文在8 000萬(wàn)個(gè)訓(xùn)練狀態(tài)中,對(duì)20 000個(gè)狀態(tài)進(jìn)行水印處理,即僅使用了訓(xùn)練狀態(tài)的0.025%進(jìn)行水印處理。圖3—圖5中的(a)圖展示了水印模型在水印狀態(tài)和標(biāo)準(zhǔn)狀態(tài)下的累計(jì)獎(jiǎng)勵(lì)值,當(dāng)不使用水印狀態(tài)時(shí),模型表現(xiàn)出優(yōu)秀的性能;而在使用水印狀態(tài)時(shí),各個(gè)模型在前40M訓(xùn)練狀態(tài)前性能顯著下降,符合預(yù)期。圖3—圖5中的(b)圖展示了標(biāo)準(zhǔn)模型在水印狀態(tài)下和標(biāo)準(zhǔn)狀態(tài)下的累計(jì)獎(jiǎng)勵(lì)值,標(biāo)準(zhǔn)模型無(wú)法識(shí)別出水印狀態(tài),對(duì)水印狀態(tài)無(wú)法做出特定的行為,標(biāo)準(zhǔn)模型在水印狀態(tài)和標(biāo)準(zhǔn)狀態(tài)的性能基本一致。

        3.2.2 水印動(dòng)作實(shí)現(xiàn)比例

        圖6—圖8分別展示了breakout、qbert以及crazy climber共3個(gè)游戲模型的水印動(dòng)作實(shí)現(xiàn)比例。

        本文將動(dòng)作2設(shè)置為水印動(dòng)作,圖6—圖8中的(a)圖為智能體的各個(gè)動(dòng)作的分布,經(jīng)過(guò)訓(xùn)練后的水印模型能夠檢測(cè)出99%以上的水印狀態(tài),并成功執(zhí)行相應(yīng)的水印動(dòng)作。在非水印狀態(tài)下,水印模型具有正常的動(dòng)作分布,這意味著水印模型不會(huì)在非水印狀態(tài)下產(chǎn)生異常的水印動(dòng)作。圖6—圖8中的(b)圖為水印模型在水印狀態(tài)下的水印動(dòng)作隨著訓(xùn)練數(shù)量的趨勢(shì),各個(gè)智能體都在前40M訓(xùn)練數(shù)量中學(xué)習(xí)到了個(gè)水印。這表明本文的方法在保持模型性能的同時(shí),成功地將水印嵌入到了DRL模型中。

        3.2.3 魯棒性

        水印的魯棒性指的是水印對(duì)攻擊的抵抗力,即在攻擊者嘗試修改、破壞水印的情況下,水印是否還能夠被有效地檢測(cè)和提取出來(lái)。假設(shè)敵手在獲得模型之后通過(guò)模型轉(zhuǎn)換來(lái)適應(yīng)攻擊者自己的環(huán)境,本文重點(diǎn)考慮模型微調(diào)以及模型壓縮2種攻擊情形。

        (1)模型微調(diào)是指在一個(gè)預(yù)訓(xùn)練模型的基礎(chǔ)上,針對(duì)新的數(shù)據(jù)集(通常比原始預(yù)訓(xùn)練數(shù)據(jù)集更小)調(diào)整模型參數(shù)的過(guò)程。預(yù)訓(xùn)練模型通常在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,可以學(xué)到優(yōu)秀的特征表示,適用于多種任務(wù)。然而,在實(shí)際應(yīng)用中,為了獲得更好的性能,需要針對(duì)特定任務(wù)進(jìn)行模型微調(diào)。微調(diào)過(guò)程可以在預(yù)訓(xùn)練模型的基礎(chǔ)上使用新數(shù)據(jù)集進(jìn)行再訓(xùn)練,或者直接針對(duì)新任務(wù)進(jìn)行調(diào)整。在實(shí)驗(yàn)過(guò)程中,本文針對(duì)每個(gè)游戲額外訓(xùn)練了2 000萬(wàn)個(gè)訓(xùn)練狀態(tài)。

        (3)模型壓縮是一種縮小神經(jīng)網(wǎng)絡(luò)模型大小的技術(shù),通常通過(guò)減少神經(jīng)網(wǎng)絡(luò)中參數(shù)的數(shù)量或降低其表示的位數(shù)來(lái)實(shí)現(xiàn)。該操作有助于降低模型在存儲(chǔ)和傳輸過(guò)程中的開(kāi)銷(xiāo),從而提高模型的效率和可用性。本文采用模型壓縮的方法,將模型原來(lái)的32位浮點(diǎn)型參數(shù)轉(zhuǎn)換為16位浮點(diǎn)型參數(shù),顯著減少模型的存儲(chǔ)和傳輸開(kāi)銷(xiāo)。

        表1展示了水印模型針對(duì)模型微調(diào)與壓縮的魯棒性結(jié)果,在模型壓縮和模型微調(diào)之后,水印依舊保存在水印模型之中,在使用水印狀態(tài)驗(yàn)證時(shí),模型的累計(jì)獎(jiǎng)勵(lì)依舊會(huì)大幅下降,模型對(duì)水印狀態(tài)所執(zhí)行的水印動(dòng)作百分比均達(dá)到了99%~100%,與水印模型的性能基本一致,顯示了水印優(yōu)越的魯棒性。

        表1 水印模型針對(duì)模型微調(diào)與壓縮的魯棒性結(jié)果Tab.1 Robustness results of the watermark model to model fine-tuning and compression

        4 結(jié)語(yǔ)

        為了保護(hù)DRL模型的知識(shí)產(chǎn)權(quán),本文提出了一種可用于保護(hù)DRL模型知識(shí)產(chǎn)權(quán)的水印框架DrlWF,通過(guò)在DRL的訓(xùn)練過(guò)程中向訓(xùn)練狀態(tài)中添加水印,并為該水印狀態(tài)指定水印動(dòng)作與修改獎(jiǎng)勵(lì)值,使DRL模型能夠?qū)W習(xí)到這個(gè)水印。實(shí)驗(yàn)結(jié)果表明,在水印狀態(tài)下,水印模型的性能顯著下降,而在標(biāo)準(zhǔn)狀態(tài)下,水印模型與標(biāo)準(zhǔn)模型的性能與動(dòng)作百分比基本一致。水印在經(jīng)過(guò)模型壓縮和微調(diào)后仍然保留在模型中,進(jìn)而證明了水印的魯棒性。該方法適用于所有使用圖像作為狀態(tài)的DRL模型。值得注意的是,使用圖像作為狀態(tài)的DRL模型已經(jīng)成為現(xiàn)實(shí)世界中強(qiáng)化學(xué)習(xí)應(yīng)用的主要方向,例如機(jī)器人控制、自動(dòng)駕駛、無(wú)人機(jī)控制等。綜上所述,本文所提出的DRL模型水印框架可以在保證模型性能的前提下,保護(hù)模型的知識(shí)產(chǎn)權(quán),具有廣泛的應(yīng)用前景。

        猜你喜歡
        動(dòng)作智能環(huán)境
        長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        孕期遠(yuǎn)離容易致畸的環(huán)境
        環(huán)境
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        動(dòng)作描寫(xiě)要具體
        畫(huà)動(dòng)作
        福利网址在线观看| 免费a级毛片无码免费视频首页| 亚洲男同gay在线观看| 亚洲精品字幕在线观看| 亚洲五月激情综合图片区| 日韩精品有码中文字幕| 日本视频一区二区三区一| 在线成人爽a毛片免费软件| 国产免费久久精品国产传媒| 亚洲国产不卡av一区二区三区| 久久午夜av一区二区| 亚洲性久久久影院| 一个人在线观看免费视频www| 青春草在线视频精品| 久久av一区二区三区黑人| 人妻中文字幕乱人伦在线| 国产欧美日韩一区二区三区在线| 成人无码视频在线观看网站| 日本97色视频日本熟妇视频| 久久精品成人一区二区三区| 亚洲av无码av日韩av网站 | 女人张开腿让男桶喷水高潮 | 小妖精又紧又湿高潮h视频69| 97久久精品午夜一区二区| 91精品久久久久含羞草| 风间由美中文字幕在线| 亚洲av无码无线在线观看| 国产午夜精品久久久久免费视| 无码人妻中文中字幕一区二区| 久久综合五月天啪网亚洲精品| 欧美村妇激情内射| 国产激情з∠视频一区二区| 日日噜噜夜夜狠狠久久av| 91九色最新国产在线观看| 国语对白嫖老妇胖老太| 亚洲日韩精品欧美一区二区三区不卡| 日本在线一区二区在线| 大肉大捧一进一出好爽视频动漫| 日本午夜免费福利视频| 亚洲日产国无码| 91精品国产综合久久久密臀九色 |