許憲東
(黑龍江工程學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150001)
目前,人們?cè)絹?lái)越多地將自己的數(shù)字作品發(fā)布到互聯(lián)網(wǎng)。無(wú)論是企業(yè)還是個(gè)人,其發(fā)布數(shù)字作品的版權(quán)保護(hù)問(wèn)題需要被重視。對(duì)于多媒體數(shù)字作品的保護(hù),可以采用加密等方法,但是這又不利于數(shù)字作品被更多人所獲取。數(shù)字水印技術(shù)是解決多媒體作品版權(quán)保護(hù)的一種關(guān)鍵技術(shù)。
數(shù)字水印主要包括可見(jiàn)水印和不可見(jiàn)水印等。其中,可見(jiàn)水印可以較好地適用于大規(guī)模多媒體作品的版權(quán)保護(hù),人們可以通過(guò)可見(jiàn)水印清晰地了解多媒體作品的版權(quán)所屬。另一方面,為了不影響多媒體作品的效果,可見(jiàn)水印一般具有一定的透明度,其所占需保護(hù)數(shù)字作品的區(qū)域大小也可能變化較大,這些都造成了對(duì)于可見(jiàn)數(shù)字水印檢測(cè)的難點(diǎn)。
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,人們開(kāi)始嘗試將深度學(xué)習(xí)技術(shù)應(yīng)用于數(shù)字水印[1-4]?;谏疃葘W(xué)習(xí)的分類和檢測(cè)目前取得了一定的進(jìn)展,目前研究人員開(kāi)始逐步利用深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)水印的嵌入與檢測(cè)[1-3],出現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字水印方法、基于生成對(duì)抗網(wǎng)絡(luò)的數(shù)字水印方法,在水印檢測(cè)和嵌入的網(wǎng)絡(luò)模型,誤差函數(shù)及水印的生成等諸多領(lǐng)域取得了一定的進(jìn)步[5-8]。由于可見(jiàn)水印可被大規(guī)模地應(yīng)用到商標(biāo)保護(hù)等諸多領(lǐng)域,大量不同類別、不同大小、不同位置甚至形態(tài)各異的的水印可以被添加到大量的載體圖像中,因此可見(jiàn)數(shù)字水印的分類和檢測(cè)是個(gè)難點(diǎn)[9]。
在只有少量樣本的情況下,本文實(shí)現(xiàn)了水印的檢測(cè)。目標(biāo)是通過(guò)數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)等方法提高分類的準(zhǔn)確性。
由于目前公開(kāi)的數(shù)據(jù)集還較少,尤其是相關(guān)特定任務(wù)更是如此。由于難以獲得大量的樣本數(shù)據(jù)來(lái)完成訓(xùn)練等任務(wù)。針對(duì)這一特點(diǎn),本文通過(guò)采用數(shù)據(jù)增強(qiáng)來(lái)獲得更多的樣本數(shù)據(jù)。
本文選擇了商標(biāo)數(shù)據(jù)集[10]和室內(nèi)數(shù)據(jù)集[11]來(lái)生成添加商標(biāo)水印的數(shù)據(jù)集。為了更好地提高檢測(cè)的準(zhǔn)確性,應(yīng)對(duì)樣本數(shù)量過(guò)少的問(wèn)題,通過(guò)數(shù)據(jù)增強(qiáng)方法對(duì)數(shù)字水印進(jìn)行了處理,并通過(guò)調(diào)整參數(shù)生成了不同透明度的水印。本文在商標(biāo)數(shù)據(jù)集[10]中取少量樣本作為水印圖像,生成的部分水印如圖1 所示。
圖1 部分水印樣本
盡管應(yīng)用了數(shù)據(jù)增強(qiáng)方法,但為了滿足實(shí)際應(yīng)用,樣本數(shù)量仍然有限??赡艽嬖谶^(guò)擬合和泛化能力差的問(wèn)題。因此,通過(guò)預(yù)先在較大數(shù)據(jù)集上進(jìn)行訓(xùn)練的網(wǎng)絡(luò)模型,通過(guò)遷移學(xué)習(xí)實(shí)現(xiàn)分類是一個(gè)較好的選擇。
遷移學(xué)習(xí)的原理[12]
式中:DS是源域,一般具有大量訓(xùn)練樣本數(shù)據(jù),Dt是目標(biāo)域。遷移學(xué)習(xí)的目的是從源域和學(xué)習(xí)任務(wù)TS獲得知識(shí),從而提高目標(biāo)域中預(yù)測(cè)函數(shù)的準(zhǔn)確率。
本文所用遷移方法是微調(diào)方法,其被分為2 步。首先,通過(guò)大量源域訓(xùn)練樣本來(lái)訓(xùn)練網(wǎng)絡(luò)模型,再在較少樣本上進(jìn)行微調(diào)實(shí)現(xiàn)。如圖2 所示,是一個(gè)用于分類的神經(jīng)網(wǎng)絡(luò)微調(diào)方法,通過(guò)對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練和微調(diào)實(shí)現(xiàn)。
圖2 模型微調(diào)框圖
基于上述水印和室內(nèi)數(shù)據(jù)集,以室內(nèi)數(shù)據(jù)集[11]為宿主圖像,制作了包含水印的樣本數(shù)據(jù)集。圖3 是部分添加水印后的樣本數(shù)據(jù)。
圖3 添加水印后的部分樣本數(shù)據(jù)
所建立的神經(jīng)網(wǎng)絡(luò)模型如圖4 所示。
圖4 神經(jīng)網(wǎng)絡(luò)模型
這里采用預(yù)訓(xùn)練的VGG16 模型。
通過(guò)凍結(jié)預(yù)訓(xùn)練模型的部分卷積層,并訓(xùn)練所添加的卷積層和全連接層。通過(guò)微調(diào)方法完成分類。實(shí)驗(yàn)結(jié)果如圖5、圖6 所示。
由圖5、圖6 可以發(fā)現(xiàn)訓(xùn)練逐漸收斂。這里每個(gè)類的訓(xùn)練集和驗(yàn)證集的樣本數(shù)量分別為42 和14。通過(guò)這種微調(diào)方法,可以利用大量樣本數(shù)據(jù)訓(xùn)練得到預(yù)訓(xùn)練模型,這種模型具有較好的特征提取能力,同時(shí),其可以通過(guò)模型微調(diào)來(lái)更好地適應(yīng)新的分類任務(wù)。
圖5 訓(xùn)練誤差和驗(yàn)證誤差
圖6 訓(xùn)練精度和驗(yàn)證精度
由上文可知,可以通過(guò)遷移學(xué)習(xí)有效的實(shí)現(xiàn)分類,獲取圖片包含的水印類別,即使包含的水印對(duì)象較小且透明度較高,也能較好地實(shí)現(xiàn)分類。在獲取類別后,可以進(jìn)一步采用滑動(dòng)窗口、選擇性搜索等方法實(shí)現(xiàn)水印目標(biāo)檢測(cè)。
本文提出了一種基于遷移學(xué)習(xí)的可見(jiàn)水印分類方法,其包含了數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)兩部分,這種方法只需要少量的水印樣本,適合于特定的難以獲得大量樣本的情況。