一種雙判別器GAN 的古彝文字符修復(fù)方法

2022-04-14 02:19:24陳善雄朱世宇熊海靈趙富佳王定旺劉云

自動(dòng)化學(xué)報(bào) 2022年3期

陳善雄朱世宇,2 熊海靈趙富佳, 王定旺, 劉云

古彝文作為一種重要的少數(shù)民族文字,距今有八千多年歷史,可與甲骨文、蘇美爾文、埃及文、瑪雅文、哈拉般文5 種文字并列,是世界六大古文字之一,一直沿用至今,并在歷史上留下了許多珍貴的典籍.這些用古彝文書寫的典籍具有重要的歷史意義和社會(huì)價(jià)值[1-2],且種類繁多,內(nèi)容廣泛,涉及歷史、文學(xué)、哲學(xué)、宗教、醫(yī)藥、歷法等各個(gè)領(lǐng)域,具有較高的傳承價(jià)值.而作為彝文古籍的載體,石刻、崖畫、木牘和紙書由于年代久遠(yuǎn),往往模糊不清,或者殘缺不全,這給彝文古籍文獻(xiàn)的保存和傳播帶來極大的困難.目前,從各地收藏單位收集到彝文古籍文獻(xiàn)來看,紙質(zhì)文件存在泛黃變脆,甚至出現(xiàn)殘邊、蟲蛀等損毀問題;一些碑刻、木刻的古彝文也由于長(zhǎng)期的侵蝕,字跡出現(xiàn)了模糊,腐蝕等情況[3-5],如圖1 所示.得益于圖像修復(fù)技術(shù)的發(fā)展,我們可以通過技術(shù)手段對(duì)殘缺文字進(jìn)行修補(bǔ),還原文字的真實(shí)形態(tài).

圖1 彝文殘卷Fig.1 The incomplete literature of the ancient Yi

傳統(tǒng)的文字圖像修復(fù),專業(yè)研究人員是通過語(yǔ)境信息和感知信息進(jìn)行,即利用圖像周圍的像素以及綜合標(biāo)準(zhǔn)文字中的各個(gè)特征要素來完成字符推演.但古彝文沒有標(biāo)準(zhǔn)文字讓計(jì)算機(jī)參照學(xué)習(xí),手寫古彝文存在不確定性問題.同時(shí)計(jì)算機(jī)也很難具備人的語(yǔ)境信息,對(duì)于文字的認(rèn)知,需要很多的背景知識(shí),這些是人類在一定環(huán)境中長(zhǎng)期積累形成,很難系統(tǒng)地加以描述和組織.近年來,深度學(xué)習(xí)在圖像語(yǔ)義修復(fù)、情感感知、模式識(shí)別以及特征分類等領(lǐng)域展現(xiàn)出令人振奮的前景[6-7],特別在圖像生成方面,表現(xiàn)出優(yōu)越的性能.基于深度學(xué)習(xí)的圖像生成算法相對(duì)于傳統(tǒng)的基于結(jié)構(gòu)和紋理的生成算法能夠捕獲更多圖像的高級(jí)特征,常用于進(jìn)行紋理合成和圖像風(fēng)格化遷移[8-10].2014 年由Goodfellow 等提出的生成式對(duì)抗網(wǎng)絡(luò)(Generative adversarial network,GAN)在圖像生成領(lǐng)域取得了開創(chuàng)性進(jìn)展[11-12],在圖像生成的過程中,生成式對(duì)抗網(wǎng)絡(luò)相對(duì)于傳統(tǒng)的編碼-解碼器而言能夠更好地?cái)M合數(shù)據(jù),且速度較快,生成的樣本更加銳利,但該方法也存在不足,如數(shù)據(jù)訓(xùn)練不穩(wěn)定、網(wǎng)絡(luò)自由不可控、訓(xùn)練崩潰等問題.2015 年底,Radford 等在深度卷積分類網(wǎng)絡(luò)基礎(chǔ)上[13],提出深度卷積生成式對(duì)抗網(wǎng)絡(luò)(Deep convolutional GAN,DCGAN)[14].DCGAN 融合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)和GAN,通過設(shè)計(jì)獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu),使得訓(xùn)練更加穩(wěn)定,這是首篇表明向量運(yùn)算可以作為從生成器中學(xué)習(xí)的固有屬性進(jìn)行特征表達(dá)的論文.DCGAN 的成功使GAN 拓展出多種應(yīng)用[15-20],如圖像合成、風(fēng)格遷移、超分辨率重構(gòu)、圖像修復(fù)以及圖像轉(zhuǎn)換等.

我們?cè)谏疃染矸e和生成對(duì)抗網(wǎng)絡(luò)以往的工作之上[13,15,21-24],針對(duì)彝文字符的特殊性,提出一個(gè)雙判別器生成對(duì)抗網(wǎng)絡(luò)模型用于古彝文字符修復(fù).本文設(shè)計(jì)的雙判別器網(wǎng)絡(luò)是在DCGAN 的基礎(chǔ)上,增加一個(gè)篩選判別器模型,實(shí)現(xiàn)從手寫彝文古籍文獻(xiàn)中獲取古彝文字符圖像的概率分布,通過已獲得的概率分布去預(yù)測(cè)待修復(fù)古彝文字符圖像,根據(jù)預(yù)測(cè)圖像完成修復(fù)任務(wù).其基本流程為:首先使用古彝文字符對(duì)DCGAN 網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使該網(wǎng)絡(luò)的古彝文生成器模型能夠生成古彝文字符圖像,然后建立一個(gè)篩選判別器模型,對(duì)生成出的古彝文字符進(jìn)行比較,通過對(duì)生成的古彝文字符與待修復(fù)古彝文字符的差異建立損失函數(shù),并對(duì)雙判別器模型進(jìn)行優(yōu)化,最后能約束生成器模型,使其生成的古彝文字符不再是隨機(jī)字符,而是與待修復(fù)的古彝文字符一致.本文使用手寫古彝文字符圖像數(shù)據(jù)集對(duì)上述方法上進(jìn)行測(cè)試,對(duì)殘缺1/3 以下的字符能達(dá)到77.3%修復(fù)率.

1 雙判別器生成式對(duì)抗網(wǎng)絡(luò)模型

1.1 模型結(jié)構(gòu)

本文提出了一種基于雙判別器生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial networks with dual discriminator,D2GAN)的古彝文字符的修復(fù)方法.有別于傳統(tǒng)圖像修復(fù),在文字修復(fù)中,如果已有字庫(kù)的字符能覆蓋待修復(fù)文字,則直接采用待修復(fù)字符圖像和字庫(kù)比對(duì)的方式.然而,古彝文存在字符庫(kù)不全且手寫體形式多樣等問題,因而直接進(jìn)行比對(duì)較為困難.針對(duì)古彝文缺乏完整字庫(kù)樣本,本文通過GAN 生成器來實(shí)現(xiàn)一個(gè)動(dòng)態(tài)的古彝文字庫(kù),并利用雙判別器網(wǎng)絡(luò)來獲取目標(biāo)古彝文字符,進(jìn)一步用于殘字修復(fù).本文關(guān)鍵在于設(shè)計(jì)出能夠生成出古彝文字符的網(wǎng)絡(luò),并加入篩選判別器形成雙判別器的網(wǎng)絡(luò)結(jié)構(gòu).該結(jié)構(gòu)中包含2 個(gè)判別器,一個(gè)用于判斷生成器生成的字符是否屬于古彝文;另一個(gè)用于判斷待修復(fù)的古彝文字符和生成字符的相似性.D2GAN 中篩選判別器的作用為判別生成器生成的古彝文字符是否是待修復(fù)的古彝文字符,如果生成字符與待修復(fù)字符一致,則兩者進(jìn)行融合,這樣就可以實(shí)現(xiàn)殘缺古彝文字符的修復(fù).D2GAN 模型結(jié)構(gòu)如圖2 所示.

圖2 本文雙判別器生成式對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Generative adversarial networks with double discriminator in the paper

該網(wǎng)絡(luò)由一個(gè)字符判別器、一個(gè)篩選判別器和一個(gè)字符生成器組成.網(wǎng)絡(luò)的訓(xùn)練分為三個(gè)階段:

第1 階段對(duì)古彝文字符判別器進(jìn)行訓(xùn)練.將生成器生成的字符輸入古彝文字符判別器網(wǎng)絡(luò),正向傳播后,得到輸出,本文期望輸出為 “假”;將真實(shí)的古彝文字符輸入字符判別器網(wǎng)絡(luò),正向傳播后,得到輸出,本文期望輸出為 “真”.將2 個(gè)輸出結(jié)合起來建立損失函數(shù),進(jìn)行反向傳播,優(yōu)化古彝文字符判別器網(wǎng)絡(luò).

第2 階段對(duì)古彝文字符生成器進(jìn)行訓(xùn)練.將服從均勻分布的100 維隨機(jī)向量輸入古彝文字符生成器網(wǎng)絡(luò),通過正向傳播,得到輸出,輸出數(shù)據(jù)的形狀為64×64 的矩陣.將輸出結(jié)果輸入古彝文字符判別器網(wǎng)絡(luò),在古彝文字符判別器網(wǎng)絡(luò)內(nèi)進(jìn)行正向傳播后,得到輸出,本文期望輸出為 “真”.通過輸出結(jié)果建立損失函數(shù),進(jìn)行反向傳播,優(yōu)化古彝文字符生成器網(wǎng)絡(luò).

第3 階段,重復(fù)第1 階段和第2 階段,直到對(duì)古彝文字符生成器網(wǎng)絡(luò)完成優(yōu)化,然后停止古彝文字符生成器的優(yōu)化,開始進(jìn)行對(duì)篩選判別器進(jìn)行訓(xùn)練.將真實(shí)的古彝文字符和生成器生成的字符輸入到篩選判別器網(wǎng)絡(luò),通過網(wǎng)絡(luò)的正向傳播,得到輸出,篩選判別器輸出是一個(gè)100 維的向量.將該向量輸入到古彝文字符生成器網(wǎng)絡(luò),通過生成器正向傳播,得到輸出,本文期望該輸出盡可能地接近需要修復(fù)的殘缺彝文字符,通過對(duì)二者一致性的比對(duì),建立損失函數(shù),通過在篩選判別器網(wǎng)絡(luò)中反向傳播,對(duì)篩選判別器網(wǎng)絡(luò)進(jìn)行優(yōu)化.

經(jīng)過上述三個(gè)步驟,完成針對(duì)古彝文字符圖像的雙判別器生成式對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練,得到一個(gè)穩(wěn)定的模型.在文獻(xiàn)[25]中,也提出了一個(gè)雙判別器生成對(duì)抗網(wǎng)絡(luò)(D2GAN),如圖3 所示.在兩個(gè)判別器固定的情況下,生成器的學(xué)習(xí)將朝著同時(shí)優(yōu)化Kullback-Leibler (KL)散度和反向KL 散度的方向發(fā)展,從而有助于避免模式崩潰.該模型與本文差異在于:1)文獻(xiàn)[25]中,兩個(gè)判別器的模型結(jié)構(gòu),完全一致,作者改變的是兩個(gè)判別器損失值的計(jì)算方法.在本文的雙判別器框架中,兩個(gè)判別器的模型結(jié)構(gòu)相差甚遠(yuǎn),并且數(shù)據(jù)輸入的方式也并不相同.2)雙判別器模型的訓(xùn)練方法不一樣.文獻(xiàn)[25]中的訓(xùn)練方法為生成器與兩個(gè)判別器同步訓(xùn)練,通過兩個(gè)判別器,來優(yōu)化生成器,同時(shí)通過生成器優(yōu)化判別器.本文的訓(xùn)練方法為生成器和第1 個(gè)判別器同步訓(xùn)練,相互優(yōu)化,在生成器優(yōu)化結(jié)束后,通過第2個(gè)判別器對(duì)生成器的生成結(jié)果進(jìn)行篩選.3)增加的判別器用途不一樣.文獻(xiàn)[25]中增加的判別器是為了能更好地優(yōu)化生成器的模型參數(shù).本文增加的判別器,是為了從生成器生成出的結(jié)果中尋找最優(yōu)解,并沒有對(duì)生成器的參數(shù)再進(jìn)行優(yōu)化.

圖3 文獻(xiàn)[25]中D2GN 結(jié)構(gòu)Fig.3 The structure of D2GN in [25]

為了展示本文雙判別器結(jié)構(gòu)的細(xì)節(jié),下面首先對(duì)古彝文字符判別網(wǎng)絡(luò)、篩選判別網(wǎng)絡(luò)和古彝文字符生成網(wǎng)絡(luò)進(jìn)行詳細(xì)說明.

1.2 古彝文字符生成網(wǎng)絡(luò)

古彝文字符生成器主要用于獲取古彝文字符的概率分布,在極大似然概率生成網(wǎng)絡(luò)上產(chǎn)生出彝文,從而形成動(dòng)態(tài)彝文字庫(kù).古彝文字符生成器(Generator,下文簡(jiǎn)稱網(wǎng)絡(luò)G)的優(yōu)化來自于彝文字符判別器(Discri minator,下文簡(jiǎn)稱網(wǎng)絡(luò)D1),兩個(gè)網(wǎng)絡(luò)之間相互博弈,從而不斷優(yōu)化,網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖4 所示.

彝文字符生成器用隨機(jī)向量z作為網(wǎng)絡(luò)G的輸入,將輸出送入網(wǎng)絡(luò)D1,通過網(wǎng)絡(luò)D1 的正向傳播獲得生成效果,根據(jù)生成效果優(yōu)化網(wǎng)絡(luò)G,其數(shù)學(xué)表達(dá)式為

因?yàn)榫W(wǎng)絡(luò)D1 可以區(qū)分彝文字符的 “真”和 “偽”,所以網(wǎng)絡(luò)G為讓網(wǎng)絡(luò)D1 將其判斷為 “真”,會(huì)不斷優(yōu)化自身,使生成的 “偽”古彝文字符盡可能與 “真實(shí)”古彝文字符一致.通過網(wǎng)絡(luò)G不斷優(yōu)化,從而學(xué)習(xí)古彝文字符的本質(zhì)特性,刻畫出古彝文字符的分布概率,最終使得網(wǎng)絡(luò)G生成出的數(shù)據(jù)與古彝文字符高度相似,形成動(dòng)態(tài)彝文字庫(kù).其中G表示彝文字符生成器;θG為待優(yōu)化參數(shù);g(·)為需進(jìn)一步優(yōu)化的非線性映射函數(shù);z為g(·)的輸入,即-1～1 之間的雙精度隨機(jī)數(shù),是100 維的向量;x為真實(shí)的古彝文字符數(shù)據(jù),為生成器輸出的結(jié)果,為64×64 像素的圖像,且取值范圍在-1～1 之間.對(duì)網(wǎng)絡(luò)G而言,在彝文字符判別器固定時(shí),期望生成數(shù)據(jù)的分布特性盡最大可能與真實(shí)古彝文字符一致,即判別器將生成圖像都識(shí)別為真.如式(2)所示,因?yàn)槠谕袆e器識(shí)別為真,因此D()的輸出越接近于1越好,即 lg(D())越大越好.

1.3 古彝文字符判別網(wǎng)絡(luò)

彝文字符判別器的作用是幫助彝文字符生成器優(yōu)化,通過不斷調(diào)整自身的鑒別能力,從而使生成器的能力也不斷提高.彝文字符判別器分別用彝文數(shù)據(jù)集中的數(shù)據(jù)和網(wǎng)絡(luò)G的輸出作為網(wǎng)絡(luò)D1 的輸入,將判斷結(jié)果作為網(wǎng)絡(luò)D1 的輸出.其數(shù)學(xué)表達(dá)式為

其中,D表示彝文字符判別器;θD為待優(yōu)化的參數(shù);y為d(·)的輸出結(jié)果,即將輸入數(shù)據(jù)判斷為真的概率,且y∈[0,1].判別模型設(shè)計(jì)為將自然數(shù)據(jù)判斷為真的概率,以及將生成數(shù)據(jù)判別為偽的概率要高.通過網(wǎng)絡(luò)D1 的正向傳播獲得判別結(jié)果,根據(jù)結(jié)果對(duì)網(wǎng)絡(luò)D1 進(jìn)行優(yōu)化,其損失函數(shù)為

式(5)中對(duì) lg(d(x,θD))的損失值取負(fù)的物理解釋為將x判斷為真的不確定性越小越好,其最佳狀態(tài)為d(x)=1;而對(duì) lg(1-d())的損失值取負(fù)的物理解釋為將判斷為偽的不確定性越小越好,即將判斷為偽的概率越大越好;將所有判定的不確定性進(jìn)行求和,便得到熵.根據(jù)熵對(duì)模型的參數(shù)θD進(jìn)行優(yōu)化.在對(duì)判別模型D的參數(shù)進(jìn)行更新時(shí),對(duì)于來自真實(shí)分布Pdata 的樣本x而言,因?yàn)槠谕寄軌蜃R(shí)別為真,因此D(x)的輸出越接近于1 越好,即 lg(D(x))越大越好;對(duì)于通過噪聲z生成的數(shù)據(jù)G(z)而言,因?yàn)槠谕寄軌蜃R(shí)別為假,因此D(G(z))越接近于0 越好,即 lg(1-D(G(z)))越大越好.

通過設(shè)計(jì)好的損失函數(shù)(式(2)和式(5)),使用梯度下降法對(duì) (θG,θD)參數(shù)交替優(yōu)化,使網(wǎng)絡(luò)G和網(wǎng)絡(luò)D1 接近納什均衡.

1.4 篩選判別器

完成古彝文動(dòng)態(tài)字庫(kù)的設(shè)計(jì)后,針對(duì)古彝文字符缺損的修復(fù)問題可以描述為圖像的比對(duì)問題.通過對(duì)古彝文字符生成器的訓(xùn)練,可以獲取100 維列向量的隨機(jī)數(shù)和古彝文字符的映射關(guān)系,但是生成器輸出的古彝文字符是隨機(jī)的,要完成特定的彝文字符修復(fù),還需要建立起100 維列向量與特定字符之間的映射.假設(shè)待修復(fù)的圖像為A,設(shè)置一個(gè)初始隨機(jī)值z(mì)作為生成器G(z)的輸入,正向傳播后可得到一幅圖像B′.此時(shí)的圖像B′與圖像A可能毫無關(guān)聯(lián)或相關(guān)性不大,無法用圖像B′完成圖像A的修復(fù).篩選判別器的作用在于找到一個(gè)H,使得生成器G(z)的輸出圖像B′與圖像A無限接近.即,使生成器自動(dòng)生成的古彝文字符與需要修復(fù)的特定古彝文字符盡量接近.

本文通過兩幅圖像的歐氏距離d(A,B),即

建立起兩幅圖像間概率分布的差異,根據(jù)差異設(shè)計(jì)出損失函數(shù)對(duì)篩選判別器進(jìn)行優(yōu)化.但僅以此作為損失值對(duì)z進(jìn)行優(yōu)化還不夠,還需限定圖像B′必須是一個(gè)古彝文字符,本文將彝文字符判別器對(duì)圖像A的判定結(jié)果,也作為優(yōu)化目標(biāo)之一.結(jié)合兩個(gè)損失值就可以得到優(yōu)化z的函數(shù),即

式(6)中,a代表圖像A中的像素值,b代表圖像B′中的像素值.篩選判別器期望比較出更符合古彝文字符規(guī)律的字符圖像,因此D(z)的輸出越接近1越好,即 lg(1-D(z))越小越好.生成數(shù)據(jù)的分布特性盡最大可能與真實(shí)古彝文字符數(shù)據(jù)一致,即判別器將生成圖像都識(shí)別為真.最小化Lasso,如式(5)所示.因?yàn)槠谕袆e器識(shí)別為真,因此D(z)的輸出越接近1 越好,即 lg(1-D(z))越小越好.lossz為凸函數(shù),通過梯度下降法[26-27]對(duì)z進(jìn)行優(yōu)化,使得z無限接近于期望的H以此得到圖像B,從而完成古彝文字符修復(fù).

2 模型結(jié)構(gòu)

2.1 古彝文字符判別器模型

古彝文字符判別器模型的輸入為字符圖像,通過判別器判斷該圖像是否為古彝文字符.模型包括1 個(gè)輸入層、4 個(gè)卷積層和1 個(gè)輸出層.其模型結(jié)構(gòu)如圖5(a)所示,其中層與層之間的黑色連接圓,代表卷積的方法和激活函數(shù),如圖5(b)所示.

圖5 古彝文字符判別器模型詳細(xì)結(jié)構(gòu)Fig.5 Detailed structure of the ancient Yi character discriminator model

古彝文字符判別器由4 層CNN (不包含輸入層)組成,圖5(a)中第1 層為輸入層,輸入原始數(shù)據(jù),該數(shù)據(jù)源于古彝文字符圖像,大小為64 × 64 像素,因?yàn)楣乓臀淖址腔叶葓D像,因此將圖像的3 通道修正為單通道.最后為輸出層,只有1 個(gè)節(jié)點(diǎn).卷積層用C 表示,詳細(xì)信息如表1 所示.OUTPUT 層計(jì)算輸入向量和權(quán)重向量之間的點(diǎn)積,再加上一個(gè)偏置,然后將其傳遞給sigmoid 函數(shù)輸出結(jié)果[28].輸出層的節(jié)點(diǎn)值表示是否為古彝文字符.如果節(jié)點(diǎn)的值為1,則表示網(wǎng)絡(luò)識(shí)別結(jié)果為古彝文字符,0 則相反.

表1 判別器模型參數(shù)表Table 1 Parameter table of the discriminator model

2.2 古彝文字符生成器模型

古彝文字生成器模型由4 層CNN (不包含輸入層)組成,圖6(a)中第1 層為輸入層,輸入為服從均勻分布的100 維向量的隨機(jī)數(shù).最后為輸出層,輸出數(shù)據(jù)為 64×64×1 的矩陣,希望通過訓(xùn)練,該數(shù)據(jù)能表示古彝文字符圖像,其模型如圖6(a)所示.其中層與層之間的白色連接圓,代表反卷積的方法和激活函數(shù)(如圖6(b)所示).反卷積層用DC表示,全連接層用F 表示,詳細(xì)信息如表2 所示.

表2 生成器模型參數(shù)表Table 2 Parameter table of the generator model

圖6 古彝文字符生成器模型詳細(xì)結(jié)構(gòu)Fig.6 Detailed structure of the ancient Yi character generator model

2.3 古彝文字符篩選判別器模型

在篩選判別器訓(xùn)練及彝文字符修復(fù)階段,古彝文生成器和古彝文判別器停止優(yōu)化.在沒有約束的情況下,生成器的生成效果,只具有古彝文字符的分布特征,而并不一定是真正的古彝文[29-30].本文增加篩選判別器之后,通過與待修復(fù)古彝文字殘字圖像做比較,進(jìn)一步對(duì)古彝文字符生成器進(jìn)行約束,使得生成的結(jié)果更符合古彝文的正常書寫規(guī)范,且更接近于待修復(fù)的古彝文.其結(jié)構(gòu)如圖7 所示.

圖7 古彝文字符篩選判別器模型Fig.7 Selecting discriminator model for ancient Yi character

篩選判別器的輸入為殘缺的字符和生成的字符,僅有1 個(gè)全連接層.該全連接層神經(jīng)網(wǎng)絡(luò)的每層神經(jīng)元權(quán)重的個(gè)數(shù),Param=(輸入數(shù)據(jù)維度+1)×神經(jīng)元個(gè)數(shù),加1 是因?yàn)槊總€(gè)神經(jīng)元都有一個(gè)偏置值.輸入數(shù)據(jù)維度為100,該層使用了 1×64×64 個(gè)節(jié)點(diǎn),所以參數(shù)數(shù)量為 (100+1)×1×100 =10 100.全連接層輸出作為字符生成器的輸入,是一個(gè)100維的向量.

篩選判別器模型優(yōu)化方法如下:

1)從古彝文數(shù)據(jù)集B中選取一個(gè)樣本作為修復(fù)對(duì)象(如圖8).因?yàn)樵摌颖臼峭暾墓乓臀?并無缺失.為驗(yàn)證效果,使用一個(gè)20 × 20 的全1 矩陣對(duì)圖像的中間部分進(jìn)行覆蓋(如圖9).為驗(yàn)證模型的魯棒性,除矩形外,本文還使用了三角形和圓形等多種形狀進(jìn)行區(qū)域覆蓋.

圖8 原始樣本Fig.8 The original sample

圖9 待修復(fù)古彝文Fig.9 Ancient Yi character need to be restored

2)將進(jìn)行覆蓋的字符(殘缺字符)和生成器生成的字符作為輸入,用1 個(gè)全聯(lián)接網(wǎng)絡(luò)構(gòu)成篩選判別器的隱層,同時(shí),把古彝文篩選判別器的輸出z,作為古彝文生成器的輸入,通過正向傳播可以得到輸出G(z),如圖10 所示.

圖10 通過生成器模型輸出圖像G(z)Fig.10 Output imagesG(z)from the generator model

3)從圖8～10 可以看出,此時(shí)古彝文字符生成器輸出的G(z)與待修復(fù)的古彝文殘字(圖9)之間并無關(guān)聯(lián).將G(z)與殘字進(jìn)行對(duì)比,根據(jù)式(6)得到損失值lossz.

4)用lossz對(duì)篩選判別器進(jìn)行優(yōu)化.

3 訓(xùn)練與實(shí)驗(yàn)

3.1 數(shù)據(jù)集與模型訓(xùn)練

實(shí)驗(yàn)樣本來源于37 萬字的《西南彝志》中選取的2 142 個(gè)常用古彝文字符[31],并邀請(qǐng)彝族老師和學(xué)生進(jìn)行臨摹,發(fā)放了1 200 份采集表(如圖11 所示),其中古彝文正體采集表800 份、軟筆風(fēng)格采集表200 份、硬筆風(fēng)格采集表200 份,如圖12 所示,共得到了151 200 個(gè)字體樣本.同時(shí),為了便于后期處理分析,設(shè)計(jì)了相應(yīng)的字體庫(kù)(如圖13 所示)和古彝文輸入法.

圖11 原始樣本Fig.11 The original sample

圖12 古彝文硬筆(上)和軟筆(下)Fig.12 Ancient Yi hard pen (upper)and soft pen (down)

圖13 待修復(fù)古彝文Fig.13 Ancient Yi character need to be restored

將古彝文字體庫(kù)中的樣本轉(zhuǎn)換為64 × 64 個(gè)像素點(diǎn)構(gòu)成的圖片,每個(gè)像素點(diǎn)用 0～255 灰度值表示,對(duì)采集到的樣本,每個(gè)字按7 :3 的比例分為訓(xùn)練集A和測(cè)試集B,部分樣本如圖14 所示.

圖14 古彝文手寫數(shù)據(jù)集樣例Fig.14 The handwritten sample of ancient Yi

實(shí)驗(yàn)環(huán)境:CPU Intel(R)core(7M)i7-7700,3.6 GHz;內(nèi)存DDR4,8.00 GB;GPU NVIDA Ge-Force RTX 2080 SUPER,基礎(chǔ)頻率1 650 MHz,加速頻率1 815 MHz,顯存:GDDR6,8 GB,顯存位寬256 bit,顯存頻率15.5 GHz,顯存帶寬496 GB/s.

3.2 彝文字符生成器和彝文字符判別器訓(xùn)練過程

實(shí)驗(yàn)使用訓(xùn)練集A對(duì)模型進(jìn)行訓(xùn)練,每次訓(xùn)練以32 個(gè)樣本為單位,進(jìn)行批量訓(xùn)練,過程為:

1)從訓(xùn)練集A中抽取32 個(gè)彝文數(shù)據(jù),將其作為彝文判別器的輸入,通過彝文判別器的正向傳播,得到d(x,θD),即彝文是否為 “真”的概率,將其代入式(8),得到損失值d1

2)隨機(jī)產(chǎn)生32 個(gè)服從均勻分布的100 維向量,將其作為彝文生成模型的輸入,通過正向傳播獲得32 個(gè)64 × 64 × 1 的矩陣,將這批矩陣作為彝文判別模型的輸入,通過正向傳播也得到d(),將其代入式(9),得到損失值d2

3)將d1和d2 代入式(5),得到彝文判別器的損失值lossd,通過Adam[32-33]算法,對(duì)彝文判別的參數(shù)進(jìn)行優(yōu)化.

4)彝文字符生成器輸出的32 個(gè)圖像通過彝文字符判別器得到d(),在作為彝文字符判別器的損失值d2 的同時(shí)也作為彝文字符生成器的損失值.因?yàn)閷?duì)彝文字符生成器的期望是所有生成出的數(shù)據(jù),彝文字符判別器都將其判別為真,所以將d()代入式(2)得到彝文生成器的損失值lossg,用Adam 算法對(duì)彝文字符生成模型進(jìn)行優(yōu)化.

重復(fù)一次上述的過程,稱為完成一次訓(xùn)練.通過不斷重復(fù)訓(xùn)練,對(duì)彝文字符判別器和彝文字符生成器同時(shí)進(jìn)行優(yōu)化.

模型采用tensorflow 框架提供的Adam 隨機(jī)梯度下降優(yōu)化算法進(jìn)行訓(xùn)練,在訓(xùn)練時(shí),需要設(shè)置學(xué)習(xí)率(Learning rate)控制參數(shù)的更新速度.該參數(shù)會(huì)極大地影響模型收斂速度,過小會(huì)收斂太慢,增加訓(xùn)練成本;過大會(huì)導(dǎo)致參數(shù)在最優(yōu)解附近振蕩,無法獲取得最優(yōu)解[34].本文對(duì)多個(gè)學(xué)習(xí)率下?lián)p失值的變化進(jìn)行對(duì)比,當(dāng)訓(xùn)練次數(shù)為2 000 時(shí),學(xué)習(xí)率分別為0.2,0.02,0.002 的判別器損失函數(shù)曲線如圖15所示.橫軸代表訓(xùn)練次數(shù),縱軸代表?yè)p失值大小,單位為px (像素).

圖15 學(xué)習(xí)率0.2,0.02,0.002 的損失值變化曲線Fig.15 The loss variation of the learning rate involving 0.2,0.02 and 0.002

通過觀察圖15 可以發(fā)現(xiàn),學(xué)習(xí)率在0.2 時(shí),損失值在1 240 次之后就開始劇烈振蕩,這是明顯的學(xué)習(xí)率過高,導(dǎo)致無法收斂到最優(yōu)點(diǎn)的情況.將學(xué)習(xí)率0.002和0.02 的損失值進(jìn)行比較,學(xué)習(xí)率0.002 的損失值更接近于在1 附近進(jìn)行波動(dòng),其預(yù)測(cè)值會(huì)更接近于1,因此本文以0.002 為基礎(chǔ)再次進(jìn)行實(shí)驗(yàn).當(dāng)訓(xùn)練次數(shù)為2 000 時(shí),學(xué)習(xí)率分別為0.0002,0.001,0.002 的判別器損失函數(shù)曲線如圖16所示.通過觀察圖16,可以判斷學(xué)習(xí)率為0.001 時(shí),損失值的波動(dòng)范圍最接近于1,因此本文設(shè)置學(xué)習(xí)率為0.001.

圖16 學(xué)習(xí)率為0.0002,0.001,0.002 的損失值變化曲線Fig.16 The loss variation of the learning rate involving 0.0002,0.001 and 0.002

訓(xùn)練過程中,設(shè)置訓(xùn)練次數(shù)為10 000 次,每次訓(xùn)練輸出25 幅64 × 64 像素的生成圖像.在第1 次、第50 次、第100 次、第500 次、第1 000 次、第2 000次、第5 000 次、第10 000 次、第15 000 次、第20 000 次訓(xùn)練完成后,用生成器生成圖像,每次訓(xùn)練完成生成25 幅圖像,共250 幅圖像,如圖17所示.

圖17 不同訓(xùn)練次數(shù)下生成器生成圖像Fig.17 The generator generates image under different training times

經(jīng)彝文專家判斷,在訓(xùn)練超過10 000 次之后,生成器生成的圖像趨于穩(wěn)定.故采用經(jīng)過10 000 次訓(xùn)練的生成器網(wǎng)絡(luò).

在訓(xùn)練過程中,每100 次記錄一次彝文判別器和彝文生成器的損失值,經(jīng)過10 000 次訓(xùn)練之后,損失值變化曲線如圖18 所示.從圖中可以看出,彝文生成器模型和彝文判別器模型在訓(xùn)練過程中不斷進(jìn)行博弈.當(dāng)彝文判別器模型的損失值減小時(shí),判別器判定生成的彝文為假的概率增加.而彝文生成器模型損失值減小時(shí),判別器能較大概率判定生成的彝文為真.當(dāng)兩個(gè)模型的損失值交替上升時(shí),表示這兩個(gè)模型在不斷地進(jìn)行博弈,并交替地對(duì)模型參數(shù)進(jìn)行優(yōu)化.

圖18 10 000 次訓(xùn)練后損失值變化曲線Fig.18 Loss curve after 10 000 training

本文用隨機(jī)產(chǎn)生的1 000 個(gè)100 維向量作為完成10 000 次訓(xùn)練的生成器模型的輸入,通過模型正向傳播,得到得到1 000 個(gè)圖像,經(jīng)彝文專家判斷生成結(jié)果與真實(shí)彝文字符的形態(tài)非常接近.部分?jǐn)?shù)據(jù)如圖19 所示.

圖19 生成器輸出圖像Fig.19 Output images by generator

3.3 篩選判別器的訓(xùn)練及彝文修復(fù)

根據(jù)第2.3 節(jié)所述流程,在對(duì)篩選判別器的訓(xùn)練過程中,我們?cè)O(shè)置學(xué)習(xí)率為0.001,對(duì)篩選判別器模型進(jìn)行2 000 次優(yōu)化.過程中l(wèi)ossz的變化曲線如圖20 所示,橫軸代表訓(xùn)練次數(shù),縱軸代表?yè)p失值大小,單位為px (像素單位).可以看出在訓(xùn)練750 次后,損失值已經(jīng)逐步下降到一個(gè)范圍內(nèi),即表示當(dāng)前生成的字符與待修復(fù)的字符之間的差異也下降到一定范圍.在2 000 次優(yōu)化后,篩選判別器生成的z′,通過在古彝文字符生成器中正向傳播得到G(z′),如圖21 所示,從圖中可以看出G(z′)與殘字接近,卻又保留有殘字所殘缺的那部分.將待修復(fù)古彝文中缺失的部分,用G(z′)進(jìn)行填充,得到修復(fù)后的圖像,如圖22 所示.

圖20 篩選判別器的訓(xùn)練過程中損失值變化曲線Fig.20 The loss curve in process of the training of the selecting discriminator

圖21 訓(xùn)練得到z′,然后輸入z′到生成器得到的圖像Fig.21 After trainning,z′is generated,and then inputz′to the generator to get the image

圖22 修復(fù)后的圖像Fig.22 The restored image

上述實(shí)驗(yàn)重復(fù)1 000 次,每一次隨機(jī)從古彝文測(cè)試集B中抽取一個(gè)樣本制作成待修復(fù)的古彝文,然后按本文的方法進(jìn)行修復(fù),對(duì)古彝文字符的修復(fù)率為77.3%,如表3 所示.

表3 中的評(píng)價(jià)標(biāo)準(zhǔn)如下:修復(fù)后的圖像與原圖像字體形態(tài)一致為完全修復(fù);能夠知道圖像的古彝文字符是哪個(gè)古彝文字符,但存在偏旁或部首的缺損為部分修復(fù);通過觀察修復(fù)后的圖像,不能判斷出是哪個(gè)古彝文字符為未完成修復(fù).圖23 為1 000次實(shí)驗(yàn)中的部分?jǐn)?shù)據(jù),從左至右分別為古彝文原始樣本圖像、生成出的待修復(fù)的古彝文圖像、生成器生成出來的圖像以及修復(fù)之后的效果圖.圖24 為多種殘缺形狀的修復(fù)效果.

圖23 部分古彝文修復(fù)結(jié)果Fig.23 The repair effect of some ancient Yi

圖24 多形狀殘缺修復(fù)結(jié)果Fig.24 The repair effect of ancient Yi characterof multiple shape occlusion

表3 古彝文字符修復(fù)比例Table 3 Restoration proportion of ancient Yi characters

本文使用上述模型對(duì)從彝文古籍中選取出的10 個(gè)殘缺的古彝文字符進(jìn)行處理和修復(fù),其效果如圖25 所示.從左至右分別為殘缺的古彝文字符、通過模型生成的用于修復(fù)的字符以及修復(fù)結(jié)果.其具體修復(fù)方法為,取模型生成的字符圖像中某一區(qū)域的黑色像素,疊加到待修復(fù)的圖像中.區(qū)域的位置,根據(jù)原始古彝文字符的缺損位置來確定.然而,通過專家判別,仍有22.7%是修復(fù)失敗的.部分樣本如圖26 所示.其原因在于,殘字缺失的部分,其筆畫較為復(fù)雜,且該字符異體字較多,而生成器網(wǎng)絡(luò)結(jié)構(gòu)對(duì)復(fù)雜筆畫的適應(yīng)性較弱,因此對(duì)殘缺部分的重構(gòu)效果較差.

圖25 彝文古籍文獻(xiàn)中殘缺字符修復(fù)效果Fig.25 The repair effect of incomplete characters in ancient Yi literature

圖26 古彝文殘缺字符修復(fù)失敗效果Fig.26 The failed repair effect of ancient Yi incomplete characters

4 結(jié)束語(yǔ)

本文采用深度卷積生成式對(duì)抗網(wǎng)絡(luò)來獲取古彝文字符的分布概率,并且在該網(wǎng)絡(luò)結(jié)構(gòu)之上增加一個(gè)篩選判別器,形成一個(gè)雙判別器對(duì)抗生成網(wǎng)絡(luò).該模型實(shí)現(xiàn)從彝文古籍文獻(xiàn)中獲取古彝文字符圖像的概率分布,通過已獲得的概率分布去預(yù)測(cè)待修復(fù)古彝文字符圖像,完成古彝文字符的修復(fù).這也是對(duì)古文字修復(fù)的積極嘗試,對(duì)保存和發(fā)揚(yáng)民族文化進(jìn)行了有益探索.然而,本文對(duì)篩選判別器的優(yōu)化函數(shù)是圖像間像素的差值,其并不能很好地代表字符圖像間概率分布的差異,后續(xù)研究會(huì)嘗試使用多種度量標(biāo)準(zhǔn)作為損失函數(shù).同時(shí),文字修復(fù)判斷的可量化指標(biāo)沒有一個(gè)統(tǒng)一標(biāo)準(zhǔn),因此建立統(tǒng)一的修復(fù)標(biāo)準(zhǔn)也是未來研究的方向.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放