沈淑濤,高飛,梁家瑞
(1. 西藏大學(xué),信息科學(xué)技術(shù)學(xué)院,西藏 拉薩 850000;2.太原理工大學(xué),軟件學(xué)院,山西 榆次 030600 )
我國(guó)的藏文古籍?dāng)?shù)量多,且內(nèi)容豐富,是中華民族文化遺產(chǎn)的主要組成部分。但是藏文古籍涉及的種類(lèi)復(fù)雜,在研究藏文古籍時(shí),想要從中挑選出所需的古籍十分困難,國(guó)內(nèi)學(xué)者一直在研究有效的解決方法。
文獻(xiàn)[1]提出了通過(guò)學(xué)習(xí)向量量化算法對(duì)藏文古籍進(jìn)行分類(lèi)的方法。首先根據(jù)需要篩選出古籍因子,采用學(xué)習(xí)向量量化算法對(duì)因子進(jìn)行分類(lèi),再使用列文夸特算法建造古籍模型對(duì)其分類(lèi)。但該方法并沒(méi)有將兩種方法融合,導(dǎo)致出現(xiàn)分類(lèi)不精準(zhǔn)的問(wèn)題。文獻(xiàn)[2]提出了通過(guò)表示法對(duì)迭代加權(quán)圖像的藏文古籍進(jìn)行分類(lèi)的方法,首先研究藏文古籍圖像的信息分類(lèi)方法,然后提取藏文古籍中有明顯特點(diǎn)的圖像信息,最后使用表示法表示出不同的藏文古籍迭代加權(quán)圖像信息。但是該方法在提取明顯特點(diǎn)的圖像時(shí),因沒(méi)有篩選過(guò)程,導(dǎo)致提取出冗余圖像,浪費(fèi)了大量篩選時(shí)間。文獻(xiàn)[3]提出先通過(guò)對(duì)藏文古籍進(jìn)行調(diào)整,并進(jìn)行歸屬判定,再通過(guò)統(tǒng)計(jì)操作對(duì)其判定結(jié)果進(jìn)行統(tǒng)計(jì)。但該方法因藏文古籍的種類(lèi)復(fù)雜,該方法只能針對(duì)其實(shí)驗(yàn)?zāi)窟M(jìn)行判定,該方法不具有普適性。
針對(duì)上述問(wèn)題本文提出了一種基于迭代加權(quán)圖像的藏文古籍逐級(jí)分類(lèi)方法,該方法能更精準(zhǔn)的分類(lèi)藏文古籍,且分類(lèi)效率較高。
針對(duì)藏文古籍逐級(jí)分類(lèi)問(wèn)題,傳統(tǒng)方法通常使用廣義內(nèi)積值的樣本選取方法對(duì)藏文古籍進(jìn)行逐級(jí)分類(lèi)。但此類(lèi)方法依賴(lài)協(xié)方差矩陣的分類(lèi)準(zhǔn)度。如果初始分類(lèi)存在較大誤差,便很難分類(lèi)出有用的樣本。且需要長(zhǎng)時(shí)間對(duì)樣本進(jìn)行大量的協(xié)方差矩陣訓(xùn)練,但只能粗略地去除訓(xùn)練樣本的合數(shù),導(dǎo)致分類(lèi)性能下降。
為了解決上述問(wèn)題,本文采用基于迭代加權(quán)圖像的藏文古籍逐級(jí)分類(lèi)方法。為便于分析,假設(shè)環(huán)境由兩種區(qū)域組成。
(1-α0)00+α001
(1)
在最少均方誤差要求下計(jì)算式(2)最優(yōu)權(quán)問(wèn)題。
(2)
由傳統(tǒng)方法知式(2)的最優(yōu)質(zhì)權(quán)為
(3)
通過(guò)式(3)能看出,最優(yōu)權(quán)的分子只能與均勻樣本相關(guān),當(dāng)樣本總數(shù)到達(dá)一定數(shù)量時(shí),最優(yōu)權(quán)與不均衡出現(xiàn)反比??赡苁共痪鶆虺潭冗_(dá)到最大化,不均勻程度的樣本因不均勻程度達(dá)到最大化,導(dǎo)致其所加的權(quán)值出現(xiàn)最少量。
廣義內(nèi)積值與其本身的均值差距越大,則不均衡的效果越強(qiáng),同時(shí)在樣本總數(shù)目有限的狀態(tài)中,其廣義內(nèi)積的均值即不是理論均值。
通過(guò)以上分析可知,本文所使用迭代加權(quán)方法中的統(tǒng)計(jì)均值與廣義內(nèi)積值中的方差對(duì)所有樣本進(jìn)行加權(quán)處理,消除相對(duì)不均衡樣本在協(xié)方差矩陣?yán)锏谋戎兀瑢?dǎo)致更改樣本升高產(chǎn)生的逐級(jí)分類(lèi)精準(zhǔn)度下降,為了調(diào)整不均衡壞點(diǎn)對(duì)與廣義內(nèi)積的影響,應(yīng)先利用構(gòu)建的廣義內(nèi)積直方圖對(duì)廣義內(nèi)積值進(jìn)行評(píng)估。再考慮樣本在總數(shù)量有限的情況下利用協(xié)方差矩陣會(huì)出現(xiàn)的差度。本文使用迭代模式對(duì)協(xié)方差矩陣的分類(lèi)進(jìn)行準(zhǔn)度提高。方法的流程如圖1所示。
下列為本文方法的操作流程:
1)設(shè)定起始協(xié)方差矩陣:利用傳統(tǒng)方法的樣本協(xié)方差矩陣計(jì)算起始協(xié)方差矩陣
(4)
式中M代表總數(shù)訓(xùn)練樣本。
2)對(duì)廣義內(nèi)積值進(jìn)行計(jì)算,再統(tǒng)計(jì)其幾率分布情況:先使用獲取的協(xié)方差矩陣算出全部樣本單元的廣義內(nèi)積值z(mì)i
(5)
接著利用直方圖來(lái)計(jì)算出廣義內(nèi)積值的幾率分布狀況P(zi),i=1,2,…,M。
3)權(quán)值計(jì)算:每一種樣本的權(quán)重經(jīng)過(guò)計(jì)算其廣義內(nèi)積值的誤差以及廣義內(nèi)積值所得到的數(shù)據(jù),其合理權(quán)值的重要點(diǎn)是獲得的反應(yīng)均衡數(shù)據(jù)廣義內(nèi)積值。
正常情況下,可理解訓(xùn)練樣本內(nèi)的均衡數(shù)據(jù)占據(jù)大部分位置,不均勻數(shù)據(jù)占比略小。因?yàn)榫鶆驍?shù)據(jù)的廣義內(nèi)均值與不均衡數(shù)據(jù)之間的廣義內(nèi)積值相似度較高,包含較大差異,所以在對(duì)廣義內(nèi)積值的計(jì)算幾率分布內(nèi),其均衡數(shù)據(jù)的幾率要大于不均勻數(shù)據(jù)。
為了能夠獲取較為適當(dāng)?shù)膹V義內(nèi)積值,避免受到不均衡樣本的廣義內(nèi)積值對(duì)均值的影響,只使用樣本幾率較大的均值進(jìn)行計(jì)算。
(6)
式中θ={i|P(zi)≥p},m代表集合θ中古籍的數(shù)量,p=μP(zi)代表設(shè)置的幾率值,μP(zi)代表(zi)的均值。
每一種樣本的權(quán)值為
(7)
4)改進(jìn)協(xié)方差矩陣:利用獲取的權(quán)值對(duì)樣本進(jìn)行加權(quán)處理,即可得到分類(lèi)的協(xié)方差j。
(8)
綜上,本文使用迭代加權(quán)算法建立樣本并對(duì)其進(jìn)行迭代加權(quán)自適應(yīng),使后續(xù)的逐級(jí)分類(lèi)更簡(jiǎn)單,提高了后續(xù)逐級(jí)分類(lèi)的精準(zhǔn)度和分類(lèi)性能。
藏文古籍的章篇較短,所有藏文古籍會(huì)累積出大量的圖像信息,圖像信息會(huì)導(dǎo)致獲得的向量空間維度較高。藏文古籍迭代加權(quán)信息特征提取的難度在于特征圖像的選擇和權(quán)值計(jì)算。藏文古籍的特征空間維度過(guò)大,會(huì)干擾逐級(jí)分類(lèi)的精準(zhǔn)度與效率,所以在進(jìn)行分類(lèi)時(shí),需調(diào)低藏文古籍迭代加權(quán)圖像信息的空間維度,挑選出可以為分類(lèi)提供較大貢獻(xiàn)的圖像信息,從而進(jìn)行特征提取。
對(duì)藏文古籍迭代加權(quán)圖像進(jìn)行特征提取時(shí),需計(jì)算出藏文古籍圖像的頻率,計(jì)算公式如下所示
(9)
其中,D(n)表示藏文古籍迭代加權(quán)圖像特征的問(wèn)本數(shù),D(t)代表藏文古籍的數(shù)量,DF代表藏文古籍迭代加權(quán)圖像頻率。DF代表經(jīng)過(guò)計(jì)算藏文古籍的復(fù)雜度來(lái)測(cè)出藏文古籍文本信息特征,復(fù)雜程度越低,適用性越廣泛。當(dāng)復(fù)雜程度和藏文古籍總數(shù)呈線(xiàn)性關(guān)系時(shí),集成速度快,有用信息少。當(dāng)DF值升高時(shí),有用信息越多。計(jì)算出藏文古籍迭代加權(quán)頻率后,需對(duì)迭代加權(quán)圖像信息與藏文古籍種類(lèi)的相關(guān)性進(jìn)行判斷,判斷公式如下所示。
(10)
其中,ML代表藏文古籍類(lèi)別和迭代加權(quán)圖像信息的關(guān)聯(lián)性,在特征選擇時(shí)擬定計(jì)算特征詞t與估計(jì)類(lèi)比ci,從而判斷特征和類(lèi)別的相關(guān)聯(lián)度。藏文古籍的某種類(lèi)別ci出現(xiàn)的幾率較高,相關(guān)性就越高,P(ci)代表第i類(lèi)出現(xiàn)的幾率,p(t|ci)代表特征詞t與估計(jì)類(lèi)別ci同時(shí)出現(xiàn)的幾率。這種過(guò)程受邊緣幾率影響較大,可能會(huì)出現(xiàn)評(píng)估函數(shù)不選擇高頻而使用稀有,對(duì)后面的計(jì)算過(guò)程產(chǎn)生干擾。使用IG融入分類(lèi)信息,融入的分類(lèi)信息越多,該特征就越重要,IG融入分類(lèi)用下列公式表示
(11)
式中,P(ki)代表包括特征信息的藏文古籍,P(ti)代表不包含特征信息的藏文古籍。IG相對(duì)高頻特征圖像信息的提取所含利成分越多,迭代加權(quán)特征圖像的IG值越高,對(duì)逐級(jí)分類(lèi)提供的貢獻(xiàn)就越高。所以在對(duì)迭代圖像信息進(jìn)行特征選擇時(shí),通常提取IG值較高的特征圖像提取特征信息,定制特征向量。反之對(duì)于沒(méi)有特征信息的迭代加權(quán)圖像無(wú)法計(jì)算IG值,提取信息的精準(zhǔn)度較低。
藏文古籍迭代圖像代表對(duì)圖像文本進(jìn)行形式化處理,使用計(jì)算機(jī)理解迭代加權(quán)圖像信息文本,制造索引模型。當(dāng)前使用較為廣泛的模型有空間向量模型、自然圖像模型與概率模型。通過(guò)大量實(shí)驗(yàn)證明,空間向量模型在表示迭代加權(quán)圖像時(shí)更有效。空間向量模型可以把大量迭代加權(quán)圖像表達(dá)為特征信息矩陣,把類(lèi)似圖像變換為特征向量相似度比較,逐級(jí)分類(lèi)過(guò)程將更清晰。特征信息矩陣如表1所示
表1 特征信息矩陣
在特征矩陣中,t代表特征圖像,k代表藏文古籍,n代表藏文古籍迭代加權(quán)圖像的數(shù)量,m代表有待分類(lèi)的藏文古籍,將所有古籍中的迭代加權(quán)圖像表示為三維空間中的某個(gè)點(diǎn),示例k(d)=((t1,k1),(tj,k1),(tm,k1)…(tn,km)),M代表向量的特征值,經(jīng)過(guò)矩陣判斷特征信息在藏文古籍內(nèi)的重要性,計(jì)算出迭代加權(quán)圖像和藏文古籍的相關(guān)性。經(jīng)過(guò)對(duì)迭代加權(quán)圖像賦予的概率值計(jì)算出其在藏文古籍中的貢獻(xiàn)程度,從而對(duì)藏文古籍進(jìn)行逐級(jí)分類(lèi)。
實(shí)驗(yàn)環(huán)境為Intel Celeron Tulatin1GHz CPU和384MBSD內(nèi)存的硬件環(huán)境和MATLAB6.1的軟件環(huán)境。本文實(shí)驗(yàn)中,為了評(píng)測(cè)本文方法的性能,使用文獻(xiàn)[2]方法與本文方法進(jìn)行較比。書(shū)籍樣本總數(shù)是651,共分為4類(lèi),其中每種分類(lèi)區(qū)域的藏文所占比列分別是60%,40%,30%,20%。
為了更為簡(jiǎn)單的觀(guān)察本文方法的收斂性能,給出輸出收斂性的計(jì)算公式:
(12)
其中Rs代表目標(biāo)古籍的協(xié)方差矩陣,Rcn代表迭代加權(quán)圖像的協(xié)方差矩陣。設(shè)定輸出SCNR權(quán)對(duì)SCNR最大值的差進(jìn)行處理。
圖2 迭代加權(quán)方法收斂曲線(xiàn)圖
圖3是研究方法和傳統(tǒng)方法的逐級(jí)分類(lèi)結(jié)果對(duì)比圖。分別對(duì)藏文古籍進(jìn)行編碼,1-353是第一區(qū)域,354-417是第二區(qū)域,418-545是第三區(qū)域,546-641是第四區(qū)域。圖3(a)中顯示的是傳統(tǒng)方法的分類(lèi)結(jié)果,雖然分類(lèi)了所有古籍,但是第2區(qū)域與第3區(qū)域的權(quán)值顯然大于第1區(qū)域。所以,傳統(tǒng)方法并不會(huì)有效的對(duì)藏文古籍進(jìn)行逐級(jí)分類(lèi),而圖3(b)為研究方法的分類(lèi)結(jié)果圖,圖中第2區(qū)域的權(quán)值顯然要小于第1權(quán)值,第4區(qū)域和第3區(qū)域的權(quán)值則明顯小于第1區(qū)域,就是不均勻程度越高加權(quán)值就越小,這證明本文方法可以有效的逐級(jí)分類(lèi)藏文古籍。
圖3 不同方法分類(lèi)藏文古籍結(jié)果圖
通過(guò)上述實(shí)驗(yàn)?zāi)軌蚩闯?,通過(guò)本文方法逐級(jí)分類(lèi)的迭代加權(quán)圖像藏文古籍,能夠清楚看的到各階級(jí)的分類(lèi)階梯,而使用傳統(tǒng)方法分類(lèi)出的藏文古籍,區(qū)域較為雜亂并且分類(lèi)并不完整。
為進(jìn)一步驗(yàn)證研究方法的應(yīng)用有效性,將該方法運(yùn)用到實(shí)際藏文古籍檢索中。該方法可對(duì)古籍題名、作者、語(yǔ)種、類(lèi)別及收藏情況進(jìn)行篩選檢索,檢索界面如圖4所示。
圖4 藏文古籍檢索界面
以檢索藏文著作《藏歷時(shí)論學(xué)智者生悅論》為例,運(yùn)用迭代加權(quán)圖像的藏文古籍逐級(jí)分類(lèi)方法進(jìn)行檢索。結(jié)果表明該方法能快速有效地進(jìn)行分類(lèi)檢索,且分類(lèi)層級(jí)明晰,說(shuō)明對(duì)藏文古籍檢索是有幫助的。檢索結(jié)果如圖5所示。
圖5 檢索結(jié)果
為了進(jìn)一步驗(yàn)證研究方法分類(lèi)藏文古籍的有效性,利用傳統(tǒng)方法與研究方法對(duì)逐漸增加的1600份藏文古籍樣本進(jìn)行分類(lèi),對(duì)比兩種方法的分類(lèi)時(shí)長(zhǎng)。具體實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 不同方法分類(lèi)藏文古籍時(shí)長(zhǎng)結(jié)果圖
通過(guò)上述實(shí)驗(yàn)?zāi)軌蚩闯?,兩種方法的分類(lèi)時(shí)長(zhǎng)隨著藏文古籍樣本增多而增加。在樣本數(shù)量個(gè)數(shù)為200個(gè)~1600個(gè)區(qū)間內(nèi),傳統(tǒng)方法的分類(lèi)時(shí)長(zhǎng)約為6~10s,而研究方法的分類(lèi)時(shí)長(zhǎng)約為1~4s,遠(yuǎn)遠(yuǎn)小于傳統(tǒng)方法的分類(lèi)時(shí)間。說(shuō)明本文基于迭代加權(quán)圖像的藏文古籍逐級(jí)分類(lèi)方法能對(duì)藏文古籍進(jìn)行高效分類(lèi),具有一定的科研意義。
針對(duì)藏文古籍分類(lèi)中存在的分類(lèi)不完整和分類(lèi)效率低的問(wèn)題,本文提出了一種基于迭代加權(quán)圖像的藏文古籍逐級(jí)分類(lèi)方法。該方法首先使用迭代加權(quán)算法,基于藏文古籍構(gòu)建出迭代加權(quán)模型,從而使其自適應(yīng)處理需要大量訓(xùn)練樣協(xié)方差矩陣,然后通過(guò)訓(xùn)練出協(xié)方差矩陣和廣義內(nèi)積進(jìn)行融合,之后對(duì)迭代加權(quán)圖像進(jìn)行計(jì)算,從而改進(jìn)后續(xù)分類(lèi)時(shí)出現(xiàn)的分類(lèi)準(zhǔn)度下降問(wèn)題,最后通過(guò)對(duì)藏文古籍迭代加權(quán)圖像進(jìn)行信息特征提取,來(lái)達(dá)到逐級(jí)分類(lèi)的目的,實(shí)驗(yàn)證明本文方法,能夠完整的對(duì)藏文古籍進(jìn)行逐級(jí)分類(lèi),并且分類(lèi)的速度較為迅速。