汪瀟,章夏芬,韓德志
(上海海事大學(xué)信息工程學(xué)院,上海,201306)
基于視覺特征的書法風(fēng)格識(shí)別
汪瀟,章夏芬,韓德志
(上海海事大學(xué)信息工程學(xué)院,上海,201306)
紙質(zhì)圖書和書法書籍的數(shù)字化及網(wǎng)絡(luò)傳播,方便書法學(xué)術(shù)的研究和書法愛好者的使用。為了對(duì)書法風(fēng)格進(jìn)行識(shí)別,提出基于特征書法風(fēng)格分類方法:首先,對(duì)單字圖像進(jìn)行特征提取。接著,用爬蟲技術(shù),將單字轉(zhuǎn)化為筆畫,提取筆畫特征。然后,將提取的24類特征作為特征向量,構(gòu)造風(fēng)格模型。最后,提取用戶提交樣本圖的風(fēng)格特征,與五類風(fēng)格進(jìn)行相似性比較,將樣本字歸屬為概率最大的風(fēng)格類型。
書法風(fēng)格;風(fēng)格識(shí)別;視覺特征;風(fēng)格量化
隨著書籍的數(shù)字化及網(wǎng)絡(luò)技術(shù)的推進(jìn),大量書法書籍掃描圖像在網(wǎng)絡(luò)上傳播,使原本脆弱的、易被大火焚燒的歷史書法書籍得以保存、傳承和傳播,如亞歷山大圖書館由于戰(zhàn)火而遭到永久毀滅。掃描得到的大量書法頁面圖像掃描至中美百萬冊(cè)數(shù)字圖書館中[1],是全球數(shù)字圖書館的重要組成部分[2],采集來的圖像主要由碑帖和書帖組成,碑帖的背景主要為黑色,前景色書法字為白色,如圖1(b)和(e)所示,書帖的背景色主要為灰色或黃色,字體為黑色,如圖1(a)、(c)和(d)所示。掃描來的書法圖像,是由不同朝代的人書寫,與有著同一字體模型的打印體不同,富有情感色彩,風(fēng)格多變。傳統(tǒng)的將書法作品分為五大類,分別是篆書、隸書、楷書、行書、草書。篆書屬于古文字,其特點(diǎn)是字單純簡(jiǎn)單、以直弧筆畫為主、粗細(xì)一致、橫平豎直、多圓轉(zhuǎn)而無方折[3]。隸書的橫畫最有特點(diǎn),也是最能夠表征隸書區(qū)別于其他書體的特征,文字描述就是“蠶頭雁尾、一波三折、雁不雙飛”[4]??瑫奶攸c(diǎn)為字體方正、中心平穩(wěn)、筆畫分明,因此,對(duì)于楷書的主要衡量方式使用書法字的結(jié)體特征能夠比較好地進(jìn)行表征。行書是楷書的連寫與快寫,草書是對(duì)行書的筆畫簡(jiǎn)化以及進(jìn)一步的連寫、快寫。如圖1所示即為五種風(fēng)格書法的頁面掃描圖像。
圖1 頁面圖像
書法風(fēng)格的分類,在以往的藝術(shù)領(lǐng)域,是由人工操作通過視覺的感觸對(duì)書法作品進(jìn)行分類。在計(jì)算機(jī)領(lǐng)域?qū)ㄗR(shí)別分類進(jìn)行初步研究,是基于底層的書法特征對(duì)書法進(jìn)行分類識(shí)別。書法風(fēng)格的分類基于筆記學(xué)[5],所以對(duì)于書法風(fēng)格的識(shí)別需要從單個(gè)筆畫的特征入手。
本文為了使計(jì)算機(jī)能識(shí)別書法風(fēng)格,將視覺風(fēng)格特征轉(zhuǎn)化為可供計(jì)算機(jī)讀取的書法字圖像底層語義,提取風(fēng)格特征,判別書法風(fēng)格。
書法是手寫體的一種,用毛筆書寫而成,書法風(fēng)格的分類與手寫體筆跡鑒定具有相似的問題。對(duì)手寫體數(shù)字識(shí)別進(jìn)行了相關(guān)研究[6-7],基于手寫體的研究,大量的研究人員對(duì)書法風(fēng)格展開了研究[8-10]。將手寫字分為漢字領(lǐng)域和非漢字領(lǐng)域,在非漢字領(lǐng)域里,Srihari已對(duì)手寫字研究數(shù)十年,提出手寫體鑒定方法[11],基于統(tǒng)計(jì)模型判斷兩種手寫體是否由同一人書寫。Azmi等人提出了基于不等邊三角形提取特征的阿拉伯書法分類[12],但是三角形特征不適用與中國(guó)的書法結(jié)構(gòu)。國(guó)外的手體結(jié)構(gòu)是一維的,而漢字的構(gòu)成是二維的,所以研究字的特征并不相同,可以將方法應(yīng)用到書法的研究上。Bar-Yosef等人對(duì)歷史希伯來書法作品進(jìn)行二值化和書寫識(shí)別,通過選取的信件和比較知名的手寫樣本中提取特征向量,他們的目的是識(shí)別不同手寫風(fēng)格的位置、日期和作者,他們的方法雖然使用于漢字筆畫,但是他們的實(shí)驗(yàn)數(shù)據(jù)量較小,對(duì)于復(fù)雜度大的筆畫還不適用[13]。
在漢字書法領(lǐng)域的研究上,基于CADAL掃描中心的書法圖像,魯偉明等人為了使用者可以便利地欣賞同一種風(fēng)格的書法作品,提出了一種基于元數(shù)據(jù)的方法[14],提取書法風(fēng)格特征,對(duì)書法風(fēng)格進(jìn)行研究,但是他們所用的測(cè)試圖片有限,構(gòu)成的數(shù)據(jù)庫不夠明確,有待改進(jìn)。莊越挺等人挖掘書法潛在風(fēng)格模型[15],提出基于多項(xiàng)式概率分布的風(fēng)格代表來估計(jì)可能影響風(fēng)格模型的因素,用于滿足人們能欣賞到同一種風(fēng)格的書法作品。這種計(jì)算不同風(fēng)格相似性的想法是可行的,但是他們沒有詳細(xì)說明風(fēng)格特征和風(fēng)格要素。
上述作者都對(duì)手寫體的風(fēng)格做了一定的研究,不同文字風(fēng)格識(shí)別方法上存在一定相似性,但是特征不同,所以風(fēng)格模型也不相同。因此,對(duì)于書法風(fēng)格的研究需要新的方法去識(shí)別,基于書法的視覺特征對(duì)書法風(fēng)格進(jìn)行量化識(shí)別是現(xiàn)在要完成的工作,其中的首要任務(wù),是根據(jù)統(tǒng)計(jì)學(xué)的原理進(jìn)行風(fēng)格特征的提取,將特征進(jìn)行數(shù)字量化。
2.1 系統(tǒng)框架
本文的書法風(fēng)格識(shí)別系統(tǒng)框架如圖2所示,對(duì)掃描得到的頁面圖像提取特征,將24類風(fēng)格特集組成特征向量,對(duì)其進(jìn)行聚類分析,構(gòu)成風(fēng)格模型存入書法數(shù)據(jù)庫。然后對(duì)樣本字圖像經(jīng)過特征提取,用PCA進(jìn)行風(fēng)格分類,最后對(duì)分類結(jié)果進(jìn)行展示。
圖2 書法風(fēng)格識(shí)別系統(tǒng)
2.2 數(shù)據(jù)來源
實(shí)驗(yàn)數(shù)據(jù)是由《中國(guó)歷代楷書真跡》、《中國(guó)歷代帝王御藏名帖》、《柳公權(quán)玄秘塔碑》等54卷書法書籍掃描的得到的頁面圖像,將得到的頁面圖像進(jìn)行切分,掃描精度的600DPI(Dots Per Inch),圖像格式為*.TIFF,共259頁的頁面圖像被分割成8279個(gè)單字圖像。
書法分類前需要對(duì)8279個(gè)字的訓(xùn)練樣本進(jìn)行標(biāo)注,以頁為單位,將書法風(fēng)格分為五類(#1,#2,#3,#4,#5)。圖3展示了書法數(shù)據(jù)庫結(jié)構(gòu),包括書的信息(book)、頁面信息(page)、作者信息(author)。
本文書法風(fēng)格特征有兩個(gè)層次:基于單字的字級(jí)書法特征和基于筆畫的筆畫級(jí)書法圖像特征。
3.1 頁面切分
切分書法字的原理是利用字間空白的地方框出書法字,先分離出背景色和字的顏色。然后縱向切分出列,接著橫向把列切分成單個(gè)書法字。按照如上方法,將圖1所示的頁面圖像切分至單字圖像,切分的部分單字圖像如圖4所示,每個(gè)單字圖像由最小包圍(topX,topY,buttonx,buttonY)和確定字的位置;判斷風(fēng)格識(shí)別是否正確(#1,#2,#3,#4,#5):
3.2 去噪
圖3 五張數(shù)據(jù)表之間的主外鍵關(guān)系
圖4 單字圖像
大部分歷史書籍會(huì)有不同程度的噪聲存在,噪聲可以分為兩類:(1)噪聲為印章、毛刺、自然腐蝕,如圖5 (a)所示紅色圈標(biāo)注的印章噪聲;(2)噪聲是由于書法家對(duì)行書和草書的書寫過快,導(dǎo)致了有些筆畫粘連在一起,如圖5(b)所示,這些噪聲的存在都會(huì)對(duì)視覺特征的提取和書法風(fēng)格的識(shí)別造成影響,不能正確提取書法的骨架,所以我們需要對(duì)單字的噪聲進(jìn)行處理。
如下圖5(b)所示骨架之間出現(xiàn)粘連:
對(duì)第二類噪聲的處理,先找到牽絲處,然后斷開牽絲點(diǎn):
(1)提取每個(gè)骨架點(diǎn):用參考文獻(xiàn)[16]的細(xì)化方法,使骨架點(diǎn)為一個(gè)像素點(diǎn);
(2)計(jì)算骨架點(diǎn)寬度:如圖6所示,以骨架點(diǎn)為中心的圓,初始半徑為一個(gè)像素點(diǎn),依次增加半徑,以95%為閾值,當(dāng)圓內(nèi)有95%是背景色時(shí)停止半徑增大,此時(shí)的半徑即為該點(diǎn)骨架寬度,即圖中的d;
圖5 帶噪聲的書法字圖像
圖6 骨架某點(diǎn)筆寬
(3)判斷有無牽絲:牽絲即為兩個(gè)粗筆中間細(xì)小的粘連,譬如圖7(a)中圈出來的地方;計(jì)算整個(gè)字內(nèi)骨架點(diǎn)寬的均值u和方差σ,根據(jù)實(shí)驗(yàn)測(cè)試如果某點(diǎn)大于1.8σ的范圍,則此點(diǎn)為牽絲點(diǎn);
(4)斷開牽絲:以該骨架點(diǎn)為中心,將此點(diǎn)和周圍兩個(gè)像素點(diǎn)置為背景色,即牽絲斷開;如圖7(b)所示;
(5)提取新的骨架;上述處理結(jié)果再次細(xì)化后的結(jié)果如圖7(d)所示,未細(xì)化前的處理結(jié)果如圖7(c)所示。
3.3 字級(jí)特征提取
字級(jí)特征是以字為單位,對(duì)字的粗細(xì)、高寬比等特征進(jìn)行研究而提取的特征。提取這些圖像上的視覺特征,組成特征向量。因?yàn)闀ㄗ止P畫的粗細(xì)不均勻、變化幅度大,所以平均筆寬、筆寬變化率、最大筆寬值、最細(xì)筆寬值可以作為字級(jí)風(fēng)格的特征。同時(shí),研究書法字圖像的其他方面,那些不依賴與骨架和筆畫提取的特征有黑白二值比、高寬比、重心位置、左右墨點(diǎn)比、傾斜率、字在X軸壓力變化、字在Y軸壓力變化、字在X軸傾斜平衡、字在Y軸傾斜平衡。令骨架圖上共有n個(gè)像素點(diǎn),二值化圖像為M×N像素點(diǎn),(x,y)為坐標(biāo),P(x,y)表示二值圖像像素點(diǎn):
黑白二值比為:
對(duì)于每個(gè)字,以每個(gè)骨架點(diǎn)i為中心,圓內(nèi)像素點(diǎn)95%以上的點(diǎn)為二值前景色的最大半徑di:
平均筆寬:
筆寬在不同書法風(fēng)格中是不一樣的,筆寬計(jì)算基于上文骨架點(diǎn),統(tǒng)計(jì)該字內(nèi)所有骨架點(diǎn)平均筆寬即為平均字的平均筆寬。由于隸書和楷書書寫速度比較慢,有著均勻的筆寬和變化率,而草書和行書書寫隨意,經(jīng)常有粘連出現(xiàn),筆寬變化較大,可以由最大筆寬值和最細(xì)筆寬值來量化表示,最大筆寬值即為所有點(diǎn)寬度的前1/5的平均寬度:
最小筆寬值,就是所有點(diǎn)寬度的后1/5的平均寬度
如圖3(a)筆畫寬度比較細(xì),圖3(b)的筆畫寬度比較粗,各種風(fēng)格的筆畫寬度都不相同,可作為風(fēng)格特征向量。
筆寬變化率:
如圖3(a)筆畫寬度粗細(xì)比較一致,變化率小,圖3 (b)的筆畫寬度有粗有細(xì),變化率大。
不同書法風(fēng)格字體的中心位置有上下左右之分,重心位置可作為風(fēng)格特征之一,重心位置計(jì)算公式如下:
字在橫向(X軸)的重心:
由于書寫書法的毛筆較軟,手寫的力度不同會(huì)導(dǎo)致墨點(diǎn)的深淺不一,所以墨點(diǎn)比可作為風(fēng)格特征向量之一,左右墨點(diǎn)比:
字在Y軸壓力變化特征fstress_y如公式(11)。
字在X軸傾斜平衡fslant_x如公式(12)。
字在Y軸傾斜平衡fslant_y如公式(13)。
圖7 斷牽絲處理圖
3.4 筆畫級(jí)的特征
對(duì)于行書和草書來說,書寫速度快,不容易檢測(cè)出橫豎筆劃,而隸書、楷書橫豎筆劃比較容易分辨。根據(jù)單個(gè)字的筆畫對(duì)比,發(fā)現(xiàn)可以將筆畫風(fēng)格分成兩類,即橫筆特征和豎筆特征,包括筆畫個(gè)數(shù)、平均斜率、橫向碼比值等。
3.5 風(fēng)格特征向量
將上文的12類字級(jí)特征與12類筆畫級(jí)特征元素組成具有24個(gè)元素的特征向量,如表1所示。
基于上文的特征向量及訓(xùn)練樣本,風(fēng)格模型基于高斯概率分布模型構(gòu)造。接下來需要分析訓(xùn)練樣本的特征數(shù)據(jù)統(tǒng)計(jì)分布,用于構(gòu)建書法風(fēng)格模型。將量化的特征存于特征向量里,計(jì)算訓(xùn)練樣本的概率分布情況,最后計(jì)算待識(shí)別字的特征概率分布,從而判斷類型。
實(shí)驗(yàn)組穿刺成功率高于對(duì)照組,差異具有統(tǒng)計(jì)學(xué)意義(P<0.05);實(shí)驗(yàn)組穿刺時(shí)間短于對(duì)照組,差異具有統(tǒng)計(jì)學(xué)意義(P<0.05);實(shí)驗(yàn)組并發(fā)癥發(fā)生率低于對(duì)照組,差異具有統(tǒng)計(jì)學(xué)意義(P<0.05)(表2)。兩組并發(fā)癥均為誤入頸內(nèi)動(dòng)脈,均未發(fā)生血胸、氣胸及神經(jīng)損傷。
4.1 符號(hào)說明
本文的符號(hào)如下所示:
wk:書法風(fēng)格分類,其中下標(biāo)k=1,2,…,5是5種風(fēng)格的標(biāo)號(hào);
Mk:每種風(fēng)格各自具有的樣本數(shù);
Sj,k:數(shù)據(jù)庫存儲(chǔ)的一個(gè)書法字樣本, 其中j= 1,2,...,Mk;
σ2j,k:書法字樣本每類風(fēng)格的方差;
fl,j,k:書法字Sj,k的24個(gè)特征變量,其中l(wèi)=1,2,…,24;
Fj,k=[f1,j,k,f2,j,k,…,f24,j,k]:每一個(gè)書法字樣本的24個(gè)特征值fl,j,k組成特征值向量。
表1 風(fēng)格特征向量表
4.2 聚類中心
基于已標(biāo)注的五類風(fēng)格,計(jì)算每一類風(fēng)格的類中心,求得平均值uk,離聚類中心最近的字,即為這種類的風(fēng)格類型。平均值的計(jì)算公式如下:
4.3 類間變化
計(jì)算同一類風(fēng)格訓(xùn)練樣本的聚類偏差,如下:
4.4 協(xié)方差
計(jì)算每種風(fēng)格的訓(xùn)練樣本的風(fēng)格特征值向量的協(xié)方差矩陣公式如下:
本文選取PCA的分類方法,對(duì)于待識(shí)別的字,先提取特征,將提取的特征量化作為特征向量,計(jì)算待識(shí)別字的類分布概率,判斷跟哪一類風(fēng)格最為相似,從而確定字的風(fēng)格屬于哪一類。
圖8 五種書法風(fēng)格的例子
本文所使用的線性分類器是基于高斯特征分布的,計(jì)算待識(shí)別書法字屬于每一種風(fēng)格的條件概率Pk,一共有5個(gè)條件概率值,根據(jù)條件概率的值判斷書法字的風(fēng)格,條件概率值最高的那個(gè)風(fēng)格即是這個(gè)待識(shí)別書法字的主要風(fēng)格,風(fēng)格概率的計(jì)算公式為:
Ck-1是每種風(fēng)格的訓(xùn)練樣本的風(fēng)格特征值向量的協(xié)方差矩陣的逆矩陣,uk是每種風(fēng)格的訓(xùn)練樣本的風(fēng)格特征值向量的平均值向量,Q是待識(shí)別書法字,F(xiàn)是待識(shí)別書法字的風(fēng)格特征值,wk是書法風(fēng)格分類標(biāo)簽。
對(duì)樣本屬于哪一類風(fēng)格的概率值,進(jìn)行歸一化處理,處理公式:
6.1 數(shù)據(jù)選取
本文所用實(shí)驗(yàn)數(shù)據(jù)從CADAL數(shù)字圖書館中獲取,共從256頁書法圖像上分割出600像素的單字圖像8279個(gè)。從中選取4500個(gè)作為訓(xùn)練樣本,進(jìn)行風(fēng)格標(biāo)
6.2 實(shí)驗(yàn)結(jié)果
基于上文的聚類,挑選出離聚類中心最近的前8個(gè)字圖像,如圖8所示:每個(gè)字下面的阿拉伯?dāng)?shù)字為character ID的值;第一行為篆書圖像、第二行為隸書圖像、第三行為楷書圖像、第四行為行書圖像、第五行為草書圖像。
對(duì)于單個(gè)字的分類結(jié)果如圖9所示,屬于五類風(fēng)格的概率圖如下所示:
圖9 樣本字屬于五類風(fēng)格的概率
從訓(xùn)練樣本中挑選出 2640個(gè)字(529個(gè)風(fēng)格#1,918個(gè)風(fēng)格#2,493個(gè)風(fēng)格#3,211個(gè)風(fēng)格#4,489個(gè)風(fēng)格#5)進(jìn)行風(fēng)格識(shí)別的正確率統(tǒng)計(jì),結(jié)果如下表2所示。
表2 風(fēng)格分配表
通過上表計(jì)算可得,風(fēng)格#2的識(shí)別錯(cuò)誤率為:1-883/918=0.04;風(fēng)格#4的識(shí)別錯(cuò)誤率為:1-155/211= 0.27;風(fēng)格#5的識(shí)別錯(cuò)誤率為:1-118/489=0.76。由此可見,識(shí)別率越來越低。
本文通過提取底層書法字級(jí)以及筆畫級(jí)的圖像特征,構(gòu)建書法風(fēng)格模型,將樣本與所構(gòu)建風(fēng)格模型進(jìn)行相似度比較,能初步實(shí)現(xiàn)對(duì)書法風(fēng)格的識(shí)別功能。對(duì)篆書和隸書的平均識(shí)別的正確率達(dá)到70%。但是,對(duì)于草書和行書,這類筆畫粘連過多的書法字,識(shí)別率較低,是以后仍要研究的方向,繼續(xù)提高書法識(shí)別的正確率。
[1]CADAL書法.http://www.cadal.zju.edu.cn、.訪問日期:2015年9月28日
[2]全球數(shù)字圖書館.http://www.ulib.org.訪問日期:2015年9月28日
[3]巨保銘.漢字書法風(fēng)格淺析[J].滄桑,2008,,(5):237-238.
[4]曹云鵬.歷代書法風(fēng)格轉(zhuǎn)換與書法創(chuàng)新分析[J].藝術(shù)百家,2012.
[5]H.Clifford.Graphology:How to Read Character from Handwriting,with full Explanation of the Science,and Many Examples Fully Analyzed,Penn Pub.Co.,Philadelphia,1905.
[6]K.Hanusiak R,S.Oliveira L,Justino E,et al.Writer Verification Using Texture-Based Features[J].Document Analysis&Recognition,2012,15(3):213-226.
[7]Mori S,Suen C.Y.,Yamamoto K.Historical Review of OCR Research and Development[J].Proc.IEEE.,1992,80(7):1029-1058.
[8]X.Zhang,G.Nagy.Style Comparisons in Calligraphy,Procs.SPIE/IST/DRR,San Francisco,Jan,2012.
[9]Han C C,Chou C H,Wu C S.An Interactive Grading and Learning System for Chinese Calligraphy[J].Machine Vision and Applications,2008,19(1):43-55.
[10]L.Yang and L.Peng.Local Projection-Based Character Segmentation Method for Historical Chinese Documents.Proc.SPIE8658,86580O,2014.
[11]S.N.Srihari.Computational Methods for Handwritten Questioned Document Examination.Final Report,Award Number:2004-IJCX-K050,U.S.Department of Justice.
[12]M.S.Azmi et al..Arabic Calligraphy Identification for Digital Jawi Paleography Using Triangle Blocks[J].in International Conf.on Electrical Engineering and Informatics,Malaysia,2011:1-5.
[13]I.Bar-Yosef et al..Binarization,Character Extraction,and Writer Identification of Historical Hebrew Calligraphy Documents[J].Int. J.Doc.Anal.Recognit,2007,9(2-4):89-99.
[14]Wei-ming Lu,Yue-ting Zhuang,Jiang-qin Wu.Discovering Calligraphy Style Relationships by Supervised Learning Weighted Random Walk Model[J].Multimedia Systems,2009,15:221-242.
[15]W.Lu,Y.Zhuang,and J.Wu.Latent Style Model:Discovering Writing Styles for Calligraphy Works.[J].Vis.Commun.Image Represent,2009,20(2):84-96.
[16]劉峽壁,賈云得.一種字符圖像線段提取及細(xì)化算法[J].中國(guó)圖象圖形學(xué)報(bào),2005,10(1):48-53.
Calligraphy Style Identification Based on Visual Features
WANG Xiao,ZHANG Xia-fen,HAN De-zhi
(College of Information Engineering,Shanghai Maritime University,Shanghai 21306)
The digitalization of calligraphy paper books enables convenient use for academic researchers and calligraphy learners.Identifies the calligraphy style by extracting and modeling calligraphy image features in character level and stroke level:Firstly extracts characters features.Second,extracts features of stroke by the crawler and stroke features are extracted.Totally,24 style features are used as the feature vector,when a user submits an unknown character,its 24 style features are extracted and compared with those features of 5 styles in the database five styles eventually,the style which has the biggest similarity probability assigned to the unknown.
Calligraphy Style;Style Identification;Visual Features;Style Quantification
1007-1423(2016)21-0039-08
10.3969/j.issn.1007-1423.2016.21.009
2016-04-25
2016-07-15
汪瀟,女,碩士研究生,研究方向?yàn)閳D像處理與模式識(shí)別章夏芬,女,講師,研究方向?yàn)閳D像處理與模式識(shí)別
韓德志,男,教授,研究方向?yàn)榇髷?shù)據(jù)、信息管理