樊小超 新疆師范大學(xué)
引言:我國(guó)是一個(gè)由56個(gè)民族組成的統(tǒng)一的多民族國(guó)家,許多少數(shù)民族擁有自己的語(yǔ)言和文字,錫伯文就是其中之一。錫伯文記載著本民族的歷史記憶和眾多民俗,展示著本民族的特征和文化內(nèi)涵,更是錫伯族非物質(zhì)文化遺產(chǎn)的重要載體[1]。錫伯文保留著滿文的完整性,同滿文在詞匯、詞法、句法等諸多方面基本相同,可以相互通用[2]。
錫伯文是是滿語(yǔ)支中至今任被使用的語(yǔ)言,研究錫伯文識(shí)別技術(shù)具有重大的理論價(jià)值和實(shí)際意義。首先,語(yǔ)言和文字是承載民族文化、溝通民族感情、構(gòu)成民族各個(gè)組成部分的橋梁,錫伯文識(shí)別技術(shù)的研究對(duì)錫伯文、滿文的傳承和發(fā)揚(yáng)有著重要作用;其次,清王朝統(tǒng)治中國(guó)二百六十多年,留下了浩如煙海的滿文檔案及文獻(xiàn)資料,錫伯文識(shí)別技術(shù)的研究有利于保護(hù)和考據(jù)珍貴的歷史文獻(xiàn);最后,錫伯文在新疆錫伯族聚居地有著十分廣泛的使用,在錫伯族的交際活動(dòng)中占主要地位,錫伯文識(shí)別技術(shù)的研究將有利于錫伯族群眾更好的融入現(xiàn)代生活,轉(zhuǎn)變生活方式,具有重大的實(shí)際意義。
本文的目的在于從語(yǔ)言學(xué)文字角度分析錫伯文的特點(diǎn),在此基礎(chǔ)上構(gòu)建印書(shū)體錫伯文數(shù)據(jù)集,為今后的錫伯文識(shí)別算法提供公共的訓(xùn)練和測(cè)試樣本,為錫伯文文字識(shí)別技術(shù)提供必要的前提。
錫伯文按使用場(chǎng)合不同可以分為書(shū)面語(yǔ)和口語(yǔ),二者存在較大差異。本文的研究對(duì)象為錫伯文書(shū)面語(yǔ)。錫伯文書(shū)寫時(shí),通常以單詞為單位,詞與詞之間由空格或標(biāo)點(diǎn)符號(hào)隔開(kāi),每個(gè)單詞由一個(gè)或多個(gè)字母構(gòu)成,行文從上到下,從左到右?,F(xiàn)代錫伯文包含5個(gè)元音字母,25個(gè)輔音字母,根據(jù)字母所處位置的不同,字母有四種形體:獨(dú)立形式,字母的前后沒(méi)有其他字母連接;詞首形式,字母只于其后的字母連接;詞尾形式,字母只于其前的字母連接;詞中形式,字母同時(shí)連接前后的字母。由此可以看出,錫伯文是一種字母具有獨(dú)立、詞首、詞中、詞尾不同形式,且每一種形式可以有多個(gè)不同的書(shū)寫形體的、黏著連寫的拼音文字。為了便于書(shū)寫和傳播,錫伯文字母可以轉(zhuǎn)寫成拉丁字母,且錫伯文字母和拉丁字母具有雙向可逆性,能夠以相似的方式進(jìn)行雙向轉(zhuǎn)換。
為了生成錫伯文詞典,本文分析了不同的錫伯文書(shū)籍,最終選擇了新疆維吾爾自治區(qū)察布查爾縣中小學(xué)教材審定委員會(huì)2014年審查通過(guò)的錫伯文小學(xué)課本1-5冊(cè)(試用版),《錫伯文雙語(yǔ)速成課本》初級(jí),以及《錫漢教學(xué)詞典》作為錫伯文單詞的來(lái)源。從以上書(shū)籍當(dāng)中,本數(shù)據(jù)集收集整理3424個(gè)錫伯文單詞,這些單詞涵蓋了目前印刷體錫伯文中最常用的名詞、動(dòng)詞、形容詞、副詞。
通過(guò)掃描或拍攝得到的圖像通常會(huì)存在傾斜或包含噪音,在預(yù)處理過(guò)程中需要消除這些影響。本文構(gòu)建的印書(shū)體錫伯文數(shù)據(jù)集來(lái)自文本數(shù)據(jù),使用程序自動(dòng)生成文本圖像,避免了引入噪聲,也不會(huì)出現(xiàn)傾斜等現(xiàn)象。
由文本生成圖像可以采用多種不同的方法完成,但是不同的方法通常都會(huì)導(dǎo)致目標(biāo)圖像的輕微變化。本文采用下采樣和抗鋸齒效果的渲染方法,這種方法能夠在低分辨率下較好的保留圖像的特征。該過(guò)程使用抗鋸齒過(guò)濾方法將高分辨率源圖像下采樣為低分辨率圖像。首先選擇字體、字號(hào)和字型,對(duì)詞典中的單詞在高分辨率下(360像素/英寸)生成灰度圖像。然后將白色像素點(diǎn)添加到圖像的右側(cè)和底部,形成大小相同的圖像。最后采用抗鋸齒過(guò)濾方法獲得低分辨率(72像素/英寸)的目標(biāo)圖像。圖像生成算法采用python 3.5實(shí)現(xiàn),主要使用了PIL包中Image模塊,為了優(yōu)化下采樣的質(zhì)量和速度,采用了平滑方法。
錫伯文圖像數(shù)據(jù)集中的每個(gè)單詞圖像都使用一個(gè)XML文件完整地描述,該文件包含關(guān)于單詞的主要信息和生成的信息,具體信息如圖2所示。
圖2 錫伯文圖像標(biāo)注
imageInfo標(biāo)記中的id標(biāo)識(shí)了圖片的名稱,是該圖片的唯一標(biāo)識(shí)。每個(gè)xml文件包含4個(gè)主要標(biāo)記:
.Content:描述了當(dāng)前單詞,當(dāng)前單詞包含的字母數(shù)量及該單詞的中文翻譯。該標(biāo)記包含次級(jí)標(biāo)記,次級(jí)標(biāo)記屬性描述了該單詞所包含的每個(gè)錫伯文字母,字母的羅馬轉(zhuǎn)寫及該字母在單詞中的位置。
.Font:描述了當(dāng)前單詞的字體,字號(hào)和字型。
.Specs:描述了圖片的格式,高度,寬度和其他效果。
.Generation:描述了圖片生成方式,使用工具及過(guò)濾方法。
本文提出了一種印刷體錫伯文圖像數(shù)據(jù)集,該數(shù)據(jù)集由多種常用的錫伯文字體組成,為了便于進(jìn)一步的研究和對(duì)比實(shí)驗(yàn),文中提出了對(duì)于數(shù)據(jù)集劃分的指導(dǎo)性建議。錫伯文與漢文在基本筆畫組成、連接以及書(shū)寫方式上均不同,且有著較大的差異,許多在漢文上應(yīng)用的識(shí)別技術(shù)不能夠直接應(yīng)用到錫伯文字的識(shí)別中。錫伯文數(shù)據(jù)集的建立,有利于對(duì)于錫伯文文字的切分和識(shí)別的研究,為今后有效的進(jìn)行錫伯文、滿文的高效識(shí)別打下了良好的基礎(chǔ)。