亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        潮汕方言數(shù)字化框架設(shè)計(jì)與研發(fā)

        2013-11-21 10:47:18吳永娜黃春梅
        關(guān)鍵詞:方音單字注音

        吳永娜,黃春梅

        (揭陽(yáng)職業(yè)技術(shù)學(xué)院信息工程系,廣東揭陽(yáng) 522000)

        潮汕文化歷史悠久,潮汕方言使用者眾多.潮汕方言保留了不少兩漢六朝時(shí)期的語(yǔ)音特點(diǎn),是中國(guó)最古老、最特殊的方言之一.隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,在潮汕方言的研究中引入中文信息處理技術(shù),是一種新的嘗試,它涉及到計(jì)算機(jī)和方言兩個(gè)領(lǐng)域的知識(shí)融合.計(jì)算機(jī)技術(shù)在文獻(xiàn)檢索、錄入、保存、各種資料的統(tǒng)計(jì)對(duì)比方面有很大的優(yōu)勢(shì),給我們帶來(lái)諸多的便利.本文建立了潮汕方言字詞數(shù)據(jù)庫(kù)檢索系統(tǒng)、潮汕方言口音數(shù)據(jù)庫(kù)、潮汕方言自動(dòng)處理軟件,讓專(zhuān)家學(xué)者從繁重的整理工作中解放出來(lái),將更多的精力放在分析和解決問(wèn)題上.

        1 潮汕方言音系

        潮汕方言口音可以分為揭陽(yáng)、汕頭、潮州、汕尾、普寧、海陸豐等,每種口音大體相同,相互間能聽(tīng)懂,但各地的發(fā)音還是有所區(qū)別.系統(tǒng)以廣東省教育廳1960年9月公布的潮汕話拼音方案為標(biāo)準(zhǔn)(簡(jiǎn)稱(chēng)60方案,下同).

        1.1 潮汕方言的聲母

        根據(jù)潮汕話拼音方案,潮汕話聲母共有18個(gè),見(jiàn)表1.

        表1 潮汕方言聲母表

        1.2 潮汕方言的韻母

        潮汕話常見(jiàn)有61個(gè)韻母,但為了全面保留潮汕語(yǔ)音系統(tǒng)的完整性,把不常見(jiàn)和管字甚少的韻母都一并收錄,共計(jì)95個(gè),見(jiàn)表2.

        表2 潮汕方言韻母表

        表2沒(méi)有按照傳統(tǒng)音韻學(xué)的方式編排,主要是針對(duì)計(jì)算機(jī)的特點(diǎn)而設(shè)計(jì)的.

        1.3 潮汕方言的聲調(diào)

        潮汕話有8個(gè)聲調(diào)如表3所示.

        表3 潮汕方言聲調(diào)

        2 方言字庫(kù)的建造和安裝

        目前大約有80個(gè)潮汕方言字超出常規(guī)計(jì)算機(jī)的輸入范圍.由于缺少字庫(kù)支持無(wú)法輸入和顯示.這部份字在Windows平臺(tái)主要是利用eudcedit.exe自帶的造字程序來(lái)實(shí)現(xiàn)的.步驟如下:

        2.1 確定方言字字符代碼

        Windows系統(tǒng)為用戶自定義字符預(yù)留了一定的編碼空間,并提供了一個(gè)制作自定義字符的程序eudcedit.exe,并確定編碼類(lèi)型和代碼頁(yè)[11].EUDC中有各種不同的代碼頁(yè),932代表日本語(yǔ),936代表簡(jiǎn)體中文,949代表韓語(yǔ),950代表繁體中文,代碼頁(yè)不同,其規(guī)定的內(nèi)碼不同,在設(shè)計(jì)和規(guī)劃時(shí)必須嚴(yán)格按照其范圍編排.如下所示:

        932=F040-F9FC

        936=A140-A7A0,AAA1-AFFE,F8A1-FEFE

        949=C9A1-C9FE,FEA1-FEFE

        950=8140-8DFE,8E40-A0FE,C6A1-C8FE,FA40-FEFE

        Unicode=E000-F8FF

        本設(shè)計(jì)沒(méi)有采用936(簡(jiǎn)體中文)代碼頁(yè)空間,而是采用了Unicode的規(guī)范,方便在各種系統(tǒng)上使用.潮汕方言字符的編碼空間從E001H開(kāi)始,到E050H(十六進(jìn)制)結(jié)束,共80個(gè).運(yùn)行Windows自帶的造字程序,選擇Unicode代碼,然后選擇從E001H代碼開(kāi)始造字,全部造完后保存為文件.

        2.2 修改注冊(cè)表的值

        系統(tǒng)要識(shí)別使用自造字,必須修改注冊(cè)表,這部分位于KEY_LOCAL_MACHINESystemCurrent-ControlSetControlNLSCodePageEUDCCodeRange EUDCCodeRange CodePage=FromTo[,FromTo],操作系統(tǒng)不同,其位置也不同,Windows 2000、Windows Server 2003、Windows XP SP1、SP2位置相同,Windows XP SP3位置與之不同,Windows7、Windows8又有差別,這些過(guò)程比較復(fù)雜,輸入法專(zhuān)門(mén)附帶了一個(gè)eudc-install程序,把設(shè)計(jì)完成后的自定義字符安裝到目標(biāo)計(jì)算機(jī)上,并自動(dòng)完成對(duì)注冊(cè)表的操作和文件的操作.

        3 輸入法的設(shè)計(jì)

        輸入法軟件的設(shè)計(jì)是數(shù)字化過(guò)程中一個(gè)關(guān)鍵環(huán)節(jié).不論寫(xiě)作或是整理文獻(xiàn)都要和大量的方言字打交道.我們花費(fèi)了大量的時(shí)間和精力完成了潮汕話輸入法的開(kāi)發(fā),軟件可以直接按照潮汕話拼音輸入常見(jiàn)的單字和詞組,對(duì)文獻(xiàn)錄入、創(chuàng)作或是聊天達(dá)到實(shí)用的水平.輸入法的設(shè)計(jì)過(guò)程中,碰到的主要問(wèn)題有:

        3.1 潮拼聲母韻母的規(guī)范化

        潮汕地區(qū)有很多本土的字典和專(zhuān)業(yè)文獻(xiàn),它們大都附帶有一個(gè)聲、韻母表,從表4可以看出,四個(gè)附帶表沒(méi)有一個(gè)完全相同,表的內(nèi)容雖然沒(méi)有錯(cuò),但容易使人無(wú)所適從,非潮語(yǔ)區(qū)的用戶看后更是一頭霧水.隨著時(shí)間的推移,廣東省教育廳1960年發(fā)布的潮汕話拼音方案已經(jīng)跟不上時(shí)代的變化,制定一個(gè)標(biāo)準(zhǔn)聲、韻母表對(duì)推廣潮汕方言十分關(guān)鍵.普通話能夠推廣,一個(gè)重要因素就是有一個(gè)相對(duì)固定的標(biāo)準(zhǔn)聲韻母表.本系統(tǒng)采用60方案,其優(yōu)點(diǎn)是接近漢語(yǔ)拼音方案,容易上手.系統(tǒng)所有收集到的資料,全部以60方案進(jìn)行編碼.

        表4 各字典附帶的聲母表對(duì)照

        3.2 字符集編碼問(wèn)題

        漢字信息化處理一直是個(gè)非常復(fù)雜的問(wèn)題,國(guó)內(nèi)外先后出現(xiàn)了多種方案,導(dǎo)致了漢字字符編碼的混亂和兼容性問(wèn)題[10].潮汕方言輸入與常規(guī)的輸入有很大的不同,很多方言字在常規(guī)輸入法中根本無(wú)法輸入和顯示.從發(fā)展方向和兼容性考慮,本系統(tǒng)采用了Unicode的編碼方案.系統(tǒng)采用海峰五筆的字庫(kù),該字庫(kù)嚴(yán)格按照Unicode的編碼規(guī)范進(jìn)行設(shè)計(jì),具體內(nèi)容見(jiàn)表5.其中CJK EUDC自造區(qū)的編碼空間正好用在潮汕方言俗字的編碼上.

        表5 Unicode字庫(kù)編碼范圍

        3.3 主要的數(shù)據(jù)結(jié)構(gòu)

        輸入法由5個(gè)數(shù)據(jù)表組成:五筆單字庫(kù)、五筆詞組、潮音字庫(kù)、潮音詞組和自定義庫(kù).潮音字庫(kù)按照<單字><方音1,方音1,…,方音n>的結(jié)構(gòu)組織,用戶輸入時(shí)由軟件自動(dòng)在各個(gè)方音中查找,就不用考慮到地區(qū)的差別,詞組文件按照<詞組><方音組1,方音組2,…,方音組n>的結(jié)構(gòu)組織,輸入時(shí)也同樣不用考慮地區(qū)的差別,只是要求軟件必須盡可能地收錄各地的發(fā)音.對(duì)于沒(méi)有收錄到的方音和詞組,則由自定義庫(kù)來(lái)解決,該庫(kù)由二部份組成,第一部份是單字,第二部份是詞組,結(jié)構(gòu)也同上,由軟件完成插入排序.

        3.4 人性化的設(shè)計(jì)

        由于潮語(yǔ)很多是古漢字,筆劃很多,常規(guī)字體有時(shí)較難看清,所以潮汕話輸入法開(kāi)創(chuàng)性地設(shè)計(jì)了輸入窗口可自由調(diào)整字體大小的技術(shù),以方便用戶.在輸入狀態(tài)下,只要按下鍵盤(pán)上的“↑”、“↓”鍵,輸入法窗口就可以實(shí)現(xiàn)放大縮小.

        3.5 五筆單字反查潮拼功能

        輸入法中專(zhuān)門(mén)設(shè)計(jì)了五筆單字反查潮拼拼音的功能,在輸入過(guò)程中,碰到無(wú)法用潮拼輸入時(shí),可用五筆打出該字,同時(shí)該字右邊顯示潮語(yǔ)拼音,對(duì)用戶學(xué)習(xí)潮汕拼音法起到輔助作用.

        4 詞匯的收集與潮汕方言字詞檢索系統(tǒng)

        詞匯的收集和錄入非常繁重和耗時(shí).潮汕方言目前還沒(méi)有官方正式的詞匯收集文獻(xiàn).潮汕地區(qū)的各種詞匯專(zhuān)著比較少,出版時(shí)間參差不齊,詞匯量不多,最常見(jiàn)的是林倫倫編著的《潮汕方言熟語(yǔ)辭典》,該書(shū)收集的詞匯量有2 400條左右,是目前比較權(quán)威嚴(yán)謹(jǐn)?shù)闹?部份詞匯中的方言字要么留空,要么用同音字代替,除了部分至今無(wú)法考證出本字的方言字外,現(xiàn)在考證出來(lái)的方言字沒(méi)有及時(shí)收錄,而用同音字代替的現(xiàn)象比比皆是,在網(wǎng)絡(luò)上用詞混亂不堪.較少收錄俚語(yǔ),事實(shí)上有些俚語(yǔ)詞匯更具潮汕特色.資料重疊嚴(yán)重,而且只有紙質(zhì)內(nèi)容,造成錄入困難.所以專(zhuān)門(mén)開(kāi)發(fā)了輔助的方言字詞收集檢索系統(tǒng),見(jiàn)圖1.

        圖1 潮汕方言字詞收集檢索系統(tǒng)

        5 注音程序的設(shè)計(jì)

        方言注音程序的設(shè)計(jì)比拼音注音要復(fù)雜得多,現(xiàn)在還不能達(dá)到百分之百的注音.拼音的注音已經(jīng)有大量的研究和可用的資料.而潮汕方言在這方面還是個(gè)空白,潮汕方言既有文讀,又有白讀,各個(gè)方言區(qū)的發(fā)音又不盡相同,所以注音復(fù)雜且速度大大受到制約,例如,“廣”字,表示地名時(shí)用“geng”,表示“廣大”時(shí)用“guang”,而“廣交會(huì)”本要用“geng”,但實(shí)際要用“guang或guêng”;又如“人”字,在“男人,工人,商人,人參,人中”發(fā)“ring”的音,但在揭陽(yáng)卻發(fā)“rêng”的音,在“助人為樂(lè),人面,負(fù)責(zé)人”中發(fā)音為“nang”;又如“齊”字文讀為“ci”,白讀為“zoi”.這些現(xiàn)象比較復(fù)雜,只有經(jīng)過(guò)長(zhǎng)時(shí)間收集統(tǒng)計(jì)分析才能提高注音的準(zhǔn)確性.圖2是潮汕方言自動(dòng)處理軟件界面,該軟件初步實(shí)現(xiàn)了潮汕方言的分詞與自動(dòng)注音.

        圖2 潮汕方言自動(dòng)處理軟件

        6 書(shū)籍OCR數(shù)字化與語(yǔ)音合成

        文獻(xiàn)錄入是非常繁重的工作.把文獻(xiàn)掃描后識(shí)別其中的文字稱(chēng)為OCR.目前OCR軟件大部份僅支持國(guó)家規(guī)定的常見(jiàn)漢字,對(duì)潮汕特有的漢字無(wú)能為力.針對(duì)收集到的潮汕單字進(jìn)行了宋體字型數(shù)據(jù)分析,提取了關(guān)鍵點(diǎn)數(shù)據(jù).主要進(jìn)行印刷體的OCR試驗(yàn),重點(diǎn)是試驗(yàn)方言俗字的識(shí)別.

        語(yǔ)音合成具有廣泛的使用范圍.目前以揭陽(yáng)方言區(qū)的讀音為試點(diǎn),編制出所有揭陽(yáng)話的發(fā)音表,按發(fā)音表錄制相應(yīng)的單字發(fā)音,再根據(jù)揭陽(yáng)音的變調(diào)規(guī)則實(shí)現(xiàn)了一套簡(jiǎn)單的語(yǔ)音合成軟件.

        方言數(shù)字化的內(nèi)容還有很多,像智能輸入、自動(dòng)分詞、機(jī)器發(fā)音、各地語(yǔ)音庫(kù)的建立等等,相信這些工作會(huì)方便以后的研究.

        [1]林倫倫.(普通話對(duì)照)新編潮州音字典[M].汕頭:汕頭大學(xué)出版社,1997.

        [2]張曉山.(普通話潮州話對(duì)照)新潮汕字典[M].廣州:廣東人民出版社,2009.

        [3]殷人昆,陶永雷.數(shù)據(jù)結(jié)構(gòu)[M].北京:清華大學(xué)出版社,1999.

        [4]黃維通.Visual C++面向?qū)ο笈c可視化程序設(shè)計(jì)[M].北京:清華大學(xué)出版社,2000.

        [5]楊揚(yáng)發(fā).(普通話對(duì)照)潮州十八音字典[M].汕頭:汕頭大學(xué)出版社,2001.

        [6]劉堯咨.說(shuō)潮州話[M].廣州:華南理工大學(xué)出版社,1995.

        [7]林倫倫.潮汕方言熟語(yǔ)辭典[M].深圳:海天出版社,1993.

        [8]陳凌千.潮汕字典[M].汕頭:汕頭育新書(shū)社,1935.

        [9]吳華重.(普通話對(duì)照)潮州音字典[M].廣州:廣東人民出版社,1983.

        [10]徐英慧.基于Qtopia的嵌入式智能拼音輸入法設(shè)計(jì)[J].微計(jì)算機(jī)信息,2008,24(30):276-278.

        [11]葉娜娜,鄧飛其,余紅明.基于Qt/Embedded技術(shù)的中文輸入法設(shè)計(jì)[J].自動(dòng)化技術(shù)與應(yīng)用,2009,28(8):26-32.

        猜你喜歡
        方音單字注音
        用語(yǔ)文方法為數(shù)字分組
        河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實(shí)驗(yàn)語(yǔ)音學(xué)初探
        《說(shuō)文解字》注音釋義識(shí)略
        “對(duì)仗不宜分解到單字”毋庸置疑——答顧紳先生“四點(diǎn)質(zhì)疑”
        鹽城方言單字調(diào)聲學(xué)實(shí)驗(yàn)研究
        《鄉(xiāng)音正誤》所載山西方音研究
        《現(xiàn)代漢語(yǔ)詞典》第6版注音有變化
        鄉(xiāng)村變遷與方音變化的性別模式——基于連島社區(qū)的個(gè)案研究
        《通鑒釋文》所反映的宋代單字音特殊變化
        歪打正著
        午夜一区二区三区av| 好日子在线观看视频大全免费动漫| 少妇高潮惨叫喷水在线观看| 91精品91久久久久久| 成人影院羞羞的视频免费观看| 特黄 做受又硬又粗又大视频| 亚洲av无码不卡久久| 超碰日韩AV在线| 亚洲伊人伊成久久人综合| 精品精品久久宅男的天堂| 国产精品一区二区久久不卡| 午夜a福利| 久久精品国产亚洲av沈先生| 人妻体内射精一区二区三区| 人妻忍着娇喘被中进中出视频| 亚洲一区二区自拍偷拍| 精品国产一区二区三区av新片| 国产大片内射1区2区| 拍摄av现场失控高潮数次| 麻豆国产AV网站| 久久这里都是精品99| 三年片大全在线观看免费观看大全 | 色视频线观看在线网站| 久久精品岛国av一区二区无码 | 国产精品黄网站免费观看| 青青草久热手机在线视频观看 | 久久国产成人精品国产成人亚洲| 国产小视频一区二区三区| 国产精品一区二区三区免费视频| 日本老熟妇50岁丰满| 欧美xxxx新一区二区三区| 日本女同视频一区二区三区| 国产成人无码综合亚洲日韩| 狠狠人妻久久久久久综合| 亚洲成av在线免费不卡| 人妻诱惑中文字幕在线视频| 97久久精品午夜一区二区| 国产人妖xxxx做受视频| 中文字幕免费人成在线网站| 亚洲成人色区| 99精品国产闺蜜国产在线闺蜜|