亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        “方言同音字匯”自動(dòng)生成軟件①的設(shè)計(jì)及實(shí)現(xiàn)

        2013-04-23 12:26:11程南昌
        中文信息學(xué)報(bào) 2013年1期
        關(guān)鍵詞:同音字排序方言

        程南昌, 侯 敏

        (1. 中國(guó)傳媒大學(xué) 文學(xué)院, 北京 100024; 2. 百色學(xué)院 中文系,廣西 百色 533000; 3. 中國(guó)傳媒大學(xué) 有聲媒體語(yǔ)言分中心, 北京 100024)

        ① 軟件下載地址: http://ling.cuc.edu.cn/chs/News_View.asp?NewsID=192(中國(guó)傳媒大學(xué)有聲媒體語(yǔ)言資源網(wǎng));http://www.newhua.com/soft/115881.htm(華軍);http://www.crsky.com/soft/27371.html(非凡)。

        ② 引自著名語(yǔ)言學(xué)家張振興給筆者的郵件,此處引用已經(jīng)過(guò)張老師同意。

        1 引言

        中國(guó)是方言大國(guó),每種方言都有自己的語(yǔ)音系統(tǒng),整理每種方言的語(yǔ)音系統(tǒng)是方言調(diào)查的基本任務(wù)?!胺窖酝糇謪R,簡(jiǎn)單說(shuō)就是把同音的字列放在一起。先把同韻母的字放在一起,再把同聲母的字放在一起,然后把同聲調(diào)的字放在一起。如果韻母、聲母、聲調(diào)都相同的字,只聽(tīng)讀音,無(wú)法分辨到底是哪個(gè)字。”②在進(jìn)行方言田野記音調(diào)查之后,第一步要做的,也是最重要的,就是整理出“同音字匯”。在同音字匯整理出來(lái)后,才能初步了解整個(gè)方言的語(yǔ)音系統(tǒng),這是最基礎(chǔ)的工作。有了同音字匯,方言調(diào)查者才有可能進(jìn)一步記錄語(yǔ)音材料(例如,變調(diào)、兒化、輕聲、音變等),整理方言的詞匯和語(yǔ)法,方言研究者才有可能進(jìn)行方言語(yǔ)音系統(tǒng)以及古今語(yǔ)音演變的研究。另外,行內(nèi)的人也可以通過(guò)同音字匯來(lái)判斷調(diào)查者的記音是否正確,他人通過(guò)同音字匯也可以進(jìn)行該方言的研究。因此,研究方言的人非??粗亍巴糇謪R”。但是“方言同音字匯”的制作相當(dāng)困難,傳統(tǒng)是采用做卡片的方式,做好一個(gè)同音字匯需要很長(zhǎng)時(shí)間,稍不小心,就會(huì)出錯(cuò),是一項(xiàng)很艱苦的“體力活”。可以說(shuō),“方言同音字匯”的制作,已成為制約加速方言調(diào)查工作的“瓶頸”。因此,利用計(jì)算語(yǔ)言學(xué)的知識(shí),開(kāi)發(fā)“方言同音字匯”自動(dòng)生成軟件,就成為我們的一項(xiàng)重要任務(wù)。

        2 相關(guān)研究綜述

        隨著計(jì)算機(jī)的出現(xiàn),人們開(kāi)始利用計(jì)算機(jī)輔助方言方面的調(diào)查與研究,以減輕方言調(diào)查者的工作量。在“同音字匯”自動(dòng)處理方面,相關(guān)研究工作主要有以下三個(gè)方面。

        上海師范大學(xué)潘悟云(2006)利用Visual Foxpro開(kāi)發(fā)了一個(gè)“漢語(yǔ)方言計(jì)算機(jī)處理系統(tǒng)”,在該系統(tǒng)的第四個(gè)功能“方言音系分析”中,可調(diào)入按一定格式建立的Visual Foxpro數(shù)據(jù)庫(kù)字表,生成同音字表。但是用戶在使用中必須嚴(yán)格采用該系統(tǒng)所規(guī)定的VFP數(shù)據(jù)庫(kù)格式,否則即會(huì)出現(xiàn)運(yùn)行錯(cuò)誤,并且要求數(shù)據(jù)庫(kù)中一定要有漢字、中古聲母、中古韻母、中古聲調(diào)等14個(gè)字段。[1]此外,該軟件最終生成的同音字表雖然按韻、聲、調(diào)的順序?qū)ν糇诌M(jìn)行了排序,但每一組同音字都有聲、韻、調(diào)三個(gè)屬性,要整理成文本形式的同音字匯“豎排表”,還需要一定的時(shí)間。

        廣西民族大學(xué)海柳文[2]利用Visual Foxpro開(kāi)發(fā)的“漢語(yǔ)方言民族語(yǔ)言語(yǔ)音材料處理軟件”。在進(jìn)行“同音字匯排序”時(shí),該系統(tǒng)只能按英文字母的音序進(jìn)行排序,因此影響了同音字匯生成的精度。

        廣西師范大學(xué)劉村漢[3]基于Excel開(kāi)發(fā)的“方言字音處理系統(tǒng)”,在生成同音字匯時(shí),要進(jìn)行復(fù)雜的公式運(yùn)算,操作一不小心,就有可能出錯(cuò)。對(duì)計(jì)算機(jī)不熟悉的方言調(diào)查者學(xué)習(xí)和操作起來(lái)有較大的難度。

        以上軟件在同音字匯自動(dòng)生成方面做出了有效的嘗試,并且取得了一定的效果,但是由于在使用與操作上不夠方便,因此,有必要進(jìn)一步開(kāi)發(fā)一種更加方便快捷的同音字匯自動(dòng)生成軟件。

        3 軟件的設(shè)計(jì)與實(shí)現(xiàn)

        3.1 相關(guān)知識(shí)

        在方言田野調(diào)查中,往往要依據(jù)一個(gè)基本的《方言調(diào)查字表》作為參照,丁聲樹、李榮[4]的《漢語(yǔ)方言調(diào)查簡(jiǎn)表》就是一個(gè)有代表性的字表,收字2 500多個(gè)?,F(xiàn)行的《方言調(diào)查字表》為了照顧古音的音韻地位收了不少生僻字。我們?cè)谥谱鬈浖倪^(guò)程中,采用的測(cè)試字表共收字3 810個(gè)。李如龍[5]認(rèn)為在現(xiàn)行的《方言調(diào)查字表》中,有些字在許多方言中問(wèn)不出音,勉強(qiáng)問(wèn)出來(lái)也往往不可靠。對(duì)一般性調(diào)查來(lái)說(shuō),這就徒然增加了許多負(fù)擔(dān)。然而對(duì)任何一種真實(shí)的方言,該字表又是不夠用的,總有些方言特有的音節(jié)調(diào)查不到,單是根據(jù)這個(gè)字表記音,整理出來(lái)的同音字表會(huì)有遺漏。所以,學(xué)者們通常都以《方言調(diào)查字表》為基礎(chǔ),略去他們正在調(diào)查的方言里不用的字,根據(jù)該方言的實(shí)際情況補(bǔ)充《方言調(diào)查字表》里沒(méi)有的字,最后得到一個(gè)該方言的用字總表。漢語(yǔ)的字由字形、字音、字義三部分構(gòu)成。假如不考慮字義,把同形同音的字算一個(gè)字,把同形而不同音的字(例如,普通話中的種: zhong214、zhong51、chong35)算不同的字,對(duì)用字總表中每個(gè)字的讀音進(jìn)行比較,找出讀音相同的字,最后就可以得到一個(gè)同音字匯表。理想的同音字匯表中收錄的字都是該方言里用到的字,而沒(méi)有收錄的都是該方言里不用的字。

        因此,方言同音字匯自動(dòng)生成軟件,要面對(duì)的是開(kāi)放的方言調(diào)查字表,要求軟件可以自動(dòng)判斷字表的字?jǐn)?shù)進(jìn)行統(tǒng)計(jì)分析。所需要的數(shù)據(jù)包括“索引、字目、聲、韻、調(diào)”。如果把零聲母也算作一類,每個(gè)字都應(yīng)該有“聲、韻、調(diào)”三個(gè)屬性。制作同音字匯主要是對(duì)“同音字”按一定的規(guī)律進(jìn)行排序,但是并不排除一個(gè)音只有一個(gè)“字”的情況,這樣的字也要被列入同音字匯中,可以把它看成是同音字的特例,它只與它本身相同。張振興[6]中的“快(kuai31)、怪(guai24)”就屬于這種情況。

        3.2 開(kāi)發(fā)工具

        前面提到的三個(gè)同音字匯軟件,都是利用Visual Foxpro數(shù)據(jù)庫(kù)或Excel進(jìn)行排序, 而Visual Foxpro數(shù)據(jù)庫(kù)或者Excel的排序主要是針對(duì)英文字母,由于國(guó)際音標(biāo)的集合遠(yuǎn)遠(yuǎn)大于英文字母,且排列與英文字母不同,所以排序的時(shí)候會(huì)有很多困難。基于此,我們?cè)谥谱魍糇謪R自動(dòng)生成軟件的時(shí)候,數(shù)據(jù)庫(kù)只用于存儲(chǔ),從數(shù)據(jù)中讀取所需要的數(shù)據(jù)信息后,所有運(yùn)算都用程序進(jìn)行,所采用的程序開(kāi)發(fā)語(yǔ)言為C#2008和Delphi XE,數(shù)據(jù)庫(kù)為Access(2003/2007)、Excel(2003/2007)。采用C#2008和Delphi XE的一個(gè)重要原因是它們都支持Unicode編碼,因?yàn)槌S玫膰?guó)際音標(biāo)基本上是大字符集,大都是Unicode編碼的,例如“云龍國(guó)際音標(biāo)”[7]。采用Access與Excel作為數(shù)據(jù)庫(kù)的原因有三個(gè): 一是支持Unicode編碼;二是Access與Excel作為 Microsoft Office 的系統(tǒng)程式,在windows系統(tǒng)上的安裝非常容易,為大多數(shù)用戶所熟悉;三是它們使用簡(jiǎn)單方便,可移植性非常強(qiáng),小巧靈活,用來(lái)存儲(chǔ)方言字表綽綽有余。

        3.3 軟件設(shè)計(jì)

        3.3.1 軟件運(yùn)行的流程

        從數(shù)據(jù)庫(kù)中讀入“ID(索引)、字目、聲、韻、調(diào)”五個(gè)字段的信息→軟件自動(dòng)分析出該方言的“聲、韻、調(diào)”系統(tǒng)→用戶對(duì)軟件自動(dòng)分析出的“聲、韻、調(diào)”排序→根據(jù)用戶要求的“聲、韻、調(diào)”順序?qū)ψ直磉M(jìn)行排序,如省略該人機(jī)互動(dòng)過(guò)程,軟件將按默認(rèn)的順序排序→過(guò)濾掉相同的聲、韻、調(diào)→生成同音字匯豎排表。

        3.3.2 數(shù)據(jù)的讀入

        軟件所需要的數(shù)據(jù)有兩個(gè),一個(gè)是方言調(diào)查者在記音調(diào)查后得到的字表,這個(gè)字表用國(guó)際音標(biāo)記錄了每一個(gè)字目的“聲”“韻”“調(diào)”三個(gè)屬性。本軟件提供了三種方法讀入這些數(shù)據(jù)。

        第一,當(dāng)用戶沒(méi)有建立自己的Access或者Excel數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)字表時(shí),用戶可以從word、txt等文檔中復(fù)制字表到本軟件提供的數(shù)據(jù)庫(kù)中。

        第二,如果用戶的字表存儲(chǔ)在自己建立的Access數(shù)據(jù)庫(kù)中,軟件則可以與之掛接,并自動(dòng)加載該數(shù)據(jù)庫(kù)的表和字段,用戶可以很方便地通過(guò)下拉框選擇字表和字表中的各個(gè)字段。

        第三,如果用戶的字表存儲(chǔ)在Excel表中,軟件也可以與之掛接,自動(dòng)加載字表和各個(gè)字段。

        當(dāng)軟件讀入方言調(diào)查字表后,便能自動(dòng)分析出該方言的聲、韻、調(diào)系統(tǒng)。本軟件所需要的第二個(gè)數(shù)據(jù)就是方言調(diào)查者在軟件得出的聲、韻、調(diào)系統(tǒng)的基礎(chǔ)上提供的順序表。通常,聲母是按發(fā)音部位排,韻母按開(kāi)口度排,聲調(diào)是按平、上、去、入排,因每個(gè)方言點(diǎn)的語(yǔ)音系統(tǒng)都不相同,一般來(lái)說(shuō),應(yīng)由用戶即方言研究者自己設(shè)定。字目的“聲、韻、調(diào)”三個(gè)屬性,如果按不同的方式進(jìn)行組合,可以有六種排序方式。如果用戶沒(méi)有對(duì)聲、韻、調(diào)進(jìn)行排序,軟件將按默認(rèn)的“韻、聲、調(diào)”順序排列,韻母相同的,按聲母排,韻母和聲母都相同的,再按聲調(diào)排。

        3.3.3 排序算法

        為了便于說(shuō)明,現(xiàn)在假設(shè)有一個(gè)方言字表,它有24個(gè)字目,具體見(jiàn)表1。

        表1 方言字表* 語(yǔ)料從廣州話方言調(diào)查字表中提取出,廣州話方言調(diào)查字表由廣西師范大學(xué)陳小燕教授提供。凡有國(guó)際音標(biāo)處,為防止亂碼,都以圖片的形式顯示。

        假定調(diào)查該方言的學(xué)者給出的韻、聲、調(diào)排列順序如表2所示。

        表2 韻、聲、調(diào)順序

        整個(gè)排序過(guò)程將采用韻、聲、調(diào)再加上字表所有字目的四重循環(huán)。循環(huán)流程圖如圖1所示。

        圖1 排序過(guò)程流程圖

        圖1中“strYun[m] == strYun_Type[i] && strSheng[m] == strSheng_Type[j] && strDiao[m] == strDiao_Type[k]”一句表示,當(dāng)字表中的某個(gè)字目的聲(strSheng)、韻(strYun)、調(diào)(strDiao)在循環(huán)中符合條件的時(shí)候。

        到這里,按韻、聲、調(diào)的順序排序的過(guò)程就完成了, 循環(huán)總次數(shù)為: 韻的個(gè)數(shù)×聲的個(gè)數(shù)×調(diào)的個(gè)數(shù)×字目的個(gè)數(shù),在這里就是5×5×6×24=3 600次。排序結(jié)果見(jiàn)表3。

        表3 按韻、聲、調(diào)排序后的字表

        在表3中,所有的字目都按韻、聲、調(diào)的順序進(jìn)行了排列,其中ID為24的“惹”字沒(méi)有與之同音的,軟件把它當(dāng)作同音字的一種特殊情況,也自動(dòng)進(jìn)行了排序。

        這樣生成的同音字匯是一個(gè)表格的形式,每個(gè)字都有聲、韻、調(diào)三個(gè)屬性,不利于觀察和使用。因此最后一步,就是要把相同的“聲、韻、調(diào)”屬性過(guò)濾掉。所有屬于同一個(gè)韻母的字,韻母只表示一次;所有屬于同一個(gè)聲母的字,聲母只表示一次;所有屬于同一個(gè)聲調(diào)的字,聲調(diào)只表示一次。最后生成的同音字匯形式是一個(gè)文本,叫同音字匯豎排表。這一步算法設(shè)計(jì)相對(duì)前面的排序要簡(jiǎn)單一些,因此不再贅述其實(shí)現(xiàn)原理。前面表1中提供的24個(gè)字目的字表最終生成的同音字匯豎排表見(jiàn)表4。

        表4 同音字匯豎排表

        到此,同音字匯的生成全部完成。

        3.4 軟件實(shí)用性分析

        作為一個(gè)實(shí)用軟件,應(yīng)最大限度滿足用戶需求。本軟件在技術(shù)上的特點(diǎn)主要表現(xiàn)在以下三個(gè)方面。

        1. 體積小,可移植性強(qiáng)。軟件編譯完成后,包括數(shù)據(jù)庫(kù)在內(nèi),總大小只有3.19MB。

        2. 運(yùn)行速度快。我們?cè)谄胀矣秒娔X上用桂林官話、北京話、廣州話三種方言進(jìn)行了測(cè)試,電腦的操作系統(tǒng)為win7,內(nèi)存2GB。表5是測(cè)試結(jié)果。

        表5 三種方言測(cè)試結(jié)果

        以上數(shù)據(jù)說(shuō)明,字表大,排序需要的時(shí)間并不一定就長(zhǎng),排序時(shí)間主要取決于方言的聲、韻、調(diào)系統(tǒng)是否復(fù)雜。三種方言中,耗時(shí)最多的是聲、韻、調(diào)系統(tǒng)最復(fù)雜的廣州話,但是也僅僅只用了四分之一秒。

        3. 無(wú)需安裝,使用方便快捷。本軟件由于采用的是比較通用的Access與Excel數(shù)據(jù)庫(kù),而且程序界面友好,學(xué)習(xí)與使用都比較容易。

        4 軟件的應(yīng)用

        同音字匯自動(dòng)生成軟件于2008年開(kāi)發(fā)完成。廣西師范大學(xué)方言專家陳小燕教授使用本軟件對(duì)“廣州話”“桂北五通平話”“鐘山董家垌土話”“玉林白話”“粵西封開(kāi)粵語(yǔ)”“桂林官話”“全州湘語(yǔ)”“陸川客家話”“桂林大河平話”“仁義話”“桂嶺話”等十幾種不同方言進(jìn)行了測(cè)試,準(zhǔn)確生成了這些方言的同音字匯,取得了令人滿意的效果。為了惠及更多的方言研究者,我們?cè)趪?guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心有聲媒體語(yǔ)言分中心網(wǎng)站上發(fā)布了“方言同音字匯自動(dòng)生成軟件”,供用戶免費(fèi)下載。隨著軟件影響的擴(kuò)大,華軍和非凡軟件園也收錄并發(fā)布了本軟件。僅就華軍網(wǎng)用戶IP信息顯示,本軟件的用戶除了國(guó)內(nèi)(含港、澳、臺(tái)),還包括了美國(guó)、馬來(lái)西亞、韓國(guó)、挪威、泰國(guó)等國(guó)家。

        5 結(jié)語(yǔ)

        “計(jì)算語(yǔ)言學(xué)(computational linguistics)是用計(jì)算機(jī)研究和處理自然語(yǔ)言的一門新興的邊緣學(xué)科?!盵8]同音字匯自動(dòng)生成軟件利用計(jì)算機(jī)來(lái)處理方言,用來(lái)生成同音字匯豎排表,可以大大減少方言研究者的勞動(dòng)量。目前計(jì)算語(yǔ)言學(xué)在處理人類的自然語(yǔ)言方面取得了突出的成就,在國(guó)內(nèi),計(jì)算語(yǔ)言學(xué)在處理漢語(yǔ)共同語(yǔ)(普通話)方面取得了長(zhǎng)足的進(jìn)步,但是在處理方言和少數(shù)民族語(yǔ)言方面,相對(duì)還比較薄弱,因此,這方面的研究亟需進(jìn)一步加強(qiáng)。

        致謝:

        百色學(xué)院院長(zhǎng)卞成林(博士)教授安排筆者參與了由廣西師范大學(xué)方言專家陳小燕(博士)教授主持的“高山漢”方言的田野調(diào)查活動(dòng),從而了解了方言同音字匯的基本原理。同音字匯自動(dòng)生成軟件的測(cè)試語(yǔ)料由陳小燕教授提供。在軟件開(kāi)發(fā)過(guò)程中,使用了語(yǔ)言學(xué)家潘悟云教授的“漢語(yǔ)方言計(jì)算機(jī)處理系統(tǒng)”與“云龍國(guó)際音標(biāo)”。廣西師范大學(xué)在讀碩士研究生劉艷平及上海師范大學(xué)在讀博士研究生呂嵩崧對(duì)軟件進(jìn)行了測(cè)試與反饋。在本文寫作過(guò)程中,得到了著名語(yǔ)言學(xué)家張振興教授的指導(dǎo)。在此對(duì)各位專家、同學(xué)表示衷心的感謝!

        [1] 潘悟云.漢語(yǔ)方言計(jì)算機(jī)處理系統(tǒng)[DB/OL].[2011-06-11].http://www.eastling.org/resource.htm.

        [2] 海柳文.漢語(yǔ)方言民族語(yǔ)言語(yǔ)音材料處理軟件設(shè)計(jì)[J].廣西民族大學(xué)學(xué)報(bào),2005,11(3):60-64.

        [3] 劉村漢.方言字音Excel處理系統(tǒng)[CP/OL].2005-05-05[2011-06-11].http://pgsu.jnu.edu.cn/show.aspx?id=636&cid=12.

        [4] 丁聲樹,李榮. 漢語(yǔ)方言調(diào)查簡(jiǎn)表[M].北京: 中國(guó)科學(xué)院語(yǔ)言研究所,1956.

        [5] 李如龍.漢語(yǔ)方言學(xué)(第二版)[M].北京: 高等教育出版社,2007.

        [6] 張振興. 漳平(永福)方言同音字匯[J].方言,1982(3):203-228.

        [7] 李龍,潘悟云.國(guó)際音標(biāo)輸入法及其實(shí)現(xiàn)[J].語(yǔ)言研究,2006,26(3):67-70.

        [8] 馮志偉.計(jì)算語(yǔ)言學(xué)基礎(chǔ)[M].北京:商務(wù)印書館,2001.

        猜你喜歡
        同音字排序方言
        方嚴(yán)的方言
        東方少年(2022年28期)2022-11-23 07:09:46
        同音字與多音字練習(xí)
        面向語(yǔ)音合成的藏語(yǔ)同音字研究*
        西藏科技(2022年3期)2022-04-22 09:17:20
        排序不等式
        方言
        恐怖排序
        說(shuō)說(shuō)方言
        留住方言
        同音字 我會(huì)分
        節(jié)日排序
        国产精品美女久久久网站三级| 色播中文字幕在线视频| 亚洲高清美女久久av| 日本第一影院一区二区| 大地资源网高清在线播放 | 亚洲av丰满熟妇在线播放| 人人爽人人爱| 日韩最新在线不卡av| 99久久久69精品一区二区三区| 国产av熟女一区二区三区 | 欧美三级免费网站| 日本久久精品国产精品| 中出人妻希奇杰卡西av| 婷婷亚洲久悠悠色悠在线播放| 亚洲两性视频一三区| 中文片内射在线视频播放| 久久婷婷国产综合精品| 中国xxx农村性视频| 久99久精品免费视频热77| 99久久婷婷国产精品综合| 黑人巨茎大战俄罗斯美女| 在线看亚洲十八禁网站| 国产一区二区三区亚洲精品| 日韩不卡的av二三四区| 乱色熟女综合一区二区三区| 久久半精品国产99精品国产| 国产精品日本一区二区三区在线| 中文字幕av伊人av无码av| 国产精品亚洲综合色区韩国| 日本嗯啊在线观看| 婷婷色精品一区二区激情| 亚洲欧美精品suv| 亚洲男人的天堂精品一区二区| 精品女人一区二区三区| 久久精品国产亚洲av麻豆色欲| 99re久久精品国产| 日韩在线手机专区av| 亚洲最新国产av网站| 亚洲国产精品日韩av专区| 亚洲国产剧情在线精品视 | 国产无遮挡又黄又爽在线视频|