亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞匯聲學(xué)距離的語(yǔ)言計(jì)算分類方法探索

        2021-07-28 12:10:06冉啟斌梁煜珠吳丹麗
        關(guān)鍵詞:詞匯分類語(yǔ)言

        冉啟斌, 梁煜珠, 吳丹麗

        (1.南開大學(xué) 文學(xué)院,天津 300071;2.天津中醫(yī)藥大學(xué) 文化與健康傳播學(xué)院,天津 301617)

        一、引 言

        對(duì)語(yǔ)言進(jìn)行分類,傳統(tǒng)上一般都依據(jù)語(yǔ)言的特征進(jìn)行。分子生物學(xué)取得進(jìn)展以后,借鑒以基因距離為依據(jù)的生物學(xué)分類方法,語(yǔ)言學(xué)中也嘗試根據(jù)語(yǔ)言距離對(duì)語(yǔ)言進(jìn)行分類[1-2]。對(duì)語(yǔ)言距離進(jìn)行計(jì)算,采用比較多的是編輯距離計(jì)算法。Kessler首次提倡對(duì)愛(ài)爾蘭蓋爾語(yǔ)方言進(jìn)行編輯距離計(jì)算[3]。Brown 等[4],王璐、張吉生[5],江荻[6],索倫·維希曼等[7]人分別對(duì)世界范圍5 000多個(gè)語(yǔ)檔、吳方言、藏緬語(yǔ)族語(yǔ)言、漢語(yǔ)方言等進(jìn)行過(guò)編輯距離計(jì)算。

        除了編輯距離之外,是否還有其他方法可以對(duì)語(yǔ)言距離進(jìn)行計(jì)算?此前這方面的探索不多。顏為之等人基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的自編碼降維語(yǔ)譜圖對(duì)不同方言語(yǔ)音進(jìn)行深度學(xué)習(xí)從而提取其特征,進(jìn)而對(duì)贛方言進(jìn)行分類[8]。冉啟斌提出采用DTW算法直接計(jì)算詞匯聲音文件的聲學(xué)距離從而得到語(yǔ)言距離,并報(bào)告了初步實(shí)驗(yàn)情況[9]。本文擬集中報(bào)告采用DTW算法就語(yǔ)言距離計(jì)算所作的進(jìn)一步的方法探索和系列實(shí)踐,主要著眼于進(jìn)行詞匯聲學(xué)距離計(jì)算究竟需要多少詞項(xiàng)數(shù)量、不同詞項(xiàng)內(nèi)容是否會(huì)對(duì)計(jì)算結(jié)果產(chǎn)生影響及一系列相關(guān)問(wèn)題。

        二、詞匯聲學(xué)距離計(jì)算需要多少詞項(xiàng)數(shù)量?

        本文采用的詞匯聲學(xué)距離計(jì)算方法為“動(dòng)態(tài)時(shí)間規(guī)整”(dynamic time warping,簡(jiǎn)稱DTW)算法。Holmes等人對(duì)DTW算法有詳細(xì)的描述[10]。Mielke使用這種算法對(duì)英語(yǔ)母語(yǔ)者的58個(gè)輔音和元音音素進(jìn)行距離計(jì)算,繪制了這些音素的分類樹圖并作了主成分分析[11]。冉啟斌 將DTW算法擴(kuò)展到對(duì)詞匯的聲學(xué)距離計(jì)算上,以8種語(yǔ)言及語(yǔ)言變體為對(duì)象討論了不同詞項(xiàng)數(shù)量、不同計(jì)算方法對(duì)聚類結(jié)果的影響[9]。該文分析顯示,相比于10個(gè)詞、30個(gè)詞、50個(gè)詞的樣本數(shù)量,以76個(gè)核心詞為樣本的距離計(jì)算效果最好;且對(duì)應(yīng)詞項(xiàng)兩兩計(jì)算的方式優(yōu)于所有詞項(xiàng)兩兩計(jì)算的方式。對(duì)應(yīng)詞項(xiàng)兩兩計(jì)算的方式確實(shí)效果更好,本文不再討論。在詞項(xiàng)數(shù)量上,雖然我們認(rèn)為在特定語(yǔ)言變體的計(jì)算中76個(gè)核心詞是足夠的,但是為更加穩(wěn)定和可靠起見(jiàn),我們對(duì)更多詞項(xiàng)數(shù)量的計(jì)算結(jié)果進(jìn)行了對(duì)比分析。下面報(bào)告更多詞項(xiàng)數(shù)量的計(jì)算情況。

        我們據(jù)以計(jì)算的8種語(yǔ)言變體與冉啟斌在“基于詞匯聲學(xué)距離的語(yǔ)言計(jì)算分類實(shí)驗(yàn)”[9]中所提的語(yǔ)言變體相同,分別是:哈薩克語(yǔ)(新疆哈巴河),蒙古語(yǔ)(內(nèi)蒙古正藍(lán)旗),蒙古語(yǔ)布里亞特方言(內(nèi)蒙古鄂溫克旗),唐汪話(甘肅東鄉(xiāng)族自治縣),藏語(yǔ)(西藏拉薩市),瑤語(yǔ)(云南勐臘縣),瑤語(yǔ)(海南瓊中縣)。為便于計(jì)算與制圖,我們對(duì)8種語(yǔ)言或語(yǔ)言變體按一定規(guī)則進(jìn)行了編碼。編碼結(jié)果分別是:哈薩克語(yǔ)(哈巴河)-KAHB,蒙古語(yǔ)(正藍(lán)旗)-MVZL,蒙古語(yǔ)布里亞特方言(鄂溫克旗)-BXEW,唐汪話(東鄉(xiāng)族自治縣)-TANW,藏語(yǔ)(拉薩市)-BOLS,瑤語(yǔ)(勐臘縣)-IUML,瑤語(yǔ)(瓊中縣)-IUQZ。為比較不同詞項(xiàng)數(shù)量對(duì)計(jì)算結(jié)果具有怎樣的影響,分別從前往后選擇了10個(gè)詞(1)語(yǔ)保項(xiàng)目錄制各個(gè)點(diǎn)的詞匯,有的詞在該地不一定有,這樣設(shè)置的是10個(gè)詞,實(shí)際上可能正好是10個(gè),也可能不足10個(gè),但相差不大。為方便說(shuō)明,均按整數(shù)稱說(shuō)。其他詞項(xiàng)數(shù)量同此,不再另行說(shuō)明。、30個(gè)詞、50個(gè)詞、100個(gè)詞、200個(gè)詞、300個(gè)詞、500個(gè)詞、800個(gè)詞、1 000個(gè)詞、1 200個(gè)詞進(jìn)行對(duì)應(yīng)詞項(xiàng)距離計(jì)算。語(yǔ)保詞匯項(xiàng)目的類別從前往后依次為天文地理、時(shí)間方位、植物等,一直到數(shù)量、代、副、介、連詞等14類。10種詞匯詞項(xiàng)數(shù)量得到距離數(shù)據(jù)后使用SPSS20.0進(jìn)行系統(tǒng)聚類分析(組間連接方式,平方歐氏距離)。這樣得到的10種聚類分析樹圖如圖1所示。

        圖1 不同詞項(xiàng)數(shù)量距離計(jì)算聚類結(jié)果

        從圖1可以看到,當(dāng)詞項(xiàng)數(shù)量為10個(gè)詞時(shí),兩種蒙古語(yǔ)變體、兩種瑤語(yǔ)變體均聚在了一起,這說(shuō)明距離很近的語(yǔ)言其聲學(xué)上相似的因素已經(jīng)起到了作用。從詞項(xiàng)數(shù)量的不斷增加來(lái)看,當(dāng)詞項(xiàng)數(shù)量從10、30、50個(gè)增加到100、200個(gè)時(shí),各個(gè)樹圖的上位分支存在著一定程度的變化。當(dāng)詞項(xiàng)數(shù)量達(dá)到200個(gè)時(shí),樹圖的整個(gè)分類基本上穩(wěn)定下來(lái)。當(dāng)詞項(xiàng)數(shù)量從200個(gè)逐步增加到300、500、800、1 000、1 200個(gè)時(shí),除了具體語(yǔ)言的枝條長(zhǎng)短具有一些細(xì)微的差異外,整個(gè)樹圖沒(méi)有再出現(xiàn)大的變化。換言之,詞項(xiàng)數(shù)量在200個(gè)以上繼續(xù)增加,聚類效果并沒(méi)有得到較大實(shí)質(zhì)性的改善和提升。這表明依據(jù)詞匯聲學(xué)距離數(shù)據(jù)的語(yǔ)言聚類在詞項(xiàng)數(shù)量達(dá)到200個(gè)以上時(shí)已經(jīng)趨于穩(wěn)定;也表明進(jìn)行語(yǔ)言詞匯聲學(xué)距離計(jì)算的所需詞項(xiàng)數(shù)量以200個(gè)為基礎(chǔ)是足夠的。應(yīng)該說(shuō)明的是,冉啟斌曾經(jīng)使用斯瓦迪士核心詞表中的76個(gè)詞對(duì)8種語(yǔ)言變體進(jìn)行聚類分析,并在9種漢語(yǔ)方言變體的聚類上取得了較好的結(jié)果[9]。我們認(rèn)為在特定的情況下詞項(xiàng)數(shù)量低于200個(gè)是可行的,不過(guò)從總體來(lái)看仍然以不低于200個(gè)詞為好。事實(shí)上,我們使用154個(gè)核心詞或非核心詞時(shí)其計(jì)算結(jié)果與使用200個(gè)詞已經(jīng)是一致的(詳見(jiàn)下文)。因此將200個(gè)詞定為進(jìn)行聲學(xué)距離計(jì)算的最低詞項(xiàng)數(shù)是出于更穩(wěn)妥和保守的考慮。

        三、不同詞項(xiàng)內(nèi)容對(duì)計(jì)算結(jié)果是否具有影響?

        依據(jù)詞匯聲學(xué)距離進(jìn)行語(yǔ)言計(jì)算分類的另一個(gè)問(wèn)題是,當(dāng)使用200個(gè)詞的詞項(xiàng)數(shù)量時(shí),選擇不同的200個(gè)詞(即不同的詞匯意義內(nèi)容)是否會(huì)對(duì)計(jì)算結(jié)果產(chǎn)生影響?例如當(dāng)我們選擇200個(gè)名詞進(jìn)行計(jì)算,與選擇200個(gè)動(dòng)詞或其他任何200個(gè)詞進(jìn)行計(jì)算,結(jié)果是否會(huì)有所不同?這是值得研究的問(wèn)題。對(duì)這一問(wèn)題我們做了三個(gè)方面的測(cè)試,下面分別進(jìn)行報(bào)告。

        第一個(gè)方面的測(cè)試是選取200個(gè)核心詞進(jìn)行計(jì)算,同時(shí)也選取200個(gè)非核心詞進(jìn)行計(jì)算,觀察二者的計(jì)算結(jié)果是否會(huì)有所不同。我們使用的是斯瓦迪士200核心詞表。事實(shí)上斯瓦迪士200核心詞表中的詞只有154個(gè)詞在語(yǔ)保項(xiàng)目詞匯錄音中存在,因此我們就以154個(gè)核心詞進(jìn)行測(cè)試(為方便稱說(shuō),我們有時(shí)也稱為“200核心詞”測(cè)試)。非核心詞則隨機(jī)從1 200個(gè)詞中選取154個(gè)詞。這樣對(duì)前述8種語(yǔ)言及語(yǔ)言變體進(jìn)行距離計(jì)算,得到兩種聚類結(jié)果如圖2所示。

        圖2 154個(gè)核心詞與非核心詞距離計(jì)算聚類結(jié)果

        從圖2可見(jiàn),154個(gè)核心詞與非核心詞的計(jì)算結(jié)果幾乎是相同的,除了枝條的長(zhǎng)短上有細(xì)微差異外,8種語(yǔ)言及語(yǔ)言變體的分類情況是完全一致的。這反映出依據(jù)詞匯聲學(xué)距離的語(yǔ)言計(jì)算在選取核心詞還是非核心詞上并沒(méi)有產(chǎn)生實(shí)質(zhì)性的不同。

        可以補(bǔ)充說(shuō)明的是,事實(shí)上我們也以斯瓦迪士100核心詞表(對(duì)應(yīng)于語(yǔ)保詞匯錄音的只有76個(gè)詞)為對(duì)象進(jìn)行計(jì)算。結(jié)果顯示核心詞與非核心詞的聚類情況總體一致,但存在局部差異(限于篇幅這里不再給出聚類樹圖,它們的區(qū)別主要是唐汪話和壯語(yǔ)的聚類位置發(fā)生了對(duì)換)。但我們認(rèn)為這不是由核心詞與非核心詞的不同帶來(lái)的,而主要是由唐汪話和壯語(yǔ)的特殊情況造成的(詳見(jiàn)后文);同時(shí)也由于76個(gè)詞本身詞項(xiàng)數(shù)量偏少?gòu)亩鴮?dǎo)致了聚類的不夠穩(wěn)定。

        考察不同詞項(xiàng)意義內(nèi)容是否會(huì)對(duì)計(jì)算結(jié)果產(chǎn)生影響的第二種測(cè)試時(shí),我們選取了6種完全不同的200個(gè)詞進(jìn)行距離計(jì)算。6種完全不同的200個(gè)詞是將語(yǔ)保項(xiàng)目的1 200個(gè)詞分為6段,分別是:1段(1~200個(gè)詞),2段(201~400個(gè)詞),3段(401~600個(gè)詞),4段(601~800個(gè)詞),5段(801~1 000個(gè)詞),6段(1 001~1 200個(gè)詞)。這6段的詞項(xiàng)是完全不相同的。其中1~200個(gè)詞事實(shí)上我們已經(jīng)計(jì)算過(guò)(即上文測(cè)試不同詞項(xiàng)數(shù)量中的200個(gè)詞,參見(jiàn)圖1中右上部的200個(gè)詞聚類樹圖),這里不再單獨(dú)給出。這樣得到的其余5段200個(gè)詞聚類結(jié)果如圖3所示。

        在進(jìn)行枸杞子對(duì)照藥材粉碎時(shí),合理選擇預(yù)處理方法,對(duì)其后續(xù)的粉碎工作起到事半功倍的效果。經(jīng)過(guò)預(yù)處理的枸杞子對(duì)照藥材能較好地保持其外觀和色澤,且相關(guān)特性量值無(wú)顯著變化。處理后的枸杞子對(duì)照藥材水分含量相對(duì)較低,易粉碎,粉碎后粉末的流動(dòng)性較好,易于分裝,有效提高分裝效率。

        圖3顯示,5段完全不同200個(gè)詞的聚類情況總體一致,但是存在局部差異,這種差異仍然主要在唐汪話和壯語(yǔ)的位置上。唐汪話和壯語(yǔ)體現(xiàn)出的聚類結(jié)果主要有兩種情況:一是唐汪話和壯語(yǔ)共同構(gòu)成一類;二是唐汪話單獨(dú)成為一類;三是壯語(yǔ)單獨(dú)成為一類。將1段(圖1右上部)的情況考慮進(jìn)來(lái),可以看到在1段、4段、5段中唐汪話和壯語(yǔ)共同構(gòu)成一類;在2段、6段中唐汪話單獨(dú)構(gòu)成一類;3段中壯語(yǔ)單獨(dú)構(gòu)成一類。至于其他5種語(yǔ)言及其變體,則6段200個(gè)詞的聚類情況除了枝條長(zhǎng)短略有差異外是完全一致的。

        圖3 5段完全不同的200個(gè)詞距離計(jì)算聚類結(jié)果

        為什么會(huì)出現(xiàn)唐汪話和壯語(yǔ)在不同詞段上的聚類差異呢?我們認(rèn)為這與唐汪話和壯語(yǔ)本身的距離情況有關(guān)。觀察圖1可以看到,在500個(gè)詞和1 200個(gè)詞的聚類樹圖中,唐汪話和壯語(yǔ)都是和兩種瑤語(yǔ)變體并列而分為三支;換句話說(shuō),唐汪話和壯語(yǔ)的獨(dú)立性基本是相同的,二者的地位沒(méi)有高下之分。實(shí)際上,下文我們進(jìn)行的倒序測(cè)試也能看到,50個(gè)詞、100個(gè)詞、800個(gè)詞、1 000個(gè)詞、1 200個(gè)詞的聚類樹圖(參見(jiàn)圖4)中唐汪話和壯語(yǔ)的地位也都是并列的。由于二者的地位是并列的,因此受到不同詞項(xiàng)意義內(nèi)容的影響時(shí),二者的相對(duì)關(guān)系就可能出現(xiàn)一定程度的搖擺。至于唐汪話和壯語(yǔ)二者地位并列的原因,應(yīng)該是由8種語(yǔ)言變體之間距離關(guān)系的不均衡造成的。兩種瑤語(yǔ)變體、兩種蒙古語(yǔ)變體之間的距離關(guān)系密切,而其他幾種語(yǔ)言之間的關(guān)系則比較遠(yuǎn),相互之間關(guān)系稀疏。如果用以測(cè)試的語(yǔ)言變體之間的關(guān)系分布均衡則聚類結(jié)果應(yīng)該會(huì)得到改善。

        檢測(cè)不同詞項(xiàng)意義內(nèi)容對(duì)計(jì)算結(jié)果是否會(huì)產(chǎn)生影響的第三種測(cè)試,我們是和第二節(jié)報(bào)告的不同詞項(xiàng)數(shù)量的聚類結(jié)果相結(jié)合起來(lái)做的。第二節(jié)報(bào)告了從1 200個(gè)詞中從前往后分別選擇10個(gè)詞、30個(gè)詞一直到1 200個(gè)詞進(jìn)行距離計(jì)算;這里我們則從1 200個(gè)詞中從后往前分別選擇10個(gè)詞、30個(gè)詞一直到1 200個(gè)詞進(jìn)行距離計(jì)算。為方便稱說(shuō),從前往后選擇詞數(shù)我們稱之為正序;從后往前選擇詞數(shù)我們稱之為倒序。倒序選擇的1 200個(gè)詞即語(yǔ)保項(xiàng)目通用詞匯的全部詞項(xiàng),與前面正序選擇的1 200個(gè)詞是完全相同的。由于二者相同,為圖形整齊我們也將1 200個(gè)詞的聚類結(jié)果放入倒序計(jì)算中。這樣得到的10種倒序聚類樹圖如圖4所示。

        觀察圖4可以看到,當(dāng)詞項(xiàng)數(shù)量達(dá)到50個(gè)以上時(shí)聚類結(jié)果趨于合理穩(wěn)定,這與正序相比聚類效果上升得更快。在詞項(xiàng)數(shù)量為200、300、500個(gè)時(shí)唐汪話在局部分類上均獨(dú)立為一類。唐汪話的這種表現(xiàn)上文做過(guò)說(shuō)明??梢耘c圖1對(duì)照觀察的是,詞項(xiàng)數(shù)量在200個(gè)以上時(shí)除唐汪話、壯語(yǔ)的局部位置差異外其余語(yǔ)言的聚類情況具有很高的一致性。其中800個(gè)詞、100個(gè)詞、1 200個(gè)詞的結(jié)果基本上相同。倒序測(cè)試從多個(gè)因素交互的角度反映出當(dāng)詞項(xiàng)達(dá)到一定數(shù)量時(shí)不同詞項(xiàng)意義內(nèi)容對(duì)聚類結(jié)果的影響是不大的。

        圖4 倒序不同詞項(xiàng)數(shù)量距離計(jì)算聚類結(jié)果

        四、適用于漢語(yǔ)方言的計(jì)算方式及其他測(cè)試

        除詞項(xiàng)數(shù)目、詞項(xiàng)意義內(nèi)容是否會(huì)對(duì)計(jì)算結(jié)果產(chǎn)生影響外,我們進(jìn)行的測(cè)試還包括適用于漢語(yǔ)方言詞匯聲學(xué)距離計(jì)算的詞項(xiàng)內(nèi)容與形式、普通話聲調(diào)的距離計(jì)算以及其他測(cè)試等,下面分別描述。

        眾所周知,在進(jìn)行漢語(yǔ)方言的分類與調(diào)查時(shí)往往以中古音為依據(jù)。在進(jìn)行漢語(yǔ)方言的聲學(xué)距離計(jì)算時(shí),將古音的因素考慮進(jìn)來(lái)設(shè)計(jì)特定的詞匯項(xiàng)目,計(jì)算結(jié)果是否會(huì)具有較好的效果?這方面我們進(jìn)行了與前面測(cè)試模式不同的嘗試。由于中古音的聲、韻、調(diào)系統(tǒng)比較復(fù)雜,要囊括中古音的全部音系特征是很困難的,因此我們將有代表性的聲母、韻母、聲調(diào)等多方面的因素考慮進(jìn)來(lái),將這些因素融入40個(gè)漢字中,且這40個(gè)漢字形成20個(gè)詞(參見(jiàn)附錄“包含中古音因素的漢語(yǔ)方言詞匯發(fā)音表”)。我們初步選擇了9種漢語(yǔ)方言進(jìn)行錄音,這9種漢語(yǔ)方言分別是:北京話(GHBJ)、西南官話(GHXN)、晉方言(JIN)、湘方言(XIANG)、贛方言(GAN)、客家話(KEJIA)、吳方言(WU)、閩方言(MIN)、粵方言(YUE)(2)這是下文聚類樹圖中使用的代碼,下同。。因?yàn)槭菧y(cè)試,這9種漢語(yǔ)方言的層次不完全一致,有的方言如閩方言、粵方言下面還分不同的次方言,在這次測(cè)試中發(fā)音人的選擇只考慮了方言大區(qū)的相同。每種方言選擇了4名發(fā)音人(2男2女),均為青年,發(fā)音時(shí)每個(gè)詞按正常說(shuō)話方式發(fā)音3遍,如該詞在當(dāng)?shù)厥褂闷渌f(shuō)法,則使用當(dāng)?shù)氐氐赖恼f(shuō)法發(fā)音。在進(jìn)行聲學(xué)距離計(jì)算時(shí)這次我們將各個(gè)方言的4名發(fā)音人合在一起進(jìn)行計(jì)算,這樣每種方言共有20詞*3遍*4人=240個(gè)樣本,由此計(jì)算得到的9種漢語(yǔ)方言聚類分析結(jié)果如圖5所示。

        從圖5來(lái)看,9種漢語(yǔ)方言首先分為兩大類,一類包括閩方言和粵方言;另一類包括其他7種方言。在其他7種方言中,吳方言和其他方言分開,自成一類;北京話和湘方言聚在一起,再和西南官話聚在一起;贛方言和客家話聚在一起,再和晉方言聚在一起。這一聚類圖很值得說(shuō)明。贛、客方言聚在一起顯然印證了贛、客方言具有很多共同點(diǎn)的公認(rèn)看法。圖5聚類值得注意的地方包括:湘方言和北京話而不是和西南官話首先聚在了一起;晉方言和贛、客方言聚成一個(gè)小類,這兩個(gè)方面是存在疑問(wèn)的。從聲學(xué)距離的角度來(lái)看,圖5中的聚類有的地方是可以理解的,但有的地方則與一般預(yù)想存在較大差距。

        從圖5來(lái)看,通過(guò)設(shè)計(jì)包含中古音因素的發(fā)音表對(duì)漢語(yǔ)方言進(jìn)行測(cè)試,我們認(rèn)為這種方法似乎并沒(méi)有取得更好的效果。分析其中的緣由,我們認(rèn)為可能與以下兩方面的原因有關(guān)。第一,雖然每種方言的計(jì)算樣本達(dá)到了240個(gè),但詞項(xiàng)數(shù)目只有20個(gè),增加的是發(fā)音人數(shù)(4人)和發(fā)音遍數(shù)(3遍),詞項(xiàng)數(shù)目本身沒(méi)有增加;第二,詞匯聲學(xué)距離計(jì)算依據(jù)的是不同方言之間共時(shí)的音頻聲學(xué)距離,對(duì)諸如清濁、入聲等這些因素可能并不敏感,更不能反映音系在歷時(shí)上的分合演變情況。因此使用包含中古音因素語(yǔ)料的方法在聲學(xué)距離計(jì)算上并不能取得更好的效果。而更重要的原因是,即使包含中古音因素的方法計(jì)算效果更好,這種方法也不具有普遍性,無(wú)法在更多語(yǔ)言和方言中推廣。例如對(duì)歐美語(yǔ)言、非洲語(yǔ)言等漢語(yǔ)方言之外的語(yǔ)言都無(wú)法使用這一方法。

        圖5 包含中古音因素的9種漢語(yǔ)方言距離計(jì)算聚類結(jié)果

        總之,可以預(yù)見(jiàn)的是,包含中古音因素的方法在依據(jù)詞匯聲學(xué)距離進(jìn)行的語(yǔ)言計(jì)算分類上可行性很低。

        除計(jì)算語(yǔ)言或方言之間的距離外,我們還對(duì)一些語(yǔ)音特征之間的距離進(jìn)行了初步測(cè)試,這里簡(jiǎn)要說(shuō)明一下對(duì)不同聲調(diào)之間距離的計(jì)算情況。聲調(diào)是一種超音段特征,通常用數(shù)字或其他代表的符號(hào)(如標(biāo)調(diào)符號(hào))來(lái)表示。在使用編輯距離的計(jì)算中超音段特征很難計(jì)算,ASJP模式的距離計(jì)算都將超音段特征予以略去。為考察聲學(xué)距離對(duì)聲調(diào)距離計(jì)算的效力如何,我們選擇普通話的4個(gè)聲調(diào)進(jìn)行了測(cè)試。普通話4個(gè)聲調(diào)的語(yǔ)料來(lái)自黃伯榮、廖序東主編的《現(xiàn)代漢語(yǔ)》附帶光盤中的標(biāo)準(zhǔn)發(fā)音文件[12]。發(fā)音人男、女各1名,聲調(diào)發(fā)音音節(jié)共10個(gè),10個(gè)音節(jié)各配以4個(gè)聲調(diào)。由于這10個(gè)音節(jié)的聲母和韻母完全相同,不同的只有4個(gè)聲調(diào),因此適合于將其作為語(yǔ)料進(jìn)行聲調(diào)之間距離的計(jì)算。在制圖時(shí)我們將4個(gè)聲調(diào)分別用一、二、三、四表示。這樣得到的兩名發(fā)音人4個(gè)聲調(diào)的聚類樹圖如圖6所示。男、女發(fā)音人的聚類樹圖高度一致,除了二聲的枝條長(zhǎng)度略有細(xì)微差異外,聚類樹圖整體上幾乎完全相同。這反映出聲調(diào)聲學(xué)距離計(jì)算方法的一致性和有效性。在聲學(xué)上普通話的4個(gè)聲調(diào)首先分為第三聲和第一、四、二聲兩大類,第三聲單獨(dú)形成一類;換言之,在聲學(xué)上第三聲與其他三個(gè)聲調(diào)的差異程度是最大的。這與我們對(duì)普通話聲調(diào)的一般認(rèn)識(shí)是一致的,單念的第三聲是個(gè)曲折調(diào),這顯然與其他三個(gè)聲調(diào)差異程度最大。人們一般認(rèn)為的某些音素或特征之間的主觀距離事實(shí)上融合了生理、聲學(xué)、心理等多方面的因素,而這里我們計(jì)算得出的距離是以聲調(diào)的聲學(xué)特性為依據(jù)的。聲調(diào)之間的聲學(xué)距離以及其他距離還值得進(jìn)一步進(jìn)行研究發(fā)掘。普通話聲調(diào)的聲學(xué)距離測(cè)試具有突出的意義:一方面說(shuō)明可以通過(guò)聲學(xué)距離來(lái)測(cè)量聲調(diào)之間的差異;一方面也表明基于詞匯聲學(xué)距離的語(yǔ)言距離中是包含了聲調(diào)差異的因素的。前面我們說(shuō)過(guò),編輯距離計(jì)算將超音段特征略去。陳六君等在計(jì)算漢語(yǔ)方言的差異時(shí),將聲母、韻母、聲調(diào)等都轉(zhuǎn)換為一系列特征進(jìn)行計(jì)算[13]。這種方法使聲調(diào)調(diào)值計(jì)算成為可能,不過(guò)對(duì)于像入聲這樣的聲調(diào)轉(zhuǎn)換為幾位數(shù)字的問(wèn)題該文并未提及。本文的測(cè)試顯示聲調(diào)的聲學(xué)距離計(jì)算是可行的,這無(wú)疑為聲調(diào)之間的距離計(jì)算提供了新的方法。

        圖6 依據(jù)聲學(xué)距離的普通話4個(gè)聲調(diào)聚類結(jié)果

        我們所做的語(yǔ)言聲學(xué)距離測(cè)試的對(duì)象還包括“語(yǔ)音比較”數(shù)據(jù)庫(kù)?!罢Z(yǔ)音比較——探索跨語(yǔ)言語(yǔ)音的多樣性”數(shù)據(jù)庫(kù)(https:∥soundcomparisons.com/)是一個(gè)大型的專業(yè)在線數(shù)據(jù)庫(kù),收錄提供了五六百種語(yǔ)言的常見(jiàn)詞匯的錄音。不過(guò)該數(shù)據(jù)庫(kù)中的錄音在音質(zhì)上差異很大,例如發(fā)音人性別、錄音設(shè)備、信噪比、采樣率、存儲(chǔ)位數(shù)、聲音文件格式等方面都存在不同程度的差異。我們?cè)?jì)算分析過(guò)其中24種語(yǔ)言的距離及聚類情況,看到只有部分聚類結(jié)果是理想的(限于篇幅聚類樹圖此處從略)。因此,我們認(rèn)為依據(jù)詞匯聲學(xué)距離進(jìn)行語(yǔ)言計(jì)算分類需要其詞匯錄音具有良好的音質(zhì)條件。

        五、依據(jù)詞匯聲學(xué)距離進(jìn)行語(yǔ)言距離計(jì)算的一些理論問(wèn)題

        依據(jù)詞匯聲學(xué)距離進(jìn)行的語(yǔ)言距離計(jì)算研究是一種全新的方法,這意味著只要每種語(yǔ)言具有相同的200個(gè)詞以上的語(yǔ)音文件,就能夠完全自動(dòng)對(duì)語(yǔ)言進(jìn)行距離計(jì)算并由此進(jìn)行語(yǔ)言分類等計(jì)算分析。這也提示我們,在看似變異性極大的詞匯聲音之中可能直接蘊(yùn)含有語(yǔ)言之間的距離信息。與以往的語(yǔ)言分類方法相比,以詞匯聲學(xué)距離為依據(jù)的語(yǔ)言計(jì)算分類有兩大特點(diǎn)。一是這種分類不需要將詞匯的語(yǔ)音形式進(jìn)行音標(biāo)或其他編碼的轉(zhuǎn)寫,因此是完全直接的方法;二是這種分類排除了任何主觀介入或人工干預(yù),因此是完全客觀的分類。作為一種新的嘗試,基于詞匯聲學(xué)距離的語(yǔ)言計(jì)算研究有一些理論問(wèn)題需要說(shuō)明,下面從四個(gè)方面進(jìn)行討論。

        第一,良好的錄音音質(zhì)是進(jìn)行聲學(xué)距離計(jì)算的前提。經(jīng)過(guò)前面的一系列實(shí)踐,我們看到錄音音頻的音質(zhì)非常關(guān)鍵,聲學(xué)距離計(jì)算需要在具有良好錄音質(zhì)量保障的基礎(chǔ)上進(jìn)行。眾所周知,聲學(xué)特征的變異性極大,一個(gè)完全相同的語(yǔ)音,不同的發(fā)音人之間、相同發(fā)音人幾次不同的發(fā)音、不同語(yǔ)境中的發(fā)音等都可能存在變異。顯而易見(jiàn),只有在需要計(jì)算的所有語(yǔ)言詞匯的錄音音質(zhì)具有充分保障的前提下,這些語(yǔ)言之間的聲學(xué)距離才能得到真實(shí)體現(xiàn),距離計(jì)算也才能最大限度地發(fā)揮其功效。

        第二,進(jìn)行基于詞匯聲學(xué)距離的語(yǔ)言距離計(jì)算一般不能低于200個(gè)詞,所選擇的詞不受詞項(xiàng)意義內(nèi)容影響。前面的測(cè)試顯示,當(dāng)詞項(xiàng)數(shù)量達(dá)到200個(gè)左右時(shí)語(yǔ)言的聚類結(jié)果是穩(wěn)定的,且詞項(xiàng)數(shù)量進(jìn)一步增大時(shí)聚類效果并不會(huì)得到更多的改善和提升。當(dāng)然,在特定的情況下低于200個(gè)詞進(jìn)行計(jì)算也是可行的,例如154個(gè)核心詞、76個(gè)非核心詞、正序的100個(gè)詞、倒序100個(gè)詞甚至50個(gè)詞等都展現(xiàn)了一致的聚類結(jié)果。我們認(rèn)為,在不同的語(yǔ)言中,每?jī)蓚€(gè)對(duì)應(yīng)詞的聲音之間蘊(yùn)含有不同語(yǔ)言之間的微觀差異,不過(guò)這種差異是非常細(xì)微的,只有當(dāng)詞項(xiàng)數(shù)量不斷增大,蘊(yùn)含的細(xì)微差異才會(huì)逐漸積累凸現(xiàn)出來(lái)。當(dāng)兩種語(yǔ)言之間的微觀聲學(xué)差異積累到200倍(即詞項(xiàng)到200個(gè))時(shí),兩種語(yǔ)言之間的聲學(xué)差異就得到了充分體現(xiàn),并基本上達(dá)到了極限。這也是為什么當(dāng)詞項(xiàng)數(shù)量超過(guò)200個(gè)以后聚類效果得不到實(shí)質(zhì)性提升的原因。

        測(cè)試也清楚地表明,在選擇怎樣的詞上,聲學(xué)距離計(jì)算不受核心詞、非核心詞、動(dòng)詞、名詞或天文、地理乃至數(shù)量、代、副、介、連詞等意義內(nèi)容的影響,只需要不同語(yǔ)言之間的詞匯是對(duì)應(yīng)的即可。這是可以理解的,因?yàn)槁晫W(xué)距離計(jì)算只考慮兩個(gè)聲音文件之間聲學(xué)特性之間的差異。

        值得說(shuō)明的是,漢語(yǔ)方言距離測(cè)試看到距離計(jì)算所需的是200個(gè)詞而不是200個(gè)樣本。語(yǔ)言或方言距離測(cè)試時(shí)樣本雖多,但詞項(xiàng)的差異體現(xiàn)得不夠,聚類結(jié)果是不理想的。從聲學(xué)特性上看,詞項(xiàng)本身的差異不夠大,也就導(dǎo)致幾種語(yǔ)言或方言之間對(duì)應(yīng)聲音的微觀差異積累得不夠。當(dāng)然,在做單個(gè)音素的距離計(jì)算時(shí)樣本數(shù)量可以大幅減少,Mielke使用的是9個(gè)樣本[11],我們對(duì)普通話聲調(diào)的距離測(cè)試使用的則是10個(gè)樣本。

        第三,依據(jù)詞匯聲學(xué)距離得到的語(yǔ)言計(jì)算分類反映的是語(yǔ)言之間的共時(shí)聲學(xué)差異分類??赡苡幸蓡?wèn)指出,本文測(cè)試得到語(yǔ)言或語(yǔ)言變體的聚類結(jié)果到底屬于什么性質(zhì)的分類,它的作用是什么?它可以印證語(yǔ)言發(fā)生學(xué)分類,還是可以印證語(yǔ)言結(jié)構(gòu)分類、類型學(xué)分類乃至地域?qū)W分類?我們認(rèn)為都不是。基于詞匯聲學(xué)距離的語(yǔ)言計(jì)算分類體現(xiàn)的就是不同語(yǔ)言或語(yǔ)言變體之間的聲學(xué)差異或聲學(xué)相似性,它是一種客觀的新的聚類方法。至于分類的結(jié)果與以往的發(fā)生學(xué)分類或單純的語(yǔ)言分區(qū)存在很大的相似性,那是另外一個(gè)問(wèn)題。前面的實(shí)踐結(jié)果看到,依據(jù)聲學(xué)距離的語(yǔ)言聚類分析確實(shí)能夠與以往的發(fā)生學(xué)分類、語(yǔ)言或方言的親疏關(guān)系、方言的共時(shí)分區(qū)等產(chǎn)生很強(qiáng)的關(guān)聯(lián)性。語(yǔ)言的共時(shí)聲學(xué)差異竟然也能反映語(yǔ)言關(guān)系的密切與疏遠(yuǎn),這是很有意思的現(xiàn)象,很值得進(jìn)一步深入研究和探索。

        第四,基于詞匯聲學(xué)距離的語(yǔ)言計(jì)算分類可能在越接近末端節(jié)點(diǎn)位置上的語(yǔ)言聚類效果越好。在前面測(cè)試的8種語(yǔ)言聚類中,距離關(guān)系很近的兩種蒙古語(yǔ)方言、兩種瑤語(yǔ)方言都聚在了一起,但是在根節(jié)點(diǎn)上屬于阿爾泰語(yǔ)系突厥語(yǔ)族的哈薩克語(yǔ)沒(méi)有與屬于阿爾泰語(yǔ)系蒙古語(yǔ)族的兩種方言聚在一起,而是在根節(jié)點(diǎn)上自成一類。這與發(fā)生學(xué)分類或其他分類都存在差異。這可能反映出基于詞匯聲學(xué)距離的語(yǔ)言計(jì)算分類對(duì)于局部性(local)的近距離語(yǔ)言關(guān)系具有良好的效果,而對(duì)于全局性(global)的語(yǔ)言總體大類分化效果并不太好。由于目前的測(cè)試仍以前面提到的8種語(yǔ)言及其變體為主,這一結(jié)論還有待于在更多語(yǔ)言中去檢測(cè)證實(shí)。

        除此以外,目前所進(jìn)行的語(yǔ)言聲學(xué)距離計(jì)算均依據(jù)同一男性發(fā)音人的語(yǔ)料,因受語(yǔ)料條件的限制,計(jì)算結(jié)果還沒(méi)有對(duì)人與人之間的同一性及差異性進(jìn)行測(cè)試。不過(guò)我們推測(cè)當(dāng)詞匯項(xiàng)目達(dá)到一定數(shù)量后人際差異可能會(huì)被淡化掉。當(dāng)然這仍只是推測(cè),將來(lái)會(huì)進(jìn)行多人之間的計(jì)算分析,以便得出確鑿的結(jié)果。

        六、結(jié) 語(yǔ)

        本文報(bào)告了我們?cè)诨谠~匯聲學(xué)距離的語(yǔ)言計(jì)算分類方面所做的多種實(shí)際測(cè)試和實(shí)踐。一般認(rèn)為語(yǔ)音的聲學(xué)特征變異性極大,直接依據(jù)聲音文件進(jìn)行語(yǔ)言計(jì)算分類是難以想象的。然而我們的測(cè)試看到直接根據(jù)聲音文件進(jìn)行語(yǔ)言距離計(jì)算不僅是可能的,而且是有意義的嘗試。與有的依據(jù)語(yǔ)音文件進(jìn)行距離計(jì)算不同的是,我們的距離計(jì)算沒(méi)有提取語(yǔ)音中元音的共振峰、輔音的VOT等聲學(xué)特征參數(shù),而是使用DTW算法直接計(jì)算兩個(gè)聲音文件的聲學(xué)距離。

        我們的測(cè)試看到,基于聲學(xué)距離的語(yǔ)言聚類分析對(duì)于較近距離關(guān)系的語(yǔ)言變體的分類效果良好,它能夠?yàn)榻嚯x的語(yǔ)言之間關(guān)系提供純粹客觀的依據(jù)。限于語(yǔ)料條件限制,目前的測(cè)試以8種左右的語(yǔ)言及語(yǔ)言變體為主。如能有大批量的詞匯聲音文件進(jìn)行大規(guī)模的聲學(xué)距離計(jì)算,從而對(duì)這些語(yǔ)言進(jìn)行聚類分析或主成分分析,將能夠?yàn)槲覀兲峁└鼜V闊和確鑿的語(yǔ)言之間的聲學(xué)距離數(shù)據(jù),有望給我們對(duì)語(yǔ)言的認(rèn)識(shí)帶來(lái)更多的發(fā)現(xiàn)和啟示。

        (黃行先生對(duì)本文的計(jì)算分析給予了部分語(yǔ)料支持,謹(jǐn)表謝忱。)

        猜你喜歡
        詞匯分類語(yǔ)言
        分類算一算
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        語(yǔ)言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        本刊可直接用縮寫的常用詞匯
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        讓語(yǔ)言描寫搖曳多姿
        教你一招:數(shù)的分類
        累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
        а天堂8中文最新版在线官网| 特黄三级一区二区三区| 五十路一区二区中文字幕| 色婷婷色丁香久久婷婷| 无码中文字幕免费一区二区三区| 国产精品国语对白露脸在线播放| 国产高清天干天天视频| 成人性生交大片免费看l| 婷婷综合另类小说色区| 成人综合网亚洲伊人| 无码一区二区三区网站| 中文字幕一区二区三区| 三个男吃我奶头一边一个视频| 国产精品国产成人国产三级| 免费一级国产大片| 亚洲精品天堂日本亚洲精品| 77777_亚洲午夜久久多人| 午夜丰满少妇性开放视频| 人妻系列无码专区久久五月天 | 久久久久中文字幕无码少妇| 一本大道加勒比东京热| 亚洲av天堂在线视频| 国产精品久久久久久久久免费| 亚洲AV无码成人精品区天堂| 亚洲熟女少妇精品久久| 性猛交ⅹxxx富婆视频| 久久综合精品国产丝袜长腿| 无遮高潮国产免费观看韩国 | 亚洲无码视频一区:| 亚洲国产一区二区中文字幕| 国产三级av在线播放| 国模精品无码一区二区二区| 日本熟妇高潮爽视频在线观看| 亚洲国产成人久久综合碰碰| 在线亚洲+欧美+日本专区| 午夜影视啪啪免费体验区入口| 久久av一区二区三区黑人| 三年片在线观看免费观看大全中国| 曰本无码人妻丰满熟妇5g影院| 亚洲精品一区二区在线播放| 蜜桃成熟时在线观看免费视频|