亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于語譜圖的江西境內(nèi)贛方言自動分區(qū)研究

2021-05-27 06:14:20顏為之王明文但揚杰

中文信息學(xué)報 2021年4期

關(guān)鍵詞：特征

顏為之，王明文，徐凡，但揚杰，羅健

(江西師范大學(xué) 計算機信息工程學(xué)院，江西南昌 330022)

0 引言

漢語方言的變化與人類歷史的變遷、社會活動有著密切的關(guān)系。某一地域的方言與其歷史方言的關(guān)系紛繁復(fù)雜，有的是在其歷史方言的基礎(chǔ)上傳承演變而來，有的是由于戰(zhàn)爭動亂、人類遷徙等原因消亡，有的語音已經(jīng)發(fā)生明顯變化卻依舊保留歷史特征[1]。其中，方言的分區(qū)是文化交互的內(nèi)在關(guān)系的實質(zhì)體現(xiàn)。現(xiàn)代語言學(xué)中主流的方言分區(qū)以語言因素為重要依據(jù)，在對方言語音、方言詞匯以及方言語法進行充分的調(diào)查研究基礎(chǔ)上，通過古今語音比較的方式，輔以社會歷史背景方面的資料，并結(jié)合地理類型和行政區(qū)域等其他因素，根據(jù)各地方言中表現(xiàn)出來的語言特征對方言片區(qū)進行劃分。語言的復(fù)雜性造成了方言分區(qū)在原則、依據(jù)和條件等方面的不統(tǒng)一，使得現(xiàn)代語言學(xué)家對方言片區(qū)的人工劃分持有不同意見[2-6]。計算機自動分區(qū)通過采用自然科學(xué)方法，為方言的分區(qū)提供了客觀的數(shù)據(jù)參照，對提高方言識別精度有著重要作用，對發(fā)掘方言文化的內(nèi)涵關(guān)系具有進步意義。

贛方言(贛語)是中國漢語七大方言之一，為漢族江右民系使用的主要語言，使用范圍主要在江西省境內(nèi)，分布在贛江的中下游、撫河流域、鄱陽湖流域及其周邊、湘東和閩西北、皖西南、鄂東南和湘西南等地區(qū)，使用人口約5 500萬左右。目前，現(xiàn)代語言學(xué)家對江西省境內(nèi)贛方言(以下簡稱贛方言)分區(qū)的主流方案都是采用人工劃分方式[7-11]，主要采用方言詞匯和語法特點進行人工分區(qū)。在漢語方言與計量研究上，先后有學(xué)者發(fā)表了一些頗有影響的文章和專著[12-17]，這些文獻都從理論和實踐兩方面對計量研究在漢語方言關(guān)系研究中的地位、作用和意義作了探討。近年來，部分學(xué)者開始在漢語方言的分區(qū)上嘗試采用計量分析方法，通過聚類分析對現(xiàn)有方言的語音特征進行方言的分類或方言分區(qū)。而在如何利用計算機自動提取方言的語音特征，并對其進行聚類分析鮮有文獻著作。

基于此，本文首先構(gòu)建了江西省11個省轄市，91個下轄縣級行政區(qū)的時長約1 500分鐘的1 223條語音語料庫。然后分別提取方言語音中梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficient,MFCC)特征以及語譜圖兩種不同的語音特征。針對語音特征提取的維度過大問題，在MFCC特征上采取了PCA(principle component analysis)降維處理，在語譜圖特征上采用基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)系統(tǒng)的自編碼降維處理。對降維后的語音特征分別采用k-均值算法聚類、高斯混合聚類和層次聚類對方言自動分區(qū)，并采用聚類性能度量指標評價聚類效果。實驗結(jié)果表明，新型語譜圖特征的聚類性能度量內(nèi)部指標DBI以及DI指數(shù)顯著優(yōu)于傳統(tǒng)MFCC特征，維度為16時語譜圖和MFCC下拼接特征的聚類效果與傳統(tǒng)人工方言分區(qū)較為接近。

本文組織結(jié)構(gòu)安排如下：第1節(jié)介紹贛方言分區(qū)的相關(guān)工作；第2節(jié)介紹本文采集的贛方言語音語料庫；第3節(jié)詳細闡述本文使用的兩種語音特征及聚類算法；第4節(jié)描述在不同算法下的實驗結(jié)果和分析；第5節(jié)是結(jié)論及后續(xù)工作展望部分。

1 相關(guān)工作

本節(jié)對方言的人工分區(qū)方法、計量分區(qū)方法以及語音的特征提取進行簡要介紹。

1.1 人工分區(qū)方法

針對江西省境內(nèi)贛方言(以下簡稱贛方言)的分區(qū)，顏森將其劃為5個片區(qū)，分別是昌靖片、宜萍片、吉蓮片、鷹弋片和撫廣片，分區(qū)標準既采取了語音標準，也采取了詞匯標準[7]。李如龍將其劃為3個片區(qū)，分別為贛東區(qū)、贛中區(qū)和贛北區(qū)，分區(qū)標準主要以詞匯為標準，根據(jù)相同詞匯的接近總數(shù)的多少來分區(qū)[8]。劉綸鑫將贛方言劃為5個片區(qū)，分別是波陽片、宜春片、臨川片、都昌片和奉新片，分區(qū)標準主要采取了綜合標準，將語音、詞匯和語法特點綜合考慮[9]。孫宜志等人將其劃為南北兩大區(qū)，共7個小片區(qū)，北區(qū)包括都昌片、樂平片和奉新片，南區(qū)包括崇仁片、鉛山片、泰和片和分宜片，分區(qū)標準主要采取了語音標準，也考慮了自然地理和行政區(qū)劃的關(guān)系[10]。謝留文在前任學(xué)者基礎(chǔ)上將贛方言劃為9個片區(qū)，分別是昌靖片、宜瀏片、吉茶片、撫廣片、鷹弋片、大通片、耒資片、洞綏片和懷岳片，分區(qū)標準主要采取了語音標準劃分[11]。這些研究運用了傳統(tǒng)的語言學(xué)方法，通過田野調(diào)查收集語料。由于研究者采取的分區(qū)依據(jù)存在個體差異，導(dǎo)致贛方言片區(qū)劃分不一致問題的出現(xiàn)。

1.2 計量分區(qū)方法

從20世紀70年代初開始，鄭錦全、陸致極、陳海倫、王士元等語言學(xué)家將計量方法應(yīng)用于漢語方言研究，討論了方言關(guān)系的材料和計量單位問題，區(qū)分了方言的親疏關(guān)系和親緣關(guān)系，并在方言上進行了不同計量方法的實踐和研究[12-17]?，F(xiàn)代語言學(xué)家對贛方言分區(qū)的主流方案主要是根據(jù)方言詞匯和語法特點，結(jié)合行政地理特征進行人工分區(qū)。近幾年，已有部分學(xué)者開始嘗試采用計量分析方法對漢語方言分區(qū)進行研究，例如，項夢冰的沂南方言分區(qū)[18]、王榮波等人的江淮官話洪巢片分區(qū)[19]等，主要采取聚類分析的方法對現(xiàn)有方言的語音特征進行方言的分類或方言分區(qū)。而在如何利用計算機自動提取方言的語音特征，并對其進行聚類分析鮮有文獻。

1.3 語音特征提取方法

語言特征提取是從說話人語音信號中獲得能夠描述語音信號特征參數(shù)的過程，是語音識別過程中至關(guān)重要的一步?，F(xiàn)有的特征提取方法包括線性預(yù)測編碼提取(linear predictive coding，LPC)[20]、線性預(yù)測倒譜系數(shù)提取(linear predictive cepstral coefficient，LPCC)[21]以及梅爾頻率倒譜系數(shù)提取(Mel frequency cepstral coefficents，MFCC)[22]等。

20世紀90年代初，潘凌云等人[23]就提出了使用語譜圖進行語音實驗，利用語譜圖密度變化的形變函數(shù)，以及自適應(yīng)閾值技術(shù)來定位每個音素段的邊緣，實驗所得結(jié)果與語音學(xué)家分割的結(jié)果進行比較,得到的識別率高于93%。近幾年，語譜圖特征的應(yīng)用也較為廣泛，如文獻[24]提出將語譜圖特征應(yīng)用于語音情感識別，文獻[25]將語譜圖輸入到有生物視覺依據(jù)的人工神經(jīng)網(wǎng)絡(luò)——脈沖耦合神經(jīng)網(wǎng)絡(luò)，得到輸出圖像的時間序列及其熵序列作為說話人語音的特征,利用其不變性實現(xiàn)說話人識別等。

2 贛方言語音語料庫

本節(jié)主要介紹贛方言語音語料庫的采集工作。

2.1 語料庫設(shè)計

如何選取錄音文本語料，是語料庫建庫工作的關(guān)鍵。為了保證語料庫的質(zhì)量，體現(xiàn)方言語料的特點，在語料庫構(gòu)建之前，本文按照以下原則選取了語料庫的文本語料：①語料庫中的單字、詞盡量涵蓋聲韻現(xiàn)象，以便更好地反映該方言語音的音系特征；②語料庫中的詞匯以漢語調(diào)查常用表為基礎(chǔ)，選取了具備客贛方言特色的口語語料，以便更加符合語音識別面對的真實情形；③語料庫中的句子在內(nèi)容和語義上盡量保證完整，能夠盡可能地反映一個句子的韻律信息；④要求發(fā)音人在自然狀態(tài)下說方言，從而反映語音特征[26-31]。本文依據(jù)此原則，參照國際上語音語料庫的設(shè)計標準，結(jié)合漢語方言之間的差異性，選取了江西省11個省轄市、91個下轄縣級行政區(qū)進行錄音采樣(圖1)。

圖1 方言點采樣

在確定方言點之后錄制語料。說話人選擇的是生活或居住在方言采集點10年以上的高校新生，包含學(xué)生姓名、性別、出生年月、出生地、現(xiàn)居住地、方言區(qū)生活時間和錄音時長。該方言語音語料庫將語音中的性別、年齡、地域等信息用于語音識別和方言特征識別等研究。例如，姓名：某某某；性別：女；出生年份：2000年；民族：漢族；出生地：九江市星子縣南康鎮(zhèn)迎春橋；現(xiàn)居住地：九江市星子縣南康鎮(zhèn)黃泥嶺；在方言區(qū)居住年數(shù)：18年；方言所在地經(jīng)緯度：東經(jīng)116.051 7,北緯29.462 04；錄音1時長：37s；錄音2時長：34s。

方言語料采集參與人數(shù)共740人，其中男性186人，占比25.1%；女性554人，占比74.9%。17至20歲學(xué)生人數(shù)為537人，占72.6%；錄制語音1 223條，時長約1 500分鐘；錄音人最大年紀91歲，最小年紀16歲；方言居住地居住最長84年，最短10年；方言點南昌地區(qū)錄音人數(shù)78人，九江地區(qū)64人，上饒地區(qū)62人，撫州地區(qū)38人，宜春地區(qū)111人，吉安地區(qū)134人，贛州地區(qū)158人，景德鎮(zhèn)地區(qū)29人，萍鄉(xiāng)地區(qū)31人，新余地區(qū)16人，鷹潭地區(qū)29人。地域分布基本符合方言分區(qū)的均勻采樣原則。最終，用于實驗的下轄縣級行政區(qū)個數(shù)76個，用于特征提取的有效錄音936條。

3 贛方言語音特征提取及自動分區(qū)

本節(jié)主要描述語譜圖的特征提取及基于CNN的自編碼器降維、MFCC特征的提取和PCA降維以及所采用的聚類算法。

3.1 語譜圖及基于CNN的自編碼器降維描述

首先提取每一條語音文件的音頻參數(shù)，例如，聲道數(shù)(nchannels:1)、量化位數(shù)(sampwidth:2)、采樣頻率(framerate:16 000)、采樣點數(shù)(nframes:不同長度語音采樣點數(shù)不同，大概范圍為300 000～910 000)。將這些得到的語音參數(shù)(字符串類型)轉(zhuǎn)化為整型參數(shù)并且進行歸一化處理，可以得到語音的幀長和幀疊點數(shù)等參數(shù)。最后將這些參數(shù)作為輸入得到對應(yīng)語音的語譜圖。

為了對語譜圖特征進行降維，本文構(gòu)造了基于卷積神經(jīng)網(wǎng)絡(luò)的自編碼降維系統(tǒng)。自編碼器(autoencoder)是一種利用反向傳播算法使得輸出值等于輸入值的神經(jīng)網(wǎng)絡(luò)，它先將輸入壓縮成潛在空間表征，然后通過這種表征來重構(gòu)輸出。本文使用自編碼器提取語譜圖的瓶頸特征，輸入是原始語譜圖，輸出是生成的語譜圖。自編碼器由編碼器和解碼器組成，編碼器將語譜圖壓縮成瓶頸特征，解碼器將瓶頸特征還原成語譜圖。

本文所使用的CNN網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層(input layer)、卷積層(conv layer)、編碼層(encoder layer)、解碼層(decoder layer)、最大池化層(max pool)、和輸出層(output layer)。語譜圖自編碼器的結(jié)構(gòu)如圖2所示。

圖2 語譜圖自編碼器的結(jié)構(gòu)

從圖2可以看出，輸入層輸入的是由語音文件產(chǎn)生的對應(yīng)語譜圖，輸出層最后輸出每一個語譜圖對應(yīng)的編碼層和解碼層計算后的特征向量。編碼器由兩層卷積層、兩層最大池化層和3層全連接層組成，兩層卷積層的卷積核大小為3×3和2×2，步長為(1,1)、(2,2)。其中第一層卷積核數(shù)量為8，第二層卷積核數(shù)量為4。兩層最大池化層的卷積核大小均為2×2，步長均為2。卷積層不改變圖像的大小，最大池化層將圖像長、寬減半。三層全連接層分別將數(shù)據(jù)降維到64維、16維和3維，其中3維是瓶頸特征的大小。解碼器由三層全連接層和一層反卷積層組成，三層全連接層分別將3維的瓶頸特征升維到16、64，解碼器第二層池化后的維度(記此特征為Linear_3)，再經(jīng)過一層反卷積將Linear_3還原至語譜圖。本文使用L1計算輸入語譜圖與生成語譜圖之間的損失。通過Adam算法更新模型參數(shù)，同時學(xué)習(xí)率設(shè)置為0.001。

3.2 MFCC特征及PCA降維描述

本文將每一個語音信號首先分幀處理，將信號幀化為15 ms/幀，幀移為10 ms，對每幀進行快速離散傅里葉變換(fast Fourier transformation，F(xiàn)FT)，從時域數(shù)據(jù)轉(zhuǎn)變?yōu)轭l域數(shù)據(jù)能量分布來觀察。對FFT的數(shù)據(jù)計算譜線的能量，得到向量特征，在梅爾域內(nèi)能量譜經(jīng)三角帶通濾波器后得到26個對數(shù)濾波器組能量。最后，采用26個對數(shù)濾波輸出經(jīng)過離散余弦變換(discrete cosine transform，DCT)，得到每幀語音的13維的MFCC特征向量。其中，1s的語音按照幀移為10ms來計算，可以切分出100幀，每幀的特征向量是13維，即長度為1s的語音得到的特征向量長度為1 300維。如此高維的特征向量對于聚類來說計算量巨大。因此，本文使用PCA方法對MFCC的高維特征進行降維處理(圖3)。主成分分析PCA也稱主分量分析，它是一種將原有的多個變量通過線性變換轉(zhuǎn)化為少數(shù)幾個新的綜合變量的統(tǒng)計分析方法。這些新變量互不相關(guān)，即能有效地表示原變量的信息，也在降維之后依然能夠最大化保持數(shù)據(jù)的內(nèi)在信息。MFCC特征在經(jīng)過PCA處理后，既減少了后續(xù)聚類分析工作的運算量，又降低了數(shù)據(jù)的存儲量，同時還對語音的特征參數(shù)進行了最優(yōu)化。

圖3 MFCC特征提取及PCA處理過程

3.3 聚類分析

聚類是將沒有分類的標簽數(shù)據(jù)集分為若干個簇的過程，是一種無監(jiān)督的機器學(xué)習(xí)方法。聚類分析的過程則是將聚類對象的數(shù)據(jù)集進行特征的選擇或變換，再通過聚類算法得出結(jié)果進行評價。綜上所述，本文將采集到的贛方言語音語料進行預(yù)處理，提取每條語音的MFCC特征和語譜圖特征，作為聚類分析的特征，并對特征進行降維處理。由于特征的選擇并不會改變其原有屬性，所以結(jié)果只是一個原始屬性的優(yōu)化特征子集，保留了原屬性的物理意義。聚類簇的選擇依靠聚類結(jié)束準則函數(shù)，所以，這種準則函數(shù)一般由人為設(shè)定的終止條件實現(xiàn)。本文在傳統(tǒng)語言學(xué)家對贛方言分類的基準上，人工將聚類簇定為3、5、7、9類，并分別采用傳統(tǒng)的k-means聚類，語言特征常用的層次聚類和語音識別常用的GMM聚類方法進行比較。

4 實驗結(jié)果及分析

本節(jié)描述性能評價指標，不同語音特征下的聚類結(jié)果及對比分析。

4.1 性能評價指標

本文使用聚類性能度量內(nèi)部指標來評價不同聚類方法的效果。常用的內(nèi)部指標有DB指數(shù)(Davies-Bouldin Index，DBI)和Dunn指數(shù)(Dunn Index，DI)，如式(1)、式(2)所示。

① DBI

(1)

② DI

(2)

上述公式中，avg(Ci,Cj)表示某一聚類簇內(nèi)部樣本點距離的均值；diam(Ci,Cj)表示聚類簇Ci，Cj中樣本間的最大距離；dmin(Ci,Cj)表示聚類簇Ci與Cj間的最小樣本距離；dcen(μi,μj)對應(yīng)于簇μi與μj中心點之間的距離。對每一個方言類別，計算與其他方言類的最大相似度值，也就是取出最差結(jié)果，然后對所有類的最大相似度取均值就得到了DBI指數(shù)。其中,DBI的值越小說明類內(nèi)距離越小,同時類間距離越大,而 DI則相反。

4.2 實驗結(jié)果分析

本文依據(jù)上述工作，在收集的936條贛方言語音中按照每個下轄縣級行政區(qū)(76個下轄縣)對應(yīng)一條錄音的原則，隨機抽取76條語音進行實驗。表1及表2列出語譜圖和MFCC特征下的三種聚類方法的評價指標的四種結(jié)果(字體加粗數(shù)據(jù)為更優(yōu)數(shù)據(jù))。實驗結(jié)果表明，3分類上，MFCC特征的DBI數(shù)據(jù)要優(yōu)于語譜圖特征；5分類上，MFCC特征的層次聚類效果優(yōu)于語譜圖特征的層次聚類效果。總體而言，語譜圖特征下的聚類效果要優(yōu)于MFCC特征的聚類效果。

表1 語譜圖特征在不同聚類下比較

表2 MFCC特征在不同聚類下比較

一條方言語音不僅反映了方言的音位系統(tǒng)、聲韻調(diào)系統(tǒng)、音節(jié)系統(tǒng)，還包含不同地域的有連續(xù)音變的多音詞的變調(diào)、變聲、變韻的規(guī)律。通過實驗，MFCC下能發(fā)現(xiàn)語音特征中頻率的出現(xiàn)，卻無法得知該頻率出現(xiàn)的時間點。而語譜圖特征中則蘊含了大量的與語音的語句特性有關(guān)的信息，它綜合了頻譜圖和時域波形的特點，明顯地顯示出語音頻譜隨時間的變化情況，對方言而言是一種很好的區(qū)分性特征。

4.3 實驗對比

本文將MFCC特征與語譜圖特征進行拼接，得出方言自動分區(qū)的數(shù)據(jù)，并與語言學(xué)家的方言分區(qū)進行對比。其中，MFCC主要關(guān)注聲學(xué)底層特征方面，而語譜圖主要考慮語音信號的能量(幅度譜)方面，拼接權(quán)重可以考察實驗數(shù)據(jù)的分類性能，如式(3)所示。

其中，Vmfcc是mfcc特征的向量，Vyupu是語譜圖特征的向量，λ是權(quán)重。V是二者加權(quán)后最終的向量。實驗結(jié)果表明，在16維的語譜圖權(quán)重為0.2和MFCC權(quán)重為0.8下層次聚類的拼接效果和語言學(xué)家分區(qū)最為接近。

本文以顏森[7]的方言分區(qū)為例進行分析。5分類結(jié)果如表3所示，顏森的昌靖片和宜萍片在計算機的5分類中均勻分布；吉蓮片在1、3、5類中較為集中；撫廣片和鷹弋片在3、4、5類中較為集中。

表3 16維下語譜圖權(quán)重為0.2和MFCC權(quán)重為0.8層次聚類的拼接效果

顏森[7]將南昌市等14個市縣劃入昌靖片，并總結(jié)出該片區(qū)共同的兩個音系特點和若干特例。而本文將兩種語音特征進行拼接，不同權(quán)重得出不同的聚類效果，如語譜圖特征權(quán)重為0.9的特征拼接下，新建、安義、德安、都昌以及湖口語音特征聚在一類；語譜圖特征權(quán)重為1的特征拼接下，修水、武寧、都昌和德安語音特征聚在一類。從江西地勢上而言，武寧、修水、奉新等地有九嶺山脈穿過，都昌、德安、永修等地繞鄱陽湖水域，南昌、新建、安義等地屬于省會城市區(qū)域范圍。

本文又以萍鄉(xiāng)市為例進行分析，萍鄉(xiāng)地處江西省和湖南省的邊界地區(qū)，其內(nèi)部方言片分區(qū)傳統(tǒng)語言學(xué)家就有不同的意見。對萍鄉(xiāng)話的集中分區(qū)的代表有：顏森將萍鄉(xiāng)話分在宜萍片。對萍鄉(xiāng)話內(nèi)部離散的分區(qū)代表有：陳昌儀[32]將萍鄉(xiāng)話分在宜春片，將蓮花話分在吉安片；孫宜志等人[10]將萍鄉(xiāng)話分別分在北區(qū)的奉新片和南區(qū)的泰和片、宜春片；謝留文[11]將萍鄉(xiāng)市內(nèi)的萍鄉(xiāng)話、上栗話和蘆溪話分在宜瀏片區(qū)，蓮花話分在吉茶片區(qū)。萍鄉(xiāng)屬江西省下轄設(shè)區(qū)的地級市，下轄蓮花、上栗、蘆溪三縣和安源、湘東兩區(qū)。本文將語音特征提取距離和傳統(tǒng)的語言學(xué)家的方言分區(qū)的聚散做可行性分析比較。以語音特征距離為坐標，計算機既能在語譜圖特征下將萍鄉(xiāng)地區(qū)的三縣兩區(qū)語音聚合(如圖4實心標示所示)，也能在MFCC特征下將三個縣兩區(qū)分散(如圖4空心標示所示)。

圖4 萍鄉(xiāng)方言在MFCC特征(空心)和語譜圖特征(實心)下的聚類效果

受水系、山脈等地理因素影響，傳統(tǒng)的方言調(diào)查方法受到極大的限制，如顏森[7]將同屬于鄱陽湖邊的湖口、彭澤、鄱陽三縣劃分在不同的分區(qū)。而計算機的自動分區(qū)更關(guān)注語音本身特征的劃分，如本文實驗的自動分區(qū)所示，湖口、彭澤、鄱陽三縣都在同一個類別中，體現(xiàn)出語音的地理信息特征。因此，對比人工分區(qū)而言，計算機的自動分區(qū)可以在語音特征的基礎(chǔ)上加入地理信息、行政區(qū)域等特征，填補傳統(tǒng)語言學(xué)研究方法上的不足，為具有爭議的方言分區(qū)提供一定的參考。

5 總結(jié)

采用計算機對漢語方言進行自動分區(qū)對語言學(xué)研究有著重要的印證作用。在語言工程領(lǐng)域，方言識別能夠為帶口音的語音識別、說話人識別等方面的研究打下良好基礎(chǔ)[33-34]。在信息查詢和檢索服務(wù)領(lǐng)域，方言的語音識別可以作為一個前端處理，預(yù)先區(qū)分用戶的方言類別，以便于接受不同方言的語音服務(wù)。

本文構(gòu)建了江西省范圍內(nèi)的贛方言語音語料庫，在傳統(tǒng)的語音特征提取基礎(chǔ)上，設(shè)計了基于語譜圖的深度學(xué)習(xí)模型提取特征。最后，通過聚類性能度量內(nèi)部指標評價了不同聚類方法上的聚類效果。實驗結(jié)果表明了語譜圖特征的有效性，維度為16時語譜圖特征下的聚類效果和傳統(tǒng)人工方言分區(qū)較為接近。后續(xù)的工作中，還將擴大現(xiàn)有語料，并研究其他類型的學(xué)習(xí)模型對贛方言語音特征提取的作用，提高方言自動分區(qū)精度。