摘要:與其他語種的方言相比,中文方言種類較多,且方言類間差異小,類內(nèi)差異大,因此中文方言識別極具挑戰(zhàn)性。考慮到中文方言間的差異性可能體現(xiàn)在語音的局部(短時)特性上,也可能體現(xiàn)在語音的全局(長時)特性上,同時還可能反映在語音不同層級的特性上,本文提出一種融合語音局部和全局特征提取以及多級特征聚合的中文方言識別模型。首先通過Res2Block 提取語音的局部特征,然后利用Conformer 提取語音的全局特征,最后通過將多個Conformer 級聯(lián)輸出進(jìn)行多層級特征的聚合??缬蚝头强缬虻膶嶒灲Y(jié)果表明,該模型取得了比基線模型更高的識別準(zhǔn)確率。
關(guān)鍵詞:Conformer;方言識別;多層級特征聚合;Res2Block;注意力統(tǒng)計池化
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
方言是語言的地方變體,中文方言隸屬于漢藏語系,有著廣泛的地理分布[1-2]。由于歷史上漢族社會不斷地分化和融合,演化出紛繁復(fù)雜的中文方言[3-4]。中文方言識別(Dialect Identification, DID) 存在兩個主要的難點:一方面由于中文方言具有共同的起源[5],并且經(jīng)?;ハ嘟栌迷~匯[6],因此不同方言具有相似的音韻規(guī)則[7-8],而同種方言則存在多種變體[9],這使得中文方言類間差異小,類內(nèi)差異大,給方言識別造成了很大的難度;另一方面,由于訓(xùn)練語料和實際語料的采集所使用的設(shè)備和所處的環(huán)境有所不同,兩者的數(shù)據(jù)分布差異明顯,從而導(dǎo)致在域內(nèi)測試集上性能很好的DID 模型在實際應(yīng)用場景中性能卻急劇下降[10]。
不同中文方言的差異性可能體現(xiàn)在單字的聲調(diào)、語速,以及語法結(jié)構(gòu)等方面。其中單字聲調(diào)的持續(xù)時間較短,屬于局部特征(或短時特征),語速和語法結(jié)構(gòu)反映在較長的時間范圍內(nèi),屬于全局特征(或長時特征)。例如,由于閩南語和粵語分別具有7 個和6 個單字聲調(diào)[11],而四川話則是4 個,因此這3 種方言的局部差異性明顯。又如,由于與晉方言、冀魯方言等北方方言相比,吳方言(包括上海話、蘇州話,杭州話等)、閩方言等南方方言的語速更快,且吳語存在連讀變調(diào)的發(fā)音特點[12],因此它們之間的差異性更多地體現(xiàn)在全局特性上。鑒于上述原因,要全面反映方言之間的差異性,需要同時提取語音的局部特征和全局特征。同時,為了更好地表征這些差異性可以利用深度網(wǎng)絡(luò)提取語音的多層級特征。
近年來的主流DID 模型僅側(cè)重于局部或全局特征的提取。在局部特征提取方面,基于時延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network, TDNN)[13-14] 的X-vector模型采用堆疊的TDNN 模塊作為特征編碼器[15-16],通過時域卷積運算提取語音特征。為了增強(qiáng)模型對語音多尺度局部特征的表征能力,動態(tài)多尺度卷積(Dynamic Multi-scale Convolution, DMC) 模型[17]采用改進(jìn)的TDNN 模塊,通過具有不同內(nèi)核尺寸的多個卷積層來提取多尺度局部特征。該模型在2020 年東方語種識別(Oriental Language Recognition, OLR) 競賽[18] 的方言識別任務(wù)中取得了最好的平均代價損失(Average Cost Performance, Cavg) 和等錯誤率(EqualError Rate, EER)。文獻(xiàn)[19] 采用ECAPA-TDNN[20]作為骨干網(wǎng)絡(luò),提出基于多尺度通道自適應(yīng)時延神經(jīng)網(wǎng)絡(luò)(Multi-Scale Channel Adaptive Time-DelayNeural Network, MSCA-TDNN) 的DID 模型。其中包含的MSCA-Res2Block 模塊能夠提取多尺度特征,從而進(jìn)一步擴(kuò)大卷積運算的感受野[19], ECAPATDNN采用擠壓和激勵(Squeeze-and-Excitation, SE)模塊來捕獲更長的上下文信息[20],但SE 僅對整個序列應(yīng)用全局平均,在捕獲動態(tài)全局特征方面仍然受到限制[21]。在全局特征提取方面,Transformer中包含的多頭注意力機(jī)制(Multi-Head Self-Attention, MHSA)已經(jīng)在多種任務(wù)上證明了其強(qiáng)大的全局特征提取能力[22-25]。文獻(xiàn)[26] 使用基于Transformer 的端到端模型,進(jìn)行日語DID 和多方言ASR(MD-ASR)多任務(wù)學(xué)習(xí),利用文本信息和聲學(xué)特征對日語方言進(jìn)行識別和分類。文獻(xiàn)[27] 采用Speech-Transformer[28]模型中的編碼器作為特征提取器,在阿拉伯方言識別任務(wù)中取得了當(dāng)時最好的識別效果。
考慮到僅依靠語音局部特征或全局特征,無法全面準(zhǔn)確地識別中文方言之間復(fù)雜的差異性,因此針對中文方言識別,本文提出了一種基于局部特征和全局特征提取、并結(jié)合多層級特征融合的DID 模型。該模型的優(yōu)勢主要包括: (1) 結(jié)合TDNN 和Res2Block,提取語音的時序多尺度局部特征。(2)通過引入Conformer[21] 結(jié)構(gòu),提取語音全局特征。(3)通過對多個Conformer 結(jié)構(gòu)進(jìn)行串聯(lián),提取和聚合多層級特征。實驗結(jié)果表明,該模型取得了比基于局部特征或全局特征提取的基線模型更高的分類準(zhǔn)確率。
1 算法描述
本文提出的基于局部和全局特征融合及多級特征聚合的中文方言識別模型如圖1 所示。它包括局部特征提取、全局特征提取、多層級特征聚合和注意力統(tǒng)計池化4 個重要部分。
1.1 局部特征提取
考慮到方言的差異性可能體現(xiàn)在不同時間尺度的局部特性中, 本文采用TDNN 和殘差網(wǎng)絡(luò)(Residual Networks, ResNets)[29] 的結(jié)合,以不同時間步長提取原始語音特征中多尺度局部特征。TDNN通過引入時延神經(jīng)元存儲先前的輸入,并將其傳遞到后續(xù)的時間步,從而精確提取時序特性[13]。如圖2(a) 所示, Res2Block 是基于ResNets的卷積神經(jīng)網(wǎng)絡(luò),旨在增強(qiáng)網(wǎng)絡(luò)的特征提取能力。受DMC[17] 的啟發(fā),本文將Res2Block 中的3×3 卷積替換為由兩個卷積分支構(gòu)成的卷積模塊(Conv),以捕獲不同時間步長的特征。如圖2(b) 所示,在該卷積模塊中,一個分支采用傳統(tǒng)卷積,而另一個分支采用擴(kuò)張因子為2 的擴(kuò)張卷積。Res2Block 將TDNN 輸出的特征按照通道數(shù)均勻分為 個塊,每個塊記為xi (1 ? i ? s),第n個卷積模塊的輸入,記為inputn (2 ? n ? s),是xn與前一個卷積模塊的輸出yn-1之和。
在Conv 模塊中,兩個卷積分支的輸出首先相加送入高階統(tǒng)計池化(High-Order Statistics Pooling,HOSP)層,該層提取并連接每個通道上特征的均值、標(biāo)準(zhǔn)差、偏度和峰度。通過兩個一維卷積和Softmax激活函數(shù),獲得每個通道的權(quán)重win,然后與卷積輸出加權(quán)求和作為卷積模塊的輸出,記為yn。
其中:s1n和s2n是兩個卷積分支的輸出;w1n和w2n是相應(yīng)的權(quán)重;⊙表示矩陣元素對應(yīng)相乘。由此,Res2Block 中每個卷積模塊的輸出yi可以通過公式(3) 得到。
通過TDNN 和Res2Block 結(jié)構(gòu)的組合,模型可以從語音信號中提取不同時間尺度上的局部特征。
1.2 全局特征提取
考慮到局部特征可以有效地表征方言之間在音高、語調(diào)等方面的短時差異性,而全局特征則可以捕獲方言之間在韻律、連續(xù)變調(diào)等方面的長時差異性,本文采用Conformer 提取方言全局特征。一方面,受文獻(xiàn)[30] 的啟發(fā),Conformer 在Transformer 的基礎(chǔ)上引入了卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN),以提取基于相對位置編碼的局部信息[21];另一方面,Conformer 所包含的MHSA 模塊通過計算注意力權(quán)重表征當(dāng)前位置與其他位置的依賴關(guān)系,從而捕捉輸入序列的長時全局相關(guān)性[21]。與Macaron-Net[31] 的結(jié)構(gòu)類似,Conformer 結(jié)構(gòu)(圖3)中的MHSA模塊和卷積模塊被夾在兩個前饋模塊(Feed ForwardModule, FFN) 之間,比僅使用一個前饋模塊顯著提高了性能[21]。每個FFN 由2 個線性變換函數(shù)和1 個非線性激活函數(shù)組成。全局特征提取網(wǎng)絡(luò)由L個Conformer 組成,對于第i個Conformer 模塊的輸入yi,其中間變量和輸出hi可通過公式(4) 獲得。
1.3 多層級特征聚合
與其他基于內(nèi)容的識別任務(wù)(如語音識別、說話人識別和語種識別)相比,方言的類間差異較小,因此需要更深的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來提取深層特征,本文采用多個Conformer 的級聯(lián)結(jié)構(gòu)提取語音的深層特征。然而,隨著網(wǎng)絡(luò)層數(shù)的增加,可能導(dǎo)致模型退化問題??紤]到殘差連接可緩解模型退化的問題[32],并且低層級特征有助于更準(zhǔn)確地表征音頻的音高、語調(diào)等特性[20, 33-35],本文在Conformer 塊和層歸一化之間采用了如圖1 所示的殘差連接結(jié)構(gòu), 將每個Conformer 塊的輸出拼接后輸入至最后的池化層。設(shè)第 個Conformer 塊的輸出為hi,則聚合后的特征設(shè)為H′,可由公式(5) 獲得。
H′= Concate(h1,…, hL) (5)
然后,對聚合后的特征圖 H'進(jìn)行層歸一化操作,以獲得語音嵌入H。
H = LayerNorm(H′) (6)
1.4 注意力統(tǒng)計池化
注意力統(tǒng)計池化(Attentive Statistics Pooling,ASP) 是一種特征整合方法, 與統(tǒng)計池化(StatisticPooling, SP) 相比,ASP 引入了一種注意力機(jī)制,根據(jù)不同時間步的重要性對特征進(jìn)行加權(quán),使ASP 能夠更有效地捕捉語音信號的動態(tài)特征,避免信息丟失[36]。不同通道特征的標(biāo)量分?jǐn)?shù)et由注意力模塊產(chǎn)生,特征的權(quán)重由et的歸一化分?jǐn)?shù)αt確定,通過特征加權(quán)使模型能夠在每個時間步選擇性地聚焦特征,并將最相關(guān)的特征用于預(yù)測。標(biāo)量分?jǐn)?shù)et通過公式(7) 進(jìn)行計算。
et = υT f (Wht + b)+ k (7)
其中:υ為一個可學(xué)習(xí)的參數(shù)向量;ht為時間步t的輸入特征向量;非線性激活函數(shù)f (·)為tan h;W和b分別是權(quán)重矩陣和偏置。歸一化分?jǐn)?shù)αt是按公式(8) 對et進(jìn)行歸一化處理后得到的權(quán)重。
隨后,通過公式(9) 對ht進(jìn)行加權(quán)處理后得到均值向量^μ并通過公式(10) 獲得相應(yīng)的加權(quán)標(biāo)準(zhǔn)差,記為^σ。公式(8~10)中的T 為整個時間序列的長度。
之后,^μ和^σ通過全連接層映射到注意力向量作為ASP 的輸出。
2 實驗結(jié)果
2.1 數(shù)據(jù)集及實驗設(shè)置
為了測試本文的DID 模型在域內(nèi)和跨域場景中的性能,本文基于多個數(shù)據(jù)集構(gòu)建了訓(xùn)練集、可見域測試集和未見域測試集。如表1 所示,數(shù)據(jù)來源包括Datatang、Aishell2、Aishu、THCHS30、ST-CDMS和OLR[18]。由于Datatang、Aishu 和OLR 數(shù)據(jù)集所共有的方言種類分別為閩南話(Hokkien) 、上海話(Shanghainese)和四川話(Sichuanese),因此本文在實驗中對普通話(Mandarin)和上述3 種方言進(jìn)行了分類。
實驗采用的基線模型分別是基于全局特征提取的Transformer[27]、基于局部特征提取的DMC[17],以及使用CNN 增強(qiáng)全局特征提取的Conformer[21]。各基線模型的參數(shù)設(shè)置如下:(1)在Transformer[27] 模型中,編碼器數(shù)量和每個編碼器中注意力模塊的注意力頭的數(shù)量參照原文的設(shè)置,分別為4 和8;每個編碼器的位置感知前饋網(wǎng)絡(luò)的輸出維度分別為512 和2 048。(2)本文基于PyTorch 重新實現(xiàn)了DMC[17],所有設(shè)置與原論文保持一致。(3)為了獲得最佳性能,Conformer[21] 模型輸入的下采樣率設(shè)置為1/4,Conformer 塊的數(shù)量為9。(4)本文模型,在Res2Block模塊中,輸入特征被分為8 個塊,級聯(lián)的Conformer塊數(shù)L=9。上述所有模型都以80 維的Mel 頻譜圖作為輸入,窗長為25 ms,幀移為10 ms。特征提取模塊的輸出首先映射到一個256 維的固定長度向量。然后,將該向量映射到類別數(shù)量,并使用交叉熵?fù)p失1 1063 104進(jìn)行訓(xùn)練。訓(xùn)練過程采用了OneCycleLR學(xué)習(xí)率調(diào)度技術(shù), 初始學(xué)習(xí)率為 , 最大學(xué)習(xí)率設(shè)置為。
2.2 與基線模型的性能比較
本模型和基線模型在可見域和未見域的二分類和四分類準(zhǔn)確率結(jié)果如表2 所示。
在四分類任務(wù)上,本文的模型在可見域和未見域的分類準(zhǔn)確率優(yōu)于所有3 個基線模型;在二分類任務(wù)上,Conformer[21] 在可見域取得了最好的效果。本文的模型在可見域場景的性能略低于基線模型,可能的原因是,綜合局部與全局特征提取可以使得模型學(xué)習(xí)到盡量少的域相關(guān)信息,在可見域減小了過擬合,與Conformer[21] 模型相比,TDNN 和Res2Block的結(jié)合有助于更精確地提取局部特征,此外,多層級特征聚合機(jī)制可以利用不同級別特征信息的互補(bǔ),豐富語音嵌入的信息,讓模型在域外有更好的泛化性。這使得本文模型在跨域場景的性能優(yōu)于所有基線模型。
2.3 語音嵌入t-SNE 可視化
為了比較本文模型和基線模型在未見域上的性能,本節(jié)采用t-SNE[37] 算法將模型從未見域數(shù)據(jù)提取的方言特征向量映射到2D 空間,以評估模型對未見域方言的聚類效果,如圖4 所示。可以看出,與基線模型相比,本文模型提取的方言特征向量類內(nèi)距離小于基線模型,且聚類中心個數(shù)與分類數(shù)相符。因此,本文模型可以更有效地聚類相同方言的特征,在未見域?qū)崿F(xiàn)了更好的泛化性。
2.4 消融實驗結(jié)果
為了驗證本文提出的模型中每個關(guān)鍵模塊(TDNN 和Res2Block、多層級特征聚合和ASP)的有效性,將本文模型移除任一關(guān)鍵模塊后與原模型的跨域分類準(zhǔn)確率進(jìn)行對比,結(jié)果如表3 所示??梢钥闯觯瞥魏我粋€關(guān)鍵模塊都會導(dǎo)致模型性能下降。因此,每個關(guān)鍵模塊對本文模型的性能提升均有所貢獻(xiàn),而TDNN 和Res2Block 的組合效果比其他兩個模塊更顯著。
3 結(jié) 論
針對中文方言類間差異小、類內(nèi)差異大、識別難度大的問題,本文提出了一種結(jié)合局部和全局特征提取和多層級特征聚合的方言識別模型,它通過結(jié)合TDNN 和Res2Block 提取輸入語音的多尺度局部特征,并通過多個串聯(lián)的Conformer 模塊對多層級特征進(jìn)行聚合。域內(nèi)和跨域場景下的實驗結(jié)果表明,本文模型取得了比基線模型更好的分類準(zhǔn)確性和更好的泛化性。
參考文獻(xiàn):
[ 1 ]SAGART L, JACQUES G, LAI Y, et al. Dated languagephylogenies shed light on the ancestry of Sino-Tibetan[J].PNAS, 2019, 116(21): 10317-10322.
[ 2 ]LIU H, LIANG J, VAN HEUVEN V J, et al. Vowels andtones as acoustic cues in Chinese subregional dialect identification[J]. Speech Communication, 2020, 123: 59-69.
[ 3 ]WANG W S Y. Languages or Dialects?[M]. Hongkong,China: The Chinese University of Hong Kong Press, 1997:54-62.
[ 4 ]DEFRANCIS J. The Chinese Language: Fact andFantasy[M]. Hawaii, USA: University of Hawaii Press,1986.
[ 5 ]ZHANG M, YAN S, PAN W, et al. Phylogenetic evidencefor Sino-Tibetan origin in northern China in the Late Neolithic[J]. Nature, 2019, 569(7754): 112-115.
[ 6 ]NORMAN J. Chinese[M]. Cambridge, UK: CambridgeUniversity Press, 1988.
[ 7 ]GRAHAM T, RANDY J L. The Sino-Tibetan Languages[M]. New York: Routledge, 2003: 84-125.
[ 8 ]LIST J M. Network perspectives on Chinese dialect history:Chances and challenges[J]. Bulletin of Chinese Linguistics,2015, 8(1): 27-47.
[ 9 ]李如龍. 論漢語方言語音的演變[J]. 語言研究, 1999(1):102-113.
[10]SULLIVAN P, ELMADANY A, ABDUL-MAGEED M.On the robustness of Arabic speech dialect identification[C]//Proceedings of Interspeech. Dublin, Ireland: Interspeech,2023: 5326-5330.
[11]LI A, FANG Q, XU R, et al. A contrastive study betweenminnan-accented Chinese and standard Chinese[J]. Reportof Phonetic Research, 2005, 18: 1-7.
[12]ZHU X. A Grammar of Shanghai Wu[M]. Munich, Germany:Lincom Publishers, 2006.
[13]SUGIYAMA M, SAWAI H, WAIBEL A H. Review ofTDNN (time delay neural network) architectures for speechrecognition[C]//IEEE International Symposium on Circuitsand Systems (ISCAS). Singapore: IEEE, 1991: 582-585.
[14]YU Y Q, LI W J. Densely connected time delay neural networkfor speaker verification[C]//Proceedings of Interspeech.Shanghai, China: Interspeech, 2020: 921-925.
[15]SNYDER D, GARCIA-ROMERO D, MCCREE A, et al.Spoken language recognition using X-vectors[C]//Odyssey 2018. Les Sables d'Olonne. France: The Speaker and LanguageRecognition Workshop, 2018: 105-111.
[16]SNYDER D, GARCIA-ROMERO D, SELL G, et al. Xvectors:Robust dnn embeddings for speakerrecognition[C]//2018 IEEE International Conference onAcoustics, Speech and Signal Processing (ICASSP). Calgary,AB, Canada: IEEE, 2018: 5329-5333.
[17]KONG T, YIN S, ZHANG D, et al. Dynamic multi-scaleconvolution for dialect identification[C]//Proceedings ofINTERSPEECH. Brno, Czech: Interspeech, 2021: 3261-3265.
[18]LI Z, ZHAO M, HONG Q, et al. AP20-OLR challenge:Three tasks and their baselines[C]//2020 Asia-Pacific Signaland Information Processing Association Annual Summitand Conference (APSIPA ASC). Auckland, New Zealand:IEEE, 2020: 550-555.
[19]LUO Q, ZHOU R. Multi-scale channel adaptive time-delayneural network and balanced fine-tuning for arabic dialectidentification[J]. Applied Sciences, 2023, 13(7): 4233.
[20]DESPLANQUES B, THIENPONDT J, DEMUYNCK K.Ecapa-tdnn: Emphasized channel attention, propagation andaggregation in TDNN based speaker verification[C]//Proceedingsof Interspeech. Shanghai, China: Interspeech,2020: 3830-3834.
[21]GULATI A, QIN J, CHIU C C, et al. Conformer: Convolution-augmented transformer for speech recognition[C]//Proceedingsof Interspeech. Shanghai, China: Interspeech,2020: 5036-5040.
[22]VASWANI A, SHAZEER N, PARMAR N, et al. Attentionis all you need[C]//Advances in Neural Information ProcessingSystems. Long Beach, USA: [s.n.], 2017: 30.
[23]TJANDRA A, CHOUDHURY D G, ZHANG F, et al.Improved language identification through cross-lingualself-supervised learning[C]//2022 IEEE International Conferenceon Acoustics, Speech and Signal Processing (ICASSP).Singapore: IEEE, 2022: 6877-6881.
[24]LIU H, PERERA L P G, KHONG A W H, et al. Efficientself-supervised learning representations for spoken languageidentification[J]. IEEE Journal of Selected Topics inSignal Processing, 2022, 16(6): 1296-1307.
[25]SONG Q, SUN B, LI S. Multimodal sparse transformer networkfor audio-visual speech recognition[J]. IEEE Transactionson Neural Networks and Learning Systems, 2023, 12:10028-10038.
[26]IMAIZUMI R, MASUMURA R, SHIOTA S, et al. End-toendJapanese multi-dialect speech recognition and dialectidentification with multi-task learning[J]. APSIPA Transactionson Signal and Information Processing, 2022, 11: e4.
[27]LIN W, MADHAVI M, DAS R K, et al. Transformer-basedArabic dialect identification[C]//2020 International Confer-ence on Asian Language Processing (IALP). [s.l.]:[s.n.],2020: 192-196.
[28]ZHAO Y, LI J, WANG X, et al. The speechtransformer forlarge-scale mandarin Chinese speech recognition[C]//2019IEEE International Conference on Acoustics, Speech andSignal Processing (ICASSP). Brighton, UK: IEEE, 2019:7095-7099.
[29]HE K, ZHANG X, REN S, et al. Deep residual learning forimage recognition[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. San Juan, PR,USA: IEEE, 2016: 770-778.
[30]WU Z, LIU Z, LIN J, et al. Lite transformer with long-shortrange attention[EB/OL]. (2020-04-24)[2023-12-10]. https://arxiv.org/abs/2004.11886.
[31]LU Y, LI Z, HE D, et al. Understanding and improvingtransformer from a multi-particle dynamic system point ofview[EB/OL]. (2019-6-6)[2023-12-10]. https://arxiv.org/abs/1906.02762.
[32]GAO S H, CHENG M M, ZHAO K, et al. Res2net: A newmulti-scale backbone architecture[J]. IEEE Transactions onPattern Analysis and Machine Intelligence, 2019, 43(2):652-662.
[33]GAO Z, SONG Y, MCLOUGHLIN I, et al. Improving aggregationand loss function for better embedding learning inend-to-end speaker verification system[C]// Proceedings ofInterspeech. Graz, Austria: Interspeech, 2019: 361-365.
[34]TANG Y, DING G, HUANG J, et al. Deep speaker embeddinglearning with multi-level pooling for text-independentspeaker verification[C]//2019 IEEE International Conferenceon Acoustics, Speech and Signal Processing(ICASSP). Brighton, UK: IEEE, 2019: 6116-6120.
[35]ZHANG Y, LV Z, WU H, et al. Mfa-conformer: Multiscalefeature aggregation conformer for automatic speakerverification[C]//Proceedings of Interspeech. Incheon,Korea: Interspeech, 2022: 306-310.
[36]OKABE K, KOSHINAKA T, SHINODA K. Attentive statisticspooling for deep speaker embedding[C]//Proceedings ofInterspeech. Hyderabad, India: Interspeech, 2018: 2252-2256.
[37]HINTON G E, ROWEIS S. Stochastic neighbor embedding[C]//Advances in Neural Information Processing Systems.Van Couver, Canada: [s.n.], 2002: 15.
(責(zé)任編輯:劉亞萍)
基金項目: 國家自然科學(xué)基金面上項目 (61771196)