亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢語方言語音信號的語譜圖分析

        2022-06-15 02:32:58柏文展程汪鑫
        電聲技術(shù) 2022年4期
        關(guān)鍵詞:語譜基音傅里葉

        柏文展,程汪鑫

        (武警廣西總隊,廣西 南寧 530031)

        0 引言

        語音信號是一種模擬信號,經(jīng)過數(shù)字化處理后可獲取采樣率、比特率以及頻域內(nèi)的各種參數(shù)信息,便于信號傳輸和存儲。通過觀察不同語音信號的語譜圖,可獲取語音的一些參數(shù)和特征,經(jīng)分析比對,可識別出不同地方的語言,為語音合成奠定了基礎(chǔ)。語音識別技術(shù)的發(fā)展依賴計算機(jī)技術(shù)、數(shù)字信號處理器(Digital Signal Process,DSP)技術(shù)以及人工智能(Artificial Intelligence,AI)技術(shù)的進(jìn)步。要實現(xiàn)人機(jī)對話,需要設(shè)計制造出一種能將人類語音信號進(jìn)行自動轉(zhuǎn)換和處理的機(jī)器來模擬現(xiàn)實生活中的人,實現(xiàn)人與機(jī)器的“無障礙”溝通交流。要設(shè)計出能聽懂人類語言的機(jī)器,關(guān)鍵是讓機(jī)器正確辨別出所說語言的語種,便于選用合適的語音參數(shù)庫,提高識別的效率。從1970 年開始,人們就開始研究如何通過詞匯來進(jìn)行語種識別,因為每一種語言都有著自己獨特的、成熟的、延續(xù)性的詞匯體系。在實際中,運用詞匯法來進(jìn)行識別存在一定的困難,主要是因為收集、組織、整理各個語種的語言專業(yè)知識工作量過于龐大,通過計算機(jī)分析語言學(xué)專業(yè)知識來識別語言的效率不高,正確率低,難以得到推廣應(yīng)用[1]。因此,人們把目光轉(zhuǎn)到通過語音的特征來進(jìn)行語言識別。

        隨著5G 網(wǎng)絡(luò)、大數(shù)據(jù)及人工智能等高新技術(shù)的發(fā)展,社會生產(chǎn)生活日益數(shù)字化、網(wǎng)絡(luò)化和智能化,方言識別技術(shù)被廣泛應(yīng)用于通信、金融、教育、翻譯、刑偵以及信息服務(wù)等領(lǐng)域,越來越展現(xiàn)出其應(yīng)用價值。在語音通信方面,特別是在緊急情況撥打緊急電話,可使用語音識別系統(tǒng)快速進(jìn)行方言識別,自動將電話轉(zhuǎn)接到與呼叫者說同種方言的接線員那里,提高交流效率,爭取寶貴時間。在刑事偵查方面,可通過方言識別系統(tǒng)辨別出說話者的籍貫,從方言特征中獲取關(guān)鍵信息。目前,方言識別的能力和準(zhǔn)確度得到了質(zhì)的提升,國內(nèi)的一些智能語音公司如科大訊飛已經(jīng)開發(fā)出可以識別粵語、四川話、閩南語等20 多種方言的語音識別系統(tǒng),提高了人們溝通交流的效率。本文通過對方言語音的語譜圖進(jìn)行分析,來辨別和判斷講話者所屬的方言區(qū)域,對語譜圖進(jìn)行比較并找出其差異,為方言語音的識別與推廣提供基本理論和方法。

        1 語音信號

        1.1 語音信號的產(chǎn)生和聲學(xué)基礎(chǔ)

        1.1.1 語音信號的產(chǎn)生過程

        語音信號的產(chǎn)生過程為:說話人在大腦中將語言信息轉(zhuǎn)換為語言編碼,并用語音特征如音素序列、韻律和響度等來表示;說話人通過語言編碼控制聲帶振動,塑造聲道形狀來發(fā)出聲音序列;聽者通過耳朵的基底膜接收語音信號并進(jìn)行動態(tài)頻譜分析,將頻譜信號轉(zhuǎn)換為觸動信號作用在聽覺神經(jīng)上,通過大腦分析處理將其轉(zhuǎn)化為語言編碼,實現(xiàn)對語音語義的理解[2]。

        1.1.2 聲波的物理描述

        聲波屬于縱波。聲源產(chǎn)生聲波,聲波以聲源為中心沿著各類介質(zhì)將能量向周圍傳遞,可用頻率、周期、相位、波長及振幅等物理參數(shù)來描述。波長與波速和頻率之間的關(guān)系為λ=v/f,其中λ為波長,v為聲波速,f為頻率。聲波的頻率越高,波長越短;頻率越低,波長越長。另外,聲波還具有響度、音調(diào)及音色等屬性。

        1.1.3 語音信號的時域和頻域波形

        語音信號波形能直觀地反映語音信號的特征。語音信號處理主要是把模擬的語音信號轉(zhuǎn)換為離散的數(shù)字采樣信號,通過Matlab、Python 等軟件進(jìn)行時域和頻域分析,便于分析總結(jié)語音信號的特征規(guī)律。時域波形物理意義明確,能直觀表現(xiàn)出語音信號時間與幅度的關(guān)系,但無法體現(xiàn)語音信號的某些特性。對于復(fù)雜語音信號的分析,需要用頻域分析法提取一些特性,例如共振峰,通過共振峰能看出信號頻譜的總體輪廓和譜包絡(luò)[3]。

        1.2 語音信號的特征分析

        語音信號可采取時域、頻域和倒頻域三種分析方法,各種分析法具有不同的特點。語音信號是時域信號,進(jìn)行時域分析時運算簡便,波形直觀。但由于語音信號時域波形受外界環(huán)境的影響較大,不利于提取語音信號聲學(xué)特性。因此,語音信號的分析處理多采用頻域分析法。

        頻域分析法是采用傅里葉變換將時域信號變換為頻域信號,從頻域的角度來分析信號的特征,能夠直觀地看到信號的組成,便于設(shè)計出更加完善的信號處理系統(tǒng)。語音信號頻譜受外界環(huán)境的影響比較小,具有一定的頑健性,因此,語音信號分析多采用頻域分析法,通過分析頻譜,可以直觀地發(fā)現(xiàn)語音的聲學(xué)特性,可獲取共振峰參數(shù)、基音周期等信息[4]。

        倒頻譜分析法可以有效地分開聲道信號和激勵特性,能更好地揭示語音信號的本質(zhì)特征,可通過將對數(shù)功率譜進(jìn)行傅里葉逆變換后得到。

        2 語音信號處理的發(fā)展和應(yīng)用

        1876 年,世界上首部電話采用聲電轉(zhuǎn)換技術(shù)進(jìn)行語音傳輸,開啟了語音信號處理的先河。1939年,聲碼器的誕生奠定了分析和合成人類語音信號的基礎(chǔ),對語音信號處理產(chǎn)生了重大影響。1947 年,語譜圖儀被發(fā)明出來,該設(shè)備能用圖形來表示語音信號的時變頻譜,為分析語音信號提供了強(qiáng)力的工具支撐。1948 年,“語圖回放器”成功研制,它可將語譜圖自動轉(zhuǎn)換并合成為人類語音信號。

        20 世紀(jì)50 年代,人們開始研究能夠接受人類的語音、理解人類的意圖、具有聽覺功能的機(jī)器,開啟了語音識別研究的序幕。到了20 世紀(jì)60 年代,東京無線電研究所實驗室研究員研制出通過專用硬件來進(jìn)行元音識別的系統(tǒng),美國斯坦福大學(xué)研究員實現(xiàn)了用動態(tài)跟蹤音素的方法來對連續(xù)語音進(jìn)行識別。20 世紀(jì)70 年代后,人工智能技術(shù)開始與語音識別技術(shù)相結(jié)合,語音識別的發(fā)展進(jìn)程進(jìn)一步加快。20 世紀(jì)80 年代開始,語音識別算法由模式匹配向統(tǒng)計模型轉(zhuǎn)變,基于統(tǒng)計數(shù)據(jù)建立語音識別系統(tǒng),比較有代表性的就是隱馬爾可夫模型。20 世紀(jì)90 年代以來,隨著人工智能和神經(jīng)網(wǎng)絡(luò)研究的迅速興起,其技術(shù)成果被廣泛應(yīng)用到語音識別研究中,語音識別技術(shù)進(jìn)一步成熟[5]。目前,語音識別技術(shù)的產(chǎn)品越來越豐富,且設(shè)計更加完善、功能更加強(qiáng)大、用戶體驗感更加人性化,比如國外的Nuance,Google,Apple,MSRA,國內(nèi)的科大訊飛和云知聲等公司,在語音識別領(lǐng)域就是典型的代表。

        雖然對語音識別的研究取得了重大的進(jìn)展,但其在市場推廣應(yīng)用方面還遠(yuǎn)遠(yuǎn)不足,很多因素影響著語音識別的準(zhǔn)確性,例如實際環(huán)境中的背景噪聲、傳輸通道的頻率特性、說話人生理或心理情況的變化以及應(yīng)用領(lǐng)域的變化等,都會導(dǎo)致語音識別系統(tǒng)性能的下降,甚至使系統(tǒng)不能工作。語音識別系統(tǒng)頑健性問題研究受到了研究者的廣泛重視,國內(nèi)外很多單位都開展了相應(yīng)的研究。這些研究主要是研究一到兩種因素影響下的綜合補(bǔ)償技術(shù),對各種因素共同影響下補(bǔ)償方法的研究還比較少。

        信息技術(shù)和人工智能技術(shù)的快速發(fā)展使語音信號識別應(yīng)用領(lǐng)域逐步擴(kuò)大,在軍事領(lǐng)域和日常生活領(lǐng)域都能看到其應(yīng)用的身影。在軍事方面,可用語音識別技術(shù)來進(jìn)行飛機(jī)的自動飛行控制、機(jī)載設(shè)備語音自動操控以及緊急情況下與地面指揮調(diào)度中心的自動對話,有利于集中飛行員注意力,快速獲取戰(zhàn)場態(tài)勢,更好地發(fā)揮信息戰(zhàn)的優(yōu)勢。在日常生活方面,可用語言識別技術(shù)來進(jìn)行信息檢索、自動文摘、自動眷寫、自動口語翻譯以及智能家電、智能查詢等,極大地提高了人們工作、生活的質(zhì)量。因此,語言識別具有非常廣闊的市場空間和巨大的商業(yè)價值。

        3 語譜圖

        人們在說話時,聲道處于運動狀態(tài),語音信號的共振峰變化相對振動的變化來說要平穩(wěn)許多,因此,可以對語音信號進(jìn)行連續(xù)頻譜分析,得到語音信號的語譜圖[6]。語譜圖的橫軸為時間,縱軸為頻率,某時刻頻率的能量密度由像素的灰度值決定。語音分析主要是對語譜圖進(jìn)行分析,通過分析可發(fā)現(xiàn)共振峰、基音頻率、語音能量密度等特征,為語音識別、合成及編碼提供參考。

        3.1 語譜圖的產(chǎn)生原理

        語音信號為非平穩(wěn)信號。對語音信號的分析處理可采用短時傅里葉分析法。傅里葉分析法主要用于分析線性系統(tǒng)和平穩(wěn)信號的穩(wěn)態(tài)特性,短時傅里葉分析法主要用于處理短時平穩(wěn)假定下的非平穩(wěn)信號。

        設(shè)語音信號為s(t),t=0,1,2,…,T-1,其中t為時域采樣點序號,T為信號長度。分幀后s(t)表示為st(k),t=0,1,2,…,T-1,其中t為幀序號,k為幀同步時間序號,T為幀長。對{s(t)}進(jìn)行短時傅里葉變換:

        式中:{W(t)}為窗序列。信號s(t)的離散時間傅里葉變換為:

        進(jìn)行離散傅里葉變換得:

        式中:0<q<T-1,則|S(t,q)|就是s(t)的短時幅度譜估計。而時間k處頻譜能量密度函數(shù)P(t,q)為:

        P(t,q)為二維非負(fù)實值函數(shù),它是信號s(t)短時自相關(guān)函數(shù)的傅里葉變換。以時間t表示橫坐標(biāo),q表示縱坐標(biāo),則由P(t,q)的值表示的灰度級形成的二維圖像就是該語音信號的語譜圖,可用10 logP(t,q)將其轉(zhuǎn)換為dB 來表示,顯示起來比較直觀。

        3.2 語譜圖的偽彩色映射

        為了獲得較好的視覺效果,提高分辨率,需要對P(t,q)進(jìn)行偽彩色映射,得到偽彩色語譜圖。先把Pmax(t,q)的最大值映射為歸一化1 電平,把最小值Pmin(t,q)映射為歸一化0 電平,再將P(t,q)線性映射為0~1 的電平Ml,最后根據(jù)Ml 的值將語譜圖以偽彩色模式顯示出來。為了得到更好的顯示效果,可以選擇適當(dāng)?shù)幕鶞?zhǔn)值Base,把小于Base的值設(shè)置在基準(zhǔn)電平上,把大于Base的值按照一定的模式線性映射為0~1 的歸一化彩色值。可將彩色值矩陣M={m(t,q)}表示如下:

        3.3 Python 及相關(guān)庫簡介

        Python 誕生于20 世紀(jì)90 年代初,其特點是語法簡單、免費開源、可移植性強(qiáng),具有豐富且功能強(qiáng)大的庫。近年來,Python 被廣泛應(yīng)用于大數(shù)據(jù)和人工智能領(lǐng)域。Librosa 庫主要用于音頻分析和處理,可進(jìn)行時頻分析處理、特征參數(shù)提取以及聲音圖形繪制等。Numpy 庫主要用于科學(xué)計算,能實現(xiàn)復(fù)雜的矩陣和數(shù)組運算,可進(jìn)行離散傅里葉變換、短時傅里葉變換和隨機(jī)模擬等。openCV 庫主要用于計算機(jī)視覺分析處理,可進(jìn)行計算機(jī)視覺計算、圖像處理和機(jī)器學(xué)習(xí)等。Matplotlib 庫主要用于繪圖,可繪制柱狀圖、氣泡圖及頻譜圖等。下面的程序首先結(jié)合Numpy 庫定義了計算每幀對應(yīng)的時間、分幀、加窗、短時傅里葉變換的函數(shù),然后利用Librosa 庫分別讀取永州、常德及益陽三個地方的wav 格式的方言,最后調(diào)用Matplotlib 庫中的pyplot 進(jìn)行語譜圖顯示,調(diào)用openCV 庫以COLORMAP_JET 模式對語譜圖進(jìn)行偽彩色映射和顯示[7-9]。

        3.4 流程圖及實現(xiàn)程序

        3.4.1 流程示意圖

        語音信號語譜圖分析共6 個步驟。

        (1)語音信號錄制。語音信號的質(zhì)量直接決定語音頻譜分析的效果。在錄制語音前,應(yīng)確定好語音的采樣頻率、量化位數(shù)及聲道數(shù)等參數(shù)。錄制語音時,應(yīng)當(dāng)保持環(huán)境安靜,減少外部噪聲干擾,語音采用wav 格式進(jìn)行存儲。

        (2)數(shù)據(jù)讀入程序。通過調(diào)用Librosa 音頻處理庫load 函數(shù),可實現(xiàn)對語音信號的讀入,主要讀取語音信號的采樣頻率、量化位數(shù)及聲道數(shù)等參數(shù)。

        (3)信號分幀加窗。短時傅里葉分析需要將語音信號進(jìn)行分幀,目的是保持某一較短時間內(nèi)語音信號特性的穩(wěn)定。分幀長度一般為10~40 ms。加窗的目的是防止頻譜泄漏,設(shè)計好合適的窗函數(shù)可以使頻譜的能量集中在主瓣上,同時加窗會使每一幀兩端的信號變?nèi)?,需要用幀移進(jìn)行處理。

        (4)能量譜密度計算。語音信號是能量有限信號,經(jīng)過傅里葉變換后可按巴塞伐爾定理求出能量譜密度。

        (5)功率譜偽彩色分析。偽彩色分析能增強(qiáng)視覺效果,幫助人們更好地觀察和分析圖像細(xì)節(jié)。實現(xiàn)程序中采用COLORMAP_JET 顏色映射算法。

        (6)語譜圖顯示。根據(jù)語譜圖中的橫杠、亂紋及豎直條,可分析出語音信號的共振峰、基音及濁音等分布情況。

        語譜圖的產(chǎn)生流程如圖1 所示。

        圖1 語譜圖產(chǎn)生流程圖

        3.4.2 Python 實現(xiàn)程序

        Python 實現(xiàn)程序部分代碼如下所示。

        首先用import 語句導(dǎo)入分析處理語音信號的相關(guān)庫如librosa,numpy,cv2 以及matplotlib。其次分別定義計算每幀對應(yīng)的時間f_time、分幀framing、加窗hanning_win 以及短時傅里葉變換sft四個函數(shù)。進(jìn)行分幀時,如果語音信號的長度小于1 幀,則幀數(shù)為1.加窗時應(yīng)選用漢明窗,因為漢明窗能更好地保留語音信號主瓣幅頻特性。

        再次,用librosa 庫分別讀取湖南永州、常德和益陽wav 格式的方言語音信號,設(shè)置好窗函數(shù),對其進(jìn)行短時傅里葉變換。為了能夠觀察到語音信號頻譜的細(xì)節(jié),通常用取對數(shù)后的數(shù)據(jù)進(jìn)行語譜圖顯示。

        data,fs=librosa.load(path,sr=None,mono=False)#path 為方言存儲路徑

        wlen=256;win=hanning_win(wlen);nft=wlen;inc=128

        y=sft(data,win,nft,inc)#對語音信號進(jìn)行短時傅里葉變換

        fscale=[i * fs/wlen for i in range(wlen//2)]#頻率刻度

        frametime=f_time(y.shape[1],wlen,inc,fs)#每幀對應(yīng)的時間

        logarithmic_data=10*np.log10((np.abs(y)*np.abs(y)))#取對數(shù)后的數(shù)據(jù)

        最后調(diào)用能夠直觀表現(xiàn)出分類邊界的plt.pcolormesh 來繪制語譜圖,設(shè)置好顏色條和坐標(biāo)軸后保存,調(diào)用cv2 庫以灰度圖的方式分別讀取永州、常德和益陽方言的語譜圖,按照COLORMAP_JET模式進(jìn)行偽彩色映射后可得到最終結(jié)果。

        plt.pcolormesh(frametime,fscale,logarithmic_data)

        im_gray=cv.imread(‘spectrogram.png’,cv.IMREAD_GRAYSCALE)

        im_color=cv.applyColorMap(im_gray,cv.COLORMAP_JET)

        cv.imshow(‘pseudo-color’,im_color)

        3.4.3 語譜圖顯示與分析

        語譜圖含有橫杠、亂紋及豎直條等樣式,其中與時間軸平行的深黑色帶紋橫杠表示共振峰,根據(jù)其頻率和寬度可確定共振峰的頻率和帶寬。豎直條垂直于時間軸,條紋開始處為聲門脈沖初始點,間距為基音周期。在語譜圖中,橫杠出現(xiàn)表示有濁音,豎直條出現(xiàn)表示基音?;纛l率越高則條紋越密[10]。對湖南永州、常德及益陽三地的方言進(jìn)行頻譜分析,結(jié)果如圖2、圖3、圖4 所示。

        圖2 永州方言“你好”的偽彩色語譜圖

        圖3 常德方言“你好”的偽彩色語譜圖

        圖4 益陽方言“你好”的偽彩色語譜圖

        圖2 為永州方言“你好”的偽彩色映射圖。從此偽彩色語譜圖上橫杠對應(yīng)的頻率和寬度可以看出,其共振峰頻率在6 kHz 左右,帶寬相對來說比較寬。從“你好”的兩個基音之間的距離可以看出基音周期較小,基音頻率比較大。

        圖3 為常德方言“你好”的偽彩色映射圖。從此偽彩色語譜圖上橫杠對應(yīng)的頻率和寬度可以看出,其共振峰頻率在6 kHz 左右,帶寬相對來說也比較寬。從“你好”的兩個基音之間的距離可以看出基音周期也比較小,基音頻率很大。

        圖4 為益陽方言“你好”的偽彩色映射圖。從此偽彩色語譜圖上橫杠對應(yīng)的頻率和寬度可以看出,其共振峰頻率在6 kHz 左右,帶寬相對來說也比較窄。從“你好”的兩個基音之間的距離可以看出基音周期比較大,基音頻率比較小。

        4 結(jié)語

        本文研究了語音識別領(lǐng)域中一個非常重要且非常有意義的課題——方言識別技術(shù)。通過對湖南永州、常德及益陽三個地方方言語音信號的語譜圖進(jìn)行分析,發(fā)現(xiàn)了其共振峰和基音周期等特征參數(shù)的差異。從上述分析看出,方言種類的繁多以及語音的復(fù)雜性決定了方言識別是一項艱難的任務(wù),雖然現(xiàn)階段人們在方言識別方面取得了一定的成績,但許多理論和方法還處在探索和發(fā)展階段,仍需要用大量的實驗加以驗證。要想準(zhǔn)確地識別出各地的方言,研究者們需要克服輸入無法標(biāo)準(zhǔn)統(tǒng)一、噪聲干擾以及模型的有效性等難題,建立完整的方言語音數(shù)據(jù)庫,尋找一種最佳的特征參數(shù)作為方言語音的特征矢量,充分運用人工智能和機(jī)器學(xué)習(xí)來創(chuàng)新語音識別算法,結(jié)合高級的語言學(xué)知識進(jìn)行方言辨識。

        猜你喜歡
        語譜基音傅里葉
        HR-DCGAN方法的帕金森聲紋樣本擴(kuò)充及識別研究
        基于基音跟蹤的語音增強(qiáng)研究
        雙線性傅里葉乘子算子的量化加權(quán)估計
        基于小波降噪的稀疏傅里葉變換時延估計
        基于時頻域特征的場景音頻研究
        語譜圖二次傅里葉變換特定人二字漢語詞匯識別
        基于傅里葉變換的快速TAMVDR算法
        快速離散傅里葉變換算法研究與FPGA實現(xiàn)
        電測與儀表(2015年5期)2015-04-09 11:30:44
        面向語音情感識別的語譜圖特征提取算法
        樂理小知識
        小演奏家(2014年11期)2014-12-17 01:18:52
        国产高清精品自在线看| 岛国熟女精品一区二区三区| 国产精品毛片无遮挡高清| 在线看片免费人成视频电影| 色狠狠av老熟女| 免费二级毛片在线播放| 国产熟女乱综合一区二区三区| 日本一级片一区二区三区| 国产欧美日韩一区二区加勒比 | 久久久久亚洲av无码专区首jn| 国产精品久久无码一区二区三区网| 亚洲无码视频一区:| 精品人妻一区二区视频| 黄污在线观看一区二区三区三州| 午夜爽爽爽男女污污污网站| 中国丰满熟妇av| 亚洲九九九| 日韩三级一区二区三区四区| 国产一区亚洲二区三区| 久久久老熟女一区二区三区 | 国产精品亚洲av一区二区三区| 国产亚洲精品av一区| 亚洲欧美日韩中文字幕一区二区三区| 人妻 日韩精品 中文字幕| 久久中文字幕亚洲精品最新 | 欧美丰满老熟妇aaaa片| 草草久久久无码国产专区| 9久9久女女热精品视频免费观看| 午夜亚洲精品视频网站| 一本色道久久亚洲加勒比| 乱子伦在线观看| 激情97综合亚洲色婷婷五| 亚洲国产精品免费一区| 激情五月天在线观看视频| 亚洲人成影院在线无码按摩店 | 国产丝袜爆操在线观看| 韩国三级大全久久网站| 久热在线播放中文字幕| 精品人妻中文字幕一区二区三区| 亚洲最大一区二区在线观看| 久久不见久久见免费影院|