江蘇 孫海林 尹巧萍
基于語音基音頻率特征對人性別識別的研究
江蘇孫海林尹巧萍
本文利用基音頻率作為語音特征,研究了文本無關說話人性別判別的方法。根據所計算出的不同性別說話人的語音基音頻率累積密度函數之間的差異,識別出文本無關說話人的性別,實驗結果顯示該方法能夠有效地識別不同說話人的性別。
語音基音頻率說話人性別識別
隨著科學技術的飛速發(fā)展,通過對語音信號進行分析處理,進而提取語音特征參數來識別說話人身份已經成為可能。根據語音特征來識別說話人的身份,具有不會被遺失和忘記、無需記憶、不需接觸、使用方便、系統設備成本低、能實現遠距離識別等很多獨特的優(yōu)點,因此越來越受到人們的歡迎。
基音頻率作為表征語音信號本質特征的參數,屬于語音分析的范疇。語音識別率的高低依賴于對語音信號分析的準確性和精確性,因此研究基音頻率在語音信號的處理應用中具有十分重要的作用。例如,在說話人性別識別領域,基音頻率是性別識別極其重要的鑒別依據,它體現了說話人發(fā)濁音時聲帶的振動頻率。一般而言,男性說話者的基音頻率較低,大部分在50~200Hz之間;女性說話者和小孩的基音頻率相對較高,主要分布在200~450Hz之間。因此,在說話人性別識別中,對基音頻率進行準確而可靠地估計顯得非常重要。
本文利用基音頻率作為語音特征,研究了文本無關說話人性別判別的方法。說話人性別識別按照說話內容的類別,可以分為“文本相關”和“文本無關”兩種?!拔谋鞠嚓P”指說話人按照規(guī)定的文本內容發(fā)音或按提示內容發(fā)音;“文本無關”指無論說什么內容都可以對說話人性別進行識別。在某些領域,人們是不可能知道說話人的文本內容,如公安司法鑒別、說話人語音跟蹤等,因此文本無關的說話人識別應用更為廣泛、靈活,也更加受到人們的重視。
我們利用不同性別語音基音頻率統計模型的差異對性別進行判別。為此,首先需要估算基音信號的概率密度函數。估算概率密度函數的基本公式為:
將(6)帶入(1)式,可以得到:
(5)式就是利用正態(tài)窗進行對基音頻率的概率密度函數進行Parzen窗法估算的公式。利用(5)式對于語音信號基音頻率的概率密度進行估算,然后再對概率密度函數積分,得到不同性別的基音頻率累積密度函數如圖1所示。
圖1 不同性別的基音累積密度函數
實驗語音數據取自在實驗室環(huán)境下,錄取40個人(20男、20女)的語音,其中每人說15個不同的字詞,每詞說2遍共1200個語音。每個人的第一遍15個字詞語音進行訓練,獲取每個人的模型參數。然后用另一遍15個字詞進行測試。實驗結果顯示,輸入的語音信號持續(xù)時間越長,識別的準確率越高。對于持續(xù)時間在20秒以上的長句子,識別的準確率高達98%;對于持續(xù)時間較短的短句子或者單個詞語,準確率可以達到89%以上。
本文利用基音頻率作為語音特征,研究了與文本無關說話人性別判別的方法。判別的基本流程一般分為三步:首先,對輸入的語音信號進行處理;其次,提取所需基音頻率特征參數;最后,將所提取的特征參數與已有的說話人識別模型進行比對,從而判別出說話人的性別。通過對40名實驗者的性別判別實驗,結果顯示該方法能夠有效地識別不同說話人的性別。
[1]趙力,語音信號處理.北京:機械工業(yè)出版社[M],2003:236-253.
[2]王冶平,情感語音信號特征分析與識別.東南大學博士論文[D],2005∶61-73.
[3]尹巧萍,趙力,利用語音基音統計特征的說話人性別判識的研究,聲學技術[J],2007,26(4):206-208.
[4]R. W. Picard, Affective Computing . Cambridge∶ MIT Press, 1997.
(作者單位:泰州機電高等職業(yè)技術學校)