馮 騁 庫(kù)天錫 楊衛(wèi)星 李雪蒙 譚小瓊 梁 超
1(武漢大學(xué)國(guó)家多媒體工程技術(shù)研究中心 湖北 武漢 430072)2(武漢大學(xué)計(jì)算機(jī)學(xué)院 湖北 武漢 430072)
?
基于跨模態(tài)的無監(jiān)督影視劇說話人識(shí)別
馮騁1,2庫(kù)天錫2楊衛(wèi)星2李雪蒙2譚小瓊1,2梁超1,2
1(武漢大學(xué)國(guó)家多媒體工程技術(shù)研究中心湖北 武漢 430072)2(武漢大學(xué)計(jì)算機(jī)學(xué)院湖北 武漢 430072)
摘要現(xiàn)如今,影視劇的海量增長(zhǎng)給其有效管理帶來了巨大挑戰(zhàn),而其中的角色識(shí)別在影視劇內(nèi)容管理中具有重大意義。傳統(tǒng)的角色識(shí)別主要采用依賴于訓(xùn)練樣本質(zhì)量的有監(jiān)督學(xué)習(xí),而現(xiàn)實(shí)中一般難以獲得充足的訓(xùn)練樣本。針對(duì)影視劇中的角色識(shí)別,提出一種跨模態(tài)的無監(jiān)督說話人識(shí)別方法:首先基于聲學(xué)特征和時(shí)間近鄰性的音頻聚類獲得對(duì)應(yīng)聚類結(jié)果的音頻標(biāo)記序列;然后通過劇本解析獲得對(duì)應(yīng)說話人、說話內(nèi)容、說話時(shí)間的文本標(biāo)記序列;接著將音頻序列與文本序列進(jìn)行跨模態(tài)序列匹配,構(gòu)造滿射解出最小編輯距離,從而實(shí)現(xiàn)說話人識(shí)別。實(shí)驗(yàn)結(jié)果表明,在訓(xùn)練集較少的情況下該方法比有監(jiān)督方法具有更高識(shí)別率。
關(guān)鍵詞說話人識(shí)別說話人聚類編輯距離混合高斯模型序列匹配
0引言
現(xiàn)如今,日益蓬勃發(fā)展的電影電視行業(yè)導(dǎo)致了視頻數(shù)據(jù)量的海量增長(zhǎng),2013年中國(guó)在線視頻市場(chǎng)規(guī)模達(dá)135.9億元,同比增長(zhǎng)48%, 2012年至今,我國(guó)影視劇在各類型內(nèi)容視頻播放覆蓋人數(shù)獨(dú)占鰲頭,最高達(dá)35 330萬人,未來幾年預(yù)計(jì)仍將保持較快增長(zhǎng)的態(tài)勢(shì)[1]。但是,如此龐大的視頻內(nèi)容卻并沒有與其易用性齊頭并進(jìn),而是給存儲(chǔ)和管理帶來了嚴(yán)重的挑戰(zhàn)。
因此,自動(dòng)分析及檢索在視頻管理領(lǐng)域具有重大研究?jī)r(jià)值。影視劇中角色的出現(xiàn)和變化對(duì)于視頻內(nèi)容具有重要的指示性,因此影視劇中角色的識(shí)別對(duì)于影視劇內(nèi)容的索引、管理具有重要意義;現(xiàn)有角色識(shí)別方法主要采取有監(jiān)督的學(xué)習(xí),其效果往往嚴(yán)重依賴于訓(xùn)練數(shù)據(jù)的獲?。欢F(xiàn)實(shí)中,一般難以獲得充足的訓(xùn)練樣本。為此,本文提出了一種跨模態(tài)的無監(jiān)督說話人識(shí)別方法。
說話人識(shí)別技術(shù)是一項(xiàng)根據(jù)語(yǔ)音波形中反應(yīng)說話人生理和行為特征的語(yǔ)音參數(shù),自動(dòng)識(shí)別說話人身份的技術(shù)[2],近來在安全加密、銀行信息電話查詢服務(wù)、公安機(jī)關(guān)破案和法庭取證、多媒體檢索等方面發(fā)揮著重要的作用。近五年說話人識(shí)別的研究重點(diǎn)集中在特征參數(shù)的提取與變換和模式匹配方法這兩個(gè)方面:特征參數(shù)上,大部分是對(duì)線性預(yù)測(cè)倒譜系數(shù)(LPCC),Mel頻率倒譜系數(shù)(MFCC)和感知線性預(yù)測(cè)參數(shù)(PLP)等常用參數(shù)進(jìn)行改良[3,4];模式匹配上;學(xué)者傾向于綜合模板匹配法、概率模型法、人工神經(jīng)網(wǎng)絡(luò)法等多種模型并對(duì)其進(jìn)行改良[5-7],最近幾年開始深入研究的支持向量機(jī)SVM在說話人識(shí)別上也有較好的表現(xiàn);還有一部分學(xué)者是以數(shù)據(jù)集的特點(diǎn)為切入點(diǎn)來進(jìn)行研究,例如電話[8]或會(huì)議[9]場(chǎng)景的說話人識(shí)別等。目前大多數(shù)表現(xiàn)良好的方法均為有監(jiān)督方法,圖1給出了有監(jiān)督說話人識(shí)別系統(tǒng)框架圖,它需要取有代表性的訓(xùn)練數(shù)據(jù)集作為樣本,通過選擇特征參數(shù),確定判別函數(shù),據(jù)此進(jìn)行分類。它的缺點(diǎn)是訓(xùn)練樣本的選取和評(píng)估需花費(fèi)較多的人力時(shí)間,而且訓(xùn)練樣本的選取方式、數(shù)目多少等對(duì)于最終結(jié)果有著很大的影響。
圖1 有監(jiān)督說話人識(shí)別框架圖
關(guān)于跨模態(tài)識(shí)別影視劇角色的研究始于2005年左右,目前已有的研究較少,且多是圍繞視頻[10-12]或圖像識(shí)別[13-15]來開展工作:它能夠發(fā)現(xiàn)視頻中的場(chǎng)景結(jié)構(gòu)[15],完成角色識(shí)別[14],甚至是學(xué)習(xí)角色的行為動(dòng)作,盡管獲得了較好的實(shí)驗(yàn)結(jié)果,但其方法大大依賴于訓(xùn)練數(shù)據(jù)集的質(zhì)量和完整性。此外,還有少量的研究既不需要訓(xùn)練集也不需要字幕,而是基于聚類來識(shí)別角色的[16,17]。這其中基于音頻開展的工作屈指可數(shù),中文相關(guān)文獻(xiàn)幾乎為零。
1跨模態(tài)的無監(jiān)督序列匹配框架
與上述方法進(jìn)行對(duì)比研究后發(fā)現(xiàn),通過視頻進(jìn)行影視劇角色分類往往受視頻中人的體態(tài)、臉部表情、環(huán)境光照、復(fù)雜的背景等諸多影響,而有監(jiān)督說話人識(shí)別太依賴于訓(xùn)練數(shù)據(jù)集的選取。因此,本文提出了一種全新的跨模態(tài)的無監(jiān)督說話人識(shí)別方法,算法框架如圖2所示。該方法綜合利用了影視劇文本序列和音頻序列這兩種不同模態(tài),且無需訓(xùn)練數(shù)據(jù)集,即可實(shí)現(xiàn)影視劇說話人識(shí)別。該方法主要分為三步:1) 音頻聚類,包括語(yǔ)音信號(hào)的預(yù)處理、去噪處理、特征提取、聚類等步驟,生成對(duì)應(yīng)聚類結(jié)果的音頻標(biāo)記序列;2) 劇本解析,生成對(duì)應(yīng)說話人、說話內(nèi)容、說話時(shí)間的文本標(biāo)記序列;3) 將以上兩種標(biāo)記序列進(jìn)行跨模態(tài)序列匹配。這三步缺一不可,緊密結(jié)合。
圖2 無監(jiān)督跨模態(tài)說話人識(shí)別算法流程圖
除了提出這個(gè)全新的框架,在步驟1音頻聚類上,根據(jù)影視劇音頻獨(dú)有的特點(diǎn),本文提出了考慮聲學(xué)特征和時(shí)間近鄰性的混合高斯模型聚類;在步驟3跨模態(tài)序列匹配上,本文仔細(xì)甄選了距離度量算法,提出了全局序列匹配方法從而最優(yōu)解析劇本和音頻之間的關(guān)聯(lián)性。以下將對(duì)步驟1和步驟3著重闡述,其他細(xì)節(jié)只在實(shí)驗(yàn)需要的地方進(jìn)行說明。
2音頻標(biāo)記序列生成
傳統(tǒng)的混合高斯模型聚類太依賴初始聚簇中心點(diǎn),這樣容易造成局部結(jié)果最優(yōu),而非全局結(jié)果最優(yōu)。因此,本文采用一種改進(jìn)的抽取聚類法來確保得到全局最優(yōu)的結(jié)果,在選取初始聚簇中心點(diǎn)時(shí)采用加權(quán)均值向量,而非隨機(jī)生成。此外,考慮到影視劇音頻的背景下,由于輸入的數(shù)據(jù)是影視劇中連續(xù)的音頻,幀與幀之間不僅具有聲學(xué)特征上的相似性,還具有時(shí)間近鄰性,例如一大段連續(xù)的標(biāo)號(hào)為1的幀,如果中間突然出現(xiàn)極少數(shù)的其他標(biāo)號(hào)的幀,是不合常理的,因此需要把這些異常值剔除掉,使用κ(i,j)來綜合考慮聲學(xué)特征和時(shí)間關(guān)聯(lián)性,公式如下:
(1)
3文本標(biāo)記序列生成
影視劇中有劇本和字幕,劇本包含三大基本要素:場(chǎng)景、說話人、臺(tái)詞,字幕包含兩大基本要素:臺(tái)詞和臺(tái)詞出現(xiàn)時(shí)間。將劇本和字幕的臺(tái)詞內(nèi)容進(jìn)行匹配,完成劇本解析,即可獲得文本標(biāo)記序列,同時(shí)也得到包含了說話人、臺(tái)詞、臺(tái)詞出現(xiàn)時(shí)間的事實(shí)庫(kù)。圖3展示了劇本-字幕匹配關(guān)系圖。由于演員的表演有臨場(chǎng)發(fā)揮性,所述臺(tái)詞并不嚴(yán)格按照劇本所寫,加之字幕組與編劇不為同一人等原因,因此劇本臺(tái)詞和字幕臺(tái)詞存在差異,這些差異是導(dǎo)致無法正確進(jìn)行劇本解析的關(guān)鍵因素。因此首先要對(duì)劇本文件和字幕文件進(jìn)行校準(zhǔn),將差異化降到最低。本文采用了人工校準(zhǔn)和程序判斷結(jié)合,人工校準(zhǔn)上采用人工對(duì)上述問題進(jìn)行肉眼判斷并更正,程序判斷上使用正則表達(dá)式,利用python語(yǔ)言編譯的程序,對(duì)劇本和字幕文件進(jìn)行字符匹配,設(shè)定最高錯(cuò)誤率門限為5%,當(dāng)正確率低于95%時(shí),程序無法通過,需人工校準(zhǔn),經(jīng)過人工與程序的結(jié)合后,字符匹配的正確率均在97%以上,得到的文本序列存儲(chǔ)于數(shù)據(jù)庫(kù)中,一方面作為劇本解析后生成的文本標(biāo)記序列,另一方面,作為事實(shí)庫(kù)為后續(xù)實(shí)驗(yàn)方法的有效性評(píng)價(jià)提供依據(jù)和準(zhǔn)則。
圖3 劇本-字幕匹配關(guān)系圖
4跨模態(tài)的標(biāo)記序列匹配
音頻中的音頻序列和劇本中角色名字的序列構(gòu)成了兩種不同模態(tài)的時(shí)間序列。音頻中的聲音序列對(duì)應(yīng)著相應(yīng)的角色,它包含必然關(guān)聯(lián)性:即一個(gè)簇中的聲音序列均對(duì)應(yīng)著同一個(gè)角色,并且有它特定的分布;劇本中角色名字的序列也有它自身的分布特點(diǎn)。全局序列匹配既能考慮到每個(gè)序列自身的分布相似性,又考察了音頻序列與文本序列的全局距離。通過音頻序列與文本序列的對(duì)應(yīng),就可以找到最優(yōu)的說話人識(shí)別的答案。圖4展示了跨模態(tài)序列匹配框架圖。
圖4 跨模態(tài)序列匹配框架圖
4.1目標(biāo)函數(shù)構(gòu)建
Surjopt:A→B=argmin(LS,T(n,m))
4.2編輯距離算法
編輯距離,又稱Levenshtein距離,它是指兩個(gè)字串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符,刪除一個(gè)字符。定義LS,T(n,m)表示第一個(gè)序列S=s1,s2,…,sn的長(zhǎng)度為n的子串到第二個(gè)序列T=t1,t2,…,tn的長(zhǎng)度為m的子串的編輯距離。假設(shè)0≤i≤n,0≤j≤m,Del、Ins、Sub是刪除、插入、替換的代價(jià)值。如果min(i,j)=0,那么LS,T(n,m)=max(i,j),否則:
(2)
本文采用了一個(gè)自底向上的編程方法去計(jì)算S與T的編輯距離LS,T(n,m),它計(jì)算了聲音序列與姓名序列之間的編輯距離并存儲(chǔ)在一個(gè)矩陣?yán)镆苑乐貜?fù)計(jì)算。如算法1所示,在這篇文章中,它被作為姓名序列與音頻序列間的距離度量準(zhǔn)則。且在音頻和劇本的關(guān)系基本上就是一一對(duì)應(yīng)的,有劇本臺(tái)詞就有說話對(duì)應(yīng)的片段,幾乎不需要上述的插入、刪除、替換等編輯操作,這也是使用編輯距離算法的一大優(yōu)點(diǎn)。
算法1編輯距離算法
輸入:序列S,T,插入、刪除、替換代價(jià)值Ins,Del,Sub
輸出:編輯距離LS,T(n,m) Initialization LS,T(i,0)=i(0≤i≤n);
LS,T(0,j)=j(0≤j≤m);
for i from 1 to n
for j from 1 to m
if si==tj
LS,T(i,j)=LS,T(i-1,j-1);
else
LS,T(i,j)=min(LS,T(i-1,j)+Del,
LS,T(i,j-1)+Ins,LS,T(i-1,j-1))
end if
end for
end for
Return LS,T(n,m);
5實(shí)驗(yàn)
本文選擇了2個(gè)實(shí)驗(yàn)數(shù)據(jù)集:《老友記》第1季的24集劇集和《我愛我家》第1部前20集劇集?!独嫌延洝访考蠹s出現(xiàn)8個(gè)角色,5個(gè)場(chǎng)景;《我愛我家》每集大約出現(xiàn)10個(gè)角色、7個(gè)場(chǎng)景。表1展示了數(shù)據(jù)集基本信息。實(shí)驗(yàn)主要基于matlab完成方法實(shí)現(xiàn),并與基礎(chǔ)音頻聚類算法GMM、HMM+BIC和有監(jiān)督分類方法SVM、KNN算法進(jìn)行了對(duì)比。
表1 數(shù)據(jù)集基本信息匯總表
5.1實(shí)驗(yàn)步驟
本文首先基于matlab對(duì)本文所述理論方法進(jìn)行實(shí)現(xiàn)。然后分別與有監(jiān)督分類方法以及傳統(tǒng)經(jīng)典聚類算法進(jìn)行對(duì)比。
本文在每個(gè)數(shù)據(jù)集各選擇了10集劇集,經(jīng)過Audition Converter和Adobe Audition提取相應(yīng)音頻。在實(shí)驗(yàn)中,本文忽略了音頻信號(hào)時(shí)長(zhǎng)少于5分鐘、劇本中名字出現(xiàn)次數(shù)少于5次的角色,因?yàn)檫@些極少出現(xiàn)的角色并無代表性,反而可以視為一種干擾因素。具體步驟如下。
步驟一完成音頻聚類,生成音頻標(biāo)記序列。細(xì)分步驟如下:
(1) 對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理:通過傳遞函數(shù)為式(3)的一階FIR高通濾波器實(shí)現(xiàn)預(yù)加重,其中,α為預(yù)加重系數(shù),信號(hào)方程為式(4) ,在實(shí)驗(yàn)中取α=0.97。接著對(duì)語(yǔ)音信號(hào)分幀后再加窗。頻域分析時(shí)采用漢明窗:
H(z)=1-αz-1
(3)
y(n)=x(n)-αx(n-1)
(4)
(2) 進(jìn)行去噪處理:本文采用逆向思維法進(jìn)行去噪,由于人聲的聲像位置位于整個(gè)聲場(chǎng)的中央,首先將音頻信號(hào)通過Adobe Audition的析取中置通道進(jìn)行人聲消除,然后將剩余音頻做VAD(Voice activity detection)檢測(cè)得出噪聲段,最后從原始音頻中屏蔽這些噪聲段,最終得到有效音頻信號(hào),本文采用了基于能量和過零率的語(yǔ)音端點(diǎn)檢測(cè)的兩極判決法來實(shí)現(xiàn)VAD檢測(cè);
(3) 提取24維的MFCC+ΔMFCC特征,并使用主成分分析提取前95%重要率的特征;
(4) 如第2節(jié)所述,運(yùn)用改進(jìn)后的混合高斯模型進(jìn)行音頻聚類;
步驟二完成劇本解析,生成文本標(biāo)記序列,具體如第3節(jié)所述。
步驟三根據(jù)編輯距離算法進(jìn)行序列匹配,具體如第4節(jié)所述。
步驟四對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。本文除了采用基本的準(zhǔn)確率(precision),召回率(recall),還采用了F值(F-measure)、加權(quán)F值(weighted F-measure)如式(5):
(5)
式中,wi是第i個(gè)角色根據(jù)說話量的大小所占權(quán)重。
步驟五對(duì)比實(shí)驗(yàn)。為了證明本文方法的有效性,首先,本文與音頻聚類經(jīng)典算法的效果進(jìn)行對(duì)比,選取了基于混合高斯模型的聚類(GMM)以及基于隱馬爾科夫模型與貝葉斯信息準(zhǔn)則的聚類(HMM+BIC),分別計(jì)算錯(cuò)誤率DER(diarization error rate)對(duì)比。其次,本文與有監(jiān)督分類方法的進(jìn)行對(duì)比,選取了本文方法的最重要的前兩個(gè)角色的加權(quán)F值與兩種有監(jiān)督方法支持向量機(jī)SVM和最鄰近算法KNN進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果如圖5和表2所示。
圖5 實(shí)驗(yàn)結(jié)果
數(shù)據(jù)集DER 聚類算法 我愛我家老友記GMM32.326.2HMM+BIC25.920.8OURMETHOD19.415.7
5.2結(jié)果分析
跨模態(tài)無監(jiān)督說話人識(shí)別結(jié)果如圖5所示,其中,(a)、(c)、(e)來自《我愛我家》,(b)、(d)、(f)來自《老友記》,(a)、(b)展示了準(zhǔn)確率(precision)、召回率(recall)以及F度量值(F-measure),(c)、(d)展示了前3名主要角色的加權(quán)F度量值(weighted F-measure),(e)、(f)展示了與有監(jiān)督分類器的實(shí)驗(yàn)結(jié)果對(duì)比。所選聚簇?cái)?shù)目為主要角色數(shù)目的0.5倍到4倍。從圖中(a)、(b)可以看出,隨著聚簇?cái)?shù)量增多,聚類效果越來越好:隨著聚簇?cái)?shù)量增多,前期準(zhǔn)確率逐漸提升,但到一定峰值之后,繼續(xù)增加聚簇?cái)?shù)量,準(zhǔn)確率緩慢上升甚至稍有下降,原因是當(dāng)聚簇?cái)?shù)量增多,聚簇的純度也隨之增大,每一簇內(nèi)的噪聲有所下降。且準(zhǔn)確率較高的時(shí)候召回率一般較低,這兩個(gè)指標(biāo)一般呈互補(bǔ)狀態(tài)。從圖中可以看出,《我愛我家》和《老友記》最佳的聚簇?cái)?shù)目在主要角色的1.75倍和2.25倍左右,為了給出更詳細(xì)的結(jié)果,統(tǒng)計(jì)了前3名主要角色的最終結(jié)果如圖(c)、(d),發(fā)現(xiàn)《我愛我家》前3名主要角色的加權(quán)F值的最大值分別為0.75、072、0.67,《老友記》前3名主要角色的加權(quán)F值的最大值分別為0.78、0.71、0.66,顯示了不錯(cuò)的效果。但總體而言,《老友記》結(jié)果更好,因?yàn)椤段覑畚壹摇返膱?chǎng)景切換、角色數(shù)目更多,劇集結(jié)構(gòu)更加復(fù)雜,導(dǎo)致處理起來難度更高。
圖(e)、(f)展示了與有監(jiān)督方法的對(duì)比結(jié)果,橫坐標(biāo)定義為訓(xùn)練集與測(cè)試集數(shù)目的比率。在測(cè)試集數(shù)目一定的情況下,橫坐標(biāo)值越大說明訓(xùn)練集越大。由于本文方法為無監(jiān)督方法,無需訓(xùn)練數(shù)據(jù)集,因此本文結(jié)果是一條平行于橫坐標(biāo)的直線。如圖看出,當(dāng)橫坐標(biāo)小于0.3時(shí),有監(jiān)督方法結(jié)果不佳,加權(quán)F值低于0.5,而本方法結(jié)果更好。眾所周知,從海量視頻數(shù)據(jù)中獲取高質(zhì)量、大容量的訓(xùn)練集需要耗費(fèi)大量的時(shí)間和精力,盡管有監(jiān)督的方法最終可以獲得高達(dá)87%的識(shí)別率,但大數(shù)據(jù)時(shí)代增加了手工標(biāo)記訓(xùn)練集的難度,因此,本文方法具有一定的實(shí)際意義。一般情況下,訓(xùn)練集容量和質(zhì)量很難達(dá)不到獲取高質(zhì)量結(jié)果的要求,在這種訓(xùn)練集容量小或者質(zhì)量差的情況下,本文方法比有監(jiān)督方法具有明顯優(yōu)勢(shì)。
表2展示了與音頻聚類經(jīng)典算法的錯(cuò)誤率對(duì)比結(jié)果,對(duì)于影視劇音頻這種比較復(fù)雜的數(shù)據(jù)集,單用傳統(tǒng)的經(jīng)典算法效果并不佳,本文方法在聚類的基礎(chǔ)上進(jìn)行了跨模態(tài)匹配,綜合了音頻序列和文本序列相關(guān)聯(lián)的時(shí)間信息,由于序列本身的時(shí)間性提供的信息比統(tǒng)計(jì)信息更豐富,因此降低了錯(cuò)誤率,可以看到,本文方法的錯(cuò)誤率比經(jīng)典聚類算法的錯(cuò)誤率要低5%~12%,進(jìn)一步說明了本文方法比經(jīng)典聚類算法有所提升。
6結(jié)語(yǔ)
本文采用跨模態(tài)的思想,充分利用了影視劇音頻和劇本,提出了一種全局的序列匹配方式,結(jié)合音頻聚類,從而實(shí)現(xiàn)了跨模態(tài)的無監(jiān)督影視劇說話人識(shí)別。實(shí)驗(yàn)與音頻聚類經(jīng)典算法以及有監(jiān)督說話人識(shí)別經(jīng)典算法進(jìn)行了對(duì)比,本文方法在訓(xùn)練數(shù)據(jù)集不充分的情況下具有更大的優(yōu)勢(shì)。實(shí)驗(yàn)部分驗(yàn)證了算法的合理性和有效性。在未來可以結(jié)合視頻、音頻、文字信息等多種模態(tài),來實(shí)現(xiàn)更優(yōu)化的跨模態(tài)無監(jiān)督說話人識(shí)別方法。
參考文獻(xiàn)
[1] 艾瑞.2014年中國(guó)在線視頻行業(yè)年度監(jiān)測(cè)報(bào)告[R/OL].2014:10-24.http://report.iresearch.cn/2263.html.
[2] 張雪英.數(shù)字語(yǔ)音處理及matlab仿真[M].北京:電子工業(yè)出版社,2010:1-6.
[3] Alam Md,Jahangir,Kenny,et al.Low-variance Multitaper Mel-frequency Cepstral Coefficient Features for Speech and Speaker Recognition Systems[J].cognitive computation,2013,5(4):533-544.
[4] Mahmood Awais,Alsulaiman Mansour,Muhammad Ghulam.Automatic Speaker Recognition Using Multi-Directional Local Features (MDLF)[J].Arabian journal for science and engineering,2014,39(5):3799-3811.
[5] Jourani Reda,Daoudi Khalid,Andre-Obrecht Regine.Discriminative speaker recognition using large margin GMM[J].Neural computing & applications,2013,22(7):1329-1336.
[6] Ji Zhe,Hou Wei,Jin Xin.Duration Weighted Gaussian Mixture Model Supervector Modeling for Robust Speaker Recognition[C]//2013 Ninth International Conference on Natural Computation (ICNC2013).Shenyang:IEEE,2013:238-241.
[7] Ling Xinxing,Zhan Ling,Hong Zhao,et al.Speaker recognition system using the improved GMM-based clustering algorithm[C]//2010 International Conference on Intelligent Computing and Integrated Systems(ICISS2010).Gandhinagar:Springer,2010:482-485.
[8] Khoury E,Vesnicer B,Franco-Pedroso,et al.The 2013 Speaker Recognition Evaluation in Mobile Environment[C]//2013 International Conferences on Biometrics (ICB2013).Madrid:IEEE,2013.
[9] Hori Takaaki,Araki Shoko,Yoshioka,et al.Low-Latency Real-Time Meeting Recognition and Understanding Using Distant Microphones and Omni-Directional Camera[J].IEEE Transactions on audio speech and processing,2013,20(2):499-513.
[10] Berg T L,Berg A C,Edwards J,et al.Names and faces in the news[C]//Computer Vision and Pattern Recognition (CVPR).Washington D.C:IEEE,2004:848-854.
[11] Guillaumin M,Mensink T,Verbeek J,et al.Automatic face naming with caption-based supervision[C]//IEEE Conference on Computer Vision and Pattern Recognition.Anchorage:IEEE,2008:2030-2037.
[12] Ozkan D,Duygulu P.Interesting faces:A graph-based approach for finding people in news[J].Pattern Recognition,2010:43(5):1717-1735.
[13] Satoh S,Nakamura Y,Kanade T.Name-it:naming and detecting faces in news videos[J].IEEE Multimedia,1999:6(1):22-35.
[14] Everingham M,Sivic J,Zisserman A.Hello! my name is...buffy - automatic naming of characters in tv video[C]//Proceedings of the British Machine Conference. Edinburgh:Elsevier science BV,2006:889-908.
[15] Cour T,Jordan C,Miltsakaki E,et al.Movie/script:Alignment and parsing of video and text transcription[C]//10th European Conference on Computer Vision. Marseille:Springer,2008,5305(4):158-171.
[16] Chao Liang,Changsheng Xu,Jian Cheng,et al.Tvparser: An automatic tv video parsing method[C]//Computer Vision and Pattern Recognition (CVPR).Colorado Springs:IEEE,2011:3377-3384.
[17] Zhiqiang Tang,Yifan Zhang,Shuang Qiu,et al.Video face naming using global sequence alignment[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs:IEEE,2014:353-357.
CROSS-MODAL-BASED UNSUPERVISED SPEAKER RECOGNITION IN FILM AND TV DRAMA
Feng Cheng1,2Ku Tianxi2Yang Weixing2Li Xuemeng2Tan Xiaoqiong1,2Liang Chao1,2
1(NationalEngineeringResearchCenterforMultimediaSoftware,WuhanUniversity,Wuhan430072,Hubei,China)2(SchoolofComputer,WuhanUniversity,Wuhan430072,Hubei,China)
AbstractNowadays the explosive growth of film and TV dramas bring great challenges to their effective management, and in which the role recognition is of great significance in film and TV drama content management. Traditional role recognition mainly depends on the supervised learning of training sample quality, however in reality it is difficult to gain sufficient training samples. This paper proposes an unsupervised speaker recognition method which is based on cross-modal aiming at role recognition in films and TV dramas. The steps are as follows: First, based on acoustic features and audio clustering of time proximity we obtain the audio marking sequence of corresponding clustering result. Secondly, through scripts parsing we obtain the text marking sequence of corresponding speaker, speaking contents and speaking time. Finally we make cross-modal sequence alignment of these two sequences and construct the surjection to calculate minimum Levenshtein distance, so as to achieve speaker recognition. Experimental results show that under the circumstance of sparse training data sets this method has higher recognition rate than the supervised method.
KeywordsSpeaker recognitionSpeaker clusteringLevenshtein distanceGaussian mixture modelSequence alignment
收稿日期:2015-01-09。國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(61231015)。馮騁,碩士,主研領(lǐng)域:說話人識(shí)別。庫(kù)天錫,本科。楊衛(wèi)星,本科。李雪蒙,本科。譚小瓊,博士。梁超,博士。
中圖分類號(hào)TP3
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.05.033