亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        變分貝葉斯改進視角下說話人聚類算法

        2019-10-21 07:23:04劉宓
        魅力中國 2019年21期
        關鍵詞:后驗貝葉斯純度

        劉宓

        (哈爾濱商業(yè)大學外語學院,黑龍江 哈爾濱 150028)

        說話人聚類是通過一種無監(jiān)督的聚類方式,其重點在于將雜亂無序的說話人片段自動地組合在一起,是說話人分離技術中的一個重要環(huán)節(jié)。聚類后在理想情況下,不同類別中的片段屬于不同的說話人,且每個類別的片段僅屬于同一個說話人。在電話會議轉寫和語言識別中說話人聚類可以提高電話會議轉寫和語音識別的準確度,提供更可靠的說話人模型給說話人自適應,并把相同的說話人語音段通過說話人聚類技術聚為一類,因此被較為廣泛的應用在電話會議轉寫和語言識別中。基于距離準則的層次聚類方法是現(xiàn)有的說話人聚類通常所采用的,而信息瓶頸、歸一化似然比、廣義似然比、相對熵以及貝葉斯信息準則為可選的相似性度量準則。最早是用于說話人分割和聚類的就是貝葉斯信息準則距離準則。然而,BIC的單高斯模型隨著不斷增加的聚類時長,對于說話人數(shù)據(jù)的分布已經(jīng)不足以描述。可以在說話人片段時長足夠的情況下得到較好結果的是基于通用背景模型和最大后驗估計的交叉似然比。針對誤差向上傳遞的情況由于傳統(tǒng)的說話人聚類算法而出現(xiàn),本文實現(xiàn)說話人聚類時結合了長時PLDA和短時BIC的優(yōu)異區(qū)分性,對說話人片段重新調(diào)優(yōu),利用了軟聚類方式,提出了相應的改進策略。不管是說話人純度還是聚類的類純度,經(jīng)過實驗表明都有了一定的提升。

        一、PLDA+BIC基線系統(tǒng)

        基于長時概率線性制別分析和短時BIC融合的方法是基線所采用的[1]。其流程如下圖一所示,整個流程對PLDA對長時片段的區(qū)分性優(yōu)勢和BIC的單高斯對短時說話人片段的描述能力進行了充分的利用。

        圖一 基線系統(tǒng)實現(xiàn)框圖

        說話人片段給定分割后,借助于自底向上的BIC層次聚類方式,不斷地合并可能屬于同一個人的片段,并合并后段的平均時長是否大于設定值進行檢查,在滿足情況的條件下,對每個說話人片段建模時利用區(qū)分性更強的PLDA模型,并對兩兩之間的PLDA得分進行計算,反之則繼續(xù)BIC層次聚類。根據(jù)大量實驗數(shù)據(jù)統(tǒng)計出的不同人和相同人之間的PLDA得分分布可以獲得其中說話人聚類的最終停止門限。

        二、變分貝葉斯調(diào)優(yōu)系統(tǒng)

        雖然在場景較為簡單的雙人對話中,基于說話人聚類基線搭建的完整的說話人分離系統(tǒng)可以達到完全實用的水平,然而當遇到多人參與、重疊音、對話中含笑聲以及背景音較強等復雜場景時,其表現(xiàn)卻并不如人意[2]。初始時每個說話人片段的類純度在實際的聚類系統(tǒng)中不能夠得到保證則是其根本原因。可用信息在大多數(shù)為1~2s的每個片段中包含較少。基于BIC距離準則的層次聚類方式并不能保證全局最優(yōu),其本質(zhì)上是一種貪心算法,在出現(xiàn)聚類誤差也會向上一直傳遞到最終結果。此外,在短時上BIC的單高斯模型并非偏向于說話人信息,而是文本信息。本文提出的逐級算法處理機制是以原有系統(tǒng)為基礎來提升系統(tǒng)的聚類效果。首先預先設定某個值,當BIC距離超過設定的門限值或者BIC層次聚類的類別數(shù)到達時,對所有的說話人片段借助于VB進行全局調(diào)優(yōu),注冊數(shù)據(jù)則選擇屬于一個類別的所有片段,最后確定說話人個數(shù)時則根據(jù)得分門限。圖二所示為其改進系統(tǒng)實現(xiàn)框圖。

        圖二 改進系統(tǒng)實現(xiàn)框圖

        三、實驗過程及結果分析

        電話信道數(shù)據(jù)集為本次實驗的主要測試數(shù)據(jù)總共有每條時長約5min的2212條雙人對話語音。相比于基線系統(tǒng),平均說話人純度和平均類純度在說話人聚類層面上改進后的系統(tǒng)分別提升了2.30%和1.68%。改進后的系統(tǒng)在其他情況完全相同的條件下,可以讓最終的說話人分類錯誤率 DER也相對下降了27.6%。不管是一步 BIC層次聚類后還是隨機初始化每個片段的后驗概率,其效果相比與基線PL DA +BIC都要好。對于某個片段屬于某個說話人的可能性后者相當于人為地加強或抑制,因此效果上會有所增加。而ACP和 ASP在V B改進后的系統(tǒng)和基線中都不是太高。通過分析類純度較低的音頻后可以得出,其轉折點檢測即使在標簽 VAD 下這些對話雙方音色比較接近的依舊存在誤差,而漏警也很容易產(chǎn)生,聚類結果也受到了直接的影響[3]。

        綜上所述,針對基線中的 BIC+PLDA 說話人聚類方法,誤差向上傳遞在層次聚類時會出現(xiàn)的情況,本文提出了逐級算法增強處理機制。在對最優(yōu)化目標函數(shù)進行保證的情況下,根據(jù)短時片段上提取出的VB-I-vector,對每個短時片段調(diào)優(yōu)時則利用最大后驗估計方法。通過實驗可以得出,對于聚類效果這種 VB調(diào)優(yōu)策略有了一定的提升,且極大地提升了整個說話人分離系統(tǒng)的效果。然而,VB調(diào)優(yōu)涉及方差的計算和復雜的后驗均值,是一種迭代過程。所以,相對于基線系統(tǒng)而言,其計算的實時率會慢上很多。在電話信道上雖然本文所提出的方法可以有很大的改善,但是聚類效果在實際應用中由于多人參與、重疊音、對話中含笑聲以及背景音較強等復雜場景都會受到直接的影響,從而使分離系統(tǒng)的性能受到影響。除此之外,未來工作的一個重點就是對說話人實際數(shù)目如何進行精確的確定。

        猜你喜歡
        后驗貝葉斯純度
        退火工藝對WTi10靶材組織及純度的影響
        基于對偶理論的橢圓變分不等式的后驗誤差分析(英)
        貝葉斯統(tǒng)計中單參數(shù)后驗分布的精確計算方法
        色彩的純度
        童話世界(2017年29期)2017-12-16 07:59:32
        貝葉斯公式及其應用
        一種基于最大后驗框架的聚類分析多基線干涉SAR高度重建算法
        雷達學報(2017年6期)2017-03-26 07:53:04
        基于貝葉斯估計的軌道占用識別方法
        間接滴定法測定氯化銅晶體的純度
        一種基于貝葉斯壓縮感知的說話人識別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        對氯水楊酸的純度測定
        應用化工(2014年11期)2014-08-16 15:59:13
        亚洲欧美性另类春色| 色综合av综合无码综合网站| 疯狂撞击丝袜人妻| 91亚洲国产成人aⅴ毛片大全| 日本精品人妻一区二区三区| 黄片小视频免费观看完整版 | 在线亚洲精品中文字幕美乳色| 国产麻花豆剧传媒精品mv在线| 日本一卡2卡3卡四卡精品网站| av天堂精品久久久久| 视频一区中文字幕在线观看| 欧美xxxxx高潮喷水麻豆| 亚洲av永久无码国产精品久久| 亚洲不卡无码高清视频| 在线亚洲精品免费视频| 亚洲开心婷婷中文字幕| 婷婷午夜天| 无码区a∨视频体验区30秒| 久久久亚洲av成人乱码| 亚洲熟妇自偷自拍另欧美| 亚洲av成人一区二区三区av| 日本亚洲成人中文字幕| 亚洲一区二区三区日本久久九| 无码免费一区二区三区| 久久亚洲国产成人亚| 国产成人av三级三级三级在线| 精品福利一区二区三区免费视频| 无码精品a∨在线观看十八禁 | 久久久久国色av∨免费看| 日本中文字幕av网址| 精品人妻va一区二区三区| 国产黄在线观看免费观看不卡| 国产在线一区二区三区av| 在线亚洲日本一区二区| 亚洲人成人无码www影院| 91av手机在线观看| 男女视频网站免费精品播放| 无码精品国产一区二区三区免费| 国产啪精品视频网站| 亚洲无码vr| 亚洲一区二区日韩专区|