【摘要】隨著電網(wǎng)調(diào)控一體模式的應(yīng)用打破傳統(tǒng)的調(diào)度的業(yè)務(wù)范疇,調(diào)控拓展成為電網(wǎng)信息通信與設(shè)備的集中監(jiān)視與指揮控制中心,各類生產(chǎn)業(yè)務(wù)的實(shí)時(shí)、準(zhǔn)確信息逐步匯集到調(diào)度臺(tái)。作為各類監(jiān)控信息和管理流程的匯集點(diǎn),調(diào)度下令的準(zhǔn)確性直接關(guān)乎電網(wǎng)運(yùn)行穩(wěn)定性。本文針對(duì)調(diào)度錄音系統(tǒng)的需求,通過(guò)對(duì)聲紋識(shí)別技術(shù)在調(diào)度錄音分析的應(yīng)用進(jìn)行分析研究,期望再進(jìn)一步通過(guò)技術(shù)力量改變調(diào)度下令不規(guī)范,用語(yǔ)不真切的不良習(xí)慣,從根本上解決調(diào)度下令的多年詬病,提升電網(wǎng)調(diào)度下令水平。
【關(guān)鍵詞】調(diào)度;調(diào)度錄音;錄音分析;聲紋識(shí)別
1.研究目的及意義
調(diào)度崗位業(yè)務(wù)范疇的擴(kuò)容,直接導(dǎo)致調(diào)度人員的工作量上浮,對(duì)于日常工作,指揮下令的操作更為頻繁,目前調(diào)度電話錄音每月數(shù)量已經(jīng)接近萬(wàn)條,平均下來(lái)每一天都有三、四百條錄音文件產(chǎn)生,其中正規(guī)調(diào)度下令錄音占約2/5,目前針對(duì)錄音內(nèi)容,采用人工逐一收聽(tīng)的辦法來(lái)判定錄音內(nèi)容是否規(guī)范,下令是否正確。通過(guò)人工抽檢測(cè)聽(tīng)的方式,無(wú)法全面有效地評(píng)價(jià)調(diào)度質(zhì)量,難以確保調(diào)度人員正確使用規(guī)定的調(diào)度術(shù)語(yǔ)且調(diào)度指令準(zhǔn)確、無(wú)誤;且人工抽檢方式工作量大,效率低。
應(yīng)用語(yǔ)音分析技術(shù),將電網(wǎng)調(diào)度中心保存的非結(jié)構(gòu)化的錄音數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化的索引信息(文本結(jié)構(gòu)),通過(guò)關(guān)鍵詞檢索、篩選、業(yè)務(wù)歸類等處理及分析,建立聲紋模型以及設(shè)定關(guān)鍵字,如拉開(kāi)、閉合、下令等關(guān)鍵字眼,對(duì)調(diào)度流程規(guī)范進(jìn)行自動(dòng)確認(rèn)和問(wèn)題分析,大幅度提高質(zhì)檢效率和覆蓋面,提升電網(wǎng)調(diào)度質(zhì)量,降低運(yùn)營(yíng)成本,提高運(yùn)營(yíng)管理水平。
2.主要技術(shù)在調(diào)度錄音分析的應(yīng)用
2.1 調(diào)度錄音預(yù)處理
輸入的調(diào)度語(yǔ)音信號(hào)需要進(jìn)行預(yù)處理,預(yù)處理過(guò)程的好壞在一定程度上影響系統(tǒng)的識(shí)別效果。在調(diào)度錄音預(yù)處理過(guò)程中,采用文本相關(guān)的聲紋識(shí)別技術(shù)。
語(yǔ)音轉(zhuǎn)寫(xiě)(識(shí)別),是指將非結(jié)構(gòu)化的語(yǔ)音文件轉(zhuǎn)換為結(jié)構(gòu)化的文本信息,是語(yǔ)音分析的核心功能。處理時(shí)將分離后的調(diào)度錄音通過(guò)聲學(xué)模型轉(zhuǎn)換為漢語(yǔ)音標(biāo)符號(hào),再通過(guò)超大詞匯網(wǎng)絡(luò)的語(yǔ)言模型將音標(biāo)信息識(shí)別為文本內(nèi)容。
由于調(diào)度員的本地口音及中文自帶的語(yǔ)調(diào),必須優(yōu)化聲學(xué)模型和語(yǔ)言模型,以提升語(yǔ)音轉(zhuǎn)寫(xiě)準(zhǔn)確率。在具體實(shí)施過(guò)程中,采用識(shí)別詞混淆網(wǎng)絡(luò)(Word Confusion Network,WCN)作為文本分類器的輸入,使用WCN中覆蓋的詞而不是只使用語(yǔ)音轉(zhuǎn)寫(xiě)結(jié)果進(jìn)行文本分類,提高對(duì)識(shí)別錯(cuò)誤的魯棒性。
2.2 調(diào)度錄音索引及檢索
目前,在調(diào)度錄音中,同一個(gè)錄音記錄了調(diào)控人員和運(yùn)行人員的全部對(duì)話。通過(guò)場(chǎng)景分割技術(shù)對(duì)兩方通話內(nèi)容進(jìn)行分離,進(jìn)而針對(duì)性對(duì)調(diào)度質(zhì)量分別進(jìn)行監(jiān)控和分析,以識(shí)別問(wèn)題發(fā)生點(diǎn)及問(wèn)題內(nèi)容。場(chǎng)景分割,是指對(duì)通話錄音中的雙方通話行為進(jìn)行檢測(cè)、切割和分離。經(jīng)過(guò)預(yù)處理的調(diào)度錄音經(jīng)過(guò)場(chǎng)景分割,再進(jìn)行下一步的進(jìn)行索引與檢索。
語(yǔ)音索引,是指將語(yǔ)音中包含的各類信息進(jìn)行識(shí)別和歸類,并形成方便查詢統(tǒng)計(jì)的索過(guò)檢測(cè)電話錄音的基頻、音高等變化幅度,預(yù)測(cè)情緒波動(dòng)并定位其位置信息,分析出通話錄音的平均語(yǔ)速以及語(yǔ)速變化,檢出通話錄音的靜音時(shí)間等,生成標(biāo)準(zhǔn)XML格式的索引文件。索引內(nèi)容包括:
調(diào)控人員語(yǔ)音和運(yùn)行人員語(yǔ)音的文字轉(zhuǎn)寫(xiě)結(jié)果,如果是雙聲道語(yǔ)音,則給出聲道信息(關(guān)鍵詞位于哪個(gè)聲道);通話的語(yǔ)音端點(diǎn)、語(yǔ)速等信息,主要包括調(diào)控人員和運(yùn)行人員各自的每次說(shuō)話的起止時(shí)間、語(yǔ)速(字/秒)、平均語(yǔ)速(字/秒)、異常情緒、靜音時(shí)長(zhǎng)等。
語(yǔ)音檢索,是指從索引文件進(jìn)行關(guān)鍵詞信息的快速篩選,返回語(yǔ)音結(jié)果并進(jìn)行自動(dòng)統(tǒng)計(jì)。語(yǔ)音檢索,支持邏輯組合檢索、二次檢索等功能。
在語(yǔ)音檢索應(yīng)用中,通過(guò)使用“拉開(kāi)”、“閉合”、“下令”、“復(fù)誦”等關(guān)鍵字進(jìn)行檢索,可快速定位與關(guān)鍵字相關(guān)的錄音信息,從而進(jìn)一步進(jìn)行人工篩選。
2.3 調(diào)度錄音模型選取
在語(yǔ)音分析應(yīng)用中,語(yǔ)音識(shí)別效果取決于聲學(xué)模型和語(yǔ)言模型。聲學(xué)模型方面,需要考慮人以及用戶使用環(huán)境對(duì)語(yǔ)音的影響,建立了不同口音的聲學(xué)模型和噪音處理的聲學(xué)模型;語(yǔ)言模型方面,結(jié)合電力實(shí)際業(yè)務(wù)需要,通過(guò)對(duì)調(diào)度過(guò)程的分析,建立有針對(duì)性的業(yè)務(wù)語(yǔ)言模型。
中文為帶調(diào)的語(yǔ)言,聲學(xué)特征除傳統(tǒng)的MFCC譜特征外,也使用代表調(diào)型的Pitch特征。一般調(diào)型的特征反映在韻母上,即一個(gè)韻母因?yàn)檎{(diào)型不同有4個(gè)單元??紤]到對(duì)于同一個(gè)韻母的4個(gè)單元,其MFCC特征是沒(méi)有差異的;而對(duì)于不同韻母的同一個(gè)調(diào),其Pitch特征也是很接近的。
雙流模型:
采用雙流聲學(xué)模型建模技術(shù),將MFCC和Pitch特征分成兩個(gè)流:在Tri-phone決策樹(shù)聚類階段,對(duì)于聲母部分,每個(gè)音素建一棵決策樹(shù);對(duì)于韻母部分,在MFCC流同一個(gè)音素不同調(diào)建一棵決策樹(shù),在Pitch流同一個(gè)調(diào)不同音素建一棵決策樹(shù)。這種建模方式,大大降低了帶調(diào)韻母需要的模型復(fù)雜度,也改善聲學(xué)模型的精度。
區(qū)分性訓(xùn)練:
在最大似然(Maximum Likelihood,ML)模型訓(xùn)練準(zhǔn)則基礎(chǔ)上,將最小音素錯(cuò)誤(Minimum Phone Error,MPE)模型訓(xùn)練準(zhǔn)則應(yīng)用于中英文混合雙流聲學(xué)模型的訓(xùn)練,關(guān)鍵在于中英文混合模型MPE訓(xùn)練生成競(jìng)爭(zhēng)空間時(shí)語(yǔ)言模型的選擇。
訓(xùn)練數(shù)據(jù),分成純中文、純英文、中英文混合3個(gè)部分:純中文數(shù)據(jù),采用中文Uni-gram語(yǔ)言模型、純英文數(shù)據(jù)采用英文Uni-gram語(yǔ)言模型;中英文混合數(shù)據(jù),采用中文Uni-gram與英文Uni-gram進(jìn)行插值后的語(yǔ)言模型,采用3部分?jǐn)?shù)據(jù)進(jìn)行MPE訓(xùn)練后,聲學(xué)模型的識(shí)別率得到顯著提高。
2.4 調(diào)度錄音聲紋識(shí)別模式匹配
聲紋識(shí)別技術(shù)的關(guān)鍵在于對(duì)各種聲學(xué)特征參數(shù)進(jìn)行處理,并確定模式匹配方法[3],主要模式匹配的方法有:概率統(tǒng)計(jì)法、動(dòng)態(tài)時(shí)間規(guī)整法(DTW)、矢量量化法(VQ)、隱馬爾可夫模型法(HMM)、人工神經(jīng)網(wǎng)絡(luò)法(ANN)、支持向量機(jī)法(SVM)、融合方法等。
本文旨在高效準(zhǔn)確的匹配出目標(biāo)調(diào)度錄音,并對(duì)調(diào)度錄音進(jìn)行進(jìn)一步人工分析判斷,因此只要選取合適的模型對(duì)原始調(diào)度錄音進(jìn)行模式匹配,再依靠關(guān)鍵詞檢索成功即可。識(shí)別率及關(guān)鍵詞檢索正確率是進(jìn)行語(yǔ)音分析的根本和核心的前置條件,經(jīng)測(cè)試,關(guān)鍵詞檢索正確率約為83%,實(shí)際應(yīng)用環(huán)境中智能語(yǔ)音分析應(yīng)用系統(tǒng)具有彈性的置信度策略,可根據(jù)不同的業(yè)務(wù)場(chǎng)景和應(yīng)用需求綜合調(diào)試設(shè)置信度閥值,從而達(dá)到最好的應(yīng)用效果。
3.結(jié)語(yǔ)
調(diào)度錄音聲紋識(shí)別技術(shù)的應(yīng)用,使得調(diào)度錄音在先期處理過(guò)程中更加全面、高效、智能、準(zhǔn)確,大幅度提高調(diào)度錄音質(zhì)檢效率和覆蓋面。通過(guò)對(duì)調(diào)度下令不規(guī)范、用語(yǔ)不真切的不良習(xí)慣不斷進(jìn)行整改,提升電網(wǎng)調(diào)度下令水平,從而提高電網(wǎng)運(yùn)行穩(wěn)定性。
參考文獻(xiàn)
[1]楊陽(yáng),陳永明.聲紋識(shí)別技術(shù)及應(yīng)用[J].電聲技術(shù),2007, 31(2):45-47.
[2]趙力.語(yǔ)音信號(hào)處理[M].機(jī)械工業(yè)出版社,2003.
[3]王濤,徐乃平.說(shuō)話人識(shí)別及其應(yīng)用的研究[J].微處理機(jī),1997(4):50-53.