摘 要:服務(wù)質(zhì)檢是熱線服務(wù)運營過程中非常重要的一個品質(zhì)管控環(huán)節(jié)。傳統(tǒng)的客服質(zhì)檢主要依托人工抽檢的方式開展,人工抽檢模式耗時、費力,質(zhì)檢效率和抽檢覆蓋面低,且難以迅速發(fā)現(xiàn)短板加以改善,難以全面準確把握客戶需求抓住商機。智能語音技術(shù)應(yīng)用將客服質(zhì)檢工作變“聽”為“看”,有效提升質(zhì)檢工作效率、擴大質(zhì)檢覆蓋范圍、有效了解客戶真正的來電意圖,及時洞悉存在的業(yè)務(wù)及服務(wù)問題、發(fā)現(xiàn)客戶需求與商機,在降低運營成本的同時提升服務(wù)質(zhì)量。
關(guān)鍵詞:智能語音分析;熱線服務(wù);質(zhì)檢
2011年10月,蘋果公司發(fā)布了iphone 4S,其中最大的亮點是一個智能語音搜索軟件Siri。Siri是應(yīng)用在蘋果IOS平臺上的個人應(yīng)用助理,其技術(shù)核心是智能語音處理技術(shù)+云計算。Siri的流行讓語音智能語音處理技術(shù)再次進入視野。一時間,基于智能語音處理技術(shù)的應(yīng)用也進入了井噴期。智能語音技術(shù)主要研究人機質(zhì)檢語音信息的處理,按機器在其中發(fā)揮的作用不同,可分為語音合成和語音識別兩大類。本文重點探討語音識別技術(shù)在熱線服務(wù)質(zhì)檢領(lǐng)域的應(yīng)用。
1 語音識別技術(shù)原理
語音識別是解決機器“聽懂”人類語言的一項技術(shù)。語音識別技術(shù)按照識別內(nèi)容可分為語意識別和聲學識別。語意識別,其識別目的是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可處理的輸入。聲學識別主要指聲紋識別技術(shù),通過語音信號提取說話人獨有的聲學特征,進而識別出說話人身份的技術(shù)。[1-2]
語音識別系統(tǒng)構(gòu)建過程整體上包括兩大部分:訓練和識別。訓練通常是離線完成的,對預(yù)先收集好的海量語音、語言數(shù)據(jù)庫進行信號處理和知識挖掘,獲取語音識別系統(tǒng)所需要的“聲學模型”和“語言模型”;而識別過程通常是在線完成的,對用戶實時的語音進行自動識別。識別過程通常又可以分為“前端”和“后端”兩大模塊:“前端”模塊主要的作用是進行端點檢測(去除多余的靜音和非說話聲)、降噪、特征提取等;“后端”模塊的作用是利用訓練好的“聲學模型”和“語言模型”對用戶說話的特征向量進行統(tǒng)計模式識別(又稱“解碼”),得到其包含的文字信息,此外,后端模塊還存在一個“自適應(yīng)”的反饋模塊,可以對用戶的語音進行自學習,從而對“聲學模型”和“語音模型”進行必要的“校正”,進一步提高識別的準確率。[3]
語音識別的目的就是讓機器“聽懂”人類口述的語言,包括了兩方面的含義:其一是逐字逐句聽懂非轉(zhuǎn)化成書面語言文字;其二是對口述語言中所包含的要求或詢問加以理解,做出正確響應(yīng),而不拘泥于所有詞的正確轉(zhuǎn)換。[1-2]
2 智能語音分析系統(tǒng)功能架構(gòu)
語音分析系統(tǒng)(ISA)是基于科大訊飛語音識別及語音分析技術(shù),采用B/S架構(gòu),面向語音應(yīng)用業(yè)務(wù)終端客戶的一套語音分析應(yīng)用系統(tǒng)。系統(tǒng)核心技術(shù)架構(gòu)應(yīng)用圖如下:
其中藍色區(qū)域都屬于ISA產(chǎn)品的核心功能模塊,白色區(qū)域是和ISA產(chǎn)品有密切關(guān)系的第三方角色或組件。ISA產(chǎn)品分為應(yīng)用接口(ISR Programming Interface)、識別引擎(Recognizer Engine)和操作系統(tǒng)適配(OS Adpters)三層架構(gòu):應(yīng)用接口是ISA產(chǎn)品提供的用戶開發(fā)接口,是系統(tǒng)最重要的對外應(yīng)用集成功能;語音分析引擎是開發(fā)接口的功能實現(xiàn)者,同時還提供了多種工具和方法用于支持開發(fā);操作系統(tǒng)適配層屏蔽了多操作系統(tǒng)的復(fù)雜性,為識別引擎提供操作系統(tǒng)相關(guān)的底層支持。
2.1 語音轉(zhuǎn)寫
語音轉(zhuǎn)寫是語音分析中最重要的步驟,是建立文本索引,將非結(jié)構(gòu)化的語音文件轉(zhuǎn)換為結(jié)構(gòu)化的文本信息的核心功能。
語音分析系統(tǒng)首先將分離后的語音通過聲學模型轉(zhuǎn)換為對應(yīng)的漢語音標符號,音標信息再通過超大詞匯網(wǎng)絡(luò)的語言模型識別出最終對應(yīng)的文本內(nèi)容。這個過程中,需結(jié)合各地、各區(qū)域地方口音適配,來優(yōu)化聲學模型使其能夠廣泛覆蓋中國地方口音,還需要結(jié)合移動業(yè)務(wù)知識和熱線服務(wù)范圍,進行語言模型優(yōu)化以提升語音轉(zhuǎn)寫準確率。
2.2 建立索引
語音分析系統(tǒng)可以檢測一通電話錄音中某一段音頻中基頻、音高等變化幅度,提供錄音中可能出現(xiàn)情緒波動的預(yù)測,并可以定位到情緒波動的音頻在整條語音的位置信息;檢測和分析出整個電話錄音中平均語速以及某段錄音中語速的變化;檢測出錄音文件中用戶及熱線服務(wù)人員都沒有說話的靜音時間等,這些信息最終生成標準XML格式的索引文件,索引文件的內(nèi)容通常包括:
⑴用戶語音和話務(wù)員語音的文字轉(zhuǎn)寫結(jié)果;
⑵如是雙聲道語音,需要給出聲道信息(關(guān)鍵詞位于哪個聲道)和話務(wù)員情緒數(shù)據(jù);
⑶短時語速數(shù)據(jù);
⑷通話的語音端點、語速等信息;主要包括:
1)用戶和話務(wù)員各自的每次說話的起止時間、語速(字/秒);
2)用戶和話務(wù)員各自的平均語速(字/秒);
2.3 語音檢索
語音檢索主要針對10086系統(tǒng)中需要分析和檢測的關(guān)鍵詞信息、情緒檢測信息和長時靜音信息,從所有的索引文件中進行快速篩選,并返回所關(guān)注的語音。由系統(tǒng)對關(guān)注的信息進行自動的統(tǒng)計,從而返回出海量錄音文件中包含的統(tǒng)計信息。語音檢索核心檢索主要包含:
⑴實現(xiàn)關(guān)鍵詞檢出功能,對指定的關(guān)鍵詞列表,得到包含該關(guān)鍵詞列表中任意一個或多個關(guān)鍵詞的數(shù)據(jù)列表,以及關(guān)鍵詞在對應(yīng)數(shù)據(jù)中的出現(xiàn)位置(時間起止點);
⑵實現(xiàn)異常情緒檢出功能,得到包含發(fā)音人情緒異常的數(shù)據(jù)列表,給出對應(yīng)的異常產(chǎn)生位置及可信度,用戶可預(yù)先設(shè)置報警門限(基頻相對變化程度、語速門限、變化持續(xù)時間);
⑶實現(xiàn)長時靜音檢出功能,得到有長時間靜音的數(shù)據(jù)列表,給出對應(yīng)的起止時間,用戶可預(yù)先設(shè)置門限;
不同的查詢要求都可以通過分解成以上核心功能進行查找。如圖3所示,語音分析系統(tǒng)可自動處理錄音文件,檢測出指定的關(guān)鍵詞,同時返回該關(guān)鍵詞在整條語音中的位置。系統(tǒng)支持同時檢索多個關(guān)鍵詞,并支持關(guān)鍵詞的邏輯組合功能,如查找:包含“手機上網(wǎng)”,同時包含“開通”關(guān)鍵詞的語音。
2.4 場景分割
在目前的熱線平臺錄音中,記錄了客服人員和用戶的全部對話,并按照錄音流水進行存儲,同一個錄音中同事包含了用戶和客服的錄音。在語音分析應(yīng)用中,我們需要對兩方的通話內(nèi)容進行分離,進而針對性的對客服人員服務(wù)質(zhì)量進行監(jiān)控,以提升熱線整體服務(wù)水平;而對用戶語音內(nèi)容進行熱點問題分析、主要意見/建議、知識挖掘等應(yīng)用。
2.5 集群服務(wù)
10086服務(wù)熱線每天將產(chǎn)生大量錄音數(shù)據(jù),單臺服務(wù)器無法對海量語音進行及時處理,為了滿足應(yīng)用需求,語音分析系統(tǒng)需要支持集群服務(wù)。當呼叫量增加時,通過添加服務(wù)器即可實現(xiàn)整體服務(wù)能力的提升。
索引建立服務(wù)器支持多條語音同時建索引,索引文件通過分布式的方式進行存儲,提供統(tǒng)一的索引訪問接口,而檢索服務(wù)器通過分段檢索索引的方式快速的查找。從而實現(xiàn)整個系統(tǒng)的集群服務(wù)。
支持災(zāi)備功能,通過負載均衡的方式防止某臺服務(wù)器出現(xiàn)故障而導(dǎo)致整個服務(wù)中斷,從而保證語音分析系統(tǒng)可以提供7*24小時不間斷服務(wù)能力。
3 智能語音分析系統(tǒng)在熱線服務(wù)質(zhì)檢中的應(yīng)用
3.1 熱線服務(wù)質(zhì)檢工作模式變化
傳統(tǒng)的客服質(zhì)檢主要依托人工抽檢的方式開展,人工抽檢模式耗時、費力,質(zhì)檢效率和抽檢覆蓋面低,且難以迅速發(fā)現(xiàn)短板加以改善,難以全面準確把握客戶需求抓住商機。
在現(xiàn)有客服質(zhì)檢體系的基礎(chǔ)上探索應(yīng)用語音智能分析技術(shù),變“聽”為“看”,將有效提升質(zhì)檢工作效率、擴大質(zhì)檢覆蓋范圍、有效了解客戶真正的來電意圖,及時洞悉存在的業(yè)務(wù)及服務(wù)問題、發(fā)現(xiàn)客戶需求與商機,在降低運營成本的同時提升服務(wù)質(zhì)量,使服務(wù)營銷水平實現(xiàn)質(zhì)的飛躍。
通過語音分析系統(tǒng)全面變革現(xiàn)有質(zhì)檢體系,實現(xiàn)語音分析系統(tǒng)與現(xiàn)有質(zhì)檢系統(tǒng)、人工質(zhì)檢與系統(tǒng)質(zhì)檢的全面融合,建立常規(guī)質(zhì)檢+專項質(zhì)檢相結(jié)合的質(zhì)量管控體系,如下圖所示,左邊為傳統(tǒng)的人工質(zhì)檢體系,采用的是全面的人工參與判斷、測評的整個流程,右邊為語音質(zhì)檢體系,先通過智能語音分析技術(shù)進行判斷過濾,再通過人工進行歸類選擇質(zhì)檢。
整體模式上的變革體現(xiàn)在下面兩點:
⑴質(zhì)檢模式由人工質(zhì)檢向系統(tǒng)質(zhì)檢+人工干預(yù)轉(zhuǎn)變
⑵錄音分析方式由“先測聽-后歸類”的隨機型向“先聚類-后測聽”的精準型轉(zhuǎn)變
3.2 應(yīng)用情況
智能語音分析系統(tǒng)是從2013年1月開始試點用于熱線質(zhì)檢工作,期間經(jīng)過四次優(yōu)化歷程,目前關(guān)鍵詞準確率達90.9%,質(zhì)檢準確率達91.36%,已開始規(guī)模使用。具體應(yīng)用如下:
⑴自主配置服務(wù)質(zhì)檢模型。根據(jù)熱線質(zhì)檢的情況,通過關(guān)鍵字采集及質(zhì)檢策略設(shè)置共建立了五類服務(wù)質(zhì)檢違規(guī)模型,分別是“話務(wù)結(jié)束未及時掛機”、“服務(wù)忌語”、“話務(wù)空白”、“無聲違規(guī)”、“急于掛機”。質(zhì)檢模型實現(xiàn)自主配置,后期可根據(jù)話務(wù)實際情況總結(jié)建立新的質(zhì)檢模型。
⑵兩套系統(tǒng)的無縫銜接,實現(xiàn)統(tǒng)一登陸界面,統(tǒng)一結(jié)果輸出。將智能語音分析系統(tǒng)的分析結(jié)果通過接口傳輸共享至10086客服質(zhì)檢系統(tǒng)中,質(zhì)檢人員只需要和日常工作一樣登陸質(zhì)檢系統(tǒng)即可對智能語音系統(tǒng)拋出錄音進行人工二次復(fù)核,復(fù)核的結(jié)果與其它常態(tài)化質(zhì)檢結(jié)果一樣通過質(zhì)檢相關(guān)報表進行統(tǒng)一輸出。
⑶擴大質(zhì)檢覆蓋面50倍。采用常態(tài)化的質(zhì)檢手段,日均質(zhì)檢量僅能占總話務(wù)量3‰,而智能語音分析系統(tǒng)可分析的錄音量日均約35000條,約占總話務(wù)量的15%,智能語音質(zhì)檢的覆蓋面是原質(zhì)檢手段的50倍。
⑷提升質(zhì)檢工效近一倍。根據(jù)服務(wù)質(zhì)檢模型對五個服務(wù)質(zhì)檢違規(guī)項進行分析,每日拋出約200條目標錄音,再由人工對拋出的錄音進行二次復(fù)核。經(jīng)二次復(fù)核的質(zhì)檢差錯率達到54.24%,是常規(guī)質(zhì)檢手段質(zhì)檢差錯率的兩倍。即在發(fā)現(xiàn)同等數(shù)量問題方面,使用智能語音質(zhì)檢系統(tǒng)+人工二次復(fù)核的方式較原傳統(tǒng)人工質(zhì)檢手段工效提升近一倍。
⑸智能語音質(zhì)檢助力員工服務(wù)規(guī)范的標準執(zhí)行。智能語音質(zhì)檢項目實施后,通過在服務(wù)規(guī)范上的應(yīng)用,極大程度減少了前臺的非規(guī)范行為,員工對服務(wù)規(guī)范的關(guān)注度得到了提升,同時也提升了客戶滿意度。智能語音質(zhì)檢項目實施后,月均服務(wù)規(guī)范違規(guī)行為得到了較好的控制,從實施前的月均1268例,降至實施后的497例,降幅達到61%。
4 實際應(yīng)用過程存在的問題
語音識別技術(shù)目前的識別率距離真正的全智能還有一定距離,對用戶問題的識別有限,還需要很漫長的技術(shù)變革。并不是所有的用戶的問題都是“您好,請幫我查一下這個月的賬單”、“您好,請幫我取消彩信業(yè)務(wù)”、“您好,我這個月的流量怎么會這么快就用完了”。用戶對于運營商人工問答的需求是不盡相同的,若有用戶用蹩腳的普通話向運營商客服人員咨詢問題,機器人遠不具備這種強悍的功能。中國不僅只是文字博大精深,語言上面也是百花爭鳴,大到省市、小到各村之間,都存在著語音差異。總不能讓運營商只服務(wù)普通話說得好的人,普通話不好的人就只能再回到人工服務(wù)上面,在全國普及標準普通話,也是需要長期的普通話教育才能實現(xiàn)。
5 結(jié)束語
應(yīng)該說語音智能技術(shù)的應(yīng)用,為開展熱線話務(wù)數(shù)據(jù)分析、應(yīng)用打開了一扇門。要用好熱線話務(wù)數(shù)據(jù),個人認為未來可以從以下三個方向進行探索,從中挖掘出更多的“寶貝”,支撐市場精細化運營:
⑴聚焦客戶代表服務(wù)缺陷,實施質(zhì)檢分析,側(cè)重質(zhì)檢和服務(wù)方面。
⑵聚焦客戶來電原因,實施需求基礎(chǔ)分析,側(cè)重營銷和推廣方面。
⑶聚焦產(chǎn)品流程問題,實施專題分析建模,側(cè)重產(chǎn)品和粘性方面。
[參考文獻]
[1]易克初.語音信號處理[M].北京:國防工業(yè)出版社,2002.
[2]趙力.語音信號處理[M].北京:機械工業(yè)出版社,2005.
[3]張永剛,余玉平.基于ARM的孤立語音識別系統(tǒng)的研究[J].廣東工業(yè)大學學報,2013年6月,第30卷,第2期:97 -98.
[4]安徽科大訊飛信息科技股份有限公司.訊飛語音平臺[EB/OL].http://open.voicecloud.cn/platform.php?category=cGxhdGZvcm0%3Dcolumn=d2hhdA%3D%3D.