武 鵬,郭曉蕓,陳 鵬,王宗偉,曹 璐,金 鵬
(1.國家電網有限公司客戶服務中心,天津 300306; 2.北京中電普華信息技術有限公司,北京 100031)
國家電網公司95598客戶服務中心于2013年11月完成了下屬27個省(市)電力公司的全部客戶服務業(yè)務的集中運營,為客戶提供全天候故障報修、資訊查詢、投訴、舉報、意見、建議、表揚等服務[1]。與其他客戶和企業(yè)之間的溝通方式相比,語音服務提供了75%~90%的用戶體驗[2],具有不可取代的便捷性、信息豐富性,能夠更加直接地傳達雙方意圖。調查顯示,一個具有10個座席的呼叫中心一天的話務量是5000通電話,話音量約為500 h[3]。面對全國范圍內每天產生的大量話務、工單,全面保障優(yōu)質服務水平十分重要。
語音服務質檢工作對于95598客戶服務中心服務質量的提高能夠起到重要的作用。質檢是客戶服務中心工作中重要的一環(huán),通過獲取話務錄音等數據對95598客服人員語音服務進行檢查和評定,能夠監(jiān)控服務質量,提升客戶的滿意度,最大限度地減少投訴的發(fā)生[4]。然而要對95598客服中心全部話務和工單進行人工質檢是一項費時耗力的工作,目前的質檢主要以人工抽樣的方式進行[5],這導致質檢樣本代表性差,檢驗準確性和質檢效率過低[6]。
針對以上問題,近年來國內外學者進行了相關研究。Choi[7]驗證了客服中心坐席相關屬性對服務質量的影響。Korfiatis等人[8]采用結構主體模型利用非結構化數據研究文字評論并應用于航空公司服務質量評估。Liu等人[9]使用聲音特征建立一種新穎的客戶滿意度分析系統(tǒng)以提高呼叫中心服務質量。姜冬[10]采用語音轉寫、中文自然語言處理的方式提高對問題工單的覆蓋率。
本文提出一種語音服務質檢推薦技術,創(chuàng)新地引入深度學習中LSTM網絡的時序處理能力[11],并結合語音質檢具體應用場景中問題語音占比低的特點構建改進的LSTM網絡質檢推薦模型,分析語音服務各項質檢指標,充分挖掘其空間與時間上的深層聯系形成不同等級的智能語音服務質檢策略,篩選需要重點審查的記錄推薦給質檢員,以提高數據選擇的代表性,減輕質檢工作負擔,提升質檢效率,降低運營成本。
傳統(tǒng)的語音服務缺乏全面、有效、便于統(tǒng)計和量化的評價指標體系,難以將先進的評價技術應用其中。其質檢長期處于一種簡單、粗糙的低水平狀態(tài)[12]。通過人工質檢的結果還受到質檢員主觀狀態(tài)的影響,不同質檢員的判斷、感受不一致也會導致質檢評分結果不同[13]。為了科學合理進行語音服務質檢推薦,首先需要明確語音服務質檢指標。傳統(tǒng)的質檢方法主要通過抽樣的方式進行,95598客服中心的質檢抽樣策略經歷了3個階段的變化[14],從最初的簡單的隨機抽樣演變?yōu)榭紤]不同業(yè)務重要程度,增大重要業(yè)務的抽檢比例,再到考慮坐席話務、工單數量等因素,使用決策樹、遺傳算法等技術對抽樣進行優(yōu)化[15]。
使用抽樣的方式進行質檢工作效率低且存在漏檢風險,但在完善抽檢策略的過程中所考慮的指標對于表征語音服務的基本質量有重要的參考價值。表1給出了傳統(tǒng)質檢方法常見的指標分類。
表1 傳統(tǒng)質檢方法相關指標分類
深度學習通過建立數學模型模擬大腦的神經連接結構,使用多個變換階段分層對數據特征進行描述,近年來在圖像處理、自然語言處理等諸多領域取得了突破性的進展[16-18]。深度學習相對于普通的機器學習來說,非線性操作的層數更多。通過組合低層次特征形成更加抽象的高層表示,將樣本在原空間的特征表示變換到新的特征空間,能夠有效地揭示輸入數據之間的內在聯系并做出分類和判斷[19]。
隨著模型隱含層的增加,需要訓練的中間參數也會成倍增長[20],這將對輸入數據維度提出更高的要求。為了有效應用深度學習進行語音服務質檢推薦,需要對傳統(tǒng)質檢指標進行擴展。本文將客服中心系統(tǒng)內語音服務所涉及的更多細節(jié)信息納入指標范圍內,以提取更多維度的語音特征,尤其關注需要預先通過語音分析技術獲取的特征。表2給出了為應用深度學習所擴展的質檢相關的指標分類。
表2 深度學習擴展指標分類
語音服務記錄可以看作是一個時序信號[21]。服務結果好壞的評判受到整段語音連續(xù)的歷史狀態(tài)的影響,同一位坐席的服務狀態(tài)也受其歷史工作狀態(tài)的影響[22]。長短時記憶(Long Short Term Memory, LSTM)網絡由于自身結構帶有內部環(huán)路,適合用于處理此類時序信息[23],其單元結構如圖1所示。LSTM網絡可以通過3個中間層:遺忘門、輸入門、輸出門移除或添加信息改變單元的狀態(tài)[24]。
圖1 LSTM單元示意圖
ft=σ(Wf·[ht-1,xt]+bf)
(1)
it=σ(Wi·[ht-1,xt]+bi)
(2)
(3)
(4)
ot=σ(Wo·[ht-1,xt]+b0)
(5)
ht=ot·tanh (Ct)
(6)
使用LSTM網絡搭建語音服務質檢推薦模型,輸入方面采用表1、表2所列29條屬性。首先對各屬性進行量化,對于性別、過早掛機等二值屬性采用0或1進行描述。對于枚舉類的數據如學歷、坐席情緒,為了平衡各選項在算法中的權重,使用啞變量編碼[24]的方式描述。對于語音記錄的短時屬性,需要按時間切片劃分成數據幀提取再與非短時指標結合形成53維傳統(tǒng)指標輸入列向量和79維擴展指標列向量,歸一化后作為模型的輸入層。
使用首尾相連的LSTM單元作為模型的中間層,其層數取決于每一批輸入列向量的數量。
(7)
其中,W(S)為softmax的權值矩陣。在時刻t,使用交叉熵損失函數(8)作為優(yōu)化目標對模型進行訓練。
(8)
圖2 語音服務質檢推薦LSTM網絡模型
對于95598客服中心語音服務記錄,其存在差錯的比例通常低于5%[26],存在嚴重的樣本偏倚。且在質檢推薦過程中,在滿足一定判別準確性的情況下更關心的是能否盡可能找出疑似差錯記錄提供給質檢員[27]。針對以上情況,為提高質檢推薦效率對所搭建的模型進行2點改進:
1)將判斷是否差錯和差錯等級分為2個模型,對應的輸出層改為二維。首先使用大跨度的時間幀輸入判斷服務是否存在差錯,對于存在差錯的數據再減小時間跨度判斷差錯等級,以此減小數據幀的數量,提高模型訓練速度。
2)判斷差錯時不直接使用softmax結果,而是使用公式:
(PT-PF)<5%
(9)
作為判據,其中PT和PF分別為softmax結果無差錯和有差錯的概率,以放寬差錯標準的方式增加模型對語音服務差錯的覆蓋率。
本文使用國家電網公司某下屬供電公司客戶服務中心2018年全年數據的一部分總共20000條數據進行質檢推薦實驗。在數據集的劃分上隨機抽取60%的數據作為訓練樣本集,用于迭代優(yōu)化模型可變參數;20%的數據作為模型驗證樣本集,用于模型固定參數的選?。皇S?0%作為測試樣本集,用于模型效果驗證。將數據按模型要求預處理完畢后以列向量的方式進行輸入。
通過記錄正確正類TP、錯誤正類FP、正確一般差錯TN1、錯誤一般差錯FN1、正確嚴重差錯TN2、錯誤嚴重差錯FN2作為考察指標,可以計算出算法模型的準確率為:
(10)
質檢推薦希望能夠盡可能找出樣本中的錯誤,宜使用差錯召回率[28]考察有多少差錯被正確預測出來,其公式如下:
(11)
本文將所提出的LSTM模型、改進模型與經典的決策樹模型結果進行比較。在指標選取上分別采用15項傳統(tǒng)指標和擴展的29項指標結果進行對比。實驗結果如表3、表4所示。
表3 使用傳統(tǒng)指標的實驗結果
表4 使用完整指標的實驗結果
從表中可以看出,使用傳統(tǒng)指標時決策樹算法在準確率方面優(yōu)于LSTM模型。當增加深度學習相關指標后,所有算法的準確率均有所提高,決策樹模型提升較小,LSTM模型準確率最高。所提出的改進模型與LSTM模型相比在準確度略微降低1.35個百分點的情況下,差錯召回率從42.61%提升至77.56%,反應出該模型能夠更加高效地檢測出樣本中的差錯記錄,向質檢員做出有針對性的推薦。
本文將具有時序分析能力的LSTM網絡模型用于95598客服中心語音質檢推薦。針對傳統(tǒng)方法缺乏評價指標情況,引入通過語音分析技術獲取的深度學習相關指標增加質檢特征。為提高質檢效率、滿足不同等級質檢策略的要求,本文結合實際質檢中問題語音占比低的特性對模型進行了改進。實驗結果表明,所提出的改進模型相比普通LSTM網絡模型有更高的差錯覆蓋率,能夠有效提高質檢效率,且模型的準確性優(yōu)于傳統(tǒng)的機器學習算法結果。