師婭杰
(廣東電網(wǎng)有限責任公司肇慶供電局,廣東 肇慶 526060)
重復訴求是指客戶在某一時段內(nèi),對同一事件多次致電,要求處理的訴求。在分析客服工單時發(fā)現(xiàn),部分重復訴求存在“同一事件有不同來電號碼、不同客戶名稱”的情況或者“同一來電號碼在某一時段內(nèi)反映不同事件”的情況。由于第二種情況較為常見,故本文主要針對第二種情況介紹智能分析方法。其中,客戶反映問題是否為“不同事件”主要根據(jù)業(yè)務歸口部門來判斷,即同一號碼在某一時段內(nèi)多次致電反映同一歸口部門的問題,認定為重復訴求[1]。
在客服工單中,同一業(yè)務子類可能涉及2-3個歸口部門。如故障停電,需要現(xiàn)場調(diào)查后才能確定停屬于一戶還是一帶,電壓等級屬于高壓還是低壓,歸口部門屬于營銷、生產(chǎn)還是基建。這樣的業(yè)務子類還有很多,如電網(wǎng)建設、安全隱患、服務態(tài)度等,由于歸口部門的不確定性,我們定義這些業(yè)務子類的歸口部門為“模糊邊界歸口部門”。歸口部門的確定對于重復訴求的判定具有重要意義,傳統(tǒng)模式下對“模糊邊界歸口部門”的判斷,通常需要人工閱讀“來電內(nèi)容”及“處理意見”等大量長文本,效率低下且準確率無法保證。為確保“模糊邊界歸口部門”智能分類的準確率,本文使用公司大數(shù)據(jù)平臺的敏捷挖掘工具(SmartMining),構(gòu)建以數(shù)據(jù)挖掘和機器學習為主要分析方法的數(shù)據(jù)科學工作流,對“模糊邊界歸口部門”設置4次判斷,其中首次判斷1次,校驗判斷3次,將該流程定義為三級校驗。具體操作如下:使用ansj分詞器將長文本拆解成短詞匯,再與關(guān)鍵詞詞庫做匹配,若文本包含詞庫中的關(guān)鍵詞,則輸出相應的判定結(jié)果,并校驗上一級結(jié)果,若三級校驗中各級校驗結(jié)果相同,則判定結(jié)果輸出正常,實現(xiàn)“模糊邊界歸口部門”的智能分類,否則當異常值輸出,需人工判斷。
?
在三級校驗中,首次判斷、一級校驗屬于事件調(diào)查前對歸口部門的判斷,在客服工單下發(fā)時進行;二、三級校驗屬于事件調(diào)查后對歸口部門的判斷,在客服工單歸檔后進行。工單下發(fā)至歸檔間隔3天左右,判定規(guī)則由粗到細,關(guān)鍵詞詞庫也由少變多,若某些關(guān)鍵詞同時出現(xiàn)在3次校驗的判斷中,會導致計算機無法準確識別歸類,因此在設置關(guān)鍵詞詞庫時對這類詞要謹慎取舍。總的原則是,在同一業(yè)務子類的各級校驗中設置關(guān)鍵詞時,關(guān)鍵詞不能重復[2]。
采集營銷系統(tǒng)全量客服工單,可通過兩種方式獲取數(shù)據(jù):一是在公司大數(shù)據(jù)平臺通過后臺獲取,使用標準查詢語言SQL語句,對關(guān)系型數(shù)據(jù)庫中的表記錄進行查詢和操縱;二是通過營銷系統(tǒng)直接導出數(shù)據(jù),再通過“用戶輸入”導入大數(shù)據(jù)平臺,生成數(shù)據(jù)源。
(1)剔除噪聲數(shù)據(jù)。對客服工單中的全量字段進行功能劃分,篩選出有意義的字段,剔除噪聲字段。
(2)處理丟失數(shù)據(jù)。對關(guān)鍵字段“來電號碼”中的缺失項進行填充,從“來電內(nèi)容”的長文本中用公式提取“來電號碼”,節(jié)約人工補錄成本。
(3)數(shù)據(jù)精簡。對于不同的分析目標,僅篩選與目標相關(guān)的列字段,避免數(shù)據(jù)過大、數(shù)據(jù)不集中導致的分析速度慢[3]。
在分析階段,設計三種模型來實現(xiàn)“模糊邊界歸口部門”的智能分類,并根據(jù)不同模型的準確率進行組合優(yōu)化。
(1)構(gòu)建關(guān)鍵詞詞庫?,F(xiàn)實狀態(tài)下,客戶“來電內(nèi)容”通常由雜亂無章的長文本構(gòu)成,其中包含諸多噪聲詞,單純依靠分詞器進行詞頻統(tǒng)計無法識別關(guān)鍵信息。為提高分詞的準確性,首先需要在統(tǒng)計詞頻的基礎上,綜合業(yè)務經(jīng)驗,人工篩選具有意義的高、低頻詞匯,剔除無意義的噪聲詞,形成關(guān)鍵詞詞庫(客戶情緒詞庫、同義詞庫、電力術(shù)語詞庫),通過關(guān)鍵詞詞庫反向識別和修剪噪聲詞。其次,應針對不同類型的文本內(nèi)容,在幾十種開源的和商用的分詞工具及分詞處理方法中選擇合適的工具模型。本文依據(jù)敏捷挖掘中的分詞節(jié)點ansj分詞器對長文本進行拆解,統(tǒng)計詞頻[4]。
(2)模型準確率。經(jīng)驗證,在一級校驗中使用“詞頻向量模型”判斷歸口部門的準確率為68.58%。
上文中,三級校驗模型的準確度較低,經(jīng)測試,關(guān)鍵詞詞庫的變更對于模型準確性影響最大。人工構(gòu)建關(guān)鍵詞詞庫較為主觀,需要采用更科學的文本分析技術(shù),對詞的權(quán)重進行分配。本文依據(jù)向量空間模型TFIDF進行權(quán)重分析。
向量空間模型TF-IDF:評估一個單詞或字對于一個文檔集或一個語料庫中的其中一份文檔的重要程度。
定義:Tf-Idf(w)=Tf(w)*log(N/Df(w))。其中,Tf(w)是詞w在文檔中出現(xiàn)的次數(shù),Df(w)是文檔集中包含詞w的文檔數(shù)目,N代表文檔的總數(shù)。Tf-Idf(w)代表詞w對某個文檔的相對重要性。如果一個詞對于某個文檔越重要,那么它就越多地出現(xiàn)在該文檔中(Tf(w)值較大),并且越少地出現(xiàn)在其余的文檔中(Df(w)值較?。?。
(1)模型理解。設置三個文檔,其中:
列1:由字母ABCG構(gòu)成
列2:由字母ACEF構(gòu)成
列3:由字母ABCEF構(gòu)成
Tf(w)是詞w在文檔中出現(xiàn)的次數(shù),通過分詞及詞頻統(tǒng)計可以實現(xiàn)。
N代表文檔的總數(shù),N=3。
Df(w)是文檔集中包含詞w的文檔數(shù)目,取值范圍為1、2、3。
?
如圖,Df(w)=E2=1+C2+D2
其中,Df(w)=1時,log(N/Df(w))=0.477
如上圖所示,Tf-Idf(w)值成功過濾掉字母AC,字母G最重要,字母BEF的重要性僅由Tf(w)決定。
同理,將歸口部門為營銷、生產(chǎn)、基建的工單設置為三個文檔,可依據(jù)TF-IDF重新構(gòu)建關(guān)鍵詞詞庫。分詞匯總后選擇詞頻大于2,即Tf(w)大于2的詞匯,將Df(w)=1的詞作為關(guān)鍵詞詞庫。
(2) 模型準確率。經(jīng)驗證,在一、二級校驗中使用“TF-IDF模型”判斷歸口部門的準確率分別為75.62%、81.83%。
(1)建立訓練集與測試集。以80:20的比例,對數(shù)據(jù)建立訓練集和測試集,通過歸納思想推測相關(guān)結(jié)論。
(2)分類預測算法。
樸素貝葉斯:為名義型字段計算其所有值的記錄數(shù),為數(shù)值型字段計算高斯分布概率。
隨機森林:利用隨機的方式將許多決策樹組合成一個森林,每個決策樹在分類的時候投票決定測試樣本的最終類別。隨機森林同時訓練多個決策樹,模型的結(jié)果由多個決策樹基于投票策略決定[5]。
C4.5:在已知各種情況發(fā)生概率的基礎上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價項目風險,判斷其可行性。
(3)模型準確率。經(jīng)驗證,C4.5模型對于測試值和訓練值的預測準確度達79.4%、78.6%,預測水平最優(yōu)。
(1)模型組合。針對一、二、三級校驗的數(shù)據(jù)特點,結(jié)合不同模型的準確率,選取最優(yōu)組合構(gòu)建三級校驗模型。其中,一級校驗因文本較短、數(shù)據(jù)信息不全,采用機器學習C4.5模型;二級校驗文本信息量充足,采用TF-IDF模型;三級校驗直接使用工單回復內(nèi)容判斷。
(2)模型優(yōu)化。對異常值進行統(tǒng)一分析,修正關(guān)鍵詞詞庫,提高“模糊邊界歸口部門”智能分類的準確率。
?
重復訴求是生成客戶投訴的一個重要原因,人工逐宗進行歷史來電的篩選及分析效率低下,導致重復訴求管控難度大,投訴數(shù)居高不下。本文通過文本挖掘和機器學習算法確定歸口部門,重點解決了長文本分析效率低、機器識別并修剪噪聲詞困難、模糊邊界歸口部門判斷不精準的問題。通過建立三級校驗模型,實現(xiàn)了客戶重復訴求智能分析[6]。該應用可以實時查看客戶重復訴求的變化趨勢,把數(shù)據(jù)分析交給數(shù)據(jù)應用后臺,對敏感客戶及關(guān)聯(lián)事件升級風險提前預警,引起監(jiān)控人員的重視,將員工的精力投入解決實際問題當中,為基層減負增效。實時、準確的數(shù)據(jù)應用加快整體應急響應速度,提升客戶重復訴求管控工作成效,提高了客戶滿意度。