王 騰 袁 萍 王 璞 孔令琪 陳新民
1.中國電信股份有限公司江蘇分公司;2.浙江省公眾信息產(chǎn)業(yè)有限公司
為加快推進網(wǎng)絡強國、數(shù)字中國的建設(shè),踐行“以客戶為中心”的服務理念,全面實施云改數(shù)轉(zhuǎn)戰(zhàn)略,通過對客戶投訴行為的分析提煉,了解客戶的負面感知,精準預警客服熱點問題,精確修復客戶不滿意因素,全力提升客戶滿意度,已經(jīng)成為運營商客戶服務的一項重要工作。
投訴是服務問題的重要反饋窗口,一般由話務員通過語音應答進行處理,而語音記錄具有占用大量存儲空間、難以通過語義識別進行批量歸類與分析的問題,導致實際應用中不能通過全量工單分析來精準預警客服熱點問題。隨著語音識別技術(shù)在客戶服務領(lǐng)域的廣泛應用,投訴處理錄音轉(zhuǎn)換成了文本形式的投訴辦結(jié)單,解決了工單存儲問題,但工單的歸類仍然停留在由話務員一單一單地進行人工處理的階段,具有以下三大不足:(1)受話務員業(yè)務能力、理解能力、責任心等主客觀因素影響,歸類準確度難以保證;(2)話務員手工點選辦結(jié)原因,每單平均額外耗時約69.8 秒,降低了工單處理效率;(3)語音轉(zhuǎn)換成的文本,在實際生產(chǎn)工作中沒有得到充分使用,一定程度上浪費資源。
本研究旨在探討建立一套系統(tǒng),利用文本挖掘技術(shù)和機器學習等人工智能的方法,挖掘客戶投訴熱點,對產(chǎn)品、套餐和營銷活動進行服務預警,對客戶不滿意因素進行精準派單修復。
系統(tǒng)設(shè)計的關(guān)鍵點就是要通過文本挖掘技術(shù)對投訴辦結(jié)單的語意進行精確識別、精確歸類并最終應用于解決客戶服務中的熱點問題。
首先,要對投訴辦結(jié)單進行智能分詞,并結(jié)合專有名詞、社會用語形成通用的熱點詞庫,再通過模型訓練將熱點詞庫轉(zhuǎn)換成規(guī)范的投訴工單六級分類,之后,根據(jù)生產(chǎn)應用過程中的實際情況,通過設(shè)定預判規(guī)則,分析形成投訴熱點問題,最終將這些熱點問題進行預警、派單與統(tǒng)計。系統(tǒng)總體設(shè)計如圖1 所示。
圖1 系統(tǒng)流程總體設(shè)計圖
電信運營商在運營過程中會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)以結(jié)構(gòu)化的形式存儲在各類運營系統(tǒng)的數(shù)據(jù)庫中。電信投訴工單中也包含著大量的信息,這些信息多為用戶語言表述,以語音轉(zhuǎn)文本的非結(jié)構(gòu)化形式記錄在投訴處理系統(tǒng)中。要對投訴工單進行準確分類與應用,就要結(jié)合結(jié)構(gòu)化數(shù)據(jù)對非結(jié)構(gòu)化文本進行文本挖掘。文本挖掘的過程,首先要對文本進行分詞,再利用模型反復訓練,形成有效的熱詞庫。
一是對知識庫系統(tǒng)、BSS 銷售品系統(tǒng)、VSOP 增值業(yè)務系統(tǒng)等電信運營系統(tǒng)中的專有名詞進行提取,主要包括產(chǎn)品名稱、套餐名稱、營銷活動名稱等,如5G 暢享融合399 元套餐、橙分期5G 終端讓利/200 元/24 個月-202009 等。
二是從百度、搜狐、谷歌等搜索引擎中捕獲出適用于電信行業(yè)常用的服務、行為、心理等社會用語,如AI、5G、區(qū)塊鏈、機器人、工業(yè)物聯(lián)網(wǎng)、云服務器、產(chǎn)業(yè)智能化、電信詐騙、AI 反詐、AI 換聲等。
電信專有名詞和社會用語都屬于結(jié)構(gòu)化詞匯,形式與內(nèi)容一定時期內(nèi)都相對固定。
三是對歷史投訴工單進行智能分詞??蛻舻淖匀槐硎鍪欠墙Y(jié)構(gòu)化的,其中有方言、有俗稱、有俚語,甚至還有情緒化表達,這就需要從文本中將詞匯分離出來,再進行反復機器訓練使其成為結(jié)構(gòu)化熱詞。
為了適應不同的詞語性質(zhì)在算法中占有的權(quán)重不同,將對詞庫進行結(jié)構(gòu)化分類,分為三主四輔。主運營詞庫:電信專有名詞、同義詞、停用詞。擴充詞庫:銷售品名詞、地點名詞、機構(gòu)名詞、人員名詞。
投訴的分類有兩種,一種是按投訴現(xiàn)象進行分類,根據(jù)客戶描述的現(xiàn)象分類后派往相關(guān)單位進行處理;一種是按投訴原因進行分類,這是對處理好的投訴找出具體原因后進行的分類,更有利于促進源頭整改。我們要探討的就是這種分類。
目前,中國電信的投訴原因分類是六級2104 條。其中,第一級投訴分類有移動業(yè)務、寬帶業(yè)務、固話業(yè)務、智慧家庭、物聯(lián)網(wǎng)、翼支付、互聯(lián)網(wǎng)及增值業(yè)務、電子渠道、ICT、用戶權(quán)益與關(guān)懷、信息安全及專項、5G 業(yè)務、其他。以第一級分類的5G 業(yè)務為例,第二級分類有個人移動業(yè)務、家庭業(yè)務、政企業(yè)務。以第二級分類的個人移動業(yè)務為例,第三級分類有網(wǎng)絡質(zhì)量、業(yè)務開通/退訂、基本費用爭議、增值業(yè)務費用爭議、規(guī)則政策類、流量服務、營業(yè)廳/代理商渠道服務、終端。部分三級分類之后還有四級、五級、六級分類,不一一詳述。
根據(jù)投訴管控的需要,在系統(tǒng)中建立多維度的分析、預警和派單功能。從時間維度可分為日、周、月、季、年等任意周期;從業(yè)務角度可按照統(tǒng)一的投訴目錄,在移動業(yè)務、寬帶業(yè)務、固化業(yè)務、增值業(yè)務等一級目錄下,細分到第6 級共2104 個業(yè)務小類,為了便于聚類分析,日常多用第三級目錄進行監(jiān)控展示和預警;從地域和單位角度,既可以按照責任單位分類(分公司、省直屬單位/專業(yè)公司、省公司、集團公司等),也可以按照用戶歸屬地分類(全省各地市),必要時還可細分到區(qū)縣;從投訴關(guān)鍵指標角度可分為省內(nèi)投訴、集團投訴、省管局申訴、工信部申訴、有效申訴、5G 申訴等。全省相關(guān)部門和單位均可按需自主多維度查看和查詢有關(guān)數(shù)據(jù)及其對應的投申訴清單。
系統(tǒng)會根據(jù)設(shè)定的預警條件按綠、橙、紅三個級別進行預警,并可通過發(fā)送短信派單到相關(guān)人員,提示需重點關(guān)注,及時采取有效措施解決問題。
文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織信息以便將來參考。首先利用切分技術(shù),抽取文本特征,將文本數(shù)據(jù)轉(zhuǎn)化為能描述文本內(nèi)容的結(jié)構(gòu)化數(shù)據(jù),然后利用基于leader-follower 算法的文本增量聚類技術(shù)、基于邏輯回歸的文本分類技術(shù)和關(guān)聯(lián)分析等數(shù)據(jù)挖掘技術(shù),形成結(jié)構(gòu)化文本,并根據(jù)該結(jié)構(gòu)發(fā)現(xiàn)新的概念。
(1)文本挖掘的流程
系統(tǒng)建設(shè)過程中的文本挖掘過程由投訴分類、模型訓練和生產(chǎn)應用三個階段構(gòu)成,如圖2 所示。
圖2 文本挖掘流程圖
(2)投訴分類梳理過程
電信運營商依托完善的客戶投訴處理流程積累了大量的數(shù)據(jù),并對非結(jié)構(gòu)化的數(shù)據(jù)進行了結(jié)構(gòu)化數(shù)據(jù)標注。依托著電信集團的投訴原因分類,快速便捷地完成算法分類標簽的設(shè)計以及人工分類樣本的提供。結(jié)合指定規(guī)則進行樣本的初步處理,去除無意義的或分類有誤的數(shù)據(jù),形成可以供算法學習的訓練樣本集。
(3)模型訓練的流程
首先,進行數(shù)據(jù)的準備,以投訴六級分類為基礎(chǔ)選取過去半年內(nèi)有用戶相關(guān)投訴的891 個分類作為投訴模型的標簽。模型訓練樣本選用六級分類下的83599 條投訴工單中的80%作為訓練集。
其次,進行文本的預處理。中國電信的投訴原因分類涉及2104 個小類,業(yè)務覆蓋十分全面,在這些分類中有投訴的熱點分類,也有投訴量發(fā)生比較少的分類,從圖3 可知,選取的三個分類的訓練樣本的數(shù)量呈現(xiàn)出明顯的分化。
圖3 樣本不平衡示例
類不平衡的情況易造成模型無法正確地判別產(chǎn)生投訴量比較少的分類。本課題中,數(shù)據(jù)選擇過程會采用smote 算法這種過采樣技術(shù)來處理訓練樣本在訓練集中的類別分布不均的情況,解決不同投訴分類學習樣本差距過大的問題。根據(jù)預定的分詞過濾邏輯進行文本分詞處理,對文本進行過濾停用詞,計算同義詞,提取電信專有名詞等一系列操作。
最后,采用貝葉斯加權(quán)平均算法建立模型,對處理過的內(nèi)容進行算法的自動計算,特征向量的提取。計算出詞頻(TF)、逆向文檔頻率(IDF)以及分詞對各個分類的貢獻度TF-IDF 值。以5G 業(yè)務為例,其模型分類規(guī)則如圖4 所示。
圖4 模型分類規(guī)則示例
模型訓練結(jié)束后,采用邏輯回歸的思想進行分類模型的預測,使用訓練集中的未參與訓練的20%的數(shù)據(jù)進行模型的檢測,以評估模型訓練質(zhì)量。
系統(tǒng)中算法的實際應用場景主要包括模型的使用、模型準確度測試以及模型的運營和優(yōu)化。
模型經(jīng)過初始的評估達到上線標準后,還要經(jīng)過實際應用場景的測試。算法模型在客戶投訴處理的閉環(huán)流程中每日為1300 多個投訴工單進行分類自動標注,一線話務員可以對標注錯誤的投訴分類進行人工修改,從而達到了為一線話務員減負、提升運營效能的目標。同時這些新的業(yè)務數(shù)據(jù)為算法的自動學習提供了新的學習語料,為算法模型提供了基礎(chǔ)的優(yōu)化運營。
良好的技術(shù)應用離不開完善的運營策略,系統(tǒng)在算法模型的優(yōu)化運營上做了相關(guān)的研究。算法模型運營初期,算法的準確率維持在50%左右,經(jīng)過一系列的運營優(yōu)化過后達到了80%以上的標注準確率,在每日出現(xiàn)頻次超過10 次的分類條件下,準確率達到了每日保持在90%以上的效果。模型的優(yōu)化過程如表1 所示。
表1 模型優(yōu)化流程圖
本系統(tǒng)通過文本挖掘模型,實現(xiàn)了客戶投訴工單中的非結(jié)構(gòu)化數(shù)據(jù)文本的自動分類,并應用于投訴熱點分析、預警與派單。為進一步提升模型準確率,還可以從樣本、工具和算法3 個方面對模型進行不斷優(yōu)化,運營商也可以建立一套有效的運營機制,加強工單錯誤分類的人工分析力度,不斷調(diào)整,實現(xiàn)更高水平的人工智能,更好地服務客戶。