陳 輝 胡 宏 陳 萍
江蘇號百信息服務有限公司
當前,通信運營商業(yè)務已從高速發(fā)展轉(zhuǎn)向高質(zhì)量發(fā)展,由于前期部分業(yè)務發(fā)展的不規(guī)范性,運營商增值業(yè)務面臨的投訴問題開始凸顯。如何降低投訴,提升服務滿意度成為亟需解決的問題。
由于增值業(yè)務的多樣性和繁雜性,傳統(tǒng)方法難以快速及時、準確、宏觀地針對用戶的文本留言投訴得出分析結果和指導性結論,且耗費大量人力。
通過進行智能分析和預警方法的探究,設計了一種高效智能的用于用戶投訴文本留言數(shù)據(jù)處理的分析方法和系統(tǒng),能有效彌補傳統(tǒng)方法的不足。通過將投訴數(shù)據(jù)的標準化和數(shù)字化,根據(jù)管控要求進行多維度分析和預警,進行系統(tǒng)化和可視化實現(xiàn),并輔以自然語言分析方法進行熱點問歸類,可實現(xiàn)自動快捷輸出結論的功能。以上智能分析和預警方法形成的系統(tǒng),可以有效地為業(yè)務發(fā)展提供用戶滿意度的數(shù)據(jù)支撐,保障增值業(yè)務的高質(zhì)量發(fā)展。
根據(jù)投訴類數(shù)據(jù)(本文也成為用戶抱怨類數(shù)據(jù))的特點,智能分析和預警系統(tǒng)主要分為5個模塊,分別為關鍵信息提取和業(yè)務字典建立模塊、多數(shù)據(jù)源的綜合匹配模塊、多維分析維度和預警模塊、自然語言分析方法處理熱點問題描述的歸類模塊、系統(tǒng)化和可視化模塊。
目前,增值業(yè)務數(shù)量巨大,根據(jù)粗略統(tǒng)計,歷史細分產(chǎn)品有5000種以上,而目前在用產(chǎn)品也有2000種左右。在系統(tǒng)中,產(chǎn)品記錄的是標準名稱,而實際在用戶的投訴中,話務員記錄的業(yè)務名稱往往為產(chǎn)品簡稱。在進行匹配時,若使用產(chǎn)品標準名稱去受理內(nèi)容中匹配,往往無法完成匹配。因此,一張業(yè)務簡稱、標準名稱的對應表需要建立。另外,由于投訴的工單中只有產(chǎn)品信息,未將產(chǎn)品歸類到相關細分部門,在進行投訴溯源時,也存在著需要人工手動歸集產(chǎn)品到部門的問題。
因此,在處理投訴數(shù)據(jù)前,需要進行產(chǎn)品字典表的制作,產(chǎn)品字典表至少包含的字段為產(chǎn)品簡稱、產(chǎn)品全稱、產(chǎn)品SP、產(chǎn)品歸類、產(chǎn)品歸屬部門等等。基礎字典的建立,將為接下來的分析打下重要的基礎。
為了更加理解用戶對于產(chǎn)品的不滿和抱怨,需要收集各個維度的用戶滿意度數(shù)據(jù)。根據(jù)上級公司考核要求,并結合當前實際情況,將用戶的滿意度投訴數(shù)據(jù)分為了以下幾個維度:
(1)退訂數(shù)據(jù):用戶對于業(yè)務的退訂情況,主要包含退訂號碼、退訂業(yè)務等信息。
(2)退費數(shù)據(jù):用戶對于業(yè)務的申請退費情況,主要包含退費號碼、退費金額、退費業(yè)務等。
(3)投訴數(shù)據(jù):用戶對于某個業(yè)務的投訴信息,主要包含用戶號碼、受理內(nèi)容、處理內(nèi)容等。
三個維度的數(shù)據(jù)各不相同,它們各自代表著用戶不同的投訴意愿,但同時它們都是用戶表達不滿的一種表現(xiàn)。因此三個維度既要相互融合也需要相對獨立地去處理。
2.3.1 多維度分析
在完成多數(shù)據(jù)源的匹配后,將會得到一張以產(chǎn)品簡稱或產(chǎn)品名稱為主鍵的多維統(tǒng)計的寬表。在寬表的基礎上,可以進行多維統(tǒng)計分析。如表1所示。
表1 PTN與其他技術對比
表1 產(chǎn)品投訴抱怨情況多維統(tǒng)計分析表格
(1)常規(guī)分析維度
一般常用的統(tǒng)計維度為產(chǎn)品綜合抱怨、單維度抱怨排行,產(chǎn)品歸類綜合抱怨、單維度抱怨排行和部門綜合抱怨、單維度抱怨排行,如圖1所示。這些維度是最基本的維度,也是最實用的維度,通過以上分析,可以快速定位抱怨重點產(chǎn)品、歸類、被抱怨產(chǎn)品最多的部門,針對性緩解和消除排名靠前的用戶抱怨。
圖1 產(chǎn)品總體抱怨量排行統(tǒng)計圖
(2)聯(lián)合分析維度
本文在設立分析維度時,還創(chuàng)新性地引入了萬人抱怨比的概念。不同的業(yè)務有著不同的質(zhì)態(tài),只根據(jù)抱怨量來進行排名并不完全科學。舉例說明,A產(chǎn)品,總用戶100萬,月抱怨總量為1000次,B產(chǎn)品,總用戶10萬,月抱怨總量為500次。從簡單維度上來看,A產(chǎn)品的抱怨量大于B產(chǎn)品,但從每萬人抱怨比的角度看,A的產(chǎn)品健康程度比B產(chǎn)品更好。因此,聯(lián)合其他維度的數(shù)據(jù),通過合理計算,可以得到更加客觀的分析結果。
(3)專題分析維度
對于重點業(yè)務,引入專題分析模塊。比如C產(chǎn)品為公司支柱性業(yè)務,在進行多維度分析時,C產(chǎn)品應該重點專題分析。結合C產(chǎn)品的固有數(shù)據(jù),可以將C產(chǎn)品抱怨的情況更加立體地展示出來,如圖2所示。也可以對代理商發(fā)展業(yè)務的抱怨量進行排名,從其他角度了解代理商發(fā)展業(yè)務的規(guī)范程度。
圖2 產(chǎn)品退訂數(shù)量與在網(wǎng)時長的關系圖
2.3.2 預警邏輯建立
抱怨量分析的最終目的是了解用戶的抱怨方向,從而降低總體投訴量,達到高質(zhì)量發(fā)展的目的,重要的一環(huán)是要告訴公司管理監(jiān)管層,哪些產(chǎn)品值得關注,因此,需要設立預警邏輯模塊,一方面設立規(guī)則篩選重點關注產(chǎn)品,另外一方面進行主動提醒。篩選重點關注產(chǎn)品的規(guī)則也分為兩種:
(1)橫向閾值規(guī)則
顧名思義,橫向閾值規(guī)則是從宏觀層面,將所有產(chǎn)品的綜合抱怨量、單維度抱怨量、聯(lián)合分析維度(例萬人抱怨比)分別進行排序,每個維度取前N個產(chǎn)品,將其定義為重點關注產(chǎn)品。其中的重合產(chǎn)品,則更要重點關注。
(2)自比較閾值規(guī)則
自比較維度是對產(chǎn)品本身自己的閾值維度。以表2為例,E產(chǎn)品雖絕對數(shù)量少,但其月增加數(shù)量較多,有更加惡化的趨勢,因此,同樣也需要列入重點關注產(chǎn)品。
表2 產(chǎn)品自比較維度趨勢表
在完成預警規(guī)則的制定后,會得到重點關注抱怨產(chǎn)品列表,產(chǎn)品列表將以月報、日報形式發(fā)送給管理監(jiān)管層,輔以決策。
針對過往工單的記錄,投訴類型可分為36個類別,對已有工單的受理內(nèi)容進行了分類,作為樣本數(shù)據(jù)??紤]到樣本的數(shù)據(jù)量充足,且相似度算法的準確率足夠耗時也較少,在實際對投訴進行分類處理時采用了TF-IDF算法模型。
首先明確幾個概念,一個文本由許多與該文本有關的句子組成,每句話又可以切分成多個單詞。TF-IDF算法是一種基于統(tǒng)計方法的相似度算法,它的主要思想是,如果某個單詞在某類文檔中出現(xiàn)的次數(shù)很多,而在其它文檔中很少出現(xiàn),則認為當這個詞出現(xiàn)在一個新文本中時,可據(jù)此對新文本進行良好地分類。
TF-IDF由兩個關鍵指標TF和IDF組成。
TF表示詞頻,即單詞在文本中出現(xiàn)的頻率,它針對的是單一文本,對應的往往是一個代表某意圖種類的文件。通常為了防止這個指標偏向于長文本,會對它進行歸一化處理,如公式(1)所示:
IDF表示逆文檔頻率,與包含該詞語的文本的數(shù)目占總文本集合的數(shù)目有關,這里的總文本則是不同種類的文件集合,如公式(2)所示:
如果一個詞語,在某一特定文件中出現(xiàn)的頻率很高,具有高的TF值,且該詞語在所有文件集合中出現(xiàn)的頻率很低,即有很高的IDF值,也認為該詞很有可能是該類文本中具有代表性的關鍵詞。為了量化衡量指標,將這兩個指標融合,用TF-IDF作為衡量單詞權重的指標,如公式(3)所示:
通過TF-IDF算法,當有一個新文本出現(xiàn)時,完全可以對該文本進行切詞,然后分析文本中每個單詞在總文本語料集合中的TF-IDF權重,來計算新文本與已知類別語料的相似度,從而迅速判斷出新文本屬于哪個類別。
例如,受理內(nèi)容為:
“1、問題描述:IM號:o2IH4jq4WB20xTaqg0RPcjO1JrUc,用戶來電表示對5月產(chǎn)生的動感彩鈴3.68元費用不認可,稱之前就已經(jīng)取消,稱此業(yè)務是在本人不知情的情況下開通的,有越級工信部傾向,并且要求在明天之前必須處理好,請核實,謝謝”。
先對這句話進行切詞處理,得到一個包含多個單詞的集合:
“['問 題 ', '描 述 ', 'IM', '號 ','o2IH4jq4WB20xTaqg0RPcjO1JrUc', '用戶', '來電', '表示','月', '產(chǎn)生', '動感', '彩鈴', '3.68', '元', '費用', '認可','稱', '之前', '已經(jīng)', '取消', '稱此', '業(yè)務', '不知情','情況', '開通', '越級', '工信部', '傾向', '要求', '明天', '之前', '必須', '處理', '請', '核實', '謝謝']”
將這個集合中每個單詞與已有的語料庫做TF-IDF相似度計算,得出每個單詞與這36個類別中文本的TF-IDF相似度權重值,用算法篩選出其中權重值最高的單詞,則認為這個單詞可以作為這個新錄入投訴的關鍵詞,可以據(jù)此進行分類。
對于以上受理內(nèi)容,它與“省內(nèi)SP及自有業(yè)務資費爭議”一類中語料文本的相似度最高,達到0.672875,所以算法自動為它打上“省內(nèi)SP及自有業(yè)務資費爭議”的標簽,這與實際投訴分類完全一致。
用TF-IDF算法模型對2000條投訴數(shù)據(jù)進行了測試,實測準確率指標accuracy和F1-score均達到95%,模型可用性良好。
在完成所有工作后,需要一個系統(tǒng)去承載本文所述的工作步驟,并且需要一個可視化圖表界面來進行直觀展示。圖3為使用Django框架搭建的投訴分析web系統(tǒng)。
圖3 投訴分析web系統(tǒng)登錄界面
系統(tǒng)主要分為登錄頁、可視化展示頁(預警提醒頁)、文件上傳頁、字典維護頁、統(tǒng)計分析展示頁、結果下載頁等等。
通過web系統(tǒng)的搭建,可以實現(xiàn)手動/自動上傳數(shù)據(jù)、自動分析、自動預警、手動/半自動維護業(yè)務字典、結果下載等功能,方便投訴監(jiān)管人員的使用,簡化人工計算操作工作。
通訊運營商增值業(yè)務面臨較大的投訴壓力,迅速、有效、大幅度地降低用戶的抱怨迫在眉睫。本文創(chuàng)新性地提出了一種用戶抱怨數(shù)據(jù)處理方法,并進行了系統(tǒng)地建設和驗證。通過接近一年的努力,在投訴分析預警系統(tǒng)的輔助下和管理監(jiān)管層的大力整治下,取得了令人滿意的成績。相較于年初,目前綜合抱怨量下降了81%,達到了預期目標,優(yōu)質(zhì)業(yè)務繼續(xù)高速發(fā)展,抱怨多的業(yè)務經(jīng)過調(diào)整后質(zhì)態(tài)健康化。同時,投訴分析預警系統(tǒng)解放了進行手動抱怨量分析人力,更加客觀、快速、及時,為增值業(yè)務高質(zhì)量發(fā)展轉(zhuǎn)型之路添加了一份堅實的助力。