李靜1. 劉思濤2.
1.國網(wǎng)山東省電力公司電力科學研究院2.國網(wǎng)山東省電力公司物資公司
基于文本挖掘技術(shù)的95598重復投訴分析
李靜1. 劉思濤2.
1.國網(wǎng)山東省電力公司電力科學研究院2.國網(wǎng)山東省電力公司物資公司
重復投訴工單的挖掘與分析,對供電業(yè)務(wù)薄弱點的發(fā)現(xiàn)與改進,提升供電企業(yè)的服務(wù)品質(zhì),提升企業(yè)形象具有重要且深遠的意義。目前重復投訴工單的發(fā)現(xiàn),主要依靠人工,費時費力,效率低。本文提出了一種基于客戶投訴內(nèi)容的重復投訴工單識別,對文本信息進行中文自然語言處理和數(shù)據(jù)挖掘,通過大數(shù)據(jù)對文本挖掘結(jié)果進行分析監(jiān)控,構(gòu)建適合電力公司的重復投訴工單文本挖掘模型,高效準確的識別重復投訴工單,便于分析人員及時準確地發(fā)現(xiàn)重復投訴原因熱點。
重復投訴 文本挖掘 文本相似度 多維分析
在95598來電工單中,包含了大量投訴類工單,這些文本數(shù)據(jù)蘊含了對用戶訴求的直接描述,如何快速從來電工單中挖掘出重復投訴的工單,成為投訴管理的迫切需求。目前重復投訴工單的識別挖掘,主要依靠投訴分析人員通過對95598投訴工單的分析,人工逐條查閱工單內(nèi)容,分析效率低,無法及時了解客戶重復投訴的原因,容易產(chǎn)生客戶服務(wù)滯后的問題。另外,工單中的投訴內(nèi)容為文本內(nèi)容,文本信息量大非結(jié)構(gòu)化,難以對數(shù)據(jù)進行直接分析。因此,為解決以上問題,本文引入了文本挖掘的理念和方法,通過構(gòu)建重復投訴模型,實現(xiàn)重復投訴工單的識別,根據(jù)重復投訴的分析結(jié)果,查找重復投訴原因,制定行之有效的投訴處理策略,提高投訴處理質(zhì)量和效率。
(一)文本挖掘技術(shù)。文本挖掘(Text Mining,TM)是近幾年來數(shù)據(jù)挖掘領(lǐng)域的一個新興分支,是以文本數(shù)據(jù)為特定挖掘?qū)ο蟮闹R挖掘。文本挖掘的要點是分詞,根據(jù)文本數(shù)據(jù)中的特征信息進行分詞處理,以此構(gòu)建文本的中間表示。文本挖掘分析大量的半結(jié)構(gòu)化或非結(jié)構(gòu)化文本數(shù)據(jù),利用數(shù)據(jù)挖掘的算法,抽取出關(guān)鍵的詞語和文字間的關(guān)聯(lián)關(guān)系,并按照內(nèi)容對文檔進行分類或聚類,進而發(fā)現(xiàn)新的概念和獲取相應(yīng)的關(guān)系。
(二)基于領(lǐng)域特征詞表的特征詞標注。以大量投訴工單中反映業(yè)務(wù)種類、問題現(xiàn)象、問題原因的特征詞為基礎(chǔ),設(shè)立特征詞表,進行基于特征詞匹配的子句標注,并依不同緯度進行工單分類。在實際應(yīng)用中發(fā)現(xiàn),基于領(lǐng)域特征詞表的輔助分析,可以顯著提高工單分類、聚類等的準確性和效率。
(三)基于大數(shù)據(jù)的數(shù)據(jù)監(jiān)控分析。通過構(gòu)建檢測模型和確定模型指標體系、指標閥值等參數(shù),對工單數(shù)據(jù)進行大數(shù)據(jù)分析,采取可視化大屏全屏展示的方式進行全方位多角度的展開實時監(jiān)控、分析,及時發(fā)現(xiàn)當前重復投訴問題變化趨勢,并對問題點改進情況進行跟蹤。
所謂重復投訴工單是指客戶第一次投訴后,再次來電投訴相同事情的工單。具體描述如下:從查詢周期內(nèi),同一戶號、同一來電號碼、受理內(nèi)容相似的工單、并對重復事件數(shù)、工單數(shù)、電話數(shù)的單位分布進行分析。
根據(jù)重復投訴工單定義,采用2015年全年的投訴工單數(shù)據(jù),先進行數(shù)據(jù)清理、數(shù)據(jù)預處理等步驟完成數(shù)據(jù)的清洗,通過文本建模分析,識別重復投訴工單,并利用多維分析手段,對結(jié)果進行可視化展示。重復投訴模型如下圖所示:
圖1 重復投訴模型分析
(一)數(shù)據(jù)清理。清除投訴工單中存在異常來電的數(shù)據(jù),如信息不全的工單、受理內(nèi)容含“無故掛斷”,等內(nèi)容的工單,客戶編號或地址或電話為*的工單。
(二)數(shù)據(jù)預處理。根據(jù)重復投訴定義,提取工單中電話號碼、供電公司、供電單位都相同的工單,作為一組重復工單。
(三)文本挖掘。對每組重復工單的受理內(nèi)容,進行兩兩相似度的判斷,選取相似度相同的工單合并為重復投訴工單。
(1)中文分詞。分詞,采用 TD-CS 分詞技術(shù),將一段文本轉(zhuǎn)化為詞語集合。原理:按詞長對中文詞匯分進行分詞,對要分詞的文本進行匹配,如果找到了匹配詞匯,則在該詞匯處分詞,如果沒有匹配,那么縮短詞匯繼續(xù)進行匹配,直到匹配為止,如果一直到最后單字都沒匹配,則認為該詞為新詞,在新詞后進行分詞。
(2)向量空間模型。向量空間模型的基本思想是將文本分為若干的特征項,通過特定的手段計算出每個特征項在該文本中的權(quán)重,進而將整個文本用以特征項的權(quán)重為分量的向量來表示,在將文本用特征向量的方式表示為數(shù)學模型以后,再基于特征向量進行文本之間的相似度計算。權(quán)值可分為詞頻型和布爾型,詞頻即詞條在文章中出現(xiàn)的次數(shù),布爾型即在詞條在文本中是否出現(xiàn)過,出現(xiàn)為1,未出現(xiàn)為0。由于投訴工單受理內(nèi)容多位短文本,所以權(quán)值采用布爾型表示。
(3)文本相似度判斷。文檔表示成向量后,文本之間的語義相似度就可以通過空間中的這兩個向量間的幾何關(guān)系來度量。目前相似度的計量方法有內(nèi)積、JACCARD系數(shù),余弦函數(shù)等方法[1]。本文采用余弦函數(shù)的方式計算文本相似度,即用空間中的兩個向量的夾角余弦來度量文檔之間的相似度,夾角余弦值越大,兩個向量的夾角越小,表示文檔越相似[2]。經(jīng)典的計算公式如下:
其中,Ti表示文本特征向量,Tit表示文本Ti的第t個向量。
對重復工單進行文本相似度兩兩計算,選取相似度高的為重復投訴工單,如果兩組含有相同工單,則合并兩組工單,去除相同工單,聚為一組重復投訴工單。
(4)模型優(yōu)化。根據(jù)模型訓練的結(jié)果,采取優(yōu)化訓練集、修正關(guān)鍵詞、修正模型算法等方式,結(jié)合人工經(jīng)驗,優(yōu)化模型。
根據(jù)重復投訴工單的挖掘,利用多維分析手段,統(tǒng)計重復投訴的工單數(shù)、電話數(shù)、事項數(shù)等的單位分布,并對重復投訴工單進行詳單的下鉆展示。根據(jù)重復投訴工單的電話號碼、客戶編號等關(guān)鍵信息,追溯該客戶的的歷史來電記錄,挖掘重復投訴下的深層次的原因。重復投訴工單的結(jié)果展示,主要通過報表、柱形圖、條形圖等可視化方式展現(xiàn)的。
圖2 重復投訴可視化界面圖
表1重復投訴工單明細
一組:工單編號:XX;業(yè)務(wù)類型:投訴; 受理時間: 2016-01-22 14:52:49;
受理內(nèi)容:【頻繁停電】客戶反映該地點最近一個月內(nèi),出現(xiàn)三四次停電,嚴重影響居民的正常生活生產(chǎn),至今沒有解決,客戶表示非常不滿,要求供電公司相關(guān)部門盡快徹底解決此問題并盡快給客戶合理解釋。同時客戶表示今天楊莊集鎮(zhèn)的夏廟村現(xiàn)在還是正常用電的,自己家唐店村停電了,客戶對此不解。
聯(lián)系電話: XX;供電單位:XX縣客戶服務(wù)中心。
二組:工單編號:XX;業(yè)務(wù)類型:投訴; 受理時間:2016-02-27 20:19:56;
受理內(nèi)容:【頻繁停電】客戶反映該地點最近一個月內(nèi)頻繁停電,今天一天出現(xiàn)三次停電,嚴重影響居民的正常生活生產(chǎn),至今沒有解決,客戶表示非常不滿,要求供電公司相關(guān)部門盡快徹底解決此問題并盡快給客戶合理解釋,客戶對此不解。聯(lián)系電話: XX;供電單位:XX縣客戶服務(wù)中心
本文引入文本挖掘與智能識別技術(shù),探索基于客戶投訴內(nèi)容的重復投訴智能識別,實現(xiàn)投訴內(nèi)容分析快速準確識別客戶重復投訴原因,便于投訴分析人員及時準確地發(fā)現(xiàn)重復投訴原因熱點,專家協(xié)同工作深耕引發(fā)原因背后的產(chǎn)品服務(wù)短板,提出短板優(yōu)化建議并落實。
[1]Salton G, Wong A, Yang C S. A vector space model for automatic indexiBg[J]. Communications of the ACM, 1975,18(11): 613-620.
[2]周昭濤,文本聚類分析效果評價及文本表示研究,中科院,碩士學位論文,2005
[3]王興起,王維才,謝宗曉等.文本挖掘技術(shù)在信息安全風險評估系統(tǒng)中的應(yīng)用研究[J].情報理論與實踐,2013,36(4) :107-110.
李靜(1977-),女,工程師,長期從事電力營銷工作。