田 曉,劉勇超,王婧,于相潔,代巖巖國網山東省電力公司電力科學研究院
基于文本挖掘的95598客服重復來電專題分析
田曉,劉勇超,王婧,于相潔,代巖巖
國網山東省電力公司電力科學研究院
重復來電工單的挖掘與分析,對熱點問題的及時發(fā)現與追蹤,起到很重要的作用。目前重復工單的發(fā)現,主要依靠人工,費時費力,效率低。本文提出了一種基于文本挖掘的重復來電模型,該模型能利用智能高效的算法篩選出重復來電工單,對準確有效地提高客服的服務質量具有十分重要的現實意義。
語義分析;文本挖掘;重復來電;聚類
近年來,隨著電力業(yè)務的迅猛發(fā)展,其客戶數量與業(yè)務類型隨之增長,客戶來電反映的內容龐雜多樣,如何從巨大的話務量中尋找有用信息,是客服工作面臨的巨大挑戰(zhàn)。根據重復來電信息分析,對來電信息中隱含的語義特征進行挖掘,重點關注重復來電次數多的客戶,對來電出現的熱點問題及時發(fā)現與跟蹤,以便能把握處理問題的最佳時機,從而提高處理熱點問題的能力和監(jiān)測能力。
重復來電,是指同一用戶(戶號相同)對同一事件重復致電兩次及以上的事件集合。具體描述如下:在查詢周期內,除表揚、訂閱和一次辦結咨詢、受理內容為空的所有非用戶號碼來電(例如12345、內部撥測等)以外的業(yè)務工單,按照來電號碼、用戶編號、受理內容等進行重復篩查所得到的重復事件數、工單數、電話數。
文本挖掘,是指從大量文本中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識能更好地組織信息以便將來參考。本文主要利用文本挖掘技術,對工單的受理內容進行文本聚類。首先將工單文本中的受理內容進行分詞,轉換成一個個詞條。
2.1文本建模
由于工單信息大部分為中文文本,屬于非結構化文本,要進行挖掘就必須將文本詞匯轉換成計算機能夠識別的語言,所以必須對文本詞匯進行建模,本文使用的是向量空間模型(Vector Space Model,VSM)。
2.2文本相似度計算
文檔表示成向量后,文本之間的語義相似度就可以通過空間中的這兩個向量間的幾何關系來度量。在V S M模型中,用空間中的兩個向量的夾角余弦來度量文檔之間的相似度,夾角余弦值越大,兩個向量的夾角越小,表示文檔越相似。
2.3文本聚類
通過文本之間兩兩相似度計算,每條文檔都被映射到一個R維空間的向量中,而R為詞典中詞語的數量。在此,我們需要使用相似度矩陣來計算文檔之間的相似度,并進行聚類分組。
本文在提取重復來電工單過程中,首先進行數據清理,即對95598工單文本清除異常來電號碼,比如[無故掛斷]、[內部撥測]、[12345]等異常來電。其次進行數據預處理,即根據關聯規(guī)則來提取來電相同的工單。再次進行文本語義分析,包括中文分詞、特征向量矩陣,相似度計算,聚類等步驟,對來電相同的工單的受理內容進行文本聚類,提取出同一用戶,來電內容相似的重復來電工單,并對語義特征進行分析。
本文利用文本挖掘技術,結合客服業(yè)務需求,開展重復來電專題研究,大大改善目前人工進行重復來電分析效率較低的狀況,達到95598重復來電問題的智能挖掘與分析的目的。
目前重復來電專題,只是從全量工單中通過詞語相似度計算分析出重復來電工單,并按業(yè)務類型來挖掘原因。下一步,還需要探索基于電力知識圖譜的構建以及與業(yè)務的對應關系,將非結構化數據準確的轉換為結構化數據,以便將來滿足重復來電等其它需要進行智能語義分析業(yè)務需求。
[1]朱明.數據挖掘[M].合肥:中國科學技術大學出版社,2002
[2]王永成等.中文信息處理技術及其基礎[M]上海交通大學出版社1990
[3]Salton G,Wong A,Yang C S.A vector space model for auto?matic indexiBg[J].Communications of the ACM,1975,18(11):613-620.