摘 要: 文本挖掘技術為文本分析提供了方法和技術支持,以文本挖掘中的文本分類技術為基礎,簡要介紹文本預處理、文本分類器模型構建的方法和過程,并以供電服務過程中客戶通過供電服務中心反映的熱點事件為實例,建立95598工單文本自動分類的模型,通過驗證實現(xiàn)95598工單文本快速精準的自動分類,及時準確地挖掘出隱藏的重要信息,并且為分析供電服務對客戶的用電訴求的影響提供依據和數(shù)據基礎。
關鍵詞: 95598工單; 文本挖掘; 文本分類; 自動分類; 用電訴求
中圖分類號: TN915?34; TM711 文獻標識碼: A 文章編號: 1004?373X(2016)17?0149?04
0 引 言
電力客戶服務呼叫中心(即95598業(yè)務)作為供電企業(yè)與電力客戶交流的窗口,不僅能夠為電力客戶提供優(yōu)質便捷的服務,而且能直接客觀地反映客戶用電訴求[1]。目前對工單數(shù)據的分析,主要是數(shù)據分析人員依據坐席人員受理工單時勾選的業(yè)務類型,進行統(tǒng)計匯總實現(xiàn)工單的分類分析。該分類結果受坐席人員的主觀判斷影響大:一方面不能及時、客觀地反映散布在不同工單類型中的供電服務熱點事件;另一方面不能完整地反映用電客戶的真實訴求,更不能挖掘出客戶產生訴求的真實原因。因此在電力行業(yè)急需一種高效的文本數(shù)據挖掘方法對工單中隱藏的內容進行挖掘分析,并為電力營銷服務提供輔助決策。
文本挖掘作為一種有效信息挖掘和文本處理的技術,根據挖掘出的不同知識、模式劃分,可分為文本摘要、文本分類、文本聚類、關聯(lián)規(guī)則以及趨勢預測等不同類型。其中文本分類作為一種有效的電子文本分類方式,在信息過濾、信息檢索、文本數(shù)據庫和數(shù)字圖書館等領域得到了廣泛的應用和關注,為深層次的分析提供了技術支持和解決方案。本研究將文本分類技術應用到電力營銷領域,通過一系列的文本預處理技術以及文本分類的方法,對供電服務過程產生的工單信息進行挖掘分析,實現(xiàn)工單文本快速精準的自動分類,并及時準確地挖掘出隱藏的重要信息,為實現(xiàn)有效地分析供電服務對客戶的用電訴求的影響提供依據和數(shù)據基礎。
1 文本分類方法研究
文本分類是指將一篇文本歸類到已知的文本類別中,其主要包括文本預處理和分類器模型構建兩個過程,文本分類流程如圖1所示。
2 95598工單文本挖掘實證分析
本研究以江蘇省2013年1月—2015年8月所有工單為數(shù)據基礎,從工單受理內容出發(fā)進行挖掘分析,工單記錄數(shù)共計12 375 270條。
2.1 工單文本預處理
本次研究結合中文分詞研究方法,采用R語言程序對工單文本進行分詞,通過不斷地完善和加入詞庫來優(yōu)化分詞的效果,最終分詞后得到52 186個詞匯,如表2所示。
將分詞結果經去除停用詞處理后,再進行特征降維。從本研究統(tǒng)計方法出發(fā),結合電力行業(yè)特征,從詞性、詞頻、權重以及詞義與詞頻相結合等多方面進行特征選擇,部分特征詞匯如表3所示。
2.2 分類器模型構建
2.2.1 訓練集選取
在電力服務行業(yè)中,客戶通過工單反映出的用電問題多種多樣,為統(tǒng)一、準確、詳細地反映客戶的用電訴求,研究以供電服務過程中產生的熱點事件為對象進行研究,如“串戶”、“電表空走”、“表箱問題”等。
本文主要以“串戶”為例進行分析,隨機從全量工單中篩選出部分樣本工單,從受理內容上人工判定是否屬于疑似“串戶”,從判定結果中選出具有代表性疑似“串戶”工單和一定比例非“串戶”工單作為訓練集。
2.2.2 分類器模型確定
通過文本挖掘工具調用文本挖掘算法集中合適的文本挖掘算法,構建多個分類器模型,并對比分析不同分類器的分類效果,對比結果如圖2和表4所示。
由圖2的增益曲線可知,C5樹和SVM分類算法在40%的百分位時就能達到98%以上的增益,因此C5樹和SVM分類算法分類效果最佳;從表4來看,決策樹模型中的C5樹分類模型準確率最高,CR樹分類模型遺漏率最低,C5樹模型遺漏率次之。綜合多方面結果最終選定決策樹C5樹模型作為熱點事件“串戶”的分類器模型。
2.3 分類評估及結果
2.3.1 分類效果評估及調整
將待分類工單輸入C5樹分類器模型進行分類,從分類結果中隨機抽選1萬張工單進行效果評估,評估結果如表5所示。
從表5的分類結果檢驗來看,模型查全率達到92.2%,遺漏率7.8%,基本能識別出疑似“串戶”工單,且遺漏工單較少。但從模型查準率和準確率來看,分別為28.1%和75.2%,意味著該模型盡管能識別出“串戶”工單,但卻也將不屬于該熱點的工單判定為該熱點,因此需要對分類模型進行調整和改進。
模型調整主要從三個方面進行改進:第一,豐富同義詞庫和專業(yè)詞庫,使分詞結果更精準;第二,更精準地選定特征詞;第三,調整決策樹模型的深度和葉子節(jié)點樹。分類器模型調整后,結果評估見表6。
由表6可知,經過模型調整和改進后,準確率和查準率分別提高至91.6%,91.8%,遺漏率雖略有增高,但仍在業(yè)務可接受范圍內。通過驗證認為,調整后的分類器模型能從工單受理內容出發(fā),較為精準地識別出熱點事件工單。
2.3.2 分類結果及應用
利用調整后的分類器模型對全量分類后,共識別出疑似“串戶”工單37 161張,工單業(yè)務類型情況如圖3,圖4所示。
從圖3和圖4呈現(xiàn)的結果來看,利用決策樹分類器模型進行文本分類時,可以忽略工單記錄過程中的多級業(yè)務類型層級,直接從工單的受理內容出發(fā),識別和挖掘出隱藏在不同類型中的熱點事件疑似“串戶”工單。其中業(yè)務咨詢類工單共31 282張,占總疑似“串戶”工單的84.2%,投訴類工單占比5.6%,意見類工單占比6.4%。
以其中的投訴類工單為例進行分析,在原始的工單分類標準中,僅僅統(tǒng)計分析投訴以及投訴下多層子目錄,如服務行為、電能計量等,而用電客戶表達的實際問題往往會被忽略或者隱藏在目錄標題下得不到反映。同時在劃分業(yè)務類型時,常常會受坐席人員業(yè)務判斷能力以及管理政策的影響,從而使得分類結果更加背離客戶所反映的真實問題。經文本分類后,客戶表達的訴求和反映的問題可直接以熱點事件的形式及時、準確地被挖掘出來,而不受時間、政策以及業(yè)務類別準確性的影響。
此外,通過將熱點事件工單與相關的營銷業(yè)務活動匹配關聯(lián),還可進一步挖掘出疑似“串戶”訴求的產生主要是由“表計輪換”以及“批量新裝”等業(yè)務引起。因此為減少該類問題的產生,則可從營銷服務活動環(huán)節(jié)出發(fā)找出改進方法和有效的解決措施。
3 結 論
本文研究在當前電力呼叫中心工單統(tǒng)計分析不全面的背景下,利用文本挖掘中文本分類的技術,以供電服務過程中客戶反映的熱點事件為例對呼叫中心95598工單進行挖掘分析,通過研究驗證認為:利用文本分類的挖掘方式能快速、高效地實現(xiàn)對工單自動、有效的分類;可從工單實際內容出發(fā),及時、準確地找出隱藏在多種同業(yè)務類型中的熱點事件工單,從而減少人為參與辨別時的主觀影響。
此外,從分類后的工單中還能進一步挖掘出供電服務中對客戶產生用電訴求的影響:通過客戶訴求溯源反映出供電服務活動中存在的問題,為供電服務質量的分析提供依據;通過分析營銷業(yè)務與熱點事件工單之間的關系,為供電企業(yè)進行主動服務以及提升營銷業(yè)務管控水平提供指導建議;將分類后的熱點事件工單與營銷業(yè)務相關聯(lián)進行研究,可分析出不同營銷業(yè)務對客戶的滿意度或投訴率的影響情況,以此為營銷業(yè)務服務的風險大小以及風險的預警提供基礎。
參考文獻
[1] 吳剛.江蘇電力客戶服務系統(tǒng)研究[J].電力信息化,2004(2):49?53.
[2] 龍樹全,趙正華,唐華.中文分詞算法概述[J].電腦知識與技術,2009,5(10):2605?2607.
[3] 龐觀松,蔣盛益.文本自動分類技術研究綜述[J].情報理論與實踐,2012,35(2):123?128.
[4] 陸玉昌,魯明羽,李凡,等.向量空間法中單詞權重函數(shù)的分析和構造[J].計算機研究與發(fā)展,2002,39(10):1205?1210.
[5] 楊杰明.文本分類中文本表示模型和特征選擇算法研究[D].長春:吉林大學,2013.
[6] ZHANG W, YOSHIDA T, TANG X. A comparative study of TF* IDF, LSI and multi?words for text classification [J]. Expert systems with applications, 2011, 38(3): 2758?2765.
[7] 李榮陸.文本分類及其相關技術研究[D].上海:復旦大學,2005.
[8] 閆瑞,曹先彬,李凱.面向短文本的動態(tài)組合分類算法[J].電子學報,2009,37(5):1019?1024.
[9] 鄭霖,徐德華.基于改進TFIDF算法的文本分類研究[J].計算機與現(xiàn)代化,2014(9):6?9.
[10] 周茜,趙明生,扈旻.中文文本分類中的特征選擇研究[J].中文信息學報,2004,18(3):17?23.
[11] 趙世奇,張宇,劉挺,等.基于類別特征域的文本分類特征選擇方法[J].中文信息學報,2005,19(6):21?27.
[12] 徐燕,李錦濤.基于區(qū)分類別能力的高性能特征選擇方法[J].軟件學報,2008,19(1):82?89.
[13] YANG Y M, PEDERSON J O. A comparative study on feature selection in text categorization [C]// Proceedings of 1997 14th International Conference on Machine Learning. Nashville: Morgan Kaufmann, 1997: 412?420.
[14] 蔣良孝.樸素貝葉斯分類器及其改進算法研究[D].武漢:中國地質大學,2009.
[15] 張華鑫,龐建剛.基于SVM和KNN的文本分類研究[J].現(xiàn)代情報,2015,35(5):73?77.
[16] 季桂樹,陳沛玲,宋航.決策樹分類算法研究綜述[J].科技廣場,2007(1):9?12.
[17] 黃曉斌,趙超.文本挖掘在網絡輿情信息分析中的應用[J].情報科學,2009,27(1):94?99.
[18] 胡龍茂.中文文本分類技術比較研究[J].安慶師范學院學報(自然科學版),2015,21(2):49?53.
[19] 何國輝,吳禮發(fā).基于機器學習的文本分類技術的研究[J].計算機與現(xiàn)代化,2009(8):4?6.
[20] 蒲筱哥.自動文本分類方法研究述評[J].情報科學,2008,26(3):469?475.
[21] 石志偉,劉濤,吳功宜.一種快速高效的文本分類方法[J].計算機工程與應用,2005(29):180?183.
[22] 張征杰,王自強.文本分類及算法綜述[J].電腦知識與技術,2012(4):825?828.
[23] 蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術研究進展[J].軟件學報,2006(9):1848?1859.