楊孟金 陳建
摘要:運營商對于用戶的投訴理解不全面, 無法準確地從投訴數(shù)據(jù)中獲取用戶的痛點和需求, 運營商迫切需要一個針對用戶投訴數(shù)據(jù)進行快速提取和分析的方法, 對用戶的需求進行靈活和高效的響應。
關鍵詞:數(shù)據(jù)挖掘;文本挖掘;投訴分析;運營商
1 運營商客戶投訴信息處理的難點
運營商現(xiàn)有的投訴跟蹤體系中, 用戶的投訴信息和數(shù)據(jù)可從多渠道獲取,如網上營業(yè)廳、掌上營業(yè)廳、呼叫中心、社交網絡等,并且主要以文本形式和錄音形式進行存儲, 運營商的客戶服務部門和客戶響應中心根據(jù)每月投訴類型節(jié)點的數(shù)量, 確定投訴分析的范圍,主要通過投訴工單、呼叫中心錄音重聽等抽樣調研的方式進行分析, 分析的準確性和全面性不足;另外,投訴錄音無法智能,而投訴文本記錄是以中文文本的方式進行存儲的, 均為非結構化信息,無法直接進行分析。
2 數(shù)據(jù)挖掘方法的思路與可行性
文本挖掘(Text Mining)是對自然語言文本中所包含的數(shù)據(jù)進行分析的一種數(shù)據(jù)挖掘方法, 文本挖掘技術本身由機器學習、語言學統(tǒng)計、自然語言處理等多種技術結合而成,應用在投訴分析中,可以快速、 高效地對中文文本進行自動化的處理和分析,主要思路介紹如下。
(1)投訴數(shù)據(jù)獲取
從投訴數(shù)據(jù)的來源看,除了錄音信息外,其他的投訴數(shù)據(jù)均為中文文本數(shù)據(jù),網上營業(yè)廳、掌上營業(yè)廳和呼叫中心的投訴數(shù)據(jù)均存儲在運營商自建信息系統(tǒng)的數(shù)據(jù)庫中,社交網絡的投訴數(shù)據(jù)可以通過 API 抓取,數(shù)據(jù)的可獲得性較好。
(2)投訴數(shù)據(jù)預處理
中文文本挖掘的難點之一在于機器對中文自然語言的處理,中文語法的復雜性、多義性一直是制約中文文本挖掘技術發(fā)展的主要瓶頸之一。 隨著中文自然語言處理技術的不斷發(fā)展,出現(xiàn)了多個較為成熟的中文分詞開源項目,中文分詞的準確性和合理性得到了較好的保障。
(3)投訴數(shù)據(jù)處理
對經過預處理的投訴數(shù)據(jù)進行建模分析,如詞 頻 統(tǒng) 計、投 訴 聚 類 分 析、主題模型分析等一系列知識挖掘處理,自 動 化 地 處 理 投 訴 數(shù) 據(jù) ,并 輸出 結 果。
(4)基于文本挖掘的對策與建議
根據(jù)投訴數(shù)據(jù)處理結果,確定用戶投訴的熱點與需求,將結果快速反饋給相關部門,對問題業(yè)務進行優(yōu)化,提升用戶滿意度和客戶感知。從數(shù)據(jù)投訴分析的思路上看,現(xiàn)有的條件和技術已基本可以滿足客戶投訴分析的自動化和智能化分析要求,基于運營商現(xiàn)有的技術架構和投訴處理思路,本文設計了如下基于數(shù)據(jù)挖掘的客戶投訴分析流程,如圖 1 所示。
3 基于數(shù)據(jù)挖掘的客戶投訴分析
(1)投訴數(shù)據(jù)倉庫整合
從運營商現(xiàn)有的數(shù)據(jù)獲取情況看,用戶的投訴數(shù)據(jù)在多個業(yè)務系統(tǒng)中與官方運營的社交網絡賬戶中均可獲取,但是未經過整合。 可以通過數(shù)據(jù)接口,建立統(tǒng)一投訴數(shù)據(jù)倉庫的方法將各業(yè)務系統(tǒng)中和分散在 Web 側的投訴數(shù)據(jù)進行整合,全面監(jiān)測用戶投訴情況。
(2)投訴數(shù)據(jù)預處理
統(tǒng)一存儲在投訴數(shù)據(jù)倉庫中的業(yè)務數(shù)據(jù)需要進行分析前的預處理,因為各個業(yè)務數(shù)據(jù)存儲的中文文本信息各有特點,存在部分干擾。
(3)投訴數(shù)據(jù)中文分詞
中文文本挖掘與英文文本挖掘的重要區(qū)別在于:英文單詞之間分割擁有天然優(yōu)勢,單詞之間有空格分割,但是中文單詞無法直接進行分析。 隨著中文分詞技術的發(fā)展,現(xiàn)在已經有較為成熟的中文分詞工具,如中國科學院計算所的 ICTCLAS 商用分詞工具、 基于 Lucene 開源項目的 IKAnalyzer 等,分詞效果已經較好,支持細粒度和智能分詞等多種單詞切分模式。 此類分詞工具可便捷地對原文本進行過濾(標點符號、語氣詞、數(shù)字、字母等),提供用戶自定義詞庫和消去停用詞,便于應用行業(yè)詞典和投訴業(yè)務專用詞典。 行業(yè)詞典和投訴業(yè)務專用詞典需要對數(shù)據(jù)進行分析后自行建立。
(4)投訴分析
投訴分析使用經過分詞的投訴文本語料,比較常用的分析方法有詞頻統(tǒng)計、通過支持向量機進行機器識別最終實現(xiàn)投訴自動分類識別、利用主題模型進行文本挖掘。 比較成熟的工具有 Libsvm 工具包、 商業(yè)數(shù)據(jù)挖掘軟件 SPSS Modeler 的 text mining模塊、R 語言的 tm 文本挖掘工具包、Stanford 大學的 Text Mining Toolbox 工具等, 通過此類成熟的文本挖掘工具,對客戶投訴問題進行合理有效的分析和分類。
(5)結果輸出和策略建議
根據(jù)上述文本挖掘工具的分析, 可以快速獲取用戶熱點投訴關鍵詞、熱 點 投 訴 主 題 等 ,幫 助投訴分析人員快速定位業(yè)務投訴的問題所在,發(fā)現(xiàn)服務問題與短板,將發(fā)現(xiàn)的問題快速反饋給相應的業(yè)務部門和系統(tǒng)支撐部門, 及 時 解 決 問 題,提 升 用 戶 感 知,節(jié)省大量的投訴分析時間和人力成本。
4 結束語
基于數(shù)據(jù)挖掘提出了一個適合運營商進行快速投訴分析的方法,利用成熟的文本挖掘技術方法和文本挖掘工具, 開展投訴文本數(shù)據(jù)挖掘分析工作,可以對運營商各渠道的用戶投訴文本數(shù)據(jù)實現(xiàn)快速、科學、高效的分析處理,利用對投訴數(shù)據(jù)的挖掘結果提升用戶感知,提升客戶滿意度,降低用戶投訴量和投訴率, 建立投訴分析快速響應機制,減輕運營商的投訴分析壓力。
參考文獻:
[1]張文彤, 鐘云飛. IBM SPSS 數(shù)據(jù)分析與挖掘實戰(zhàn)案例精粹[M].北京: 清華大學出版社, 2013.
[2]黃昌 寧, 趙海. 中文分詞十年回顧[J]. 中 文 信 息 學 報, 2007,21(3):8-19.
[3]吳其葉. 科技查新的查準度和查全度與文獻檢索的查全率和查準率的差異[J]. 現(xiàn)代情報, 2003, 23(9):8-9.
(作者單位:南京擎天科技有限公司)