曹晉彰 趙少東 龐 寧 馮 斌
(深圳供電局有限公司信息部 廣東深圳 518048)
基于文本挖掘技術(shù)的電網(wǎng)企業(yè)客戶抱怨分析應(yīng)用研究
曹晉彰 趙少東 龐 寧 馮 斌
(深圳供電局有限公司信息部 廣東深圳 518048)
文本挖掘是指在大量文本數(shù)據(jù)中獲得可理解、可應(yīng)用知識的過程,涉及數(shù)據(jù)挖掘、模式識別等多個領(lǐng)域。本文對比傳統(tǒng)分析方法和文本挖掘技術(shù),將文本挖掘用于電力行業(yè)客服工單分析和特征抽?。P(guān)鍵詞抽?。詈髮ι钲诠╇娋挚头行牡谋г诡惞芜M(jìn)行文本挖掘分析,為業(yè)務(wù)部門提供更深入的客戶抱怨解讀及用戶感知。
文本挖掘;客戶抱怨;關(guān)鍵詞抽??;TF-IDF
深圳供電局95598渠道收集大量客戶投訴、抱怨類信息,是進(jìn)行客戶全方位服務(wù)水平分析重要數(shù)據(jù)來源。由于工單文本多為非結(jié)構(gòu)化文本,早期的客戶抱怨研究中對客戶文本訴求信息認(rèn)知存在不足:
在分析方法方面:主要根據(jù)業(yè)務(wù)分類進(jìn)行占比、同比、環(huán)比等分析,存在進(jìn)一步細(xì)化深入空間;其次,未形成關(guān)鍵詞詞典,客戶訴求細(xì)化分析主要依靠人工閱讀,對業(yè)務(wù)人員的經(jīng)驗依賴度高,工作量過大。
2.1 文本挖掘方法
文本挖掘(TextMining)作為數(shù)據(jù)挖掘領(lǐng)域一個重要分支[1~2],是從大量未經(jīng)處理的文本集合中抽取實現(xiàn)未知的、可理解的、最終可用的知識的過程,同時能夠運用這些知識更好地組織信息以支持業(yè)務(wù)分析決策。
2.2 關(guān)鍵詞抽取技術(shù)
關(guān)鍵詞提取是文本挖掘過程中重要的步驟之一,無指導(dǎo)關(guān)鍵詞抽取主流方法共有三種:基于主題模型的關(guān)鍵詞抽取、基于詞圖模型的關(guān)鍵詞抽取方法和基于TF-IDF統(tǒng)計特征的關(guān)鍵詞抽取。
主題模型關(guān)鍵詞抽取方法是運用一種無指導(dǎo)機(jī)器學(xué)習(xí)技術(shù)LDA,是通過大量已知“詞語-文檔”矩陣和系列訓(xùn)練推理出隱藏在內(nèi)容部的“文檔-主題”分布和“主題-詞語”分布。詞圖模型關(guān)鍵詞抽取方法是通過把文本分割成若干組成單元并建立圖模型,利用投票機(jī)制對文本中重要成分進(jìn)行排序從而確定關(guān)鍵詞。
電網(wǎng)企業(yè)客服工單記錄了客戶用電咨詢、用電報裝、電量電費查詢、停電信息咨詢、停電通知、故障報修、投訴舉報以及發(fā)布用電信息等服務(wù)過程信息。通常,針對電網(wǎng)企業(yè)客服工單包含兩種數(shù)據(jù)類型:結(jié)構(gòu)化數(shù)據(jù)和半/非結(jié)構(gòu)化數(shù)據(jù)。
傳統(tǒng)客服工單分析偏向于對結(jié)構(gòu)化數(shù)據(jù)的分析,主要根據(jù)來電數(shù)量、業(yè)務(wù)類型、時間等維度進(jìn)行客戶來電量的統(tǒng)計,分析方法包括:數(shù)據(jù)庫查詢,占比統(tǒng)計,同比環(huán)比等。常見統(tǒng)計指標(biāo)包括:百萬客戶投訴率、投訴處理及時率等。
根據(jù)電網(wǎng)企業(yè)客服工單分析現(xiàn)狀和文本挖掘的步驟,將電力客戶抱怨類工單文本挖掘過程細(xì)化為五個步驟:①文本數(shù)據(jù)收集;②建立分詞詞典;③詞頻分析及關(guān)鍵詞確認(rèn);④分析維度確認(rèn);⑤統(tǒng)計分析。
本文以深圳供電局客服中心客戶抱怨類工單為研究對象,從客戶抱怨內(nèi)容出發(fā),剖析停電具體情況,從而提高客戶服務(wù)質(zhì)量。研究范圍包括:2014年全年有關(guān)“供電質(zhì)量-頻繁停電”、“計劃停電-未按時停送電”和“供電故障-處理時間較長”三類二級業(yè)務(wù)工單。
4.1 文本數(shù)據(jù)收集
根據(jù)深圳供電局客戶服務(wù)中心業(yè)務(wù)規(guī)范,將客戶抱怨的文本數(shù)據(jù)按照二級業(yè)務(wù)分類進(jìn)行劃分,確定客戶抱怨類的業(yè)務(wù)分類,提取相應(yīng)業(yè)務(wù)工單,完成數(shù)據(jù)收集工作。
4.2 建立分詞詞典
驗證自定義分詞庫(埃森哲電網(wǎng)企業(yè)關(guān)鍵詞文本詞典包含562個分詞及相關(guān)同義詞),對文本進(jìn)行初步分詞處理。根據(jù)各業(yè)務(wù)類型不同,需要分別建立包含專有詞匯及自定義詞匯的分詞庫。
以“供電質(zhì)量-頻繁停電”為例,利用埃森哲電力行業(yè)關(guān)鍵詞文本詞典對1257個業(yè)務(wù)樣本進(jìn)行初步分詞,并根據(jù)數(shù)據(jù)樣本解讀和多次試驗性分詞,添加如下兩類分詞:
(1)客戶抱怨類:“嚴(yán)重影響”“正常生活”。
(2)客戶期望類:“盡快改善供電”。
4.3 詞頻分析及關(guān)鍵詞確認(rèn)
運用詞頻統(tǒng)計軟件進(jìn)行分詞、詞頻統(tǒng)計。根據(jù)TF-IDF加權(quán)技術(shù)確定能反映本文內(nèi)容的關(guān)鍵詞,并將分詞進(jìn)行分類分析、關(guān)聯(lián)分析找出用戶的主要關(guān)注點和趨勢變化等。例如:根據(jù)TF-IDF加權(quán)技術(shù)對“供電質(zhì)量-頻繁停電”客服工單“受理內(nèi)容”和“辦理意見”進(jìn)行高頻分詞統(tǒng)計。
將“受理內(nèi)容”高頻分詞進(jìn)行分類,得出三個主要信息分類,確定各類信息的關(guān)鍵詞如下:
(1)停電時間類:時間、時至、再次、次日;
(2)頻率表達(dá)類:每日、每周、每月、共停電、已停電、累計停電。
將“辦理意見”高頻分詞進(jìn)行分類,得出頻繁停電的不同原因:
(1)設(shè)備故障:故障、低壓、公變、開關(guān)、跳閘、變壓器;
(2)設(shè)備損壞:燒壞、老化;
(3)配電:配電;
(4)天氣原因:夏季、天氣炎熱、負(fù)荷、過載;
(5)用戶資產(chǎn)故障;
(6)無具體說明。
4.4 分析維度確認(rèn)
分列整理客服工單內(nèi)容(如:受理內(nèi)容、辦理意見等),根據(jù)實際業(yè)務(wù)特點分析各列信息的重要性和可行性,并結(jié)合關(guān)鍵詞確定合理有效的分析維度。
4.5 統(tǒng)計分析
分別統(tǒng)計各維度的業(yè)務(wù)數(shù)據(jù),并通過圖形表格的形式展示統(tǒng)計結(jié)果,以達(dá)到指導(dǎo)實際工作的作用。
(1)原因類信息統(tǒng)計
根據(jù)“供電質(zhì)量-頻繁停電”類投訴的辦理意見分析得出:80%的頻繁停電是由于開關(guān)、公變等設(shè)備問題引起,其中,跳閘等設(shè)備故障是82%、老化、燒壞等設(shè)備損壞是18%。
根據(jù)“計劃停電-未按時停送電”類投訴的辦理意見分析得出延遲送電原因,超過半數(shù)(68宗)的未按時送電是因工作量大導(dǎo)致的;如“經(jīng)查,由于該處計劃工作量大,線路較復(fù)雜,未能按計劃及時恢復(fù)供電。已于19:22恢復(fù)供電”。
(2)訴求類信息統(tǒng)計
根據(jù)“計劃停電-未按時停送電”類投訴的受理內(nèi)容能夠反映出客戶對停送電情況的訴求,“未按時送電”引起的客戶訴求占比最大(73%,164宗);其他三類訴求量較少,共占27%。
在本課題中,運用文本挖掘技術(shù)對深圳供電局客服中心95598客服工單分析后發(fā)現(xiàn),工單受理內(nèi)容及辦理意見中包含供電服務(wù)訴求、期望、抱怨和停電原因等方面的信息,通過對這些重要信息的有效統(tǒng)計能夠明確引起客戶抱怨的問題點,把握問題嚴(yán)重程度。
[1]查凱萊巴蒂.Web數(shù)據(jù)挖掘[M].人民郵電出版社,2009.
[2]楊霞,黃陳英.文本挖掘綜述[J].科技信息,2009(33):82~99.
TP311.1
A
1004-7344(2016)03-0266-01
2016-1-10
曹晉彰(1983-),男,湖南郴州人,工程師,從事電力信息化建設(shè)和數(shù)據(jù)分析工作。