楊柳林,吳柯蓉,李宇,李娟娟
(1.廣西大學(xué)電氣工程學(xué)院,廣西南寧,530004;2.廣西電網(wǎng)公司客戶服務(wù)中心,廣西南寧,530004)
將以投訴類為例將工單分類標(biāo)簽形式進(jìn)行統(tǒng)一,都采用“業(yè)務(wù)子類”綜合描述方式,從而得到32個(gè)唯一分類標(biāo)識(shí),如表1所示。
表1 投訴工單的分類研究
構(gòu)建模型前要對(duì)文本內(nèi)容即來電內(nèi)容進(jìn)行數(shù)據(jù)分詞處理,對(duì)電力客戶投訴工單的“來電內(nèi)容”進(jìn)行深度挖掘,將工單中的受理文本信息和處理文本信息切割成單個(gè)詞匯,將文本轉(zhuǎn)化為了數(shù)學(xué)語言[1]。 斯坦福中文分詞工具[2]是由斯坦福大學(xué)自然語言處理組所提供,他們也提供了一系列開放源碼的Java文本分析工具。
構(gòu)建詞庫后需要構(gòu)建特征矩陣,常見的文本特征提取方法就是TF-IDF[3](term frequency-inverse document frequency)。TF-IDF是一種基于統(tǒng)計(jì)的計(jì)算方法,常用來評(píng)估在一個(gè)文檔中一個(gè)詞對(duì)某份文檔的重要程度[4]。在一份給定的文件里,詞頻(term frequency,TF)表示指定的詞匯ti在文件中出現(xiàn)的次數(shù),計(jì)算公式為:
其中,ni,j為在文件中指定詞出現(xiàn)的次數(shù)。
IDF(inverse document frequency)是逆向文件頻率,計(jì)算公式為:
其中,n為文件總數(shù)。
{d:d?ti}為含有詞匯ti的文件總數(shù)。
對(duì)詞匯的重要性進(jìn)行權(quán)重計(jì)算,計(jì)算公式為:
IDFi通常被歸一化以避免它偏向長(zhǎng)的文件,則權(quán)重計(jì)算公式為:
這里用來構(gòu)建工單分類優(yōu)化模型的聚類算法為無監(jiān)督聚類算法K-means算法[5]。
能把文本相似程度轉(zhuǎn)變?yōu)槲谋局g的距離的常見的方法有三種,即距離函數(shù)法、余弦法與內(nèi)積法[6]。采用夾角余弦相似度的計(jì)算模型,余弦相似度利用夾角的余弦值即方向來刻畫相似度,更注重維度間相對(duì)層面的差異[7]。首先通過文本的向量表示,將文本轉(zhuǎn)化成為向量集合X= {x1,x2,…xn}。對(duì)于歐氏空間中的任意兩個(gè)向量x= {x1,x2,…xn}和y={y1,y2,…yn},它們的余弦相似度(Cosine)定義為兩個(gè)向量夾角的余弦:
采用K-means算法計(jì)算出不同投訴類型間的距離。其中,距離=1-cosine(相似度),從而由該距離值來判斷投訴工單分類的相似度,由此模型進(jìn)行95598工單分類優(yōu)化分析。工單分類優(yōu)化分析流程如圖1所示。
圖1 工單分類優(yōu)化分析流程
本實(shí)例以95598投訴工單數(shù)據(jù)為對(duì)象進(jìn)行研究分析,采用斯坦福中文分詞工具,對(duì)投訴工單的“來電內(nèi)容”進(jìn)行分詞處理。
部分原始工單如表2所示。
表2 原始工單(部分)
將其分詞,分詞完成后,去除數(shù)字、標(biāo)點(diǎn)、英文字符、特殊符號(hào),針對(duì)剩余的詞庫,再移除停用詞,共得到3510個(gè)有效詞語。部分結(jié)果如表3所示。
表3 分詞結(jié)果(部分)
完成各工單的“來電內(nèi)容”分詞后整合成一個(gè)文本。在python中利用TF-IDF構(gòu)建分詞矩陣。分詞矩陣的行為特征詞,列為所有工單樣本,部分分詞矩陣如圖2所示。
圖2 分詞矩陣(部分)
如圖2所示,特征詞對(duì)應(yīng)為“1”代表所屬分類那條工單中有該特征詞?!?”即沒有。
形成分詞矩陣后將同一投訴類型的所有來電內(nèi)容整合成一個(gè)文本,然后利用不同投訴類型的TF-IDF特征值在python中調(diào)用K-means算法計(jì)算不同投訴類型間的距離。其中,距離=1-cosine(相似度),從而由該距離值來判斷投訴工單分類的相似度,距離越小相似度越高。結(jié)果如圖3所示。
圖3 投訴工單分類相似度結(jié)果
由圖3可見,取部分距離較小的投訴工單分類匯總?cè)绫?所示。
表4 距離較小的工單分類
4 業(yè)擴(kuò)報(bào)裝/新裝增容/環(huán)節(jié)處理問題業(yè)擴(kuò)報(bào)裝/新裝增容/業(yè)擴(kuò)信息溝通 0.1 8 2
由上述圖表分析可知:
(1)有可能是設(shè)置的分類冗余導(dǎo)致類別間來電內(nèi)容反應(yīng)的問題類似,可以考慮后期合并標(biāo)簽。比如“業(yè)擴(kuò)報(bào)裝/新裝增容/環(huán)節(jié)處理問題”和“業(yè)擴(kuò)報(bào)裝/新裝增容/業(yè)擴(kuò)信息溝通”,兩者之間的距離為0.182,距離較小,說明分類基本相同。
(2)有可能是不同類別設(shè)計(jì)冗余導(dǎo)致類別之間反應(yīng)的問題相似,可以考慮后期重新整合。比如“抄表計(jì)費(fèi)/抄表催費(fèi)/抄表”和“抄表計(jì)費(fèi)/電價(jià)電費(fèi)/電費(fèi)”的來電內(nèi)容基本相似,甚至相似度比同一類型的“抄表計(jì)費(fèi)/抄表催費(fèi)/催繳費(fèi)”還高。
(3)有可能是類別設(shè)計(jì)所覆蓋的問題本身特點(diǎn)導(dǎo)致在語言描述本身具有相似度,但確實(shí)針對(duì)的是不同的問題,這些需要考慮后期重新設(shè)計(jì)類別或者利用“來電內(nèi)容”以外的其他信息輔助判斷。比如“電網(wǎng)建設(shè)/供電設(shè)施/輸配電線路建設(shè)”和“供電安全/供電安全/安全隱患”。
針對(duì)所有的來電內(nèi)容記錄,計(jì)算它們的TF-IDF特征值,然后進(jìn)行無監(jiān)督聚類分析。在所有的聚類分析結(jié)果中,聚類類型的個(gè)數(shù)設(shè)置與投訴類型相同,為32個(gè)。對(duì)投訴類型分布進(jìn)行統(tǒng)計(jì),其中每一聚類類型都是由距離聚類中心的前幾個(gè)詞語代表主題,同時(shí)統(tǒng)計(jì)當(dāng)前聚類類型中的原投訴類型分布及其數(shù)量。統(tǒng)計(jì)的部分結(jié)果如表5所示。
表5 投訴類型分布統(tǒng)計(jì)(#0)
在表5中,分類號(hào)#0的聚類類型主題為:“停電,頻繁,客戶,變壓器”。其中大部分來電內(nèi)容分布在“供電質(zhì)量/供電可靠性/頻繁停電”中,僅有一條分布在“電網(wǎng)建設(shè)/供電設(shè)施/農(nóng)網(wǎng)改造”中。而由原投訴類型相似度分析結(jié)果可知兩者距離為3.61,投訴類型距離較大,不屬于相似投訴類型。
另外的少數(shù)來自其他類別的來電內(nèi)容則需要考慮以下因素:
(1)聚類預(yù)測(cè)結(jié)果錯(cuò)誤;
(2)來電內(nèi)容原標(biāo)簽錯(cuò)誤;
(3)來電內(nèi)容所講述的需求比較廣泛,屬于多個(gè)類別;
(4)其他可能。
這些因素都可以在后期繼續(xù)詳盡分析,用來提高聚類分析結(jié)果或者改進(jìn)投訴類型結(jié)構(gòu)設(shè)計(jì)。
工單分類的優(yōu)化始終是電力公司客戶服務(wù)工作的重要內(nèi)容,本文結(jié)合廣西電力業(yè)務(wù)需求,打破原來對(duì)工單數(shù)據(jù)處理的分析方法,以客戶服務(wù)工單的大量數(shù)據(jù)為基礎(chǔ),基于計(jì)算語言方法深入挖掘95598工單,對(duì)其進(jìn)行工單分類優(yōu)化分析。利用Python進(jìn)行大數(shù)據(jù)分析操作,完成分詞、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取等,實(shí)現(xiàn)了對(duì)數(shù)據(jù)的精確分析,可為客服工作提供準(zhǔn)確的輔助信息,有助于提升客戶服務(wù)水平。