亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于計(jì)算語言方法的95598工單分類優(yōu)化分析

2021-06-17 08:19:52楊柳林吳柯蓉李宇李娟娟

電子制作 2021年10期

關(guān)鍵詞：業(yè)擴(kuò)工單余弦

楊柳林，吳柯蓉，李宇，李娟娟

（1.廣西大學(xué)電氣工程學(xué)院，廣西南寧，530004；2.廣西電網(wǎng)公司客戶服務(wù)中心，廣西南寧，530004）

1 95598工單分類優(yōu)化模型

■1.1 工單標(biāo)簽構(gòu)建

將以投訴類為例將工單分類標(biāo)簽形式進(jìn)行統(tǒng)一，都采用“業(yè)務(wù)子類”綜合描述方式，從而得到32個(gè)唯一分類標(biāo)識(shí)，如表1所示。

表1 投訴工單的分類研究

■1.2 中文分詞

構(gòu)建模型前要對(duì)文本內(nèi)容即來電內(nèi)容進(jìn)行數(shù)據(jù)分詞處理，對(duì)電力客戶投訴工單的“來電內(nèi)容”進(jìn)行深度挖掘，將工單中的受理文本信息和處理文本信息切割成單個(gè)詞匯，將文本轉(zhuǎn)化為了數(shù)學(xué)語言[1]。斯坦福中文分詞工具[2]是由斯坦福大學(xué)自然語言處理組所提供，他們也提供了一系列開放源碼的Java文本分析工具。

■1.3 特征詞提取

構(gòu)建詞庫后需要構(gòu)建特征矩陣，常見的文本特征提取方法就是TF-IDF[3](term frequency-inverse document frequency)。TF-IDF是一種基于統(tǒng)計(jì)的計(jì)算方法，常用來評(píng)估在一個(gè)文檔中一個(gè)詞對(duì)某份文檔的重要程度[4]。在一份給定的文件里，詞頻(term frequency，TF)表示指定的詞匯ti在文件中出現(xiàn)的次數(shù)，計(jì)算公式為：

其中，ni,j為在文件中指定詞出現(xiàn)的次數(shù)。

IDF（inverse document frequency）是逆向文件頻率，計(jì)算公式為：

其中，n為文件總數(shù)。

{d:d?ti}為含有詞匯ti的文件總數(shù)。

對(duì)詞匯的重要性進(jìn)行權(quán)重計(jì)算，計(jì)算公式為：

IDFi通常被歸一化以避免它偏向長(zhǎng)的文件，則權(quán)重計(jì)算公式為：

■1.4 聚類算法

這里用來構(gòu)建工單分類優(yōu)化模型的聚類算法為無監(jiān)督聚類算法K-means算法[5]。

能把文本相似程度轉(zhuǎn)變?yōu)槲谋局g的距離的常見的方法有三種，即距離函數(shù)法、余弦法與內(nèi)積法[6]。采用夾角余弦相似度的計(jì)算模型，余弦相似度利用夾角的余弦值即方向來刻畫相似度，更注重維度間相對(duì)層面的差異[7]。首先通過文本的向量表示，將文本轉(zhuǎn)化成為向量集合X= {x1,x2,…xn}。對(duì)于歐氏空間中的任意兩個(gè)向量x= {x1,x2,…xn}和y={y1,y2,…yn}，它們的余弦相似度（Cosine）定義為兩個(gè)向量夾角的余弦：

采用K-means算法計(jì)算出不同投訴類型間的距離。其中，距離=1-cosine(相似度)，從而由該距離值來判斷投訴工單分類的相似度，由此模型進(jìn)行95598工單分類優(yōu)化分析。工單分類優(yōu)化分析流程如圖1所示。

圖1 工單分類優(yōu)化分析流程

2 實(shí)例分析

■2.1 分詞處理

本實(shí)例以95598投訴工單數(shù)據(jù)為對(duì)象進(jìn)行研究分析，采用斯坦福中文分詞工具，對(duì)投訴工單的“來電內(nèi)容”進(jìn)行分詞處理。

部分原始工單如表2所示。

表2 原始工單(部分)

將其分詞，分詞完成后，去除數(shù)字、標(biāo)點(diǎn)、英文字符、特殊符號(hào)，針對(duì)剩余的詞庫，再移除停用詞，共得到3510個(gè)有效詞語。部分結(jié)果如表3所示。

表3 分詞結(jié)果(部分)

完成各工單的“來電內(nèi)容”分詞后整合成一個(gè)文本。在python中利用TF-IDF構(gòu)建分詞矩陣。分詞矩陣的行為特征詞，列為所有工單樣本，部分分詞矩陣如圖2所示。

圖2 分詞矩陣(部分)

如圖2所示，特征詞對(duì)應(yīng)為“1”代表所屬分類那條工單中有該特征詞?！?”即沒有。

■2.2 投訴類型相似度分析

形成分詞矩陣后將同一投訴類型的所有來電內(nèi)容整合成一個(gè)文本，然后利用不同投訴類型的TF-IDF特征值在python中調(diào)用K-means算法計(jì)算不同投訴類型間的距離。其中，距離=1-cosine(相似度)，從而由該距離值來判斷投訴工單分類的相似度，距離越小相似度越高。結(jié)果如圖3所示。

圖3 投訴工單分類相似度結(jié)果

由圖3可見，取部分距離較小的投訴工單分類匯總?cè)绫?所示。

表4 距離較小的工單分類

4 業(yè)擴(kuò)報(bào)裝/新裝增容/環(huán)節(jié)處理問題業(yè)擴(kuò)報(bào)裝/新裝增容/業(yè)擴(kuò)信息溝通 0.1 8 2

由上述圖表分析可知：

（1）有可能是設(shè)置的分類冗余導(dǎo)致類別間來電內(nèi)容反應(yīng)的問題類似，可以考慮后期合并標(biāo)簽。比如“業(yè)擴(kuò)報(bào)裝/新裝增容/環(huán)節(jié)處理問題”和“業(yè)擴(kuò)報(bào)裝/新裝增容/業(yè)擴(kuò)信息溝通”，兩者之間的距離為0.182，距離較小，說明分類基本相同。

（2）有可能是不同類別設(shè)計(jì)冗余導(dǎo)致類別之間反應(yīng)的問題相似，可以考慮后期重新整合。比如“抄表計(jì)費(fèi)/抄表催費(fèi)/抄表”和“抄表計(jì)費(fèi)/電價(jià)電費(fèi)/電費(fèi)”的來電內(nèi)容基本相似，甚至相似度比同一類型的“抄表計(jì)費(fèi)/抄表催費(fèi)/催繳費(fèi)”還高。

（3）有可能是類別設(shè)計(jì)所覆蓋的問題本身特點(diǎn)導(dǎo)致在語言描述本身具有相似度，但確實(shí)針對(duì)的是不同的問題，這些需要考慮后期重新設(shè)計(jì)類別或者利用“來電內(nèi)容”以外的其他信息輔助判斷。比如“電網(wǎng)建設(shè)/供電設(shè)施/輸配電線路建設(shè)”和“供電安全/供電安全/安全隱患”。

■2.3 根據(jù)來電內(nèi)容的聚類分析

針對(duì)所有的來電內(nèi)容記錄，計(jì)算它們的TF-IDF特征值，然后進(jìn)行無監(jiān)督聚類分析。在所有的聚類分析結(jié)果中，聚類類型的個(gè)數(shù)設(shè)置與投訴類型相同，為32個(gè)。對(duì)投訴類型分布進(jìn)行統(tǒng)計(jì)，其中每一聚類類型都是由距離聚類中心的前幾個(gè)詞語代表主題，同時(shí)統(tǒng)計(jì)當(dāng)前聚類類型中的原投訴類型分布及其數(shù)量。統(tǒng)計(jì)的部分結(jié)果如表5所示。

表5 投訴類型分布統(tǒng)計(jì)(#0)

在表5中，分類號(hào)#0的聚類類型主題為：“停電，頻繁，客戶，變壓器”。其中大部分來電內(nèi)容分布在“供電質(zhì)量/供電可靠性/頻繁停電”中，僅有一條分布在“電網(wǎng)建設(shè)/供電設(shè)施/農(nóng)網(wǎng)改造”中。而由原投訴類型相似度分析結(jié)果可知兩者距離為3.61，投訴類型距離較大，不屬于相似投訴類型。

另外的少數(shù)來自其他類別的來電內(nèi)容則需要考慮以下因素：

（1）聚類預(yù)測(cè)結(jié)果錯(cuò)誤；

（2）來電內(nèi)容原標(biāo)簽錯(cuò)誤；

（3）來電內(nèi)容所講述的需求比較廣泛，屬于多個(gè)類別；

（4）其他可能。

這些因素都可以在后期繼續(xù)詳盡分析，用來提高聚類分析結(jié)果或者改進(jìn)投訴類型結(jié)構(gòu)設(shè)計(jì)。

3 結(jié)語

工單分類的優(yōu)化始終是電力公司客戶服務(wù)工作的重要內(nèi)容，本文結(jié)合廣西電力業(yè)務(wù)需求，打破原來對(duì)工單數(shù)據(jù)處理的分析方法，以客戶服務(wù)工單的大量數(shù)據(jù)為基礎(chǔ)，基于計(jì)算語言方法深入挖掘95598工單，對(duì)其進(jìn)行工單分類優(yōu)化分析。利用Python進(jìn)行大數(shù)據(jù)分析操作，完成分詞、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取等，實(shí)現(xiàn)了對(duì)數(shù)據(jù)的精確分析，可為客服工作提供準(zhǔn)確的輔助信息，有助于提升客戶服務(wù)水平。