亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于計(jì)算語言方法的95598工單分類優(yōu)化分析

        2021-06-17 08:19:52楊柳林吳柯蓉李宇李娟娟
        電子制作 2021年10期
        關(guān)鍵詞:業(yè)擴(kuò)工單余弦

        楊柳林,吳柯蓉,李宇,李娟娟

        (1.廣西大學(xué)電氣工程學(xué)院,廣西南寧,530004;2.廣西電網(wǎng)公司客戶服務(wù)中心,廣西南寧,530004)

        1 95598工單分類優(yōu)化模型

        ■1.1 工單標(biāo)簽構(gòu)建

        將以投訴類為例將工單分類標(biāo)簽形式進(jìn)行統(tǒng)一,都采用“業(yè)務(wù)子類”綜合描述方式,從而得到32個(gè)唯一分類標(biāo)識(shí),如表1所示。

        表1 投訴工單的分類研究

        ■1.2 中文分詞

        構(gòu)建模型前要對(duì)文本內(nèi)容即來電內(nèi)容進(jìn)行數(shù)據(jù)分詞處理,對(duì)電力客戶投訴工單的“來電內(nèi)容”進(jìn)行深度挖掘,將工單中的受理文本信息和處理文本信息切割成單個(gè)詞匯,將文本轉(zhuǎn)化為了數(shù)學(xué)語言[1]。 斯坦福中文分詞工具[2]是由斯坦福大學(xué)自然語言處理組所提供,他們也提供了一系列開放源碼的Java文本分析工具。

        ■1.3 特征詞提取

        構(gòu)建詞庫后需要構(gòu)建特征矩陣,常見的文本特征提取方法就是TF-IDF[3](term frequency-inverse document frequency)。TF-IDF是一種基于統(tǒng)計(jì)的計(jì)算方法,常用來評(píng)估在一個(gè)文檔中一個(gè)詞對(duì)某份文檔的重要程度[4]。在一份給定的文件里,詞頻(term frequency,TF)表示指定的詞匯ti在文件中出現(xiàn)的次數(shù),計(jì)算公式為:

        其中,ni,j為在文件中指定詞出現(xiàn)的次數(shù)。

        IDF(inverse document frequency)是逆向文件頻率,計(jì)算公式為:

        其中,n為文件總數(shù)。

        {d:d?ti}為含有詞匯ti的文件總數(shù)。

        對(duì)詞匯的重要性進(jìn)行權(quán)重計(jì)算,計(jì)算公式為:

        IDFi通常被歸一化以避免它偏向長(zhǎng)的文件,則權(quán)重計(jì)算公式為:

        ■1.4 聚類算法

        這里用來構(gòu)建工單分類優(yōu)化模型的聚類算法為無監(jiān)督聚類算法K-means算法[5]。

        能把文本相似程度轉(zhuǎn)變?yōu)槲谋局g的距離的常見的方法有三種,即距離函數(shù)法、余弦法與內(nèi)積法[6]。采用夾角余弦相似度的計(jì)算模型,余弦相似度利用夾角的余弦值即方向來刻畫相似度,更注重維度間相對(duì)層面的差異[7]。首先通過文本的向量表示,將文本轉(zhuǎn)化成為向量集合X= {x1,x2,…xn}。對(duì)于歐氏空間中的任意兩個(gè)向量x= {x1,x2,…xn}和y={y1,y2,…yn},它們的余弦相似度(Cosine)定義為兩個(gè)向量夾角的余弦:

        采用K-means算法計(jì)算出不同投訴類型間的距離。其中,距離=1-cosine(相似度),從而由該距離值來判斷投訴工單分類的相似度,由此模型進(jìn)行95598工單分類優(yōu)化分析。工單分類優(yōu)化分析流程如圖1所示。

        圖1 工單分類優(yōu)化分析流程

        2 實(shí)例分析

        ■2.1 分詞處理

        本實(shí)例以95598投訴工單數(shù)據(jù)為對(duì)象進(jìn)行研究分析,采用斯坦福中文分詞工具,對(duì)投訴工單的“來電內(nèi)容”進(jìn)行分詞處理。

        部分原始工單如表2所示。

        表2 原始工單(部分)

        將其分詞,分詞完成后,去除數(shù)字、標(biāo)點(diǎn)、英文字符、特殊符號(hào),針對(duì)剩余的詞庫,再移除停用詞,共得到3510個(gè)有效詞語。部分結(jié)果如表3所示。

        表3 分詞結(jié)果(部分)

        完成各工單的“來電內(nèi)容”分詞后整合成一個(gè)文本。在python中利用TF-IDF構(gòu)建分詞矩陣。分詞矩陣的行為特征詞,列為所有工單樣本,部分分詞矩陣如圖2所示。

        圖2 分詞矩陣(部分)

        如圖2所示,特征詞對(duì)應(yīng)為“1”代表所屬分類那條工單中有該特征詞?!?”即沒有。

        ■2.2 投訴類型相似度分析

        形成分詞矩陣后將同一投訴類型的所有來電內(nèi)容整合成一個(gè)文本,然后利用不同投訴類型的TF-IDF特征值在python中調(diào)用K-means算法計(jì)算不同投訴類型間的距離。其中,距離=1-cosine(相似度),從而由該距離值來判斷投訴工單分類的相似度,距離越小相似度越高。結(jié)果如圖3所示。

        圖3 投訴工單分類相似度結(jié)果

        由圖3可見,取部分距離較小的投訴工單分類匯總?cè)绫?所示。

        表4 距離較小的工單分類

        4 業(yè)擴(kuò)報(bào)裝/新裝增容/環(huán)節(jié)處理問題業(yè)擴(kuò)報(bào)裝/新裝增容/業(yè)擴(kuò)信息溝通 0.1 8 2

        由上述圖表分析可知:

        (1)有可能是設(shè)置的分類冗余導(dǎo)致類別間來電內(nèi)容反應(yīng)的問題類似,可以考慮后期合并標(biāo)簽。比如“業(yè)擴(kuò)報(bào)裝/新裝增容/環(huán)節(jié)處理問題”和“業(yè)擴(kuò)報(bào)裝/新裝增容/業(yè)擴(kuò)信息溝通”,兩者之間的距離為0.182,距離較小,說明分類基本相同。

        (2)有可能是不同類別設(shè)計(jì)冗余導(dǎo)致類別之間反應(yīng)的問題相似,可以考慮后期重新整合。比如“抄表計(jì)費(fèi)/抄表催費(fèi)/抄表”和“抄表計(jì)費(fèi)/電價(jià)電費(fèi)/電費(fèi)”的來電內(nèi)容基本相似,甚至相似度比同一類型的“抄表計(jì)費(fèi)/抄表催費(fèi)/催繳費(fèi)”還高。

        (3)有可能是類別設(shè)計(jì)所覆蓋的問題本身特點(diǎn)導(dǎo)致在語言描述本身具有相似度,但確實(shí)針對(duì)的是不同的問題,這些需要考慮后期重新設(shè)計(jì)類別或者利用“來電內(nèi)容”以外的其他信息輔助判斷。比如“電網(wǎng)建設(shè)/供電設(shè)施/輸配電線路建設(shè)”和“供電安全/供電安全/安全隱患”。

        ■2.3 根據(jù)來電內(nèi)容的聚類分析

        針對(duì)所有的來電內(nèi)容記錄,計(jì)算它們的TF-IDF特征值,然后進(jìn)行無監(jiān)督聚類分析。在所有的聚類分析結(jié)果中,聚類類型的個(gè)數(shù)設(shè)置與投訴類型相同,為32個(gè)。對(duì)投訴類型分布進(jìn)行統(tǒng)計(jì),其中每一聚類類型都是由距離聚類中心的前幾個(gè)詞語代表主題,同時(shí)統(tǒng)計(jì)當(dāng)前聚類類型中的原投訴類型分布及其數(shù)量。統(tǒng)計(jì)的部分結(jié)果如表5所示。

        表5 投訴類型分布統(tǒng)計(jì)(#0)

        在表5中,分類號(hào)#0的聚類類型主題為:“停電,頻繁,客戶,變壓器”。其中大部分來電內(nèi)容分布在“供電質(zhì)量/供電可靠性/頻繁停電”中,僅有一條分布在“電網(wǎng)建設(shè)/供電設(shè)施/農(nóng)網(wǎng)改造”中。而由原投訴類型相似度分析結(jié)果可知兩者距離為3.61,投訴類型距離較大,不屬于相似投訴類型。

        另外的少數(shù)來自其他類別的來電內(nèi)容則需要考慮以下因素:

        (1)聚類預(yù)測(cè)結(jié)果錯(cuò)誤;

        (2)來電內(nèi)容原標(biāo)簽錯(cuò)誤;

        (3)來電內(nèi)容所講述的需求比較廣泛,屬于多個(gè)類別;

        (4)其他可能。

        這些因素都可以在后期繼續(xù)詳盡分析,用來提高聚類分析結(jié)果或者改進(jìn)投訴類型結(jié)構(gòu)設(shè)計(jì)。

        3 結(jié)語

        工單分類的優(yōu)化始終是電力公司客戶服務(wù)工作的重要內(nèi)容,本文結(jié)合廣西電力業(yè)務(wù)需求,打破原來對(duì)工單數(shù)據(jù)處理的分析方法,以客戶服務(wù)工單的大量數(shù)據(jù)為基礎(chǔ),基于計(jì)算語言方法深入挖掘95598工單,對(duì)其進(jìn)行工單分類優(yōu)化分析。利用Python進(jìn)行大數(shù)據(jù)分析操作,完成分詞、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取等,實(shí)現(xiàn)了對(duì)數(shù)據(jù)的精確分析,可為客服工作提供準(zhǔn)確的輔助信息,有助于提升客戶服務(wù)水平。

        猜你喜歡
        業(yè)擴(kuò)工單余弦
        基于量化考核的基層班組管理系統(tǒng)的設(shè)計(jì)與應(yīng)用
        基于transformer的工單智能判責(zé)方法研究
        提高業(yè)擴(kuò)報(bào)裝效率的策略分析
        關(guān)于電力營(yíng)銷業(yè)擴(kuò)報(bào)裝的問題分析及對(duì)策探討
        基于HANA的工單備件采購聯(lián)合報(bào)表的研究與實(shí)現(xiàn)
        中國核電(2017年1期)2017-05-17 06:09:55
        淺析業(yè)擴(kuò)報(bào)裝工作的技術(shù)要點(diǎn)
        兩個(gè)含余弦函數(shù)的三角母不等式及其推論
        分?jǐn)?shù)階余弦變換的卷積定理
        圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
        電力95598熱線全業(yè)務(wù)集中后的工單預(yù)警機(jī)制
        国产白浆精品一区二区三区| 亚洲精品久久久久avwww潮水| 朝鲜女人大白屁股ass| 老少交欧美另类| 91免费国产| 成人全部免费的a毛片在线看 | 亚洲国产熟女精品传媒| 国产精品国产精品国产专区不卡 | 久久9精品区-无套内射无码| 亚洲一区av无码少妇电影| 久9热免费精品视频在线观看| 久久五月精品中文字幕| 视频一区二区三区黄色| 亚洲av无码码潮喷在线观看| 久久久午夜精品福利内容| 欧美 亚洲 国产 日韩 综AⅤ| 二区三区视频在线观看| 给我看免费播放的视频在线观看 | 一本色道无码道在线观看| 巨熟乳波霸若妻在线播放| 女人被躁到高潮嗷嗷叫| 日本一区二区三级免费| 18禁在线永久免费观看| 国产98在线 | 日韩| 国产精品99精品一区二区三区∴ | 中文字幕亚洲一二三区| 亚洲熟女综合色一区二区三区| 激情综合一区二区三区| 就国产av一区二区三区天堂| 国产一区二区三区再现| 国产黑丝美腿在线观看| 精品欧洲av无码一区二区| 人妻无码一区二区在线影院| 久久国产精品国产精品久久| 美女人妻中出日本人妻| 久久www免费人成精品| 精品欧美乱码久久久久久1区2区| 久草视频华人在线观看| 国产在线一区二区av| 国产伦精品一区二区三区妓女| 精品少妇人妻av免费久久久|