亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于層次語義理解的電力系統(tǒng)客服工單分類

        2019-07-15 11:18:42
        計算機應用與軟件 2019年7期
        關鍵詞:工單客服字符

        楊 鵬 劉 揚 楊 青

        (國網天津市電力公司信息通信公司 天津 300000)

        0 引 言

        電力行業(yè)是國家最重要的基礎行業(yè)之一,近幾年,電力行業(yè)信息化得到了長足的發(fā)展,電力數(shù)據(jù)資源開始急劇增長并形成了一定的規(guī)模,這為實現(xiàn)數(shù)據(jù)驅動的電力系統(tǒng)智能管理和決策提供了數(shù)據(jù)基礎。在海量多樣的電力數(shù)據(jù)中,客服工單數(shù)據(jù)占據(jù)著非常重要的地位,對工單數(shù)據(jù)的分析也是電力系統(tǒng)智能化發(fā)展進程中的一個重要研究方向??头ぷ魇瞧髽I(yè)面向社會的窗口,它直接和用戶交流,對于企業(yè)的生存發(fā)展起著至關重要的作用。電力系統(tǒng)作為關系到國計民生的重要行業(yè),其客服工單數(shù)據(jù)記錄了電力用戶的基本訴求,而對用戶需求所屬的類別進行準確定位是提供良好客戶服務的基礎。高效的客服工單分類方法既可以提升用戶需求定位的準確程度,也可以提升人員的工作效率,對電力系統(tǒng)的高效運行與管理具有重要的意義。

        由于工單數(shù)據(jù)通常是以文本記錄的形式描述用戶的具體需求,因此如何準確地理解工單描述中所包含的文本語義信息是工單類別劃分的核心,也是本文的重點研究內容,主要涉及到的方法是文本語義理解方法。文本語義理解[1]是自然語言處理中的自然語言句子級分析技術的第三個層次,是運用各種機器學習方法,學習與理解一段文本所表示的語義內容,它的最終目的是理解句子表達的真實語義。一段文本通常由詞、句子和段落來構成,根據(jù)理解對象的語言單位不同,語義解析又可進一步分解為詞匯級語義解析、句子級語義解析以及篇章級語義解析。一般來說,詞匯級語義解析關注的是如何獲取或區(qū)別單詞的語義,句子級語義解析則試圖分析整個句子所表達的語義,而篇章語義解析旨在研究自然語言文本的內在結構并理解文本單元(可以是句子從句或段落)間的語義關系。簡單地講,語義解析的目標就是通過建立有效的模型和系統(tǒng),實現(xiàn)在各個語言單位(包括詞匯、句子和篇章等)的自動語義解析,從而實現(xiàn)理解整個文本表達的真實語義?;趯W習到的文本表示可以進行文本分類[2]、情感分析[3]、文本匹配[4]等任務。

        近年來,國內外已有多名研究人員在電力業(yè)務數(shù)據(jù)文本語義理解方面做出了工作,并且取得了一些成果。MIT的Cynthia等學者對紐約城市電纜的數(shù)萬條故障工單進行了挖掘,為檢修井的巡視提供幫助[5]。Sun等[6]對社交網絡(Twitter)中關于停電的文本進行了挖掘,為電網的風險管理提供了一種輔助手段。美國南加大某課題組對智能電網的語義網進行了定義,為智能電網與互聯(lián)網的信息交換與共享提供了技術支持[7]。

        隨著電力系統(tǒng)中所積累的數(shù)據(jù)規(guī)模逐漸擴大,基于文本語義理解的電力工單分類任務也成為很多研究工作的重點內容,有很多學者針對該問題展開深入研究,并且取得了很多研究成果。林溪橋等[8]利用主成分分析方法對具體工單內容與時間維度之間的關系進行分析,實現(xiàn)客服工單分類模型的優(yōu)化。王震等[9]提出一種基于LDA的熱點業(yè)務工單分類模型,通過對工單文本的主題進行學習實現(xiàn)熱點業(yè)務工單的分類篩選。鄒云峰等[10]首先對電力工單中的文本進行預處理,并通過計算TF-IDF值的方法獲得文本表示,最后利用決策樹模型實現(xiàn)工單分類。而隨著神經網絡語言模型的興起,謝季川等[11]利用Word2vec模型學習工單文本中的詞向量表示,進而得到文本的語義表示用于工單分類[12]。

        綜合上述研究工作可以發(fā)現(xiàn),現(xiàn)有的方法大多是利用主成分分析[7]、主題模型[8]或計算TF-IDF[10,13],從而進行主題或者詞級別工單語義分析。這種方式通常停留在對文本淺層特征的表示學習,而缺乏細粒度,深層次的語義理解,這種淺層的表示方法難以全面地捕獲工單描述中所蘊含的隱藏語義信息,從而導致分類性能的下降。只有對工單描述文本進行準確的理解,才能更加完整地表示其中蘊含的語義信息,實現(xiàn)工單類別的準確劃分。

        針對上述問題,本文提出了基于層次語義理解的電力系統(tǒng)客服工單分類模型(簡稱:CHSU)。對于工單描述中的文本記錄,分別利用深度學習方法對詞級別特征表示和字符級別特征表示進行學習,將不同層級的表示相結合實現(xiàn)對工單描述的深度語義理解,學習到工單文本的細粒度、層次化的深度語義表示,從而實現(xiàn)精準的客服工單的類別劃分,提升分類的準確性,進一步提高電力系統(tǒng)運行的質量和效率。

        1 模型構建

        客服工單記錄了電力客戶所提出的用戶需求,通常包含自然語言形式的、長度較短的工單短文本描述以及該條工單所屬的服務類型。根據(jù)數(shù)據(jù)的特點,本文基于工單描述短文本實現(xiàn)工單類別劃分??紤]到工單描述通常是由多個詞組成的,而詞是由多個字符組成的,因此為了學習層次化的工單描述的語義表示,本文首先利用雙向長短期記憶網絡(LSTM)對每個詞中的字符進行編碼,得到字符級別的隱藏特征表示。進一步,將字符級別的表示與詞級別的表示相結合,利用類似的雙向LSTM網絡進行詞級別的語義編碼,最終得到關于工單的層次化深度語義表示向量,并在此基礎上實現(xiàn)工單類別劃分。本文所提出的模型框架如圖1所示。

        圖1 基于層次語義理解的電力系統(tǒng)客服工單分類模型

        1.1 長短期記憶網絡(LSTM)

        長短期記憶網絡[14]是一種循環(huán)神經網絡特殊的類型,適合處理和預測時間序列中間隔和延遲相對較長的情況。LSTM利用三個“門”結構對細胞狀態(tài)進行保護和處理,分別是輸入門、遺忘門和輸出門,其中門結構是通過Sigmoid函數(shù)和按位乘操作實現(xiàn)的。Sigmoid函數(shù)的具體計算方法如下:

        (1)

        Sigmoid層輸出0到1之間的數(shù)值,代表有多少量可以通過,1表示允許任意量通過,0表示不允許任何量通過。在第t個時間步,LSTM中各部分的具體計算過程如下:

        ft=σ(Wf·[ht-1,xt]+bf)

        (2)

        it=σ(Wi·[ht-1,xt]+bi)

        (3)

        (4)

        (5)

        ot=σ(Wo·[ht-1,xt]+bo)

        (6)

        ht=ot·tanh(Ct)

        (7)

        最后,輸出門會根據(jù)Ct、ht-1和xt來決定該時刻的輸出ht。其中,包括計算一個sigmoid層來確定細胞狀態(tài)的哪個部分將被輸出。接著把細胞狀態(tài)通過tanh層進行處理,得到一個在(-1,1)范圍內的值,并將它和Sigmoid門的輸出相乘,得到輸出部分。

        1.2 字符級別語義表示

        工單描述文本是由詞組成的,而每個詞又包含多個字符,為了捕獲文本中細粒度、層次化的語義表示,因此首先對字符表示進行建模。由于中文文本中的詞不能像英文一樣可以用空格進行分隔,因此在進行建模之前需要使用工具,例如jieba分詞對工單文本預處理。對于工單描述中一個詞wi,假設其包含Q個字符,將每個字符隨機初始化為一個特征向量ciq∈Rdc,其中q∈[1,Q],dc代表字符特征向量的維度。對于該詞中所有字符的特征向量,本文使用LSTM對其進行編碼,學習隱藏的語義表示。而由于一個LSTM只能從一個方向進行計算,而不能建模另一個方向的語義,因此這里使用雙向的LSTM來總結兩個方向上的字符級別語義信息,從而獲得對應的語義表示。雙向LSTM包括一個前向的LSTM,它對工單的讀取順序是從ci1到ciQ,以及一個反向的LSTM,它對工單的讀取順序是從ciQ到ci1。該編碼過程的具體計算方法如下:

        (8)

        (9)

        (10)

        1.3 詞級別語義表示

        本文進一步對工單描述中詞級別的語義進行學習。對于一個給定的工單描述D={w1,w2,…,wT},T代表工單D所包含詞的個數(shù)。將工單中的每個詞隨機初始化為一個特征向量wiw∈Rdw,dw代表詞特征向量的維度,將該特征向量與字符級別的特征wic拼接,可以得到關于該詞整體的特征向量表示,即:

        wi=[wiw,wic]

        針對該特征,本文使用與上文類似的雙向LSTM進行編碼,具體計算方法如下:

        (11)

        (12)

        (13)

        基于特征表示d可以實現(xiàn)進一步的工單類別劃分。

        1.4 工單類別劃分

        通過上述模塊得到的工單特征表示向量包含了層次化深度語義信息,因此該表示可以做為工單分類的特征向量。本文使用一個softmax層實現(xiàn)工單類別劃分,具體計算方法如下:

        p=softmax(Wd+b)

        (14)

        式中:W和b為待學習權重矩陣和偏置向量。softmax(·)函數(shù)為歸一化指數(shù)函數(shù),其形式為:

        (15)

        該函數(shù)值代表了特征x劃分為類別j的概率。因此工單分類的損失函數(shù)可以寫為如下負對數(shù)似然函數(shù)的形式:

        (16)

        式中:l為工單d的服務類型標簽。通過最小化上述損失函數(shù),實現(xiàn)整體模型的訓練。

        2 實 驗

        2.1 數(shù)據(jù)簡介

        本文利用真實的工單記錄數(shù)據(jù)對所提出方法的效果進行驗證。數(shù)據(jù)采集自國網電力公司客服系統(tǒng),記錄了一段時間內該客服系統(tǒng)所收集到的工單內容。由于該數(shù)據(jù)為真實的電力工單客服記錄,因此在錄入過程中由于人為或系統(tǒng)的原因會存在部分信息缺失的情況,經過篩選,本文選擇其中12 623條記錄數(shù)據(jù)進行實驗驗證,每條記錄包含一段中文文本形式的工單描述以及該條工單所屬的服務類別,所選擇工單分屬于5種服務類別。

        為了進行訓練和調參,本文將整體數(shù)據(jù)集按照8 ∶1 ∶1的比例劃分訓練集、驗證集和測試集,利用驗證集上的實驗結果作為調參的依據(jù),并在測試集上測試模型的效果。

        2.2 對比方法

        為了證明所提出方法的性能,本文將該模型與其他幾種常用的工單分類方法的實驗效果進行了對比,所選擇的方法如下:

        TFIDF-SVM:TFIDF方法又稱詞頻-逆文檔頻率算法,它通過計算詞在文檔以及語料庫中出現(xiàn)的頻率對詞的重要程度進行加權。該方法首先利用TFIDF算法對客服工單中的文本信息進行特征向量表示,然后基于該特征向量表示利用支持向量機(SVM)進行工單類別劃分。

        TFIDF-DT:該方法同樣利用TFIDF算法計算特征向量表示,然后利用決策樹進行工單類別劃分。

        Word2vec-SVM:Word2vec是一種將單詞轉換成向量形式的工具,可以將文本內容的處理簡化為向量空間中的向量計算。該方法首先利用Word2vec訓練得到工單文本每個詞的詞向量,并對詞向量求平均得到工單的特征表示,然后基于該特征向量表示利用SVM進行工單分類。

        Word2vec-DT:該方法同樣利用Word2vec模型得到工單的特征表示向量,并基于該表示利用決策樹對工單類別進行劃分。

        CHSU-Nochar:本文所提出的方法的退化版本,即僅使用詞級別的語義表示對工單文本進行建模。

        本文方法(CHSU):即本文所提出的基于層次語義理解的電力系統(tǒng)客服工單分類方法,在該方法中同時對詞和字符的語義進行建模,并利用一個Softmax層實現(xiàn)工單分類。

        2.3 實驗設置

        本實驗中所有的特征表示向量都使用隨機初始化,其中詞特征向量的維度設為300,字符特征向量的維度設為50。模型中所有權重矩陣同樣是隨機初始化,偏置向量初始化為0。由于數(shù)據(jù)較多,為了提升訓練速度因此采用批處理的方式進行訓練,batch的大小設為50。在參數(shù)優(yōu)化過程中,本文選擇Adam進行優(yōu)化,訓練的學習率設為0.001,最大迭代次數(shù)設為50。此外,本文在訓練過程中引入dropout策略來防止出現(xiàn)過擬合的現(xiàn)象,dropout比率設為0.5。

        2.4 評價指標

        工單分類屬于多分類問題,因此本文采用微平均F-Score(Micro_F)對分類的準確度進行評估,其具體計算方法如下:

        (17)

        式中:Micro_P和Micro_R分別為微平均準確率和召回率,通過化簡可以簡寫為后面的形式,TPi即為第i類樣本正確分類的個數(shù),N代表整體樣本數(shù)。Micro_F越大代表分類性能越好。

        2.5 實驗結果

        基于上述實驗設置,本文在真實的工單數(shù)據(jù)上進行工單分類對比實驗,各方法在驗證集和測試集上的實驗結果如表1所示。

        表1 工單分類實驗結果

        由表1中的實驗結果可以看出,無論是在驗證集還是在測試集上,本文所提出的基于層次語義理解的電力客服工單分類模型(CHSU)以及該模型的退化版本都具有優(yōu)于其他對比方法的分類效果,其中CHSU相較于表現(xiàn)最差的Word2vec-DT方法在測試集的性能上有14.8%的提升,該結果證明了本文所提出方法的有效性。此外,CHSU的性能優(yōu)于CHSU_Nochar,這證明使用字符級別的語義表示對于工單的語義理解是有幫助的,它可以使模型捕獲到層次化的語義信息,加深對文本內容的語義理解,從而獲得更好的分類效果。另外從其他對比方法的分類效果中可以看出,相同文本表示方法的條件下,使用SVM作為分類器的效果優(yōu)于使用決策樹,這說明相較于決策樹,SVM更適用于本文所使用的工單數(shù)據(jù)。此外還可以看出使用TFIDF建模文本表示的結果整體優(yōu)于使用Word2vec,這可能是由于本文所使用的工單數(shù)據(jù)通常長度較短,不利于Word2vec模型學習到足夠的上下文信息,因此降低了模型的性能。

        除上述對比實驗外,本文同時對模型的參數(shù)敏感性進行分析。由于字符級別的語義表示在本文所提出的方法中扮演重要的角色,因此這里主要研究字符特征向量維度對模型分類效果的影響。圖2展示了字符特征向量維度從10變化到100的過程中,Micro_F的變化情況。

        圖2 分類性能隨字符特征向量維度變化情況

        從圖2中可以看出,當字符特征向量的維度增加時,模型的性能在整體趨勢上有所提升,但當維度大于50后,分類性能反而呈現(xiàn)下降的趨勢,這是由于使得模型過于關注字符級別的語義而忽略了詞級別的語義,從而導致性能下降,因此在本文的模型中將字符特征向量設為50,以達到最優(yōu)的分類效果。

        3 結 語

        對于客服工單數(shù)據(jù)的理解和研究有利于電力公司更加高效的定位客戶需求,從而提升工作效率和工作質量,具有很重要的現(xiàn)實意義。本文以電力公司客服系統(tǒng)的工單記錄為研究對象,對工單描述中包含的文本信息進行了深入分析,并根據(jù)該數(shù)據(jù)的特點,建立基于層次語義理解的電力系統(tǒng)客服工單分類模型,同時考慮詞級別和字符級別的語義表示,提升了模型的分類性能。

        在電力系統(tǒng)的工單數(shù)據(jù)中還存在很多樣本數(shù)量很少的服務類型,由于缺乏足夠的訓練樣本,因此在建模過程中本文沒有考慮此類工單,但事實上這些工單中也包含了大量的用戶需求信息,因此在后續(xù)的研究工作中將對模型進行進一步的改進,使其能夠建模這種數(shù)據(jù)分布不平衡的情況,達到更好的分類效果。

        猜你喜歡
        工單客服字符
        尋找更強的字符映射管理器
        基于量化考核的基層班組管理系統(tǒng)的設計與應用
        電子測試(2022年7期)2022-04-22 00:13:16
        基于transformer的工單智能判責方法研究
        高技術通訊(2021年6期)2021-07-28 07:39:20
        語音推銷
        字符代表幾
        一種USB接口字符液晶控制器設計
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        敬業(yè)的客服
        基于HANA的工單備件采購聯(lián)合報表的研究與實現(xiàn)
        中國核電(2017年1期)2017-05-17 06:09:55
        電力95598熱線全業(yè)務集中后的工單預警機制
        亚洲乱码日产精品一二三| av天堂一区二区三区精品| 人妻少妇偷人精品一区二区三区| 性高朝久久久久久久3小时| 特级做a爰片毛片免费看无码| 国产亚洲欧美日韩综合综合二区| 色青青女同性恋视频日本熟女| 上海熟女av黑人在线播放| 人妻少妇精品中文字幕av| 宅男噜噜噜| 亚洲日本一区二区在线观看| 免费在线观看av不卡网站 | 国产精品久久久爽爽爽麻豆色哟哟| 97精品国产手机| 少妇被又大又粗又爽毛片久久黑人 | 国产高清在线观看av片 | 色综合久久无码五十路人妻| 国产无遮挡又黄又爽在线视频| 日韩av一区二区三区四区av| 国产午夜精品久久精品| 亚洲国产美女精品久久久久∴| 又黄又爽的成人免费视频| 日韩h网站| 美腿丝袜一区在线观看| 少妇真人直播免费视频| 天天看片视频免费观看| 黄色大片一区二区中文字幕| 亚洲精品98中文字幕| 免费无码a片一区二三区| 国产精品视频yuojizz| 日本成年少妇人妻中文字幕| 一区二区和激情视频| 欧美 国产 日产 韩国 在线| 亚洲日韩国产精品不卡一区在线| 久久伊人精品中文字幕有尤物 | 精品久久一区二区三区av制服| 亚洲av色香蕉一区二区三区老师| 亚洲另类激情综合偷自拍图| 精品国产一区二区三区男人吃奶| 包皮上有一点一点白色的| 亚洲综合色自拍一区|