吳剛勇,張千斌,吳恒超,顧冰
(國網(wǎng)浙江省湖州供電公司,浙江 湖州 313000)
隨著配售電市場的不斷開放,新增配網(wǎng)將允許外部資本投資,各地售電公司紛紛成立,將來將成為電力公司的售電競爭者,由此如何減少客戶資源流失將是亟待解決的問題。而保障客戶穩(wěn)固的首要措施是提高客戶滿意度,意味著客戶投訴減少。因此,利用自然語言處理技術(shù)對客戶投訴工單進(jìn)行文本挖掘分析,了解客戶投訴的主要問題,并針對性的提高差異化的服務(wù)策略是當(dāng)下提高客戶滿意度,增加客戶粘性的重要舉措。
在計(jì)算機(jī)科學(xué)與人工智能中自然語言處理(NLP)是一個重要的研究方向。它是一種能實(shí)現(xiàn)在計(jì)算機(jī)與人之間用自然語言進(jìn)行高效溝通的理論和方法。
自然語言處理涉及到多種統(tǒng)計(jì)的方法,并在此基礎(chǔ)上發(fā)展衍生出多種模型:最大熵模型、雙向搜索算法、隱馬爾可夫模型、A?搜索算法、概率上下文無關(guān)語法、貝葉斯方法、n元語法、噪聲信道理論、最小編輯距離算法、Viterbi算法、加權(quán)自動機(jī)、支持向量機(jī)等。本文主要對隱馬爾可夫模型在自然語言處理中的應(yīng)用進(jìn)行介紹。
隱馬爾可夫模型(HMM)是用來描述包含隱含未知參數(shù)的馬爾可夫過程,該模型是關(guān)于時序的概率模型。隱馬爾可夫模型的狀態(tài)不能直接觀察到,但是,它能夠以觀測向量序列觀察到,每個觀測向量的各種表現(xiàn)狀態(tài)都是通過概率密度呈現(xiàn)的,每一個觀測向量是基于相應(yīng)概率密度分布的狀態(tài)序列產(chǎn)生。
隱馬爾可夫模型是一個五元組<S,O,A,B,π>:
S:狀態(tài)集合:由四種狀態(tài)構(gòu)成:詞頭(標(biāo)記為F),詞中(標(biāo)記為M)、詞尾(標(biāo)記為E)、單字成詞(標(biāo)記為 W)。
A:狀態(tài)轉(zhuǎn)移分布,即S中各元素中,兩兩之間轉(zhuǎn)移的概率值。比如當(dāng)前是s2,下一個狀態(tài)是s9的轉(zhuǎn)移概率為s2,9(小于1)。
B:每種狀態(tài)出現(xiàn)的概率分布。
π:初始的狀態(tài)分布。
按照機(jī)器學(xué)習(xí)方式的不同,求取參數(shù)A、B、π的方法大體上分為兩類,監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。
(1)監(jiān)督學(xué)習(xí)方法
如果訓(xùn)練數(shù)據(jù)集已經(jīng)給出觀測序列及相應(yīng)的路徑序列:
基于統(tǒng)計(jì)分析,對每個句子開頭第一個字出現(xiàn)頻率進(jìn)行統(tǒng)計(jì),以其統(tǒng)計(jì)數(shù)除以句子總數(shù),即可計(jì)算得到該字的初始狀態(tài)F、W的概率情況。
假設(shè)學(xué)習(xí)狀態(tài)轉(zhuǎn)移矩陣A的子元素為a(i->j),那么,子元素a(i->j)=(由qi狀態(tài)變到qj狀態(tài)的次數(shù))/(狀態(tài)變化總次數(shù))。本文只考慮元素的狀態(tài)變化,而不考慮觀測值變化。
假設(shè)觀測概率分布B的子元素為bj(k),那么,bj(k)=(j狀態(tài)下觀測為k的次數(shù))/(所有狀態(tài)的總次數(shù))。
總而言之,監(jiān)督學(xué)習(xí)方法主要是基于統(tǒng)計(jì)頻數(shù)除以總數(shù),得到相應(yīng)的概率,以此構(gòu)成模型參數(shù)。
(2)非監(jiān)督學(xué)習(xí)方法
由于監(jiān)督學(xué)習(xí)方法需要進(jìn)行人工標(biāo)注,這樣往往會付出很大的代價,因此,可采用非監(jiān)督學(xué)習(xí)的算法來實(shí)現(xiàn)。
最后基于維特比算法:基于動態(tài)規(guī)劃算法挖掘出最優(yōu)路徑,即:從t=1開始遞歸計(jì)算,得出在t時刻狀態(tài)為i的各條路徑的最大概率,到t=T時終止,從而實(shí)現(xiàn)最終分詞。
近幾年來,數(shù)據(jù)挖掘領(lǐng)域出現(xiàn)了一個新興分支-文本挖掘,它是以文本類型的數(shù)據(jù)作為特定的分析挖掘?qū)ο蟮闹R挖掘。本文的挖掘?qū)ο笫腔诔槿〉?5598投訴工單中有效、有用、散布在工單中的有價值知識,并且利用這些知識更好的了解客戶需求。對投訴內(nèi)容進(jìn)行分詞是文本挖掘的要點(diǎn),根據(jù)分詞結(jié)果,從文本數(shù)據(jù)中抽取出客戶投訴特征信息,從而形成文本的中間表示。把原來的非結(jié)構(gòu)化的客戶投訴文本數(shù)據(jù)以結(jié)構(gòu)化的數(shù)據(jù)呈現(xiàn),再利用分類、聚類等數(shù)據(jù)挖掘技術(shù)轉(zhuǎn)化為結(jié)構(gòu)化文本,并根據(jù)該結(jié)構(gòu)化的文本發(fā)現(xiàn)新的概念和相應(yīng)的關(guān)系。
TF-IDF是一種統(tǒng)計(jì)方法,是通過分析挖掘一字(詞)對于一個文件集(語料庫)中的其中的重要程度。字(詞)的重要性與它在文件中出現(xiàn)的次數(shù)成正比例關(guān)系,與它在語料庫中出現(xiàn)的頻率成反比關(guān)系。實(shí)際上TF-IDF是:TF表示詞頻,IDF表示逆向文件頻率,TF表示分詞后的詞匯T在文本中出現(xiàn)的次數(shù)。DF表示的文本頻率,即文本集合中含有的文本頻率。IDF表示的逆文本頻率,公式如下:
式中:n為文本總數(shù)。
對字詞的重要性進(jìn)行權(quán)重計(jì)算,計(jì)算公式如下:
在實(shí)際應(yīng)用中,需要對進(jìn)行歸一化處理,
基于自然語言處理技術(shù)出發(fā),對電力客戶投訴工單進(jìn)行深入文本挖掘,利用分詞技術(shù)分析投訴工單中的受理內(nèi)容,對分詞結(jié)果開展特征選取與降維處理,并進(jìn)行詞頻統(tǒng)計(jì),運(yùn)用詞云分析技術(shù)進(jìn)行分析結(jié)果可視化展示,把控住當(dāng)下電力客戶投訴的主要問題,針對性的為不同類型的電力客戶提供差異化的服務(wù)策略,從而提高客戶滿意度和忠誠度。如下圖1為文本挖掘過程。
文本分詞是指使用計(jì)算機(jī)自動對文本進(jìn)行詞語的切分。通過大數(shù)據(jù)軟件Python中的Jieba包,運(yùn)用隱馬爾可夫模型,實(shí)現(xiàn)對客戶投訴受理內(nèi)容的分詞。分詞結(jié)果如下圖2所示。
圖1 文本挖掘過程
圖2 投訴文本的分詞結(jié)果
(1)特征選取
通過對255條投訴工單文本數(shù)據(jù)進(jìn)行分詞,將每個詞作為標(biāo)識文本的特征,通過對各特征在整個文本集合進(jìn)行統(tǒng)計(jì)分析,結(jié)果如圖3所示。
圖3 投訴文本的分詞結(jié)果
(2)特征降維
特征降維主要是為了對特征進(jìn)行識別剔除,剔除掉對文本區(qū)分程度很少的特征,如與電力業(yè)務(wù)關(guān)系不大的特征,以降低后續(xù)文本聚類的算法復(fù)雜度,主要包括以下情形:
①剔除掉幾乎每條文本都出現(xiàn)的詞,如:“客戶”、“來電”、“判定”等在255多條文本數(shù)據(jù)中出現(xiàn)200次以上的高頻無用詞匯。
②剔除掉常用特殊詞,主要包括常見的稱謂詞、結(jié)構(gòu)詞、語氣助詞,如“我”、“你”、“是”、“啊”等與電力業(yè)務(wù)無關(guān)詞匯。
③去除一些詞頻很小的特征,如“導(dǎo)致”、“今天”、“由于”、“周圍”等在255多條文本數(shù)據(jù)中出現(xiàn)次數(shù)少于10的低頻詞匯。
通過對出現(xiàn)頻率設(shè)定相應(yīng)的閾值(上限,下限)來自動實(shí)現(xiàn)特征的降維。
通過上述對分詞結(jié)果進(jìn)行特征選取與降維,實(shí)現(xiàn)對無關(guān)詞匯的過濾,留下與電力業(yè)務(wù)相關(guān)的關(guān)鍵詞。結(jié)合實(shí)際電力業(yè)務(wù),對現(xiàn)有關(guān)鍵詞進(jìn)一步篩選,通過TFIDF(詞頻-逆文檔頻率)算法計(jì)算關(guān)鍵詞重要性權(quán)重值,提取權(quán)重值大的關(guān)鍵詞頻作為客戶投訴文本挖掘的最終結(jié)果。
通過Python軟件,運(yùn)用詞云分析實(shí)現(xiàn)投訴工單文本挖掘結(jié)果展示如下圖4。
圖4 投訴文本詞云
由圖可知在客戶投訴中,詞語“營業(yè)廳”、“停電”、“故障”等出現(xiàn)頻數(shù)較多,表明客戶主要對營業(yè)廳、停電、故障等意見較大,可從這幾個方面入手,如提高營業(yè)廳服務(wù)水平、減少停電或停電信息通知到位、加強(qiáng)故障檢修減少故障發(fā)生等等措施,從而提高客戶滿意度,改善客戶投訴問題。
95598投訴工單的深入分析與研究是基于“客戶訴求”出發(fā),深入客戶投訴工單受理內(nèi)容,挖掘客戶的真實(shí)需求與投訴原因。應(yīng)用大數(shù)據(jù)分析技術(shù),采取隱馬爾可夫模型、分詞等分析方法對投訴工單開展文本挖掘,打破原有對客戶投訴需求模糊不清的壁壘,把控住當(dāng)下電力客戶投訴的主要問題,針對性的為不同類型的電力客戶提供差異化的服務(wù)策略,提高客戶粘性和滿意度。
本文利用基于自然語言處理的文本挖掘技術(shù),結(jié)合浙江湖州電力業(yè)務(wù)需求,熱點(diǎn)業(yè)務(wù)工單專題研究,打破了客戶對用電訴求存在的盲區(qū),提高對用戶用電需求的管理程度,實(shí)現(xiàn)熱點(diǎn)投訴業(yè)務(wù)工單的原因挖掘。專題的應(yīng)用,將會提高客服部門的工作效率,為實(shí)現(xiàn)主動、精準(zhǔn)的客戶服務(wù)提供決策支持,以提升客戶服務(wù)能力。