韓廷婷
摘 要:進(jìn)行客戶投訴問題預(yù)測,采取相應(yīng)措施及時解決是提高通信運(yùn)營商服務(wù)質(zhì)量的重要手段之一。提出一種基于相關(guān)性分析的客戶投訴預(yù)測方法。客戶投訴相關(guān)因素有多種,將軟硬件故障因素作為重要因素,根據(jù)通信運(yùn)營商提供的客戶投訴數(shù)據(jù)與故障數(shù)據(jù),利用機(jī)器學(xué)習(xí)中的相關(guān)性分析技術(shù),建立客戶投訴與故障發(fā)生的關(guān)系模型,進(jìn)而構(gòu)建基于故障的投訴預(yù)測模型,對潛在的客戶投訴進(jìn)行預(yù)測。分析表明,故障發(fā)生與投訴存在較強(qiáng)的相關(guān)關(guān)系,所以該方法可提高運(yùn)營商服務(wù)質(zhì)量。
關(guān)鍵詞:客戶投訴預(yù)測;軟硬件故障;相關(guān)性分析
DOI:10.11907/rjdk.172222
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2017)009-0161-03
Abstract:Solveing the problems of customer complaints and taking corresponding measures to solve them in a timely manner, which is an important method to improve the service quality of communication operators. This paper proposes a prediction method of correlation analysis based on customer complaints. Customer complaints related to many factors, the hardware failure factors as an important factor, according to the customer complaint data and fault data provided by communications operators ,using the correlation analysis technique in machine learning, the relationship model of customer complaints and fault are given, and then construct the fault prediction model based on the complaint, to predict potential customers complaints. The analysis shows that there is a strong correlation between the failure and the complaint, so this method can improve the service quality of operators.
Key Words:customer complaint prediction; software and hardware fault; correlation analysis
0 引言
通信運(yùn)營商客戶多,投訴問題量大。妥善處理客戶投訴問題,可提升客戶的滿意度、忠誠度,進(jìn)而提升運(yùn)營商效益。因此,對客戶投訴數(shù)據(jù)進(jìn)行分析具有重要意義和價值。文獻(xiàn)[1]采用數(shù)據(jù)挖掘中的文本分析技術(shù),對客戶投訴數(shù)據(jù)的分析方法進(jìn)行了研究,提高了用戶體驗。文獻(xiàn)[2]利用某運(yùn)營商4個月的本地投訴數(shù)據(jù),采用情感評分、樸素貝葉斯分類算法進(jìn)行投訴的傾向性識別,預(yù)測本地投訴客戶未來進(jìn)行越級投訴的概率大小,為運(yùn)營商提供有價值的參考。文獻(xiàn)[3]對投訴數(shù)據(jù)進(jìn)行分類、詞頻統(tǒng)計分析,得到投訴熱點(diǎn)問題、投訴等級等信息,從而為解決投訴問題指明方向。
以上方法主要利用客戶投訴數(shù)據(jù)進(jìn)行分析,而在運(yùn)營過程中,除了產(chǎn)生大量的客戶投訴數(shù)據(jù)外,還有一類非常重要的數(shù)據(jù)就是故障產(chǎn)生的相關(guān)數(shù)據(jù)。由經(jīng)驗可知,客戶投訴與故障發(fā)生具有較強(qiáng)的相關(guān)關(guān)系。關(guān)于故障數(shù)據(jù)的分析,學(xué)者也作了研究。文獻(xiàn)[4]和文獻(xiàn)[5]對故障進(jìn)行了分析,常見的故障包括基站硬件故障、基站軟件故障、天饋系統(tǒng)故障等。文獻(xiàn)[6]提出了智能化診斷方法。文獻(xiàn)[7]和文獻(xiàn)[8]采用數(shù)據(jù)挖掘的方法對客戶投訴進(jìn)行預(yù)測。統(tǒng)計相關(guān)性分析技術(shù)可根據(jù)事物特征對事物間的關(guān)聯(lián)性[9]進(jìn)行分析,探討客戶投訴與故障發(fā)生之間的關(guān)聯(lián)性。本文利用相關(guān)性分析技術(shù),給出客戶投訴與故障發(fā)生之間的相關(guān)系數(shù),根據(jù)故障發(fā)生的信息對客戶投訴進(jìn)行預(yù)測,使運(yùn)營商對客戶的投訴有預(yù)判,進(jìn)而提高運(yùn)營商的服務(wù)質(zhì)量,提升競爭力。
1 客戶投訴與故障發(fā)生數(shù)據(jù)分析
對個人客戶投訴工單數(shù)據(jù)進(jìn)行預(yù)處理,得到主要數(shù)據(jù)項,對投訴進(jìn)行類別劃分。對原因數(shù)據(jù)進(jìn)行關(guān)鍵詞提取,得到投訴與故障的文本數(shù)據(jù)。投訴類別數(shù)據(jù)和故障數(shù)據(jù)都是文本數(shù)據(jù),而相關(guān)性分析模型的輸入數(shù)據(jù)為數(shù)值型數(shù)據(jù),首先要將文本數(shù)據(jù)量化為數(shù)值型數(shù)據(jù),然后利用相關(guān)性分析模型,對投訴與故障的相互關(guān)系進(jìn)行分析。
1.1 客戶投訴數(shù)據(jù)
客戶投訴數(shù)據(jù)包括工單流水號、投訴主題、投訴分類和問題原因等。工單流水號中包含投訴日期和時間信息,是投訴數(shù)據(jù)的唯一標(biāo)識;主題和投訴分類數(shù)據(jù)項中體現(xiàn)了投訴的不同類別,包括不同層級類別;投訴問題的原因很多,包括故障引起的投訴,主要數(shù)據(jù)項的樣例數(shù)據(jù)如表1所列。例如,工單流水號為“ID-056-20140930-00433”的投訴主題為“服務(wù)類→客戶投訴→自有業(yè)務(wù)→WLAN→校園:CMCC-EDU→業(yè)務(wù)使用→有信號但無法使用”,投訴分類為“自有業(yè)務(wù)→WLAN→校園:CMCC-EDU→業(yè)務(wù)使用→有信號但無法使用”,問題原因為“網(wǎng)絡(luò)原因→臨時故障→自動恢復(fù)”,如表1所示。
1.2 客戶投訴原因數(shù)據(jù)分析
客戶投訴原因有很多種,以某運(yùn)營商的6 083條客戶投訴數(shù)據(jù)為例,不同的客戶投訴類別、該類別的投訴數(shù)量及占總投訴量的比例如表2和表3所列。表2所列為非網(wǎng)絡(luò)故障導(dǎo)致的客戶投訴,表3所列為網(wǎng)絡(luò)故障導(dǎo)致的客戶投訴。將客戶投訴的原因總結(jié)為非網(wǎng)絡(luò)和網(wǎng)絡(luò)故障原因兩大類,本文將網(wǎng)絡(luò)故障引起的客戶投訴視為故障引起的投訴。endprint
從表2可以看出,非網(wǎng)絡(luò)故障導(dǎo)致的投訴問題共有845例,占總投訴數(shù)量的13.89%,所占比例不大。從表3可以看出,網(wǎng)絡(luò)故障導(dǎo)致的投訴問題共有5238例,占總投訴量的86.11%,所占比例較大。將表2和表3的數(shù)據(jù)對比可知,由非故障引起的投訴所占比例很小,大部分客戶的投訴與網(wǎng)絡(luò)故障有關(guān)系,本文在此基礎(chǔ)上分析客戶的投訴與網(wǎng)絡(luò)故障間的相關(guān)關(guān)系。
在網(wǎng)絡(luò)故障引起的投訴中,由覆蓋盲點(diǎn)引起的投訴占總投訴數(shù)量的1/3,所以解決基站覆蓋問題是減少投訴的辦法之一,但該辦法客觀上存在難度,應(yīng)從其它方面解決客戶投訴。建立投訴數(shù)據(jù)與網(wǎng)絡(luò)故障之間的關(guān)系模型,進(jìn)而給出投訴的預(yù)測模型,運(yùn)營商據(jù)此妥善處理客戶投訴,從而實現(xiàn)更優(yōu)服務(wù)。
1.3 數(shù)值化處理
由于客戶投訴數(shù)據(jù)和故障數(shù)據(jù)都是采用文本數(shù)據(jù),為利用相關(guān)分析模型,需要將文本數(shù)據(jù)數(shù)值化處理。本文采用自然語言處理領(lǐng)域中的詞向量作為表達(dá)詞語的數(shù)值型特征[10-11]。首先將客戶投訴數(shù)據(jù)和故障數(shù)據(jù)進(jìn)行分詞處理,在已有的大規(guī)模語料上對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到詞語對應(yīng)的詞向量,采用Word2Vec工具實現(xiàn)。
2 分析模型
客戶投訴與故障發(fā)生相關(guān)性分析指對兩個或多個具備相關(guān)性的變量元素進(jìn)行分析,從而衡量兩個變量因素的相關(guān)程度,是機(jī)器學(xué)習(xí)中常用的技術(shù)。將客戶投訴數(shù)據(jù)記為x,x=(x1,…,xi,…,xn),故障數(shù)據(jù)記為y,y=(y1,…,yi,…,yn),其中n為客戶投訴的總數(shù)量,1≤i≤n,xi∈R,yi∈R。根據(jù)基礎(chǔ)統(tǒng)計學(xué)理論,設(shè)x的數(shù)學(xué)期望為μx,y的數(shù)學(xué)期望為μy,則x和y之間的相關(guān)系數(shù)如公式(1)所示。Corr(x,y)=∑ni=1(xi-μx)(yi-μy)∑ni=1(xi-μx)2∑ni=1(yi-μy)2
(1) 該相關(guān)系數(shù)也稱為皮爾遜相關(guān)系數(shù)。公式(1)中的∑ni=1(xi-μx)(yi-μy)可理解為(xi-μx)和(yi-μy)的內(nèi)積?!苙i=1(xi-μx)2為(xi-μx)的2范數(shù),∑ni=1(yi-μy)2為(yi-μy)的2范數(shù),由公式(1)可推導(dǎo)出公式(2):Corr(x,y)=∑ni=1(xi-μx)(yi-μy)∑ni=1(xi-μx)2∑ni=1(yi-μy)2=
‖x-μx‖2‖y-μy‖
(2) 從公式(2)可以看出,相關(guān)系數(shù)表達(dá)了兩個變量之間的相關(guān)程度,該值在0~1之間。當(dāng)相關(guān)系數(shù)為1時,二者具有最強(qiáng)的相關(guān)關(guān)系,意味著當(dāng)有故障發(fā)生時一定會有客戶投訴。當(dāng)運(yùn)營商已知網(wǎng)絡(luò)故障數(shù)據(jù)y時,根據(jù)相關(guān)系數(shù),就可預(yù)測出投訴情況。
3 結(jié)語
本文以提高運(yùn)營商的服務(wù)質(zhì)量為目標(biāo),詳細(xì)分析并闡述了通信運(yùn)營商提供的客戶投訴數(shù)據(jù)與故障數(shù)據(jù),給出客戶投訴數(shù)據(jù)與故障數(shù)據(jù)具有較強(qiáng)相關(guān)性結(jié)論。利用機(jī)器學(xué)習(xí)中的相關(guān)性分析模型,給出相關(guān)系數(shù)。實際應(yīng)用中,根據(jù)故障數(shù)據(jù)和相關(guān)系數(shù),可實現(xiàn)對潛在的客戶投訴進(jìn)行預(yù)測,提高了運(yùn)營商的服務(wù)質(zhì)量和競爭力。
參考文獻(xiàn):
[1] 唐盛濤.基于數(shù)據(jù)挖掘的運(yùn)營商客戶投訴分析方法研究[J].互聯(lián)網(wǎng)天地,2016(3):53-55.
[2] 方環(huán).文本分類在運(yùn)營商客戶投訴傾向性預(yù)測中的應(yīng)用研究[D].廣州:暨南大學(xué),2016.
[3] 李鶯.運(yùn)營商投訴行為的大數(shù)據(jù)分析及應(yīng)用[J].通信企業(yè)管理,2016(10):67-69.
[4] 張偉偉.VoLTE通話中的單通和斷續(xù)故障分析[J].電信網(wǎng)技術(shù),2015(11):78-83.
[5] 譚衛(wèi)東.TD—SCDMA系統(tǒng)基站故障診斷與排除研究[J].硅谷,2013(6):67-68.
[6] 岳丹陽.移動通信客戶投訴的智能診斷方法研究[J].中國新通信,2016(17):1-3.
[7] 魏紅明.基于數(shù)據(jù)挖掘的移動通信客戶投訴預(yù)測模型研究[D].衡陽:南華大學(xué),2009.
[8] 韓雪雪.基于數(shù)據(jù)挖掘的移動通信業(yè)終端營銷活動客戶拆包預(yù)測研究[D].昆明:昆明理工大學(xué),2014.
[9] 樊嶸,孟大志,徐大舜.統(tǒng)計相關(guān)性分析方法研究進(jìn)展[J].數(shù)學(xué)建模及其應(yīng)用,2014,3(1):123-126.
[10] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[M]. Computer Science, 2013.
[11] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013(26):3111-3119.
(責(zé)任編輯:杜能鋼)endprint