馮 鑫,王 晨,劉 苑,楊 婭,安海崗
(1.河北地質(zhì)大學(xué),河北 石家莊 100086; 2. 航天恒星科技有限公司,北京 0500031;3.石家莊市第二職業(yè)中專學(xué)校,河北 石家莊 050000)
在通信市場(chǎng)競(jìng)爭(zhēng)角逐之下,初入市場(chǎng)的42家MVNO的業(yè)務(wù)發(fā)展也不平衡,用戶量多則達(dá)數(shù)百萬(wàn),少則月增量?jī)H數(shù)十用戶,幾近虧損。大多數(shù)移動(dòng)網(wǎng)絡(luò)虛擬運(yùn)營(yíng)商由于缺乏運(yùn)營(yíng)管理經(jīng)驗(yàn)面臨用戶增長(zhǎng)緩慢且客戶流失嚴(yán)重的雙重問(wèn)題。部分研究表明新用戶的開(kāi)發(fā)成本遠(yuǎn)比存留客戶的挽留成本要多[1],因此幫助移動(dòng)網(wǎng)絡(luò)虛擬運(yùn)營(yíng)商識(shí)別潛在流失客戶是值得關(guān)注的問(wèn)題??蛻袅魇ьA(yù)測(cè)問(wèn)題的研究大體可分為三類:客戶流失影響因素、預(yù)測(cè)模型及挽留研究??蛻袅魇ьA(yù)測(cè)的方法通常是識(shí)別其影響因素去構(gòu)建預(yù)測(cè)模型,預(yù)測(cè)出潛在流失客戶,并對(duì)其制定相應(yīng)挽留策略[2]?;谝延醒芯勘疚膶目蛻魸M意度、忠誠(chéng)度、服務(wù)質(zhì)量及口碑傳播四方面考慮,運(yùn)用BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)流失客戶并提出針對(duì)性挽留措施及建議。
移動(dòng)網(wǎng)絡(luò)虛擬運(yùn)營(yíng)商指沒(méi)有自己的無(wú)線網(wǎng)絡(luò)設(shè)施,通過(guò)向傳統(tǒng)運(yùn)營(yíng)商購(gòu)買網(wǎng)絡(luò)接入容量的方式,再進(jìn)行轉(zhuǎn)售業(yè)務(wù)的新型通訊網(wǎng)絡(luò)運(yùn)營(yíng)商(Mobile Network Virtual Operator, MVNO)[3]。目前對(duì)MVNO的研究主要集中在發(fā)展困境、策略及業(yè)務(wù)模式等三個(gè)層面。肖清華等從MVNO發(fā)展初期必須要解決規(guī)模用戶以及規(guī)?;D(zhuǎn)化為收入的問(wèn)題入手提出其業(yè)務(wù)創(chuàng)新的必要性[4]。也有部分學(xué)者認(rèn)為,與傳統(tǒng)運(yùn)營(yíng)商相比MVNO無(wú)需投資昂貴的基站硬件而避免了大規(guī)模資金投入[3]。MVNO的成本主要來(lái)自網(wǎng)絡(luò)容量租賃,且平均成本取決于用戶數(shù)量,故初期必須大力發(fā)展用戶來(lái)降低平均成本[5]。已有研究多較為宏觀,微觀量化研究較少,故本文利用文本挖掘和BP神經(jīng)網(wǎng)絡(luò)對(duì)其客戶流失進(jìn)行預(yù)測(cè)以期對(duì)其發(fā)展提供量化的決策依據(jù)。
本文將客戶流失定義為:現(xiàn)有客戶對(duì)產(chǎn)品發(fā)生情感變化選擇放棄繼續(xù)購(gòu)買或使用該服務(wù)或產(chǎn)品[6]。目前國(guó)內(nèi)外學(xué)者對(duì)研究客戶流失問(wèn)題的關(guān)注點(diǎn)在客戶流失影響因素、模型構(gòu)建以及挽留研究等方面。
1.2.1 客戶流失的影響因素研究現(xiàn)狀
客戶流失影響因素主要有:服務(wù)質(zhì)量、客戶滿意度、客戶忠誠(chéng)度及口碑傳播四方面,而服務(wù)質(zhì)量是決定因素[7,8,9]。多數(shù)學(xué)者從消費(fèi)數(shù)據(jù)出發(fā)研究客戶對(duì)運(yùn)營(yíng)山的滿意度和忠誠(chéng)度情況,滿意度情況多從撥打客服次數(shù)、人工服務(wù)、GPRS業(yè)務(wù)、通話時(shí)長(zhǎng)等方面進(jìn)行;忠誠(chéng)度情況多從用戶是否使用該運(yùn)營(yíng)商以外的運(yùn)營(yíng)商服務(wù)、聯(lián)系人是同個(gè)運(yùn)營(yíng)商的比例、轉(zhuǎn)網(wǎng)次數(shù)和轉(zhuǎn)網(wǎng)意愿等方面進(jìn)行[10]。但因消費(fèi)數(shù)據(jù)保密性強(qiáng),單從已有數(shù)據(jù)較難得到滿意結(jié)果。此外也有通過(guò)調(diào)查問(wèn)卷了解用戶對(duì)運(yùn)營(yíng)商滿意度、服務(wù)質(zhì)量的評(píng)價(jià)、忠誠(chéng)度情況,但因調(diào)查問(wèn)卷的局限性可能導(dǎo)致分析結(jié)果不全面。以往研究鮮有通過(guò)用戶情感去分析客戶流失問(wèn)題的,在線評(píng)論能最直接體現(xiàn)用戶對(duì)購(gòu)買和使用該產(chǎn)品的情感,通過(guò)識(shí)別評(píng)論特征與客戶流失之間的關(guān)系能夠有效預(yù)測(cè)客戶流失。
1.2.2 評(píng)論特征對(duì)客戶流失影響研究
從評(píng)論角度研究客戶流失問(wèn)題,主要集中在滿意度方面,即對(duì)評(píng)論文本分為積極與消極兩類[11]。積極情感客戶是高滿意度客戶,有低流失風(fēng)險(xiǎn),且傳遞正向積極的口碑,而消極情感客戶是低滿意度的客戶,有高流失風(fēng)險(xiǎn)。還有學(xué)者利用在線評(píng)論去研究客戶忠誠(chéng)度,認(rèn)為在線評(píng)論有用性與客戶忠誠(chéng)度之間存在正相關(guān)[12]。而評(píng)論內(nèi)容特征及評(píng)論者特征,評(píng)論者特征包括專業(yè)性、等級(jí)、名聲地位等都對(duì)在線評(píng)論有用性有較強(qiáng)影響[13]。因此,本文通過(guò)在線評(píng)論特征去探索客戶流失是具有理論基礎(chǔ)與意義的。
因中文的復(fù)雜性,國(guó)內(nèi)情感分析研究起步較晚,常用情感傾向性分析有詞級(jí)、語(yǔ)句級(jí)和篇章級(jí)。文本情感值計(jì)算方面,有基于情感詞典和語(yǔ)料庫(kù)的兩種計(jì)算方法:周愛(ài)武等提出了基于How Net 詞典的情感傾向計(jì)算[14];邵其武等用知網(wǎng)詞典建立計(jì)算語(yǔ)料庫(kù)中的基準(zhǔn)詞表,計(jì)算查詢?cè)~的情感傾向[15]。目前知網(wǎng)的詞典已比較完整,只缺乏一些新興的非規(guī)范用詞或網(wǎng)絡(luò)用詞等,但在詞語(yǔ)相似度辨別準(zhǔn)確度較差,特別是在處理句子級(jí)文本時(shí)誤差較大。除計(jì)算相似度外,有人提出在情感分析的基礎(chǔ)上,從短語(yǔ)角度分析情感性[16];Turney 提出了簡(jiǎn)單模式匹配分析,將特定的短語(yǔ)進(jìn)行模式匹配后進(jìn)行情感性分析,研究效果尚可[17],其核心是將特定詞語(yǔ)分成消極和積極兩類后再與原文本匹配。
對(duì)MVNO篩選發(fā)現(xiàn),京東的評(píng)論文本量大且內(nèi)容豐富,涉及產(chǎn)品及服務(wù)等多方面。評(píng)論包含商品整體評(píng)價(jià)、名稱,內(nèi)容、時(shí)間、星級(jí)、用戶名、地點(diǎn)、來(lái)源、熱門標(biāo)簽幾部分。因此選取部分京東MVNO的電信手機(jī)卡號(hào)類商品,抓取其評(píng)論信息含:評(píng)論內(nèi)容、會(huì)員等級(jí)、星級(jí)、點(diǎn)贊、回復(fù)數(shù)等字段,時(shí)間跨度2016.10-2017.04,共10000余條。
2.2.1 基于知網(wǎng)How net情感詞典的分詞
知網(wǎng)詞典的語(yǔ)料庫(kù)雖已經(jīng)相對(duì)完善,但一些新興的網(wǎng)絡(luò)用詞與非規(guī)范化用詞未被收錄,需要在知網(wǎng)情感詞典的基礎(chǔ)上,添加部分與電信詞匯相關(guān)的、評(píng)論文本詞頻較高的、非規(guī)范化用詞,達(dá)到基本的分詞需求,添加的部分詞匯含電信詞匯:先鋒卡,磅礴卡,號(hào)段 激活,實(shí)名認(rèn)證等,以及網(wǎng)絡(luò)用詞:給力 杠杠的 棒棒的 抓狂 無(wú)敵等。
2.2.2 評(píng)論文本停用詞過(guò)濾
為提高分詞準(zhǔn)確率,在將停用詞忽略后使用ICTCLAS對(duì)評(píng)論文本進(jìn)行中文分詞,該方法基于分詞詞典進(jìn)行字符串匹配實(shí)現(xiàn)分詞,結(jié)果如表1。
表1 分詞結(jié)果示例
分詞后不能把每個(gè)詞都作為特征來(lái)研究,這樣計(jì)算負(fù)荷較大且低頻詞研究?jī)r(jià)值較低,因此用文本特征選擇來(lái)降維。
特征選擇需找出代表性且與研究?jī)?nèi)容相關(guān)性強(qiáng)的詞語(yǔ),去除相關(guān)性差的,可通過(guò)情感詞典標(biāo)注感情詞對(duì)整體情感進(jìn)行分類來(lái)提高效率[18]。知網(wǎng)詞典已將情感詞分為積極與消極兩類,積極情感有:喜歡,滿意和贊賞等,消極情感有:后悔,不滿意,大失所望和價(jià)高等,只需將評(píng)論文本中的代表性情感詞與知網(wǎng)詞典匹配作為基準(zhǔn)詞即可。情感特征詞可反映客戶購(gòu)買和使用該產(chǎn)品的滿意程度,通過(guò)特征選擇降維后也便于后續(xù)的情感分類處理。
情感分消極和積極,用布爾算法構(gòu)建情感分類模型,將每個(gè)用戶評(píng)論表示為文檔數(shù)據(jù)集D= {d1,d2,d3,…,dn},而將抽取的特征項(xiàng)表示為集合V={t1,t2,…,tp}。數(shù)據(jù)集D作為文檔,數(shù)據(jù)集V作為查詢,各自為一組詞構(gòu)成,查詢數(shù)據(jù)集是否在文檔中只有兩種可能:出現(xiàn)和不出現(xiàn)(1或0表示)。以京東商城移動(dòng)網(wǎng)絡(luò)虛擬運(yùn)營(yíng)商手機(jī)卡號(hào)用戶評(píng)論為例,見(jiàn)表2。
表2 京東用戶評(píng)論文本情感分類示例
神經(jīng)網(wǎng)絡(luò)通常含輸入層、輸出層及隱藏層。若未得到期望輸出,表示實(shí)際輸出值與期望輸出值存在誤差,然后誤差原路返回,通過(guò)不斷修改各層神經(jīng)元權(quán)值至誤差最小[19]。增加層數(shù)可降低誤差,但會(huì)增大訓(xùn)練時(shí)間與復(fù)雜度。因此本文選取三層 BP神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建MVNO用戶的流失預(yù)測(cè)模型。
圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
隱含層節(jié)點(diǎn)數(shù)的確定無(wú)固定計(jì)算公式,一般由大量實(shí)驗(yàn)尋找最佳節(jié)點(diǎn)數(shù),已有研究發(fā)現(xiàn)最佳個(gè)數(shù)一般頻繁出現(xiàn)在如下區(qū)間內(nèi),如公式(1)所示:
(1)
數(shù)據(jù)源于2016.10-2017.04京東運(yùn)營(yíng)商手機(jī)卡用戶的在線評(píng)論,將評(píng)論星級(jí)、會(huì)員等級(jí)、點(diǎn)贊數(shù)作為輸入層的變量,將評(píng)論內(nèi)容情感分類的布爾數(shù)值作為輸出層的變量。數(shù)據(jù)預(yù)處理包括:刪除有缺失值樣本和去掉重復(fù)數(shù)據(jù)。
將建模數(shù)據(jù)分為兩個(gè)分布相同的互斥數(shù)據(jù)集。輸出變量含評(píng)論星級(jí)、會(huì)員等級(jí)、點(diǎn)贊數(shù)。評(píng)論星級(jí)A1和會(huì)員等級(jí)A2均分為5級(jí),用數(shù)值1到5表示。點(diǎn)贊數(shù)A3用布爾數(shù)值表示,點(diǎn)贊為1,反之為0。輸出變量以情感布爾數(shù)值表示,積極為1,消極為0。由公式(1)計(jì)算最佳隱含層節(jié)點(diǎn)數(shù)區(qū)間為[2,12],并采用試錯(cuò)法找到其最優(yōu)個(gè)數(shù)。首先,將數(shù)據(jù)按照70%、15%、15%分為訓(xùn)練集(training set),驗(yàn)證集(validation)及測(cè)試集(testing set);其次,運(yùn)用newf構(gòu)建BP神經(jīng)網(wǎng)絡(luò),其中,隱藏層和輸出層的傳遞函數(shù)分別為purelin和tansig;網(wǎng)絡(luò)訓(xùn)練和取值學(xué)習(xí)分別是trainlm和tranlm;最大訓(xùn)練次數(shù)、學(xué)習(xí)速率初始值和訓(xùn)練目標(biāo)精度分別設(shè)置為1000、0.1、0.001。
由上述過(guò)程,得預(yù)處理的數(shù)據(jù)預(yù)處理和基本的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)多次網(wǎng)絡(luò)訓(xùn)練后,當(dāng)輸入層神經(jīng)元個(gè)數(shù)為 4,隱含層節(jié)點(diǎn)數(shù)為 10時(shí),模型訓(xùn)練時(shí)間較短且效果最好。得到理想的神經(jīng)網(wǎng)絡(luò)模型,其誤差在8.5026e-08左右,小于模型構(gòu)建時(shí)所設(shè)的誤差精度0.0001,說(shuō)明該訓(xùn)練誤差在實(shí)驗(yàn)設(shè)定的誤差要求內(nèi),見(jiàn)誤差收斂圖2。
圖2 BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練誤收斂圖
為了判定流失情況以及評(píng)估流失預(yù)警分界線,隨機(jī)抽取部分樣本觀察預(yù)測(cè)結(jié)果。BP神經(jīng)網(wǎng)絡(luò)的輸入層到隱藏層的估算權(quán)值(Whi)和隱藏層到輸出層的估算權(quán)值(Wjh)分別如表3和表4所示,評(píng)論特征與客戶流失的相對(duì)強(qiáng)度值(Yji)如表5所示。
表3 輸入層到隱藏層的權(quán)值Whi估算表
表4 隱藏層到輸出層的權(quán)值WJh估算表
表5 評(píng)論特征與客戶流失的相對(duì)強(qiáng)度Yji表
由表5可知:評(píng)論星級(jí)、會(huì)員等級(jí)、點(diǎn)贊數(shù)對(duì)客戶流失影響較大,即評(píng)論星級(jí)、會(huì)員等級(jí)越高,點(diǎn)贊數(shù)越多,客戶流失的風(fēng)險(xiǎn)越小。評(píng)論星級(jí)較高一般意味著客戶對(duì)企業(yè)的情感是積極正向的,其滿意度和忠誠(chéng)度也相對(duì)較高。會(huì)員等級(jí)越高的用戶其轉(zhuǎn)網(wǎng)的沉沒(méi)成本也越高,因此流失風(fēng)險(xiǎn)較小,但其一旦流失企業(yè)的損失也較大,因?yàn)檫@部分顧客的價(jià)值也較高,這是因?yàn)樵诰〇|商城星級(jí)和客戶消費(fèi)金額是正相關(guān)的。因此當(dāng)出現(xiàn)會(huì)員等級(jí)較高,但評(píng)論星級(jí)較低的情況,也就意味著高價(jià)值客戶存在流失風(fēng)險(xiǎn),這時(shí)企業(yè)應(yīng)當(dāng)積極挽留。對(duì)應(yīng)地,會(huì)員等級(jí)低和評(píng)論星級(jí)低的客戶流失率較大,這部分屬于低價(jià)值并且滿意度和忠誠(chéng)度不高的群體,企業(yè)應(yīng)當(dāng)酌情挽留。回復(fù)數(shù)對(duì)客戶流失也有影響,由于大部分評(píng)論的回復(fù)都屬于消極的口碑傳播,企業(yè)應(yīng)當(dāng)加強(qiáng)售后管理,鼓勵(lì)這部分消費(fèi)者傳播正向積極的口碑,從而預(yù)防客戶流失。
從表6可知客戶流失的分界線在0附近,當(dāng)流失度大于0時(shí),判定為未流失,小于0時(shí),判定為流失。被判定為流失的客戶,其流失意向并非不可逆轉(zhuǎn),若采取適當(dāng)?shù)氖侄危訌?qiáng)與此類用戶的溝通,提升服務(wù),是有可能挽留住的,尤其是前文提到的客戶等級(jí)較高但有流失傾向的客戶。
表6 客戶流失預(yù)測(cè)驗(yàn)證表
由模型預(yù)測(cè)結(jié)果可發(fā)現(xiàn)流失用戶常為兩種。第一種是評(píng)論星級(jí)高而評(píng)論內(nèi)容消極的用戶。此類用戶評(píng)論星級(jí)高,但是滿意度卻很低。這是由于用戶在購(gòu)買過(guò)程中,由于物流體驗(yàn)及客服服務(wù)相對(duì)較好,就會(huì)拋開(kāi)產(chǎn)品本身的問(wèn)題,給商家好評(píng)。這類客戶屬于被動(dòng)流失型,是由于產(chǎn)品本身不能滿足自身的需求而發(fā)生流失。這類客戶追求較高的商品品質(zhì),當(dāng)其他供應(yīng)商提供更好品質(zhì)的商品時(shí),這類客戶往往就會(huì)轉(zhuǎn)網(wǎng)流失。對(duì)此類客戶,應(yīng)當(dāng)在商品質(zhì)量上進(jìn)行提升,才可以獲得挽留。第二種是會(huì)員等級(jí)低的用戶。會(huì)員等級(jí)不僅是一個(gè)人消費(fèi)能力的體現(xiàn),而且是一個(gè)客戶穩(wěn)定與否的體現(xiàn)。此類用戶的忠誠(chéng)度較低往往追求價(jià)格低廉的商品,可以通過(guò)推薦性價(jià)比較高的套餐或有吸引力的合約計(jì)劃來(lái)挽留。
此外,點(diǎn)贊數(shù)與回復(fù)數(shù)高而內(nèi)容消極的客戶傳播的是負(fù)面的口碑,也會(huì)在一定程度上影響客戶流失,企業(yè)對(duì)于這類用戶應(yīng)當(dāng)及時(shí)作出官方的回復(fù),及時(shí)表示歉意給其購(gòu)物帶來(lái)的不便,樹(shù)立良好的售后形象,降低客戶流失的風(fēng)險(xiǎn)。點(diǎn)贊數(shù)與回復(fù)數(shù)高且內(nèi)容積極的用戶傳播的是正向的口碑,在一定程度上可以吸引更多的潛在消費(fèi)者,對(duì)于此類用戶,應(yīng)當(dāng)酌情采取鼓勵(lì)政策,使其發(fā)表更好的評(píng)論內(nèi)容。
總之,運(yùn)營(yíng)商可由模型輸出的流失度來(lái)判定客戶流失風(fēng)險(xiǎn),對(duì)具有流失傾向的用戶采用客戶挽留、價(jià)值提升等策略,以減少用戶流失的比例。對(duì)于不具有流失傾向的用戶也需要不斷關(guān)注其發(fā)展動(dòng)態(tài),從而保障運(yùn)營(yíng)商能夠以最少的成本保留更多的客戶資源。