亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost算法的坐席話務量預測

        2021-05-16 17:25:00趙龍周源李飛范文斌
        現(xiàn)代信息科技 2021年22期
        關(guān)鍵詞:話務量

        趙龍 周源 李飛 范文斌

        摘? 要:“呼叫中心”一詞來源于英文Call Center,自其誕生以來就作為企業(yè)和客戶之間的溝通橋梁,是客戶和企業(yè)溝通最直接的渠道,因此優(yōu)化呼叫中心的接聽應答效率是管理者一直以來的追求。該文為了向管理者提供前瞻的話務量預測信息供管理者決策,提出了使用XGBoost、LightGBM、Catboost算法結(jié)合信息價值分析法選擇的特征通過累加型滑動窗口法建立話務量預測模型,并在真實數(shù)據(jù)上比較了三個算法的預測表現(xiàn)。結(jié)果表明XGBoost算法對于運營商呼叫中心話務量的預測較為準確,為坐席排班提供數(shù)據(jù)支撐。

        關(guān)鍵詞:呼叫中心;XGBoost;話務量;坐席排班

        中圖分類號:TP18? ? ? ? ?文獻標識碼:A文章編號:2096-4706(2021)22-0086-04

        Abstract: The word“call center”comes from English Call Center, since its birth, it has been used as a communication bridge between enterprises and customers, it is the most direct channel for customers and enterprises to communicate. Therefore, optimizing the answering efficiency of call center has always been the pursuit of managers. To provide managers with forward-looking forecast information of telephone-traffic volume for their decision-making, this paper proposes to use XGBoost, LightGBM and Catboost algorithms and combined with the characteristics selected by the information value analysis method to establish the telephone-traffic volume prediction model through the cumulative sliding window method, and compares the prediction performance of the three algorithms on the real data. The results show that the XGBoost algorithm is more accurate in predicting the call center’s telephone-traffic volume, and provide data support for seat scheduling.

        Keywords: call center; XGBoost; telephone-traffic volume; seat scheduling

        0? 引? 言

        隨著經(jīng)濟和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,電信業(yè)務不斷更新,客戶對網(wǎng)絡質(zhì)量、感知體驗及其相關(guān)服務要求越來越高,因此呼叫中心行業(yè)在客戶關(guān)系中占有重要地位。

        在過去幾十年的管理,通過電話溝通呼叫中心為客戶提供有效和響應性的服務,切實解決客戶的各種問題,如處理客戶的疑難點、需求和請求,是服務行業(yè)必不可少的系統(tǒng),特別是對于大型組織[1]。

        對于那些通過呼叫中心收集訂單來組織業(yè)務的公司來說,呼叫中心的有效性和營銷活動之間存在著至關(guān)重要的聯(lián)系。為了達到目標服務水平,管理者必須在呼叫中心的適當時間內(nèi)雇傭適當數(shù)量且技術(shù)熟練員工?;谠敿毜耐ㄔ挃?shù)據(jù),短期預測來調(diào)度可用的坐席池是呼叫中心管理者面臨的一項基本挑戰(zhàn)。由于呼叫高峰時間可能持續(xù)時間較短,呼叫中心的人員配備并不總是足夠靈活來適應這一需求。因此,對呼叫中心到達的穩(wěn)定性建模和計算員工需求是呼叫中心管理的關(guān)鍵問題[2,3],即當前的熱點和難點是科學預測以及有效提高呼叫中心行業(yè)的話務量預測精確度。

        1? 算法描述

        1.1? XGBoost算法

        XGBoost[4]是一個基于梯度提升的高度可擴展的決策樹集成。與梯度提升一樣,XGBoost 模型通過減少損失函數(shù)來構(gòu)建目標函數(shù)的額外擴展。它僅使用決策樹作為基本分類器,并使用損失函數(shù)變化來控制樹的復雜性。

        其中,式中,T為樹葉數(shù),ω為樹葉輸出分數(shù)。γ值表示內(nèi)部節(jié)點分裂所需的最小損失減少。收縮是XGBoost中的另一個正則化參數(shù),它最小化了附加的擴展步長大小。其他方法,如樹的深度,可以用于控制樹的復雜性。為了更快地訓練模型和減少存儲空間需求,對于降低樹的復雜度是必要的。

        此外,XGBoost隨機化技術(shù),如隨機子樣本和列的二次采樣,能夠減少過擬合,加快訓練。為了最小化尋找最佳分割的計算復雜度,XGBoost使用了一個基于列的壓縮存儲,其中的數(shù)據(jù)是預先排序存儲的。這種基于列的存儲結(jié)構(gòu)支持并行搜索每個考慮的屬性的最佳劃分。另外,XGBoost還使用基于數(shù)據(jù)百分位數(shù)的方法來測試候選分割的子集,并使用聚合統(tǒng)計信息計算它們的增益,而不是掃描所有可能的候選拆分。因此,節(jié)點級數(shù)據(jù)子抽樣類似于這個概念。XGBoost還使用了一種稀疏性感知算法,有效地從分離候選的損失增益的計算中消除空值。

        1.2? LightGBM算法

        LightGBM算法是微軟在梯度提升回歸[5]的基礎上提出的,是最新、最有效的機器學習算法之一。它采用基于直方圖的算法,將連續(xù)的特征值存儲到離散的容器中[6,7]?;谥狈綀D的算法可以幫助加快訓練并減少內(nèi)存使用[8]。另外,采用直方圖減法技術(shù),利用目標葉的父葉減去其鄰葉得到目標葉,也有助于加快收斂速度?;谥狈綀D的算法的思維導圖如圖1所示。連續(xù)的特征被分散到離散的箱子中,使用許多直方圖來積累統(tǒng)計量。

        LightGBM實現(xiàn)了帶有深度限制的按葉子生長(leaf-wise)算法[9],選擇σ損失最大的葉子生長。下面介紹兩種樹木生長方法。許多正常的提升算法使用圖2所示的按層生長 (level-wise)的決策樹生長,并且在每個層中擁有相同數(shù)量的葉子。level-wise決策樹生長法選擇σ損失最大的葉子生長,這意味著每一層的葉片數(shù)量并不總是相同的,如圖3所示。leaf-wise決策樹生長可以幫助實現(xiàn)更低的損失[8]。此外,LightGBM在過擬合的情況下限制了樹的深度。

        一般來說,LightGBM具有足夠的復雜性,并具有處理多非線性關(guān)系問題的強大能力。它既能保持高效率,又能保持高精度。因此,它在處理中子計算方面具有廣闊的應用前景。

        1.3? Catboost算法

        CatBoost是一種新的梯度增強決策樹(GBDT)算法,能夠很好地處理分類特征。該算法與傳統(tǒng)GBDT算法的不同之處在于以下幾點:

        (1)在訓練時處理分類特征,而不是預處理時間。CatBoost允許使用整個數(shù)據(jù)集進行訓練。Prokhorenkova等人[10]認為,目標統(tǒng)計(TS)是處理分類特征的一種非常有效的方法,信息損失最小。具體來說,對于每個示例,CatBoost執(zhí)行數(shù)據(jù)集的隨機排列,并計算示例的平均標簽值,將相同的類別值放在排列中的給定值之前。如果存在一個排列公,則采用以下公式進行代替:

        其中P是先驗值,β是先驗的權(quán)值。對于回歸任務,計算先驗的標準技術(shù)是取數(shù)據(jù)集中的平均標簽值。

        (2)特征組合。所有的分類特征都可以合并成一個新的分類特征。當為樹構(gòu)造一個新的分支時,CatBoost使用一種貪婪的方式來考慮組合。對于樹中的第一次拆分不考慮組合,但對于第二次和后續(xù)拆分,CatBoost將預先設置的所有組合與數(shù)據(jù)集中的所有分類特性結(jié)合起來。在樹中選擇的所有劈叉都被視為具有兩個值的類別,并在組合中使用。

        (3)無偏差提升分類特征。在使用TS方法將分類特征轉(zhuǎn)化為數(shù)值時,其分布會與原始分布不同,這種分布的偏差會導致解的偏差,這是傳統(tǒng)GBDT方法不可避免的問題。Prokhorenkova等人[10]通過理論分析,提出了一種克服梯度偏差的新方法,稱為有序助推。

        (4)快速得分。CatBoost使用健忘樹作為基本預測器,在樹的整個層次上使用相同的分裂標準[11]。這樣的樹是平衡的,不容易過度擬合。在健忘樹中,每個葉索引被編碼為一個二進制向量,其長度等于樹的深度。這一原則在CatBoost模型求值器中被廣泛使用,用于計算模型預測,因為所有二進制文件都使用浮點、統(tǒng)計和一次性編碼特性。

        2? 實驗分析

        2.1? 數(shù)據(jù)采集

        本文研究的數(shù)據(jù)來源于2019年某省電信運營商客服中心通話記錄數(shù)據(jù),并且對其進行脫敏。

        2.2? 數(shù)據(jù)預處理

        當原始數(shù)據(jù)集中的數(shù)據(jù)出現(xiàn)不完整、凌亂、數(shù)據(jù)冗余以及數(shù)據(jù)規(guī)模龐大等多種問題,那么通過數(shù)據(jù)預處理這個步驟,將會提高模型預測精度。此外原始數(shù)據(jù)存在于不同的表中,因此需要通過對數(shù)據(jù)進行預處理進行整合。本文主要在以下方面做了數(shù)據(jù)預處理工作:刪除缺失值過多的樣本和特征列、采用眾數(shù)、平均數(shù)填充缺失值、剔除冗余樣本、以及對二元屬性值進行數(shù)據(jù)類型轉(zhuǎn)換。

        2.3? 特征選擇

        特征選擇將會在以后的建模和預測中起著關(guān)鍵的作用,尤其是在數(shù)據(jù)集小而特征多的情況下。此外消除噪聲和正確選擇特征能夠定性地提高模型的整體精度和穩(wěn)定性。

        特征選擇過程是個極其復雜的過程,需要考慮的因素很多,例如特征的預測能力,特征之間的相關(guān)性,特征的簡單性、特征在業(yè)務上的可解釋性等等。但是,其中最主要和最直接的衡量標準是變量的預測能力。IV就是這樣一種指標,IV表示信息價值,它是衡量自變量的預測能力的一種指標,即某個特征對預測目標的影響程度。

        其基本思想是根據(jù)該特征所命中黑白樣本的比率與總黑白樣本的比率,來對比和計算其關(guān)聯(lián)程度,其公式如下所示:

        其中,n代表樣本在該特征上分成的組數(shù),表示該樣本第ni組數(shù)據(jù)中白樣本占所有白樣本的比例,表示該樣本第yi組數(shù)據(jù)中黑樣本占左右黑樣本的比例。其IV值的預測能力表如表1所示。

        由表可知,并不是IV值越大越好,當IV大于0.5時,由于太好了而顯得不夠真實,我們將會對此表示可疑,通常我們會選擇IV值在0.1到0.5之間。

        本文采用IV值分析的方法進行特征選擇,最終選出40個對話務量有影響的特征變量作為模型的輸入特征變量。

        2.4? 模型預測

        經(jīng)過前面的分析介紹,以上算法均適合用于對話務量預測的研究。通過對數(shù)據(jù)進行預處理和特征選擇,并采用累加型滑動窗口法構(gòu)建樣本集,其中訓練樣本集隨著時間的推移,數(shù)據(jù)在不斷地進行累加,在訓練集的基礎之上,隨機抽取30%作為驗證集。然后把處理后的包含40個特征變量的訓練集作為輸入變量輸入到模型中進行訓練,再用驗證集進行驗證,最后用測試集進行測試。累加型滑動窗口法原理如圖4所示。

        2.5? 評價標準

        評價標準的選取是整個實驗環(huán)節(jié)的重要部分,會直接影響到實驗的結(jié)果分析。本文選取均方誤差 MSE(Mean Square Error)、均方根誤差RMSE(Root Mean Square Error)、平均絕對百分比誤差MAPE(Mean Absolute Percentage Error)、對稱平均絕對百分比誤差SMAPE(Symmetric Mean Absolute Percentage Error) 值等評價指標。各公式如下:

        其中n表示樣本數(shù)量,是模型的預測值,yi是實際真實值。當真實值與預測值的差值越接近0時,即模型比較優(yōu)越,誤差越大,該差值越大。

        2.6? 結(jié)果分析

        經(jīng)過以上步驟的數(shù)據(jù)處理、特征選擇和模型預測,得出了使用XGBoost算法模型的預測結(jié)果,并且與Catboost、 LightGBM 兩個算法模型得出的結(jié)果進行了對比,結(jié)果如表2所示。

        從表中可以得出,XGBoost模型在MSE、RMSE、MAPE和SMAPE四個評價標準上,均優(yōu)于LightGBM和Catboost模型,即得出XGBoost模型在預測話務量問題上具有更好的效果。

        3? 結(jié)? 論

        考慮到電信網(wǎng)絡服務在當今社會已然成為人民生活的基礎服務,其中呼叫中心的有效管理對于電信運營商持續(xù)改善網(wǎng)絡信息服務起到關(guān)鍵作用。對話務量的估計因此成為管理者關(guān)心的問題,它直接影響到呼叫中心的運營成本和具體排班。本文介紹了XGBoost、LightGBM和Catboost模型的算法核心以及使用信息價值分析法選擇特征,并最后對真實話務量數(shù)據(jù)進行建模。結(jié)果表明,在電信運營商呼叫中心的業(yè)務場景中,推薦使用XGBoost模型為管理者提供更準確的話務量預測信息。

        參考文獻:

        [1] BUIST E,CHAN W,L’ECUYER P. Speeding up call center simulation and optimization by Markov chain uniformization [C]//2008 Winter Simulation Conference.Miami:IEEE,2008:1652-1660.

        [2] AKTEKIN T,SOYER R. Call center arrival modeling:A Bayesian state‐space approach [J].Naval Research Logistics(NRL),2011,58(1):28-42.

        [3] CHASSIOTI E,WORTHINGTON D J. A new model for call centre queue management [J].The Journal of the Operational Research Society 2004,55(12):1352-1357.

        [4] CHEN T,GUESTRIN C. Xgboost:A scalable tree boosting system [C]//Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining.New York:Association for Computing Machinery,2016:785-794.

        [5] KE G,MENG Q,F(xiàn)INLEY T,et al. Lightgbm:A highly efficient gradient boosting decision tree [J].Advances in neural information processing systems,2017,30:3146-3154.

        [6] RANKA S,SINGH V. CLOUDS:A decision tree classifier for large datasets [C]//Proceedings of the 4th knowledge discovery and data mining conference.Syracuse University,1998:1-34.

        [7] LI P,WU Q,BURGES C. Mcrank:Learning to rank using multiple classification and gradient boosting [J].Advances in neural information processing systems,2007,20:897-904.

        [8] Microsoft-Corporation. Latest Document of LightGBM [EB/OL].[2021-08-27].https://lightgbm.readthedocs.io/en/latest/Features.html.

        [9] SHI H. Best-first decision tree learning [D].Hamilton:The University of Waikato,2007.

        [10] PROKHORENKOVA L,GUSEV G,VOROBEV A,et al. CatBoost:unbiased boosting with categorical features [J/OL].arXiv:1706.09516 [cs.LG].(2017-06-28).https://arxiv.org/abs/1706.09516v4.

        [11] KOHAVI R,LI C H. Oblivious decision trees,graphs,and top-down pruning [C]//Fourteenth IJCAI.Montreal:IJCAI,1995:1071-1079.

        作者簡介:趙龍(1982—),男,漢族,安徽銅陵人,副總裁,碩士,研究方向:通信運營商IT咨詢規(guī)劃、軟件系統(tǒng)設計、智慧社區(qū)、云計算和數(shù)據(jù)智能;周源(1991—),男,漢族,安徽合肥人,算法工程師,碩士,研究方向:數(shù)據(jù)挖掘和自然語言處理;李飛(1982—),男,漢族,安徽利辛人,總經(jīng)理,碩士,主要研究方向:通信運營商IT咨詢規(guī)劃、軟件系統(tǒng)設計、大數(shù)據(jù)平臺建設、數(shù)據(jù)建模和數(shù)據(jù)智能;范文斌(1990—),男 ,漢族,安徽黃山人,部門經(jīng)理,本科,研究方向:軟件系統(tǒng)設計、數(shù)據(jù)智能、知識圖譜。

        猜你喜歡
        話務量
        基于神經(jīng)網(wǎng)絡的話務量預測模型
        基于時間序列模型的異常話務量分塊建模和預測
        S1240交換機實時話務量統(tǒng)計的分析與實現(xiàn)研究
        話務量對于通信基站能耗的影響
        江蘇通信(2015年6期)2015-12-26 01:19:09
        單變量回歸確定移動平均權(quán)重算法在話務量預測中的應用研究
        電力呼叫中心話務溫度相關(guān)預測模型的應用
        浙江電力(2015年1期)2015-04-13 05:57:38
        基站控制器話務統(tǒng)計分析
        鐵路運輸企業(yè)呼叫中心話務量預測方法研究
        多基站調(diào)度網(wǎng)話務量模型
        移動通信(2014年6期)2014-07-09 02:20:16
        江蘇電力話務量分析預測系統(tǒng)的設計與應用
        伊人久久亚洲综合av影院| 99热久久这里只精品国产www | 国产后入清纯学生妹| 亚洲av无码专区在线电影| 国产午夜视频免费观看| 中文字幕一区二区网址| 成人日韩熟女高清视频一区| 怡红院a∨人人爰人人爽| 99久久99久久久精品久久| 国产成人av一区二区三| 夜夜爽夜夜叫夜夜高潮| 亚洲av成人无码网站…| 免费精品美女久久久久久久久久| 亚洲激情视频在线观看a五月| 久久久99精品成人片| 久久精品99久久香蕉国产色戒| 免费看国产精品久久久久| 国产91久久精品成人看网站| 亚洲av无码专区在线| 少妇白浆高潮无码免费区| 亚洲国产日韩在线精品频道| 综合亚洲二区三区四区在线| 久久不见久久见免费影院国语| 人妻无码中文字幕免费视频蜜桃| av在线免费观看你懂的| 国产国拍精品亚洲av在线观看| 久久视频在线| 日韩AV无码一区二区三| 麻豆av毛片在线观看| 国产av熟女一区二区三区| 欧美 日韩 国产 成人 在线观看| 久久久精品2019免费观看| 男人天堂亚洲天堂av| 亚洲精品国产av天美传媒| 亚洲Va中文字幕久久无码一区 | 欧美精品videosse精子| 色一情一乱一伦一区二区三欧美| 亚洲视频一区二区久久久| 中文字幕日韩人妻少妇毛片| 天堂а√在线中文在线新版| 97精品国产高清自在线看超|