亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自適應特征權重聚類算法的用電問題分析①

        2020-01-15 06:44:18任禹丞周子馨
        計算機系統(tǒng)應用 2020年1期
        關鍵詞:客戶服務工單用電

        任禹丞,徐 超,趙 磊,賈 靜,彭 路,周子馨

        1(國網(wǎng)江蘇省電力有限公司,南京 210024)

        2(國網(wǎng)江蘇省電力有限公司 電力科學研究院,南京 210019)

        3(河海大學 計算機與信息學院,南京 211100)

        在激烈的市場競爭中,客戶服務[1]己經(jīng)成為企業(yè)在市場上面臨的重要問題之一,許多公司在近年迅速發(fā)展的趨勢下,己意識到客戶服務的重要性:讓客戶滿意,把滿足客戶需求作為一切工作展開的目標和中心.結合企業(yè)各自不同的實際情況,因地制宜地建立適合本企業(yè)的客戶服務中心是現(xiàn)階段擺在所有企業(yè)面前的重要問題.良好的客戶服務能夠聯(lián)系企業(yè)與客戶之間的感情,維護并營造企業(yè)良好的社會形象,最終實現(xiàn)培養(yǎng)消費者對于企業(yè)和品牌忠誠度的長遠目標.目前,企業(yè)的客服中心在客戶服務和產(chǎn)品咨詢上起著重要的作用,但是企業(yè)需要為此承擔相應的成本開銷;而且,傳統(tǒng)的人工服務方式不僅在客戶服務質量上存在不足,還增加了企業(yè)的運營成本.

        針對傳統(tǒng)人工服務方式服務質量層次低以及運營成本高昂的問題,雖然傳統(tǒng)的基于統(tǒng)計的方法應用廣泛,但存在著對前提條件要求過于嚴格或結果不夠精確等諸多缺陷.近年來,為了彌補傳統(tǒng)方法的不足,人們將注意力轉移到應用各種機器學習技術上來.而目前將聚類分析技術應用到客戶服務問題中的研究還很少[2].因此,利用歷史服務數(shù)據(jù),分析反饋問題的客戶的關鍵特征,通過聚類分析技術對客戶進行類比,挖掘出具有類似特征的客戶群體,對客戶可能存在的問題早發(fā)現(xiàn)、早解決、早預防,避免更多的客戶產(chǎn)生類似訴求,以實現(xiàn)主動服務,從而提供更好的客戶服務體驗.

        電力客戶服務中心作為供電企業(yè)與電力客戶交流的窗口,不僅能夠為電力客戶提供優(yōu)質便捷的服務,而且能直接客觀地反映客戶用電問題[3].目前對在線坐席與客戶服務工單數(shù)據(jù)的分析,主要是數(shù)據(jù)分析人員依據(jù)坐席人員受理工單時勾選的業(yè)務類型,進行統(tǒng)計匯總實現(xiàn)工單的分類分析.該分類結果受坐席人員的主觀判斷影響大:一方面不能及時、客觀地反映散布在不同工單類型中的客戶用電問題;另一方面不能完整地反映用電客戶的真實訴求,更不能挖掘出客戶產(chǎn)生訴求的真實原因.因此在電力行業(yè)急需一種高效的方法對工單中隱藏的內容進行挖掘分析,并為電力營銷服務提供輔助決策.

        眾所周知,電力是關系國計民生的重要基礎產(chǎn)業(yè),是國民經(jīng)濟的重要組成部分.電力企業(yè)具有規(guī)模經(jīng)濟特征,與燃氣、自來水、電信等類似,在一般公共服務類企業(yè)中具有顯著的代表性.而客戶服務工作作為電力企業(yè)的一項重要經(jīng)營活動,不僅關系到電力客戶的切身利益,也關系到電力企業(yè)的經(jīng)營效益.電力企業(yè)的客戶服務問題的解決方案對于解決全行業(yè)的客戶服務問題有著廣泛適用性[4].

        聚類分析技術是一種常見的數(shù)據(jù)分析工具,其目的是把大量數(shù)據(jù)點的集合分成若干類,使得每個類中的數(shù)據(jù)之間最大程度地相似[5],而不同類中的數(shù)據(jù)最大程度地不同.聚類分析作為一種有效的無監(jiān)督分類方式,在數(shù)學、計算機科學、統(tǒng)計學、生物學和經(jīng)濟學等領域得到了廣泛的應用和關注,為深層次分析提供了技術支持和解決方案[6].

        本文主要研究了將聚類分析技術應用在電力客戶用電問題分析領域,通過一系列的數(shù)據(jù)預處理技術以及改進的聚類分析方法,對供電服務過程產(chǎn)生的工單信息進行挖掘分析.文中基于數(shù)據(jù)挖掘中的聚類技術,以電力客服中心獲取的客戶用電問題為數(shù)據(jù)基礎,建立客戶服務數(shù)據(jù)分析模型,進而提出了針對用電問題分析的改進的聚類算法.最后通過實驗驗證了該方法可快速準確地實現(xiàn)客戶服務數(shù)據(jù)的自動聚類,挖掘出隱藏的客戶用電問題關鍵信息,從而為改進電力客服質量與潛在服務風險預測提供了數(shù)據(jù)支撐.

        本文內容安排如下:第1節(jié)對客戶用電問題的經(jīng)典應用場景以及被動服務(事件驅動)和主動服務(服務驅動)兩種情況進行了詳細說明.第2節(jié)概括了數(shù)據(jù)預處理的方法,構建了聚類分析模型和算法.第3節(jié)對省級電力客戶服務工單數(shù)據(jù)進行了聚類分析,并對實驗結果作了評估與比較.第4節(jié)闡述了聚類分析模型在實際應用場景中的應用方案.

        1 用電問題分析

        電力企業(yè)客戶服務,是以電力客戶需求為導向,包括對電力客戶服務前、服務中和服務后的一切活動,是一個全員、全過程的系統(tǒng)工作.近年來,隨著電力消費需求變化的加快,對電力客戶服務前,通過客戶歷史服務數(shù)據(jù),分析產(chǎn)生用電問題的客戶的關鍵特征,通過聚類分析技術對客戶進行類比,挖掘出潛在具有類似特征的客戶群體,在客戶產(chǎn)生用電問題之前就主動為客戶提供服務,達到防患于未然的目的越來越迫切.

        這些潛在客戶群具有極高的可能發(fā)生相同的用電問題,當潛在客戶通過微信公眾號發(fā)起咨詢時,首先抽取出在線客戶的關鍵特征,而后通過聚類的方法挖掘出有類似特征的其他客戶曾經(jīng)發(fā)生過哪些用電問題,以此來類比該用戶可能想要提出的用電問題.提高客戶服務的效率,從而輔助客服提升在線服務能力.

        根據(jù)用電問題的產(chǎn)生情況不同,可將類比分析分為被動服務(事件驅動)的類比分析和主動服務(服務驅動)的類比分析兩種情況.對于因某小區(qū)大批量初裝用戶、舉行促銷活動、中介惡意查詢、系統(tǒng)故障(繳費未到賬)、出現(xiàn)極端天氣等因素導致某類用電問題的用戶達到一定數(shù)量或一定比例的需要被動進行類比分析的場景,可通過分析產(chǎn)生該類用電問題的客戶的關鍵特征,挖掘出具有類似用電問題的客戶群體,可以輔助客服提升在線服務能力.對于定期發(fā)起的如電費賬單出賬、線路系統(tǒng)升級改造、安全隱患定期排查等需要主動進行類比分析的場景,可通過分析群體客戶的歷史服務數(shù)據(jù),挖掘出可能受影響的客戶群體,可以輔助電力公司提升主動服務能力,而且此類場景還可以用于群體客戶服務風險預測與排查.較為典型的應用場景包括:

        (1)串戶場景:當某個抄表段號一個月內由于串戶問題,發(fā)起的客服咨詢達到了4個及4個以上,則需要進行客戶用電問題類比分析,分析整個段號內是否存在同樣具有串戶風險問題的客戶,對其進行事先提醒,避免串戶問題的發(fā)生.

        (2)電費異常場景:當某個區(qū)域一個月內有4戶及4戶以上客戶由于電費異常來進行咨詢,則需要進行客戶用電問題類比分析,分析整個區(qū)域內是否存在其他當前月用電量遠超以往的客戶,對其進行事先提醒,提醒客戶檢查家用電器是否故障,避免產(chǎn)生經(jīng)濟損失.

        (3)頻繁停電場景:當某個區(qū)域兩個月內超過3戶(包括3戶)客戶發(fā)生停電,則需要向電力公司內部業(yè)務員提醒,提醒其該區(qū)域可能存在設備故障問題,需要安排人員進行停電原因排查.

        (4)欠費復電場景:在客服系統(tǒng)中自動查詢斷電客戶,判斷其是否已經(jīng)繳納電費,如已經(jīng)繳納電費,自動通知業(yè)務員盡快在24小時內恢復通電,如客戶未繳納電費主動向客戶發(fā)送信息,提醒客戶及時繳納電費以恢復通電,避免造成不必要的損失.

        以上電力企業(yè)客戶服務問題場景都可以通過聚類分析技術,對電力客戶群體依據(jù)用電問題的關鍵特征進行聚類,以挖掘出潛在的具有相似用電問題特征的客戶群.常見客戶用電問題如表1所示.

        表1 常見客戶用電問題

        上述應用場景中的業(yè)務流程如圖1所示.

        圖1 應用場景業(yè)務流程圖

        圖1中描述的流程如下:先將客戶用電問題95598工單歷史數(shù)據(jù)庫與在線坐席訪客咨詢數(shù)據(jù)庫進行關聯(lián)以得到客戶用電問題歷史服務數(shù)據(jù)集,利用客戶用電問題歷史服務數(shù)據(jù)集訓練聚類分析模型,然后依據(jù)主動觸發(fā)條件或者被動觸發(fā)條件將電力客戶群體送入聚類分析模型,發(fā)掘潛在具有相似用電問題特征的電力客戶群體.

        2 模型構建與算法設計

        2.1 數(shù)據(jù)預處理

        通常,客戶服務信息的數(shù)據(jù)格式為一張二維表,每一行為一個用戶服務記錄.表結構中包含若干屬性,其屬性值涉及各種數(shù)據(jù)類型,以文本字符串居多.

        2.1.1 缺失值處理

        通過調研發(fā)現(xiàn)此類數(shù)據(jù)中往往會出現(xiàn)許多屬性值為空的情況.其原因在于:記錄的屬性是預定義的,可用于完整描述客戶服務中所有可能出現(xiàn)的特征;而在一個具體的客戶服務中,某些屬性所對應的特征可能根本沒有出現(xiàn),從而導致缺失[7].所以對這些缺失值的處理,也是數(shù)據(jù)分析過程中的關鍵環(huán)節(jié).通常,對缺失數(shù)據(jù)的處理有兩種方式:用屬性的均值來填補,或者直接刪除缺失數(shù)據(jù).在對于服務數(shù)據(jù)缺失值的處理上,可以分情形采用不同的方式.如果缺失值所占比例較低且為數(shù)值類型,則可通過均值來填充;反之,如果缺失值所占比例較高,則可認為對應屬性所描述的為非公共特征,采用直接刪除的方法是較為合理的.

        2.1.2 冗余處理

        客戶服務數(shù)據(jù)內容往往較為繁雜,數(shù)據(jù)內部存在冗余.而且,還可以根據(jù)實際需求對數(shù)據(jù)進行降維,通過縮小數(shù)據(jù)規(guī)模使實驗更為高效.客戶服務數(shù)據(jù)一般是由若干條記錄所構成的一張二維表,每一行為一條記錄,記錄的每個分量為一個屬性值,對應某個屬性.這些屬性的集合構成一個記錄結構.不妨將此類結構化數(shù)據(jù)中的最小語義單位稱為語義原子.為了給出冗余處理的方法,以下先給出記錄結構、語義塊及極小語義覆蓋的定義,然后給出相應的求解極小語義覆蓋的算法,從而實現(xiàn)冗余處理[8].

        定義1.一個記錄結構R是一個有限集,其中任一元素e∈R稱為一個屬性,而一個屬性則是若干語義原子的集合.

        定義2.令e為記錄結構R中的一個屬性,e的語義基He是e中包含的所有語義原子的集合,記錄結構R的語義基HR是R的所有屬性中所包含的語義原子的集合,即一般地,對于任一H′?H,為H′的語義基.

        定義3.令R為一個記錄結構,如果ParR={B1,…,Bn},滿足Bi?R,Bi∩Bj=?,且HBi∩HBj= ?,其中1≤i,則ParR稱為R的一個語義劃分,Bi稱為R的屬性塊.若n=1,則ParR稱為R的一個平凡語義劃分.

        定義4.令R為一個記錄結構,ParR為R的一個語義劃分,B∈ParR.如果B′?B滿足HB=HB′ 且?e∈B′則B′稱為B的極小語義覆蓋.

        以一個例子來說明上述概念.假設記錄結構R的若干個屬性中有3個用于描述地址信息,分別是**省、**市、**市**區(qū)/縣,則可將這三個屬性劃分為屬性塊B1={**省,**市,**市**區(qū)/縣},則屬性塊B1語義基為HB1={**省,**市,**區(qū)/縣}.HB1中的語義原子為**省、**市、**區(qū)/縣.B1屬性塊的一個極小語義覆蓋為{**省,**市**區(qū)/縣}.

        通過語義劃分得到屬性塊,根據(jù)需求刪除沒用的屬性塊,對保留的屬性塊求極小語義覆蓋.求極小語義覆蓋的具體流程如下.

        輸入:屬性塊B輸出:B極小語義覆蓋B′B′1)初始化一個空集 .{x|x∈He且xHB′}2)從B中找出一個屬性e,e需滿足集合 內元素最多,若有多個屬性滿足要求,則取語義原子數(shù)量最少的屬性,將其添加到 .B′ B′3)判斷 是否語義覆蓋B,若剛好語義覆蓋,則輸出 ,反之,則返回步驟2).B′

        2.1.3 數(shù)據(jù)編碼

        在數(shù)據(jù)的操作中,針對不同的地址數(shù)據(jù),采用轉換到統(tǒng)一坐標系下的方式,方便對數(shù)據(jù)進行處理與分析.地址數(shù)據(jù)在原數(shù)據(jù)中通常以文字說明的形式呈現(xiàn),為了保留原數(shù)據(jù)的語義信息并切實表現(xiàn)數(shù)據(jù)之間的語義差異,對原數(shù)據(jù)的地址信息進行地理編碼.地理編碼是將地址信息映射到地理坐標的過程,其中地理坐標用地理經(jīng)緯度信息表示,這樣原地址數(shù)據(jù)轉換為兩個維度信息:經(jīng)度信息和緯度信息[9].

        圖2所示為通過地理編碼后的地址信息表現(xiàn)為兩維信息,通過逆地理編碼可將這兩維信息還原為客戶地址.

        圖2 地理編碼與逆地理編碼

        在數(shù)據(jù)操作過程中,不同屬性之間存在從屬關系,則可以參考郵政編碼和身份證地址碼采用K級M位編碼規(guī)則[10],如圖3所示.

        圖3中的X代表占位符,每級采用若干位數(shù)字表示,每級的實際位數(shù)由該層級的類別數(shù)目決定,實際位數(shù)等于該層級類別數(shù)目的位數(shù).因此K級M位編碼規(guī)則中的M滿足:M=m1+m2+m3+…+mk.

        圖3 K級M位編碼規(guī)則

        2.2 算法設計

        2.2.1 原始K-Means算法原理

        K-Means算法是一種實現(xiàn)簡單、應用廣泛的聚類算法,以平均值作為聚類中心,簇內點盡可能緊密,簇間距離盡量大.K-Means算法首先要選取初始聚類中心,并對所有數(shù)據(jù)點進行分類,之后根據(jù)每個聚類的平均值來調整聚類中心,循環(huán)迭代直到確定的中心點不再改變[11].目的是使各個類內包含對象相似性最大,類間對象相似性最小.算法流程如下.

        輸入:聚類的簇數(shù)K和包含N個樣本的數(shù)據(jù)集輸出:K個聚類簇,使平方誤差準則最小1)從N個樣本中選擇K個樣本,作為初始聚類中心.2)計算其余樣本到各聚類中心的距離,將其分配到距離最短的距離中心對應的類別中.3)更新聚類中心:將每個類別中所有樣本所對應的均值作為該類別的聚類中心,計算目標函數(shù)的值.4)判斷聚類中心和目標函數(shù)的值是否發(fā)生改變,若不變,則輸出結果;若改變,則返回步驟2).

        大小為n的數(shù)據(jù)集,指定的聚類數(shù)為k,樣本的維數(shù)為k,則進行一次迭代的計算時間由三部分組成:將每一個樣本歸到離它最近的聚類中心,需要時間O(ndk);新的類產(chǎn)生后,計算新的聚類中心所需的時間O(nd);計算聚類成本函數(shù)所需時間O(nd);而迭代次數(shù)則由數(shù)據(jù)集大小、聚類數(shù)以及數(shù)據(jù)分布情況決定,算法總的時間復雜度為O(ndk)[12].

        2.2.2 肘部法則

        通常,使用肘部法則求K-Means聚類最佳分類數(shù)K.K-Means算法運行過程中會不斷地移動類中心點,也就是重心,把類中心點移動到該中心點包含樣本的位置的平均值,然后重新劃分其內部成員[13].K-Means雖然可以自動分配樣本到相應的類,但是不能決定要劃分出多少個類.K-Means的參數(shù)為類的重心位置和其內部觀測值的位置.K-Means參數(shù)的最優(yōu)解能夠使成本函數(shù)值最小.K-Means成本函數(shù)公式如下:

        式中,μk表示第k個類的重心位置.類的畸變程度為類重心與類內部成員位置距離的平方之和,成本函數(shù)為所有類畸變程度(distortions)之和.由成本函數(shù)知,如果類內部的成員分布越緊湊,那么類的畸變程度越小;反之,如果類內部的成員分布越分散,那么類的畸變程度越大.因此,要求出使成本函數(shù)最小化的參數(shù),就需要重復配置每個類s包含的觀測值,并不斷移動類重心直到求出為止.

        肘部法則的核心思想是:隨著簇數(shù)k的變大,數(shù)據(jù)集的劃分會變得精細,每個簇的聚合程度會逐漸提高,那么成本函數(shù)值會逐漸變小.如果k小于實際的聚類數(shù)時,那么k的變大會大幅提高各個簇的聚合程度,成本函數(shù)值的下降幅度也會很大;而當k等于真實聚類數(shù)時,再增加k所得到的聚合程度的提高會迅速變小,成本函數(shù)值的也會隨之大幅下降,之后伴隨k值的繼續(xù)變大而趨于穩(wěn)定,也就是說成本函數(shù)值和k值的關系圖會呈現(xiàn)出手肘形狀的曲線,而這個肘部對應的k值就是數(shù)據(jù)的真實聚類數(shù)[14].

        2.2.3 改進的K-Means算法

        針對客服工單數(shù)據(jù)中存在較多孤立點,對聚類分析結果產(chǎn)生巨大影響的情況下,本文對傳統(tǒng)K-Means算法進行改進,使改進后的K-Means算法更加適用于客戶工單類數(shù)據(jù)的分析.

        當簇內樣本是密集的,而簇間區(qū)別明顯時,表明KMeans算法效果顯著.對于處理大數(shù)據(jù)集,K-Means算法依然高效,復雜度為O(nkt),其中t是迭代的次數(shù).但是,K-Means算法也存在局限性,它只能在聚類樣本的平均值被定義時才可以執(zhí)行,且無法適用于需要處理符號屬性的數(shù)據(jù).K-Means算法對初始聚類中心與樣本的輸入順序較為敏感,對于與不同的輸入順序,聚類結果往往會有較大差異.因為算法使用迭代更新的方法,所以當初始聚類中心在局部值最小附近時,算法比較容易得到局部最優(yōu)解.

        要進行聚類的初始數(shù)據(jù)大多都存在孤立點,即存在較少數(shù)據(jù)點距離數(shù)據(jù)密集分布區(qū)域較遠的情況.因為算法首先隨機地選取若干樣本作為初始聚類中心,所以此時可能存在將孤立點選為初始聚類中心的情況,這種情況會嚴重影響聚類效果.此外,在聚類運算過程中,會將聚類均值點(類中心中所有樣本位置的平均值)作為新的聚類中心進行聚類.孤立點會導致新的聚類中心偏離數(shù)據(jù)密集區(qū),使聚類效果變差.因此,孤立點的存在會對K-Means算法的聚類效果產(chǎn)生很大的影響[15].所以,改進算法首先進行查找并排除孤立點,然后才可以進行聚類.

        為排除孤立點,減少孤立點對聚類的影響,可以先計算初始數(shù)據(jù)集中各個樣本之間的距離,將每個樣本與其他樣本距離之和求出,刪除距離之和最大的點.可以根據(jù)精確度的要求,刪除若干個距離之和較大的樣本,這樣可以極大地減少孤立點對聚類的影響.查找并排除基于距離之和的孤立點時,算法將進行N平方次的樣本間的距離計算,當N增大時,計算量將幾何倍的增長.為了減少計算量,先用代價很小的粗聚類方法進行聚類,再根據(jù)每個粗聚類簇內的樣本個數(shù)按比例均勻抽出若干樣本,抽出的樣本可以代表粗聚類簇,這些抽出的樣本分布在樣本空間各個角落,這樣抽出的樣本比直接從數(shù)據(jù)集內均勻抽取的樣本更具代表性,因此這些抽出的樣本可以有效地代表原數(shù)據(jù)集.此時,不需計算每一樣本與原始數(shù)據(jù)集中其他樣本的距離,只需計算樣本與抽出的對象的距離,正常抽取的樣本數(shù)量較少,所以算法的復雜度將極大地降低.

        此外,為提高K-Means聚類算法在客戶服務工單數(shù)據(jù)分析中的準確率,使用了一種自適應特征權重的K-Means聚類算法.該算法首先計算屬性的均方差來選取初始聚類中心,根據(jù)迭代結果,按照類內緊密、類間遠離的原則調整屬性在距離公式中的特征權重,這樣能使數(shù)據(jù)點在歐氏空間中的真實距離更加明顯,也使用本文所用到的客戶服務工單數(shù)據(jù)對算法的有效性進行驗證[16].

        將n個m維待聚類樣本表示為如下的矩陣形式:

        為使不同屬性上的數(shù)據(jù)具有可比性,也為了方便計算屬性貢獻度,將上述矩陣按維度歸一化至[0.01,1].設當前迭代后將n個對象劃分為K個聚類,每個聚類中的對象個數(shù)分別為:n1,n2,…,nk,則所有K個聚類在第j維屬性上的類內距離之和為:

        式中,mkj為聚類k在第j維屬性上的均值.所有K個聚類在第j維屬性上的類間距離之和為:

        其中,mj為數(shù)據(jù)集在第j維屬性上的均值.根據(jù)當前迭代結果,計算屬性j對聚類的貢獻度:cj=dw/dn.類內緊湊、類間遠離通常用來度量聚類的整體性能.對單個屬性而言,如果聚類的結果在該屬性上滿足類內緊湊且類間遠離的原則,則表明該屬性區(qū)分對象的能力強,對聚類的貢獻大;反之,則表明該屬性區(qū)分對象的能力弱,對聚類的貢獻小.第j維屬性的特征權重為:

        使用上式修正歐氏距離公式,得到加權的歐氏距離公式:

        屬性的特征權重可以根據(jù)屬性的貢獻度預先設定.屬性的特征權重越大,就說明該屬性對聚類越重要,在歐氏空間中該屬性的坐標軸就會產(chǎn)生較大拉伸;反之,說明該屬性對聚類不重要,歐氏空間中該屬性的坐標軸就會產(chǎn)生較大縮減.屬性權重的設定有兩種特殊情況:一種是所有屬性的權重都相同,此時便是傳統(tǒng)的聚類方法;另一種是屬性權重為零,即為不考慮,可排除此種屬性影響.

        為驗證改進K-Means聚類算法的有效性,在Python環(huán)境下,對傳統(tǒng)K-Means、基于信息熵的固定權重KMeans聚類算法及改進K-Means聚類算法的有效性進行檢驗,比較不同聚類算法的性能.

        首先選取UCI上的鳶尾花數(shù)據(jù)集說明改進算法對權重的調整過程.該數(shù)據(jù)集共有4個屬性,其中petal length和petal width兩個屬性對聚類結果影響較大.

        用傳統(tǒng)K-Means算法連續(xù)運行10次,其平均迭代次數(shù)為7.3次,基于信息熵的固定權重K-Means算法迭代次數(shù)為5次,改進K-Means聚類算法經(jīng)過4 次迭代后收斂,說明改進K-Means聚類算法能夠顯著減少迭代次數(shù).改進K-Means聚類算法對鳶尾花數(shù)據(jù)集各屬性特征權重的調整情況如圖4所示.

        圖4 鳶尾花特征權重調整曲線

        由圖4可知,隨著迭代的進行,算法能夠自動識別屬性的重要性,重要屬性的特征權重逐步增大,次要屬性的權重不斷減小,最終petal length和petal width兩個屬性的權重由最初的0.25分別調整為0.4314和0.4731.這種動態(tài)調整反映了各屬性對類內緊密、類間遠離聚類結果的重要程度,能夠更真實地反映對象在歐氏空間中距離,減小距離失真程度,有利于提高聚類性能.

        3 基于電力工單數(shù)據(jù)的實驗及結果分析

        每年的電力客戶服務工單數(shù)據(jù)存在相似性,因此數(shù)據(jù)選取一年范圍內的服務工單,而一年中受天氣因素的影響,四個季度之間的服務工單數(shù)據(jù)差距較大,每個季度3個月份之間的差別較小,因此數(shù)據(jù)選取以一年跨度中的每個季度中最具代表性的月份,即2017年8月、2017年11月、2018年2月和2018年5月的省級所有服務工單為數(shù)據(jù)基礎,并在關聯(lián)工單和在線坐席訪問數(shù)據(jù)后,從客戶用電問題內容出發(fā)進行了挖掘分析,處理的工單記錄數(shù)共計35 000條.

        3.1 電力數(shù)據(jù)預處理

        實驗數(shù)據(jù)主要來自電力服務工單數(shù)據(jù),結合調研結果以及冗余處理的方法,針對風險預測業(yè)務場景的需求,總結出八維屬性包括供電單位、地市、區(qū)縣、客戶地址、工單類型、業(yè)務類型一級、業(yè)務類型二級、業(yè)務類型三級.但是屬性值主要為文本,因此需要對工單數(shù)據(jù)進行數(shù)值化操作.

        考慮到郵政編碼和身份證地址碼都存在不同區(qū)共用一個編碼的問題,對于地市、區(qū)縣采用三級六位編碼制,前兩位表示省,第三四位代表地市,最后兩位代表區(qū)縣,對全省各地市區(qū)縣進行數(shù)值化編碼.供電單位編碼規(guī)則類似采用三級六位編碼制,前兩位表示省,第三四位代表地市,最后兩位代表區(qū)供電單位.

        電力服務工單數(shù)據(jù)中的工單類型、業(yè)務一級、業(yè)務二級、業(yè)務三級的編碼規(guī)則采用四級四位編碼制,第一位代表工單類型,第二位代表業(yè)務一級,第三位代表業(yè)務二級,第四位代表業(yè)務三級.

        電力服務工單數(shù)據(jù)中的客戶地址采用轉換到統(tǒng)一坐標系下的形式,每個地址對應二維數(shù)據(jù),分別代表經(jīng)度和緯度.

        3.2 最佳聚類數(shù)

        預處理后的數(shù)據(jù)利用手肘法選取最佳聚類數(shù)k.具體做法是讓k從20開始取值直到取到你認為合適的上限(一般來說這個上限不會太大,這里選取上限為30),對每一個k值進行聚類并且記下對應的SSE (誤差平方和),然后畫出k和SSE的關系圖,最后選取肘部對應的k作為最佳聚類數(shù).畫出的k與SSE的關系圖如圖5所示.

        圖5 SSE與k的關系圖

        顯然,肘部對于的k值為23,故對于這個數(shù)據(jù)集的聚類而言,最佳聚類數(shù)應該選23.

        3.3 評估方法

        K-Means是一種非監(jiān)督學習,不像監(jiān)督學習的分類問題和回歸問題,無監(jiān)督聚類沒有樣本輸出,也就沒有比較直接的聚類評估方法.但是可以從簇內的稠密程度和簇間的離散程度來評估聚類的效果.常見的方法有輪廓系數(shù)Silhouette Coefficient[17]和Calinski-Harabasz Index[18].本實驗采用Calinski-Harabasz Index方法,這個方法計算簡單直接,得到的Calinski-Harabasz分數(shù)值s越大則聚類效果越好.

        Calinski-Harabasz分數(shù)值s的數(shù)學計算公式是:

        其中,m為訓練集樣本數(shù),k為類別數(shù).Bk為類別之間的協(xié)方差矩陣,Wk為類別內部數(shù)據(jù)的協(xié)方差矩陣,tr為矩陣的跡.

        也就是說,類別內部數(shù)據(jù)的協(xié)方差越小越好,類別之間的協(xié)方差越大越好,這樣的Calinski-Harabasz分數(shù)會高.

        3.4 實驗結果

        利用改進的K-Means算法對預處理后的數(shù)據(jù)進行聚類分析,并采用Calinski-Harabasz Index方法對聚類的結果進行打分,結合之前肘部法則推算出的最佳k值,實驗讓k從20開始取值直到取到29,實驗結果如表2所示.

        表2 改進K-Means算法聚類結果得分

        用Calinski-Harabasz Index評估的k=23時候聚類分數(shù)為,可見k=23的聚類分數(shù)比其他都要高,這也符合預期.預處理后的數(shù)據(jù)為維度為9,當特征維度大于2,無法直接可視化聚類效果時,用Calinski-Harabasz Index評估是一個很實用的方法.

        根據(jù)改進K-Means算法聚類分析結果的Calinski-Harabasz Index評估得分數(shù)畫出曲線圖可以更加直觀的看出實驗聚類分析結果,曲線圖如圖6所示.

        圖6 Calinski-Harabasz Index得分曲線圖

        當k值取23時改進K-Means算法聚類分析得出23個簇中心如表3所示.

        表3 改進K-Means算法得出的23個聚類簇中心

        表3中每一行代表一個聚類簇中心坐標,H1至H9分別代表供電單位、地市、區(qū)縣、客戶地址經(jīng)度、客戶地址維度、工單類型、業(yè)務類型一級、業(yè)務類型二級、業(yè)務類型三級對應的坐標.

        簇中心1至簇中心23分別代表的用電問題如表4所示.

        表4 聚類簇中心

        通過將各個簇中心業(yè)務類型、業(yè)務分級的數(shù)值與事先約定的編碼規(guī)則對照,可以得到具體的用電問題,從而降低服務風險.以簇中心6為例,該位置有較多的客戶進行投訴,反應搶修服務超出時限.該模型可以實時導入新的數(shù)據(jù),實現(xiàn)對簇中心的實時調整以應對新的服務風險的出現(xiàn).

        3.5 結果分析

        K-Means算法作為一種常用的聚類算法,對球狀分布的數(shù)據(jù)具有很好的效果,但是算法對初始聚類中心敏感,容易受到孤立點的影響.文中在聚類之前排除了孤立點的影響,提出了一種新的選取初始聚類中心的方法.針對客服工單數(shù)據(jù)中存在較多孤立點,對聚類分析結果產(chǎn)生巨大影響的情況下,文章對傳統(tǒng)K-Means算法進行改進,使改進后的K-Means算法更加適用于客戶工單數(shù)據(jù).

        分別利用原 K-Means算法和改進后的 K-Means算法進行聚類分析對比,聚類結果如表5所示.

        實驗結果表明,改進算法更接近實際數(shù)據(jù)分布.雖然需要查找少量孤立點,會增加時間消耗,但是改進算法準確度較高,聚類效果較好.

        為了更加直觀的表現(xiàn)改進算法的優(yōu)越性,根據(jù)經(jīng)典K-Means算法和改進后的K-Means算法的聚類結果分析對比表畫出曲線對比圖,如圖7所示.

        通過兩者的聚類結果分析對比曲線圖可以很明顯的看出改進后的K-Means算法Calinski-Harabasz得分更高,聚類效果更好,更加準確挖掘出潛在具有相同問題的電力客戶.

        表5 原算法和改進后算法的Calinski-Harabasz分值對比

        圖7 聚類結果分析對比曲線圖

        比較每一條聚類結果是否和真是的結果一致,計算聚類結果的準確率(Accuracy),如式(7)所示.

        其中,N表示工單總數(shù),Ncor表示正確聚類的工單數(shù).改進后的K-Means聚類模型準確率高達91.2%.而采用傳統(tǒng)的聚類算法模型,準確率只有85.7%.通過驗證認為,改進后的K-Means模型能從工單數(shù)據(jù)出發(fā),較為精準地將具有相同問題的電力客戶聚類.

        4 結論

        針對客戶服務數(shù)據(jù)的特征,本文給出了一種改進的K-Means聚類算法.應用該算法可以從大量工單數(shù)據(jù)中找到若干個簇中心,以挖掘出客戶服務中的用電問題,不僅為改進客服服務質量提供數(shù)據(jù)支撐,還能為潛在服務風險的預測奠定數(shù)據(jù)基礎,從而讓相關企業(yè)為客戶提供更優(yōu)質的服務.

        以電力工單數(shù)據(jù)分析為例,根據(jù)用電問題產(chǎn)生情況的不同,可將類比分析分為被動服務(事件驅動)的類比分析和主動服務(服務驅動)的類比分析兩種情況.

        (1)對于因大批量初裝用戶、舉行促銷活動、中介惡意查詢、系統(tǒng)故障(繳費未到賬)、出現(xiàn)極端天氣等因素導致某類用電問題的用戶達到一定數(shù)量或占一定比例的業(yè)務場景,則可施行被動服務類比分析,將發(fā)生該類問題的客戶服務工單數(shù)據(jù),作為改進K-Means算法的輸入,進行聚類分析,從而得到代表著該類用電問題的簇中心.當再次接入新的客戶時,可以通過計算新客戶與該類問題簇中心的歐式距離來判定潛在的風險:若新客戶在簇類內,則客戶是該類問題的潛在風險客戶,若客戶在簇類外,則客戶發(fā)生該類問題風險較小.因此,改進的算法可以預先判斷客戶是否具有發(fā)生該類問題的風險,從而提前實施相應的措施.

        (2)對于定期(每月、每周或每天)發(fā)起的如電費賬單出賬、線路系統(tǒng)升級改造、安全隱患定期排查等業(yè)務場景,則可以采用主動服務類比分析,將存在多種用電問題的客戶服務工單數(shù)據(jù),作為改進的聚類算的輸入,從而得到代表前N個最頻繁出現(xiàn)的用電問題的簇中心.以此數(shù)據(jù)為支撐,再結合業(yè)務處置的歷史經(jīng)驗,可做出相應的日常風險預判.比如,該方法還可以通過對往年同期數(shù)據(jù)的聚類,挖掘出高概率發(fā)生的具體用電問題的信息包括時間和地點等,通知相關部門做好預防措施;再如,通過對實時工單數(shù)據(jù)的聚類,可以挖掘出突發(fā)問題,從而能及時通知相關部門前往驗證并解決突發(fā)問題,與此同時通知出現(xiàn)電力問題區(qū)域的客戶,讓客戶知曉當前的情況,以減少投訴,減輕客服壓力.

        值得一提的是,該方法還可以應用到其他相關行業(yè)的客服系統(tǒng),以提升客戶服務質量.

        猜你喜歡
        客戶服務工單用電
        用電安全
        基于量化考核的基層班組管理系統(tǒng)的設計與應用
        電子測試(2022年7期)2022-04-22 00:13:16
        基于transformer的工單智能判責方法研究
        高技術通訊(2021年6期)2021-07-28 07:39:20
        用煤用電用氣保障工作的通知
        安全用電知識多
        從常見的客戶服務問題出發(fā) 來看看學員們的解決之道
        用電安全要注意
        涵蓋技術、市場需求以及客戶服務 ISE 2018面面觀
        基于HANA的工單備件采購聯(lián)合報表的研究與實現(xiàn)
        中國核電(2017年1期)2017-05-17 06:09:55
        基于“互聯(lián)網(wǎng)+ ”的電力營銷客戶服務探討
        91久久国产精品综合| 好爽…又高潮了毛片免费看| 亚洲A∨无码国产精品久久网| 中文字幕一区二区三区.| 极品尤物在线精品一区二区三区| 中文字字幕人妻中文| 无码精品国产va在线观看| 国产精品天天看大片特色视频| 亚洲av一区二区网址| 国产视频一区二区三区在线免费| 成人综合网站| 国产爽爽视频在线| 国产一区二区三区资源在线观看| 青青草在线这里只有精品| 免费无码中文字幕a级毛片| 久久AⅤ无码精品为人妻系列| 亚洲精品中文字幕乱码二区| 中文字幕精品亚洲字幕| 国内成+人 亚洲+欧美+综合在线| 午夜无码大尺度福利视频| av网站影片在线观看| 国产精品熟女一区二区三区| 三年片大全在线观看免费观看大全| 91日本精品国产免| 中文字幕亚洲乱码熟女在线| 一区二区三区国产精品乱码| 人妻少妇久久中文字幕一区二区| 亚洲AⅤ无码片一区二区三区| 女人天堂av免费在线| 风韵丰满熟妇啪啪区老熟熟女| 丰满少妇大力进入av亚洲| 娇柔白嫩呻吟人妻尤物| 国产91九色免费视频| 午夜精品久久久久久久| 亚洲乱亚洲乱少妇无码99p| 日本一区二区啪啪视频| 国产日本精品一区二区| 国语自产精品视频在线看| 亚洲五月天综合| 亚洲嫩草影院久久精品| 日本办公室三级在线观看|