亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林算法的95598 投訴預(yù)測方法研究

        2020-05-06 14:46:58李鵬鵬周丹陽姜朝明喻湄霽
        浙江電力 2020年4期
        關(guān)鍵詞:工單預(yù)處理森林

        李鵬鵬,周丹陽,姜朝明,喻湄霽,劉 偉,王 濤

        (1.國網(wǎng)浙江省電力有限公司臺(tái)州供電公司,浙江 臺(tái)州 318000;2.西華大學(xué) 電氣與電子信息學(xué)院,成都 610039)

        0 引言

        用戶評價(jià)是企業(yè)內(nèi)部評估自身服務(wù)狀況,改善用戶體驗(yàn)的重要渠道。國家電網(wǎng)有限公司(以下簡稱“國網(wǎng)公司”)作為供電服務(wù)類企業(yè),對投訴工單尤為敏感。如何減少投訴工單,已成為國網(wǎng)公司的重要課題之一。在實(shí)際生產(chǎn)中,投訴工單有較少部分為直接投訴工單,更多的則是由其他非投訴工單向投訴工單轉(zhuǎn)化的轉(zhuǎn)化投訴工單。直接投訴工單能夠利用投訴行為特征被預(yù)測,但很難在直接投訴發(fā)生之前采取有效措施,因此直接投訴工單的預(yù)測結(jié)果可作為國網(wǎng)公司后期分析服務(wù)漏洞的重要參考。而轉(zhuǎn)化投訴工單占比較大,實(shí)現(xiàn)轉(zhuǎn)化工單的有效預(yù)測既可以對投訴風(fēng)險(xiǎn)提前預(yù)警,通過采取有效措施減少潛在投訴風(fēng)險(xiǎn),又可以發(fā)現(xiàn)服務(wù)過程中的薄弱環(huán)節(jié)。但轉(zhuǎn)化投訴工單成因復(fù)雜,受技術(shù)發(fā)展、工單數(shù)據(jù)采集等因素制約,難以實(shí)現(xiàn)對其有效預(yù)測。人工智能技術(shù)的發(fā)展使復(fù)雜的投訴工單預(yù)測成為了可能。而本文所關(guān)注的投訴工單預(yù)測問題本身也是一種分類問題,適合用人工智能技術(shù)中的分類算法進(jìn)行建模與求解。因此,以95598 歷史工單數(shù)據(jù)為基礎(chǔ),借助于人工智能算法構(gòu)建投訴風(fēng)險(xiǎn)預(yù)警模型,對于提升電力公司的服務(wù)水平意義重大。

        目前,部分基于人工智能的經(jīng)典數(shù)據(jù)挖掘算法已被應(yīng)用于投訴風(fēng)險(xiǎn)預(yù)警領(lǐng)域,如文獻(xiàn)[1]在考慮文本詞頻權(quán)重的情況下,提出了一種TFIDF 特征加權(quán)優(yōu)化算法對95598 投訴工單進(jìn)行分類,但其僅局限于通過詞頻選取各投訴工單的關(guān)鍵因素,未能實(shí)現(xiàn)有效預(yù)警。文獻(xiàn)[2]采用了深度學(xué)習(xí)模型來識(shí)別疑似投訴工單,進(jìn)而實(shí)現(xiàn)投訴工單風(fēng)險(xiǎn)預(yù)警,但尚未考慮轉(zhuǎn)化工單導(dǎo)致投訴的情況。此外,就模型而言,由于深度學(xué)習(xí)模型復(fù)雜,需要大量的計(jì)算性能來構(gòu)建,而對于小數(shù)據(jù)集的簡單問題,在計(jì)算開銷和時(shí)間相同的情況下,深度學(xué)習(xí)方法并沒有比其他數(shù)據(jù)挖掘方法體現(xiàn)出足夠的優(yōu)勢。文獻(xiàn)[3]提出了一種基于多模型的投訴風(fēng)險(xiǎn)預(yù)警方法,通過分析客戶歷史訴求和停電相關(guān)數(shù)據(jù),利用了多種模型進(jìn)行預(yù)測,并采用加權(quán)方法融合決策結(jié)果,以實(shí)現(xiàn)良好的預(yù)測效果。該方法雖然具有良好的計(jì)算開銷與時(shí)間開銷,但是不同模型之間的權(quán)重設(shè)置具有主觀性與不可解釋性。此外,支持向量機(jī)[4]、神經(jīng)網(wǎng)絡(luò)[5]、隨機(jī)森林[6]和貝葉斯網(wǎng)絡(luò)[7]等人工智能算法在預(yù)測領(lǐng)域都較為活躍,其中隨機(jī)森林作為一種優(yōu)秀的分類算法,在分類預(yù)測應(yīng)用領(lǐng)域具有較為突出的綜合性能[8-11]。

        本文在考慮轉(zhuǎn)化投訴工單的情況下,提出一種基于隨機(jī)森林算法的投訴風(fēng)險(xiǎn)預(yù)測方法。在完成95598 歷史工單數(shù)據(jù)預(yù)處理的情況下,利用歷史工單的供電地區(qū)、時(shí)間、天氣、前期工單事因、重復(fù)來電和投訴傾向等因素構(gòu)建投訴行為特征。通過提取歷史工單數(shù)據(jù)中的投訴行為特征,完成對基于隨機(jī)森林的投訴風(fēng)險(xiǎn)預(yù)警模型訓(xùn)練,最終實(shí)現(xiàn)對直接投訴工單與轉(zhuǎn)化投訴工單的預(yù)測。

        1 隨機(jī)森林理論

        1.1 隨機(jī)森林理論概述

        隨機(jī)森林[12]作為數(shù)據(jù)挖掘技術(shù)中的一種集成分類器,其旨在從數(shù)據(jù)樣本中構(gòu)造隨機(jī)決策樹模型以獲得單個(gè)分類器結(jié)果,再綜合單個(gè)隨機(jī)決策樹模型,獲得隨機(jī)森林模型。隨機(jī)森林的構(gòu)造過程如圖1 所示,其主要步驟包括[13]:

        (1)抽取子樣本。采用bootstrap 抽樣方法,隨機(jī)可重復(fù)取樣,形成新的子樣本數(shù)據(jù)集。

        (2)建立子決策樹。對每個(gè)含有M 個(gè)特征變量子樣本訓(xùn)練集,隨機(jī)方法抽取m(m<M)個(gè)特征,構(gòu)造建立分類回歸樹。

        (3)建立隨機(jī)森林模型。重復(fù)步驟(1)和(2),得到K 個(gè)決策樹,形成隨機(jī)森林。

        (4)投票分類。結(jié)合K 個(gè)決策樹的預(yù)測結(jié)果,采用投票方式選出最優(yōu)分類。

        圖1 隨機(jī)森林的構(gòu)造過程

        1.2 隨機(jī)森林算法

        隨機(jī)森林預(yù)測算法的實(shí)現(xiàn)過程見表1。

        表1 隨機(jī)森林算法

        2 基于隨機(jī)森林的95598 投訴預(yù)測方法

        為實(shí)現(xiàn)對95598 投訴工單的“先知先覺”,增強(qiáng)電力服務(wù)部門對投訴工單的預(yù)警能力,并基于此開展針對性更強(qiáng)的服務(wù)改善,以提高電力服務(wù)水平,本節(jié)根據(jù)95598 各類工單成因的特點(diǎn),提出一種基于隨機(jī)森林算法的95598 投訴預(yù)測方法。該方法主要步驟如下:

        步驟一:95598 歷史工單數(shù)據(jù)預(yù)處理。對歷史工單數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,其主要步驟包括:數(shù)據(jù)投訴工單、數(shù)據(jù)清洗與數(shù)據(jù)集成。通過對目標(biāo)城市歷史工單生數(shù)據(jù)進(jìn)行處理,提供投訴工單成因挖掘模型所需的數(shù)據(jù)。

        步驟二:投訴行為特征提取。對步驟一中經(jīng)過預(yù)處理的歷史工單數(shù)據(jù),進(jìn)行數(shù)據(jù)分析并提取投訴行為特征。

        步驟三:建立基于隨機(jī)森林的投訴預(yù)測模型。基于步驟二中提取的各投訴行為特征,建立基于隨機(jī)森林的投訴預(yù)測模型。

        步驟四:實(shí)時(shí)預(yù)測。將無標(biāo)簽的95598 實(shí)時(shí)工單的相關(guān)行為特征送入步驟三所建立的投訴預(yù)測模型中,獲得預(yù)測結(jié)果。

        2.1 95598 歷史工單數(shù)據(jù)預(yù)處理

        95598 歷史工單數(shù)據(jù)主要包含文字?jǐn)?shù)據(jù)和時(shí)間數(shù)據(jù),其中文字?jǐn)?shù)據(jù)主要指描述供電地區(qū)、工單事由等相關(guān)數(shù)據(jù),本文采用數(shù)字編碼的方法對其進(jìn)行全部編碼;時(shí)間數(shù)據(jù)主要指工單受理日期,本文采用時(shí)間距離法將時(shí)間數(shù)字化,其主要思想是將1900 年1 月1 日作為基準(zhǔn)時(shí)間,且記為1,以當(dāng)前時(shí)間與基準(zhǔn)時(shí)間的數(shù)學(xué)距離作為時(shí)間數(shù)據(jù);此外,為分析天氣因素對投訴工單造成的影響,還應(yīng)對工單受理時(shí)間的近期天氣數(shù)據(jù)進(jìn)行提取,考慮到投訴可能存在時(shí)間延遲性,成單時(shí)間可能與投訴成單當(dāng)天的天氣并無關(guān)系,故針對天氣數(shù)據(jù),本文考慮利用將成單時(shí)間近5 天中最嚴(yán)重的天氣情況作為成單的天氣因素。上述工作主要是完成數(shù)據(jù)投訴工單,目的是將工單中計(jì)算機(jī)無法直接識(shí)別的文字、天氣和日期投訴工單轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的數(shù)據(jù)。

        對經(jīng)過數(shù)據(jù)投訴工單的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)集成。數(shù)據(jù)清洗主要是將歷史工單數(shù)據(jù)中的無效工單作刪除處理;數(shù)據(jù)集成是將投訴工單已有的成單時(shí)間、事由、地區(qū)和業(yè)務(wù)類型等因素與外部天氣數(shù)據(jù)集成,其所有成單因素作為一個(gè)數(shù)據(jù)庫參與后續(xù)建模。

        2.2 投訴行為特征提取

        投訴行為特征是描述投訴行為可能成因的重要因素,預(yù)測準(zhǔn)確程度大部分取決于提取投訴行為特征的好壞。通過對歷史工單數(shù)據(jù)的預(yù)處理,可初步提取業(yè)務(wù)類型、工單時(shí)間、受理地區(qū)和天氣類型等因素作為投訴行為特征。實(shí)際投訴工單投訴行為表明:重復(fù)來電、前期的投訴傾向等對于投訴工單形成關(guān)系重大。故提取95598 歷史工單中用戶來電次數(shù)及來電時(shí)話務(wù)員判斷該用戶的投訴傾向數(shù)據(jù),作為投訴行為特征。數(shù)據(jù)預(yù)處理及投訴行為特征提取見圖2。

        圖2 數(shù)據(jù)預(yù)處理及投訴行為特征提取

        2.3 95598 電力服務(wù)投訴工單預(yù)測模型

        通過對歷史工單數(shù)據(jù)的預(yù)處理,發(fā)現(xiàn)95598電力服務(wù)投訴工單成因可能與成單時(shí)間、成單事由、成單地區(qū)、業(yè)務(wù)類型和天氣因素等密切相關(guān)?;陔S機(jī)森林的95598 電力服務(wù)投訴工單預(yù)測模型P 可表述為:

        式中:A為投訴工單的成單地區(qū)向量;T 為投訴工單的成單時(shí)間向量;V 為投訴工單的前期業(yè)務(wù)類型向量;W 為投訴工單的天氣類型向量;C 為投訴工單的溫度類型向量;F 為投訴工單的風(fēng)速類型向量;L 為用戶重復(fù)來電向量;Q 為用戶投訴傾向向量。

        3 實(shí)例分析

        以某市供電公司的95598 電力服務(wù)歷史工單數(shù)據(jù)為分析對象,建立基于該市的95598 投訴工單預(yù)測模型。

        3.1 數(shù)據(jù)預(yù)處理

        對該市供電公司歷年的95598 電力服務(wù)工單數(shù)據(jù)進(jìn)行預(yù)處理后,共獲得數(shù)據(jù)樣本54 681 例。該市有供電轄區(qū)10 個(gè),成單時(shí)間類型共有12 個(gè)月份,前期工單業(yè)務(wù)類型共9 種(表揚(yáng)、服務(wù)申請、故障報(bào)修、建議、舉報(bào)、信息查詢、業(yè)務(wù)咨詢、意見和綜合業(yè)務(wù)),業(yè)務(wù)類型中受理類型共37個(gè),天氣類型有陰、晴、多云、陣雨、小雨、中雨、大雨和暴雨8 類,氣溫類型有高溫、低溫2種,風(fēng)速類型有強(qiáng)風(fēng)1 種,雷電類型有出現(xiàn)雷電1 種。

        3.2 建立95598 電力服務(wù)投訴工單預(yù)測模型

        基于隨機(jī)森林的95598 電力服務(wù)投訴工單預(yù)測模型可由式(1)表示。將完成預(yù)處理的數(shù)據(jù)導(dǎo)入Weka 平臺(tái)中,得到該預(yù)測模型的屬性分布,見圖3。

        圖3 預(yù)測模型數(shù)據(jù)集

        選用Weka3.8 平臺(tái)中的隨機(jī)森林算法,采用10%交叉驗(yàn)證,對其進(jìn)行模型建立。完成模型建立后,可得到各因素與投訴之間的關(guān)系,其中業(yè)務(wù)類型與投訴工單之間的關(guān)系尤為密切,二者之間關(guān)系的預(yù)測結(jié)果見圖4。

        圖4 業(yè)務(wù)類型與投訴之間關(guān)系的預(yù)測結(jié)果

        圖4 中橫坐標(biāo)為工單業(yè)務(wù)類型,縱坐標(biāo)為投訴類型(0 為無投訴;1 為轉(zhuǎn)化工單投訴;2 為直接工單投訴),圖中“×”表示正確預(yù)測樣本;“□”表示錯(cuò)誤預(yù)測樣本。

        圖4 投訴預(yù)測樣本結(jié)果的分析表明:當(dāng)發(fā)生業(yè)務(wù)類型16(供電業(yè)務(wù))和17(供電質(zhì)量)時(shí),易產(chǎn)生直接或間接投訴。當(dāng)發(fā)生業(yè)務(wù)類型為29(營業(yè)業(yè)務(wù))時(shí),易發(fā)生轉(zhuǎn)化投訴。

        ROC 曲線是以假陽率和真陽率為軸的曲線,其是描述預(yù)測性能的重要參數(shù)曲線,與橫軸圍成的面積越大,說明性能越好,即曲線越靠近A 點(diǎn)(左上方)性能越好,越靠近B 點(diǎn)(右下方)性能越差。根據(jù)模型建立結(jié)果,導(dǎo)出該預(yù)測模型的ROC曲線,見圖5。由圖5 可知,ROC 曲線幾乎完全接近A 點(diǎn),因此本文方法所得到的預(yù)測模型性能良好。

        圖5 本文方法的ROC 曲線

        3.3 算法比較

        將本文方法與常見方法進(jìn)行性能比較。首先給出比較中會(huì)涉及的預(yù)測模型測試參數(shù)定義。

        均方誤差MSE:

        式中:xi為預(yù)測值;x 為真實(shí)值;n 為預(yù)測樣本總數(shù)。MSE 用以描述預(yù)測結(jié)果的好壞,如果該值越大,則說明預(yù)測效果越差,反之越好。

        若將預(yù)測模型的真陰類、真陽類、假陰類、假陽類分別用TN,TP,F(xiàn)N,F(xiàn)P 來表示,則召回率R 可定義為:

        召回率R 描述了預(yù)測模型正確判定的正例占總正例比重。

        F1值可定義為:

        式中:F1值是預(yù)測模型的一個(gè)綜合指標(biāo),F(xiàn)1越大說明該模型預(yù)測效果越好。

        為了充分說明本文方法的優(yōu)越性,繼續(xù)以weka3.8 軟件為測試平臺(tái),采用本文數(shù)據(jù)集完成對SVM(支持向量機(jī))、MLP(多層神經(jīng)網(wǎng)絡(luò))、RT(隨機(jī)決策樹)、BN(貝葉斯網(wǎng)絡(luò))和邏輯斯蒂方法的預(yù)測模型測試,測試結(jié)果見表2。

        表2 各預(yù)測算法比較

        由表1 可知:

        (1)各模型對于本文數(shù)據(jù)集均有較好的準(zhǔn)確率,本文方法與準(zhǔn)確率最高的SVM 模型幾乎相當(dāng),但SVM 方法的均值誤差大了約8 倍。

        (2)在建模用時(shí)方面,由于投訴風(fēng)險(xiǎn)預(yù)測并不是在線預(yù)測,完成建模的時(shí)間處于完全可接受的范圍內(nèi);而BP 神經(jīng)網(wǎng)絡(luò)建模用時(shí)最長,很難適用于工程實(shí)際;貝葉斯網(wǎng)絡(luò)模型在建模用時(shí)方面優(yōu)勢明顯,但其準(zhǔn)確率與MSE 均不及本文方法。可見,雖然本文方法在某些單項(xiàng)指標(biāo)方面并不是最佳的,但從綜合性能的角度考慮,本文方法較其他模型具有較大優(yōu)勢。

        3.4 其他實(shí)際數(shù)據(jù)集測試

        為評估本文方法對于其他實(shí)際數(shù)據(jù)集的預(yù)測性能,繼續(xù)用本文方法做測試實(shí)驗(yàn)。所選用的數(shù)據(jù)集為該目標(biāo)城市最新獲得的2019 年1—5 月95598 工單,共計(jì)16 497 例,經(jīng)過數(shù)據(jù)預(yù)處理獲得有效測試數(shù)據(jù)為16 218 例。該實(shí)驗(yàn)在配置為windows 8.1 Intel(R)Core(TM)i5-4460 CPU@3.20 GHz 的計(jì)算機(jī)上通過MATLAB 編程實(shí)現(xiàn),其預(yù)測分布結(jié)果見圖6。

        圖6 中橫坐標(biāo)為用于測試的樣本編號(hào),縱坐標(biāo)為投訴類型(0 為無投訴;1 為轉(zhuǎn)化工單投訴;2為直接工單投訴),圖中“※”表示預(yù)測結(jié)果,“□”表示真實(shí)結(jié)果。該實(shí)驗(yàn)獲得正確預(yù)測的樣本共15 781 例,其正確預(yù)測率約為96.93%。由圖6 可知,在面對最新的實(shí)際95598 工單,本文方法依然有非常高的準(zhǔn)確率。此外,2019 年上半年實(shí)測數(shù)據(jù)的準(zhǔn)確率(96.93%)與表2 中的正確預(yù)測率(98.76%)之間存在一定的誤差,這是由于構(gòu)建模型時(shí)數(shù)據(jù)采用交叉驗(yàn)證方式,數(shù)據(jù)分布較為均勻,而2019 年上半年的95598 工單集中分布于1—5 月,故導(dǎo)致這種可容許的誤差存在,該誤差可以通過增加訓(xùn)練樣本數(shù)來減小或規(guī)避。

        圖6 某市2019 年上半年95598 預(yù)測結(jié)果分布

        4 結(jié)論

        為實(shí)現(xiàn)95598 投訴工單投訴風(fēng)險(xiǎn)預(yù)測,減少投訴風(fēng)險(xiǎn)發(fā)生,在充分考慮多種因素的情況下,提出一種基于隨機(jī)森林算法的95598 投訴工單投訴風(fēng)險(xiǎn)預(yù)測方法。該方法與其他數(shù)據(jù)挖掘方法相比,具有以下優(yōu)點(diǎn):

        (1)本文方法預(yù)測準(zhǔn)確率較高,建模用時(shí)短,特別適合應(yīng)用于工程實(shí)際中。

        (2)本文方法所構(gòu)造的模型均方誤差小,預(yù)測性能優(yōu)異。

        在實(shí)驗(yàn)過程中也發(fā)現(xiàn)本文方法在建模速度上尚不及貝葉斯網(wǎng)絡(luò)方法和隨機(jī)決策樹方法,因此在保證預(yù)測準(zhǔn)確性的情況下繼續(xù)提高建模速度,是未來研究的重點(diǎn)。

        猜你喜歡
        工單預(yù)處理森林
        基于量化考核的基層班組管理系統(tǒng)的設(shè)計(jì)與應(yīng)用
        電子測試(2022年7期)2022-04-22 00:13:16
        基于transformer的工單智能判責(zé)方法研究
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
        基于HANA的工單備件采購聯(lián)合報(bào)表的研究與實(shí)現(xiàn)
        中國核電(2017年1期)2017-05-17 06:09:55
        哈Q森林
        哈Q森林
        哈Q森林
        淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
        哈Q森林
        絡(luò)合萃取法預(yù)處理H酸廢水
        久久精品人妻一区二三区| 国产精品毛片无遮挡高清 | 屁屁影院ccyy备用地址| 国产成人精品三级麻豆| 国产伦码精品一区二区| 熟女一区二区国产精品| 夜夜高潮夜夜爽国产伦精品| 成人做爰高潮尖叫声免费观看| 亚洲欧洲一区二区三区波多野| 中文亚洲一区二区三区| 人妻熟妇乱又伦精品hd| 中国丰满熟妇av| 国产成人久久精品亚洲小说| 亚洲精品一区二在线观看| 日本久久久久亚洲中字幕| 真实国产乱啪福利露脸| 亚洲AV小说在线观看| 精品一区二区av在线| 妺妺窝人体色www看美女| 国产91中文| 久久精品国产亚洲av调教| 蜜桃精品人妻一区二区三区| 性色av浪潮av色欲av| 亚洲日韩AV秘 无码一区二区 | 亚洲VA欧美VA国产VA综合| 白色白在线观看免费2| 亚洲爆乳精品无码一区二区三区| 男女肉粗暴进来120秒动态图| 亚洲国产精品综合福利专区 | 一区二区三区精品免费| 日日天干夜夜狠狠爱| 久久精品片| 久久婷婷夜色精品国产| 亚洲2022国产成人精品无码区| 久久精品无码免费不卡| 欧美人与物videos另类| 亚洲av少妇高潮喷水在线| 亚洲日韩国产精品乱-久| 麻豆国产乱人伦精品一区二区| 国产三级av在线精品| 亚洲中文字幕久久精品无码a|