亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹算法的客服終端冗余數(shù)據(jù)迭代消除方法

        2022-12-27 13:14:56丁毛毛呂靜賢王笑一
        計算技術(shù)與自動化 2022年4期
        關(guān)鍵詞:方法

        張 莉,丁毛毛,李 瑋,王 穎,呂靜賢,王笑一

        (1.天津大學(xué),天津 300072;2.中國農(nóng)業(yè)大學(xué),北京 100193;3.索爾福德大學(xué),英國 曼徹斯特 03101;4.華北電力大學(xué),北京 102206;5.波爾多第一大學(xué),法國 波爾多 33000)

        為提高企業(yè)信譽,維護(hù)客戶,提高銷量,相關(guān)企業(yè)都會設(shè)立一個客服崗位,通過客戶終端與客戶聯(lián)系,提供銷前服務(wù)和銷后服務(wù)。然而,若是問題得不到及時、有效的解決,客戶會頻繁地聯(lián)系商家客服,如果客服尚未一對一服務(wù),問題就會被重復(fù)地記錄,嚴(yán)重干擾維修人員的分配,經(jīng)常造成無人處理問題或者多人同時處理一個問題的現(xiàn)象,不僅降低了客戶服務(wù)滿意度,還造成了資源浪費[1]。針對上述現(xiàn)象,如何解決客服終端重復(fù)記錄的冗余數(shù)據(jù)問題成為很多商家客戶服務(wù)領(lǐng)域的難點。

        冗余數(shù)據(jù)是指相似度較高或者重復(fù)的數(shù)據(jù)。若是不能有效地將其消除,會直接影響客服服務(wù)質(zhì)量。關(guān)于冗余數(shù)據(jù)消除的研究有很多,大部分方法的原理都是通過計算相似性來檢測重復(fù)數(shù)據(jù)并消除,即計算數(shù)據(jù)之間的距離,距離越近,代表數(shù)據(jù)之間的相似性越高,將相似度高的數(shù)據(jù)只保留一個,即完成冗余數(shù)據(jù)消除[2]。這種方法操作簡單,效率快,但是只對小規(guī)模的數(shù)據(jù)有效,一旦數(shù)據(jù)規(guī)模很大,這種方法的處理效率就會受到極大的限制。

        針對基于相似度的消除方法存在的問題,研究基于決策樹算法的客服終端冗余數(shù)據(jù)迭代消除方法。通過本研究以期為客服終端冗余數(shù)據(jù)處理提供新的解決思路,提高面對大量冗余數(shù)據(jù)的處理能力。

        1 基于決策樹算法的客服終端冗余數(shù)據(jù)迭代消除研究

        對于企業(yè)和商家來說,客戶終端數(shù)據(jù)有利于提高服務(wù)質(zhì)量,挖掘潛在客服,為銷售策略制定提供重要依據(jù)[3]。客戶的重復(fù)咨詢導(dǎo)致客服終端數(shù)據(jù)中存在很多重復(fù)記錄,這些重復(fù)記錄就被稱為冗余數(shù)據(jù)。冗余使得數(shù)據(jù)利用困難。為此,有必要進(jìn)行冗余數(shù)據(jù)消除處理。在這里通過引入決策樹算法尋找同類數(shù)據(jù),計算同類數(shù)據(jù)之間的相似度計算,以解決基于相似度的消除方法在處理大規(guī)模數(shù)據(jù)能力較差的問題。

        1.1 客服終端數(shù)據(jù)集成

        客服終端冗余數(shù)據(jù)消除首要環(huán)節(jié)是集成各個客服終端中的記錄[4]。為此,首先就要將這些客服終端中記錄下的數(shù)據(jù)集中到一起,以進(jìn)行后續(xù)的處理。在本章節(jié)采用數(shù)據(jù)倉庫法對客服終端中的數(shù)據(jù)進(jìn)行抽取,完成數(shù)據(jù)集成工作。集成過程如圖1所示[5]。

        圖1 數(shù)據(jù)倉庫

        數(shù)據(jù)倉庫中ETL工具是關(guān)鍵,主要作用是將數(shù)據(jù)從各個客服終端中抽取出來,然后對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使得數(shù)據(jù)具有一致性,最后將其裝載到數(shù)據(jù)倉庫當(dāng)中,等待進(jìn)一步的處理[6]。

        1.2 客服終端數(shù)據(jù)預(yù)處理

        為降低后續(xù)冗余數(shù)據(jù)查找和消除難度,需要對集成客服終端數(shù)據(jù)進(jìn)行預(yù)處理[7]。預(yù)處理過程包括兩個環(huán)節(jié),下面進(jìn)行具體分析。

        1.2.1 字符類數(shù)據(jù)處理

        1)去掉停用詞

        去掉停用詞,即去除文字記錄中沒有實際意義的詞,如“的”“地”“嗎”等。去除方法是對比停用詞詞典[8]。只要是出現(xiàn)在詞典上的詞,文字記錄中都可以直接刪除。

        2)中文分詞

        中文分詞是指將字符串切分成單獨的詞[9]。具體過程如下:

        步驟1:構(gòu)造分詞詞典。

        步驟2:輸入待切分的中文字符串,將其記為D,長度記為L。

        步驟3:判斷長度L是否大于1?若大于,進(jìn)入下一個環(huán)節(jié);否則,分詞結(jié)束。

        步驟4:計算D中每個字開頭詞語的最大詞長,記為l1,l2,…,ln。

        步驟5:比較l1,l2,…,ln,并取其中的最大值lmax。

        步驟6:比較lmax與L。若lmax>L,讓最大匹配初始長度等于L;否則,則等于lmax。

        步驟7:以L或者lmax為最大詞長,進(jìn)行正向最大匹配。

        步驟8:根據(jù)匹配結(jié)果實現(xiàn)分詞。

        步驟9:是否所有記錄都分詞完畢?若完畢,完成所有字符類數(shù)據(jù)的分詞;否則回到步驟2。

        1.2.2 數(shù)值類數(shù)據(jù)處理

        1)缺失值填補

        針對數(shù)據(jù)中缺失部分進(jìn)行填補,以保證數(shù)據(jù)完整[10]。原理是計算缺失值所在序列的數(shù)據(jù)平均值,讓平均值填補上缺失位置,計算公式如下:

        (1)

        式中,n代表缺失值所在序列的長度;x1,x2,…,xn代表除缺失值外序列中所有數(shù)值;xi代表缺失數(shù)據(jù)。

        2)離散值處理

        離散值主要是指與正常值區(qū)別較大的數(shù)值,包括異常值、錯誤值。去除方法可以通過分箱操作直接清除[11]。

        通過上述幾個部分的預(yù)處理工作,客服終端數(shù)據(jù)更加完整、規(guī)范,方便后續(xù)的運算和處理。

        1.3 基于決策樹算法的客服終端數(shù)據(jù)分類

        若是通過計算所有數(shù)據(jù)的相似度來消除冗余,消除工作量巨大,工作效率較慢,因此在計算相似度之前,先通過決策樹算法分類客服終端大數(shù)據(jù),以降低后期消除工作的難度[12-13]。

        選擇ID3決策樹,計算信息增益,并選擇最大信息增益對應(yīng)的屬性構(gòu)建分裂規(guī)則,實現(xiàn)數(shù)據(jù)分類[14]。信息增益計算公式如下:

        G(X,A)=F(X)-F(X|A)

        (2)

        其中,

        (3)

        (4)

        式中,G(X,A)代表信息增益;F(X)代表信息熵;F(X|A)代表條件熵;Sk代表集合X中屬于第k類樣本的樣本子集;Xi代表X中屬性A取第i個值的樣本子集;Xik表示Xi中屬于第k類的樣本子集。

        ID3構(gòu)建決策樹過程如下:

        步驟1:初始化并設(shè)置信息增益的閾值,記為E。

        步驟2:輸入m個訓(xùn)練樣本。

        步驟3:創(chuàng)建一個初始節(jié)點。

        步驟4:判斷樣本是否為同一類輸出?若為同一類輸出,則算法終止,把節(jié)點標(biāo)記為樹葉節(jié)點,并標(biāo)記該類別為Pi;否則進(jìn)入下一個環(huán)節(jié)。

        步驟5:計算所有屬性,選擇信息增益最大的屬性作為節(jié)點的分類屬性,記為Amax。

        步驟6:判斷Amax是否小于E?若小于,回到步驟3;否則,進(jìn)入下一個步驟。

        步驟7:分裂屬性中的每一個值都延伸出一個相應(yīng)的分支,并依據(jù)屬性值劃分樣本。

        步驟8:判斷分支是否還有樣本?若有樣本,重復(fù)上述過程;否則,得到一棵決策樹[15]。

        通過訓(xùn)練樣本,完成了決策樹的構(gòu)建?;跇?gòu)建好的決策樹實現(xiàn)客服終端數(shù)據(jù)分類。

        1.4 客服終端冗余數(shù)據(jù)迭代消除實現(xiàn)

        基于上述決策樹分類結(jié)果,計算同類間數(shù)據(jù)的相似度,以此實現(xiàn)客服終端冗余數(shù)據(jù)迭代消除。

        在整個冗余數(shù)據(jù)消除過程中,同一類的類間相似度計算和消除器設(shè)計兩個步驟最為關(guān)鍵[16]。下面針對這兩個關(guān)鍵步驟進(jìn)行具體分析。

        1.4.1 類間相似度計算

        類間相似度計算,即計算同一類數(shù)據(jù)間的相似性。計算公式如下:

        (5)

        其中,

        (6)

        將相似度Sim(i,j)與設(shè)定的判別閾值Q作對比,判斷是否為冗余數(shù)據(jù)。判斷規(guī)則如下:

        (1)當(dāng)Sim(i,j)>Q時,認(rèn)為數(shù)據(jù)是冗余數(shù)據(jù);

        (2)當(dāng)Sim(i,j)≤Q時,認(rèn)為數(shù)據(jù)不是冗余數(shù)據(jù)。

        1.4.2 消除器設(shè)計

        消除器的作用是根據(jù)冗余判斷結(jié)果消除冗余數(shù)據(jù)。消除器結(jié)構(gòu)如圖2所示。

        圖2 消除器結(jié)構(gòu)圖

        消除器是依據(jù)冗余判斷規(guī)則,按照時間順序逐一消除,最后留下相似數(shù)據(jù)中小于閾值Q的數(shù)據(jù),組成消除后的客服終端數(shù)據(jù),完成冗余數(shù)據(jù)消除。

        2 仿真測試與分析

        為測試研究方法在客服終端冗余數(shù)據(jù)迭代消除中的應(yīng)用效果,以文獻(xiàn)[2]提出的基于最大時間閾值與自適應(yīng)步長的數(shù)據(jù)去冗余方法作為實驗對照方法,與研究方法的實驗結(jié)果進(jìn)行對比。

        2.1 測試樣本

        客服終端數(shù)據(jù)測試樣本共有10個,其中前6個為訓(xùn)練樣本,用于構(gòu)建決策樹;后4個為測試樣本,用于測試方法的消除效果。各個樣本的數(shù)據(jù)量、屬性個數(shù)以及冗余率如表1所示。

        表1 樣本的數(shù)據(jù)量、屬性個數(shù)以及冗余率

        2.2 決策樹構(gòu)建

        按照1.3節(jié)流程,首先計算屬性的信息增益,選擇最大信息增益的屬性作為分類規(guī)則,然后借助8個訓(xùn)練樣本,通過ID3構(gòu)建決策樹。以樣本1為例,構(gòu)建的決策樹結(jié)構(gòu)如圖3所示。

        圖3 樣本1的決策樹結(jié)構(gòu)圖

        2.3 決策樹分類

        利用構(gòu)建的決策樹對剩余4個測試樣本進(jìn)行分類,分類結(jié)果如圖4所示。

        圖4 決策樹分類結(jié)果

        2.4 冗余數(shù)據(jù)消除效果評價指標(biāo)

        選擇空間縮減比作為冗余數(shù)據(jù)消除效果評價指標(biāo)。該指標(biāo)計算公式如下:

        (7)

        式中,R代表空間縮減比;c代表刪除的冗余數(shù)據(jù)量;C代表樣本數(shù)據(jù)總量。

        2.5 冗余數(shù)據(jù)消除效果

        計算類間數(shù)據(jù)相似度,完成最終的冗余數(shù)據(jù)消除處理。根據(jù)消除結(jié)果計算空間縮減比,結(jié)果如表2所示。

        表2 冗余數(shù)據(jù)消除結(jié)果

        對比表1實際結(jié)果,與文獻(xiàn)[2]方法相比,研究方法的空間縮減比更接近真實的冗余率,說明消除效果更好,準(zhǔn)確性更高。

        3 結(jié) 論

        客服終端的作用是記錄用戶需求,對制定銷售策略以及提供售后服務(wù)都具有十分重要的作用,因此其咨詢記錄的價值非常高。然而,目前由于冗余數(shù)據(jù)的存在使得客服終端數(shù)據(jù)的挖掘十分困難。針對上述問題,提出了基于決策樹算法的客服終端冗余數(shù)據(jù)迭代消除方法。該研究首先通過決策樹對客服終端數(shù)據(jù)分類,然后通過計算類內(nèi)數(shù)據(jù)間的相似度冗余消除。通過測仿真測試,證明了所研究消除方法的有效性。受到研究時間和篇幅的限制,研究深度有待進(jìn)一步提升。下一階段研究方向為如何改進(jìn)決策樹算法,因為決策樹算法本身存在一定的缺陷,在一定程度上會影響冗余數(shù)據(jù)檢測準(zhǔn)確性。

        猜你喜歡
        方法
        中醫(yī)特有的急救方法
        中老年保健(2021年9期)2021-08-24 03:52:04
        高中數(shù)學(xué)教學(xué)改革的方法
        河北畫報(2021年2期)2021-05-25 02:07:46
        化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
        變快的方法
        兒童繪本(2020年5期)2020-04-07 17:46:30
        學(xué)習(xí)方法
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        最有效的簡單方法
        山東青年(2016年1期)2016-02-28 14:25:23
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        欧洲日本一线二线三线区本庄铃| 亚洲精品98中文字幕| 在厨房拨开内裤进入毛片| 国产一区二区女内射| 无码AV高潮喷水无码专区线| 久久综合九色综合97欧美| 亚洲国产区男人本色| 亚洲色www无码| 日韩有码中文字幕在线视频| 帅小伙自慰videogay男男| а√天堂资源8在线官网在线| www.久久av.com| 麻豆视频黄片在线免费观看| 丰满人妻被两个按摩师| 亚洲熟妇丰满大屁股熟妇| 高潮喷水无遮挡毛片视频| 亚洲美女主播一区二区| 一区二区三区日本在线| 国产精品毛片无遮挡高清| a级大胆欧美人体大胆666| 精品亚洲午夜久久久久| 嗯啊哦快使劲呻吟高潮视频| 精品一区二区三区免费播放| 综合久久给合久久狠狠狠97色 | 新久久国产色av免费看| 亚洲日韩久久综合中文字幕| 国产午夜精品一区二区三区不卡| 99re在线视频播放| 亚洲欧美成人在线免费| 天涯成人国产亚洲精品一区av| 后入到高潮免费观看| 少妇的丰满3中文字幕| av网站可以直接看的| 日本xxxx色视频在线观看免费| 内射合集对白在线| 亚洲欧美日韩中文无线码| 99在线无码精品秘 人口| 白白色发布会在线观看免费 | 国产a v无码专区亚洲av| 麻豆av一区二区天堂| 国产视频一区二区三区久久亚洲|