亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘的用電客戶訴求智能聚類研究

        2016-09-08 06:40:21梁浩波
        廣東電力 2016年8期
        關(guān)鍵詞:營業(yè)廳分詞權(quán)重

        梁浩波

        (廣東電網(wǎng)有限責任公司東莞供電局,廣東 東莞 523000)

        ?

        基于文本挖掘的用電客戶訴求智能聚類研究

        梁浩波

        (廣東電網(wǎng)有限責任公司東莞供電局,廣東 東莞 523000)

        從95598供電服務(wù)熱線來電內(nèi)容中挖掘用電客戶服務(wù)需求來提升95598客戶服務(wù)能力,基于此,提出了1套基于文本挖掘技術(shù)的用電客戶訴求的智能聚類模型并通過開源技術(shù)將其系統(tǒng)化實現(xiàn),該系統(tǒng)能夠?qū)⒂秒娍蛻魜黼妰?nèi)容的文本信息進行智能聚類并歸類到不同訴求主題,進而得到用電客戶的訴求熱點,為實現(xiàn)精準的客戶服務(wù)提供決策支持。實驗表明,該系統(tǒng)能夠有效地進行客戶訴求文本的智能聚類,具有較高的聚類準確率。

        文本挖掘;文本聚類;中文分詞;文本表示;客戶訴求

        95598供電服務(wù)熱線是電力企業(yè)服務(wù)客戶、展示形象、提升品牌價值的重要窗口和必要渠道。隨著電力體制改革的推進,尤其是售電側(cè)的逐步放開,對供電企業(yè)的客戶服務(wù)能力提出更高的要求。

        提升95598客戶服務(wù)能力最直接的途徑是以用電客戶訴求為導(dǎo)向,提高主動、精準服務(wù)的能力。目前用電客戶訴求分析面臨以下挑戰(zhàn):客戶訴求內(nèi)容以文本數(shù)據(jù)為主,信息量大、非結(jié)構(gòu)化,一般統(tǒng)計軟件難以分析;現(xiàn)有的95598問題分類標準仍比較粗放,部分分類未具體到客戶訴求點;客戶訴求點多難以聚焦,未能準確把握客戶訴求熱點。

        基于文本挖掘技術(shù),本文提出一個客戶訴求智能聚類模型,通過開源技術(shù)開發(fā)了1套客戶訴求智能聚類系統(tǒng),從95598服務(wù)熱線來電內(nèi)容中挖掘用電客戶訴求熱點,以實時獲取客戶服務(wù)需求,為實現(xiàn)主動、精準的客戶服務(wù)提供決策支持,以提升客戶服務(wù)能力。

        1 文本挖掘相關(guān)概念

        文本挖掘[1](text mining, TM),又稱文本數(shù)據(jù)挖掘或文本知識發(fā)現(xiàn),是指在大規(guī)模文本集合中抽取隱含的、以前未知的、潛在有用的模式過程。它是從分析文本數(shù)據(jù),抽取文本信息,進而發(fā)現(xiàn)文本知識的過程。Feldman在1995正式提出文本挖掘概念[2],目前文本挖掘研究主要圍繞文本挖掘模型[3-4]、文本挖掘算法[5-6]等方面展開。文本挖掘常用的方法有:

        a) 文本分類。按照預(yù)定義的類別體系,根據(jù)文本內(nèi)容,為語料庫的每個文本賦予一個或多個類別標記的過程。文本分類是一種有監(jiān)督的機器學習方法,需要一定數(shù)量有類別標記的訓(xùn)練數(shù)據(jù)進行先驗指導(dǎo)。

        b) 文本聚類。在沒有預(yù)先定義類別的條件下,對文本集合進行組織或劃分的過程,基本思想是要將相似的文本劃分到同一類中。文本聚類能夠用來發(fā)現(xiàn)大規(guī)模文本集合的分類體系以及為文本集合提供一個概括視圖,是進行文本主題分析的強有力的工具,它在信息自動獲取,Web數(shù)據(jù)挖掘等領(lǐng)域都有很多應(yīng)用[7]。文本聚類是一種無監(jiān)督的機器學習方法,不需要訓(xùn)練過程。

        c) 文本總結(jié)[8]。從文檔中抽取關(guān)鍵信息,用簡潔的形式,對文檔內(nèi)容進行摘要和解釋,使用戶無須閱讀全文就可了解文檔或文檔集合的總體內(nèi)容。

        2 基于文本挖掘的文本聚類關(guān)鍵技術(shù)

        2.1中文分詞技術(shù)

        中文分詞是文本挖掘首要解決的問題。中文自動分詞[9]是指使用自計算機自動對中文文本進行詞語的切分,即像英文那樣,中文句子中的詞之間有空格以標識,達到被計算機自動識別語義的效果。基于詞典的分詞算法流程[10]如圖1所示。

        圖1 基于詞典的分詞算法流程

        常用的中文分詞工具有ICTCLAS漢語分詞系統(tǒng)、IK Analyzer中文分詞工具和Imdict-chinese-analyzer中文分詞模塊。

        2.2文本表示技術(shù)

        文本表示是指利用計算機、統(tǒng)計學和語言學等知識,將自然語言形式的文本轉(zhuǎn)換成計算機內(nèi)部可直接處理的數(shù)據(jù)模型的過程。文本表示的基本步驟如圖2所示。

        圖2 文本表示的基本步驟

        目前常用的文本表示模型有布爾模型和向量空間模型(vector space model ,VSM)。布爾模型的特征權(quán)重采用0或1的布爾值表示,如果該特征在文本中出現(xiàn),則該特征的權(quán)重為1,否則為0。布爾模型表示簡潔,無需對特征進行降維,但其特征權(quán)重計算不夠精確;向量空間模型具有比布爾模型更精確有效的特征權(quán)重計算方法,是目前應(yīng)用最為廣泛的文本表示模型。該模型提取文本的單詞作為文本特征,利用單詞出現(xiàn)頻數(shù)進行特征降維,利用傳統(tǒng)的ξTFij-δIDFi[11]公式計算特征權(quán)重。ξTFij-δIDFi公式描述如下:

        給定包含n個文本的文本集合D={d1,d2,…,dn},利用中文分詞工具對文本進行分詞、過濾停用詞,然后從文本集合D中提取出p個互不相同的特征集合T={t1,t2,…,tp} 。

        記ξTFij表示特征ti在文本dj中的詞頻(term frequency,TF),即特征ti在文本dj中出現(xiàn)次數(shù)。ηDFi表示特征ti的文本頻率(document frequency, DF),即文本集合D中含有特征ti的文本數(shù)。δIDFi表示特征ti的逆文本概率(inverse document frequency, IDF)即

        (1)

        式中n為文本總數(shù)。

        則特征集合中第i個特征ti在文本集合D中第j個文本dj中的特征權(quán)重

        (2)

        在實際應(yīng)用中,需對ξTFij進行歸一化處理,記λTFTij=ln(1+ξTFij),此時

        (3)

        2.3聚類分析技術(shù)

        聚類分析是一個把數(shù)據(jù)對象集劃分成多個組或簇的過程,簇內(nèi)的任意兩個對象之間具有較高的相似度,而屬于不同簇的兩個對象之間具有較高的相異度。相異性和相似性根據(jù)描述對象的屬性值進行計算,最常采用的度量指標是對象間的距離。常見的聚類方法及特點見表1[7]。

        表1 常見聚類方法及特點

        3 95598客戶訴求智能聚類系統(tǒng)技術(shù)路線

        本文選取95598客戶熱線3 500多條關(guān)于“網(wǎng)上營業(yè)廳”的來電內(nèi)容作為模擬分析數(shù)據(jù),見表2。

        表2關(guān)于“網(wǎng)上營業(yè)廳”的來話內(nèi)容(節(jié)選)

        來電內(nèi)容客戶咨詢網(wǎng)上營業(yè)廳如何操作客戶咨詢網(wǎng)上營業(yè)廳如何操作客戶咨詢網(wǎng)上營業(yè)廳切換城市問題客戶咨詢網(wǎng)上營業(yè)廳找回密碼事宜客戶咨詢網(wǎng)上營業(yè)廳登陸密碼忘記了,該如何處理…

        3.195598客戶訴求智能聚類系統(tǒng)技術(shù)路線圖

        本文基于文本挖掘技術(shù)提出了客戶訴求智能聚類模型,并通過開源技術(shù)將模型系統(tǒng)化,具體如圖3所示。

        圖3 95598客戶訴求智能聚類系統(tǒng)技術(shù)實現(xiàn)圖

        從圖3可知道,在技術(shù)實現(xiàn)過程中,主要按順序進行4個階段操作:中文分詞、文本表示、聚類分析和主題歸納4個階段,經(jīng)處理后形成關(guān)于“網(wǎng)上營業(yè)廳”的客戶訴求熱點。

        3.2中文分詞技術(shù)實現(xiàn)

        本文主要采用了IKAnalyzer實現(xiàn)文本的分詞。IKAnalyzer是一個開源的、基于Java語言開發(fā)的輕量級的中文分詞工具包,采用了特有的“正向迭代最細粒度切分算法”,支持細粒度和智能分詞兩種切分模式,同時支持用戶詞典擴展定義。

        3.2.1分詞詞典擴展

        在中文分詞前,首先需要進行分詞詞典庫的擴展,將95598的專業(yè)術(shù)語如“抄表”、“單筆”、“劃扣”、“代扣”、“戶號”等導(dǎo)入詞典庫,通過配置字典文件extendwords.txt實現(xiàn)。

        3.2.2切分模式選擇

        IKAnalyzer支持智能分詞和最細粒度2種切分模式,以下是2種切分方式的演示樣例:

        a) 文本原文?!翱蛻糇稍兙W(wǎng)上營業(yè)廳為何無法使用手機號碼注冊”;

        b) 智能分詞結(jié)果。 客戶/咨詢/網(wǎng)上/營業(yè)廳/為何/無法/使用/手機號碼/注冊/;

        c) 最細粒度分詞結(jié)果??蛻?咨詢/網(wǎng)上/營業(yè)廳/營業(yè)/廳/為何/無法/使用/用手/手機號碼/手機號/手機/手/機號碼/號碼/注冊/。

        3.3文本表示技術(shù)實現(xiàn)

        本文主要調(diào)用Weka中的StringToWordVector類實現(xiàn)文本表示模型的構(gòu)建。Weka是一個開源的數(shù)據(jù)挖掘平臺,集成了大量機器學習算法,包括對數(shù)據(jù)進行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則,是現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。下面詳細分析文本表示的具體操作。

        3.3.1特征選取

        對3 500條文本數(shù)據(jù)進行分詞后,每個單詞均可作為標識文本的特征,各特征在整個文本集合中出現(xiàn)的次數(shù)ηDFi如圖4所示。

        圖4 各特征的ηDFi(節(jié)選)

        3.3.2特征降維

        在特征降維中,主要是去除一些對文本區(qū)分程度很少的特征以及與文本聚類關(guān)系不大的特征,以降低文本聚類的算法復(fù)雜度,主要包括以下情形:

        a) 去除一些幾乎在每條文本都出現(xiàn)的“特高頻”詞,如圖4中的“客戶”、“咨詢”、“網(wǎng)上”、“營業(yè)廳”等在3 500多條文本數(shù)據(jù)中出現(xiàn)達3 200次以上的特征,它們不適合作為不同文本的標識。

        b) 去除一些特殊的“高頻”詞,主要包括常見的結(jié)構(gòu)、語氣助詞,如“為”、“于”、“以”、“是”、“的”等與文本聚類關(guān)系不大的特征。

        c) 去除一些詞頻很小的特征,如“你們”、“今天”、“以前”、“什么”等在3 500多條文本數(shù)據(jù)中出現(xiàn)次數(shù)少于10的特征,此類特征也不適合作為不同文本的標識。

        在實際操作中,對于情形a)和情形c)通過設(shè)置特征出現(xiàn)頻率的閾值(上限、下限)來自動完成特征的降維;對于情形b)通過配置字典文件disablewords.txt來過濾一些常見的結(jié)構(gòu)助詞和語氣助詞。

        3.3.3特征權(quán)重計算

        本文采用VSM來表達文本表示模型,特征權(quán)重計算采用計算式(3)。

        下面選取3 500條文本數(shù)據(jù)中的第j個文本dj,即“客戶來電反映掌上營業(yè)廳無法登陸,一直顯示密碼錯誤,并已嘗試找回密碼,但仍然顯示錯誤,登陸不到,并表示前兩天有更新客戶端,更新后就登陸不上?!?來演示某一文本特征權(quán)重計算全過程:

        a) 計算特征的ξTFij,即計算保留下來的特征在文本dj中的出現(xiàn)次數(shù),如圖5所示。

        圖5 各特征的ξTFij(節(jié)選)

        b) 計算特征的λTFTij,即指對ξTFij進行歸一化處理,記λTFTij=ln(1+ξTFij),如圖6所示。

        圖6 各特征的λTFTij(節(jié)選)

        c) 計算特征的δIDFi,即計算各特征的逆文本概率,見式(1),如圖7所示。

        圖7 各特征的δIDFi(節(jié)選)

        d) 計算特征的wij,即計算各特征的權(quán)重,見式(3),如圖8所示。

        圖8 各特征的wij(節(jié)選)

        3.3.4文本表示模型

        經(jīng)過上述特征權(quán)重計算后,文本dj的VSM可以表示為

        0,0,0,2.224,0,2.119,4.081,0,2.33,…,n)

        對3 500條文本依次進行特征權(quán)重計算后,就可以得到表3的VSM。

        表3 向量空間模型(VSM)

        3.4聚類分析技術(shù)實現(xiàn)

        上述VSM模型將3 500條文本轉(zhuǎn)化成計算機內(nèi)部可直接處理的數(shù)據(jù)模型(特征權(quán)重矩陣)。每條文本相當于一個對象,每個特征代表對象的屬性,特征的權(quán)重代表屬性值。該模型適用于基于距離的K均值聚類算法實現(xiàn)文本聚類。K均值算法主要思想可概括為[7]:

        a) 算法。用于劃分的K均值算法,其中每個簇的中心都用簇中所有對象的均值來表示。

        b) 輸入。簇數(shù)目K;包含n個對象的數(shù)據(jù)集D。

        c) 輸出。K個簇的集合。

        d) 方法。從D中任意選擇K個對象作為初始簇中心; repeat。根據(jù)簇中對象的均值,將每個對象分配到最相似的簇;更新簇均值,即重新計算每個簇中對象的均值;直到不再發(fā)生變化。

        本文主要調(diào)用Weka中的SimpleKMeans類來實現(xiàn)聚類分析。SimpleKMeans類封裝了K均值算法的實現(xiàn)過程,并提供設(shè)置該算法所涉及聚類數(shù)目K、距離函數(shù)、最大迭代次數(shù)、初始簇中心選取的隨機算法的種子等核心參數(shù)的接口。在實際應(yīng)用過程中,聚類數(shù)目K作為系統(tǒng)的輸入,距離函數(shù)選擇EuclideanDistance歐氏距離函數(shù),其余參數(shù)保持默認值。

        3.5主題歸納技術(shù)實現(xiàn)

        主題歸納階段主要由人工參與方式來實現(xiàn)。使用K均值算法完成文本聚類后,系統(tǒng)會自動計算出每個簇的中心,同時給出每個簇中心各特征對應(yīng)的權(quán)重,見表4(為顯示方便,現(xiàn)將簇的數(shù)目定義為3,并只節(jié)取部分特征的權(quán)重)。

        在實際的主題歸納操作中,分別對每個簇中心按照特征權(quán)重的降序排列,將每個簇中心權(quán)重較高的幾個特征進行組合,形成可理解的自然語言。每個簇中心就代表一個客戶訴求熱點問題。

        表4 各簇中心的每個特征對應(yīng)的權(quán)重(節(jié)選)

        4 95598客戶訴求智能聚類效果評估

        評估聚類結(jié)果好壞的一個重要度量是各簇中所有對象與簇中心之間的誤差的平方和ζSSE(sum of the squared error, SSE)

        (4)

        式中:K為簇數(shù);L表示兩個對象之間的歐氏距離;ci為簇i的中心,x為屬于簇i的數(shù)據(jù)點集合。

        不同于分類算法的類別數(shù)是固定的,簇數(shù)K是不確定的。確定K并非易事,因為“正確的”簇數(shù)常常是含糊不清。通常找出正確的簇數(shù)依賴于數(shù)據(jù)集的分布形狀,也依賴于用戶要求的聚類分辨率。

        本文確定K時主要基于如下觀察:增加K有助于降低ζSSE,提高聚類質(zhì)量,因為更多的簇可以捕獲更細的數(shù)據(jù)對象簇,簇中對象之間更為相似。然而,太多的簇一方面使得ζSSE邊緣效應(yīng)可能下降,因為將一個本身凝聚的簇分裂成兩個只會引起ζSSE的稍微下降;另一方面會增加業(yè)務(wù)員在客戶訴求熱點主題歸納環(huán)節(jié)的工作量。因此,一種尋找正確的K的啟發(fā)式方法是在實際業(yè)務(wù)需求和文本數(shù)據(jù)量的基礎(chǔ)上,尋找ζSSE關(guān)于簇數(shù)曲線的拐點。

        在實際應(yīng)用中,首先根據(jù)實際業(yè)務(wù)需求以及文本數(shù)據(jù)量來初步確定可接受的簇數(shù)范圍,如4個簇至14個簇,然后系統(tǒng)計算出每個簇數(shù)對應(yīng)的ζSSE值,最后尋找ζSSE關(guān)于簇數(shù)曲線的拐點,拐點對應(yīng)的簇數(shù)就是“正確的”簇數(shù),如圖9所示。

        圖9 ζSSE關(guān)于簇數(shù)的曲線

        從ζSSE關(guān)于簇數(shù)的曲線不難看出,在簇數(shù)為10之后,繼續(xù)增加簇數(shù)時ζSSESSE只是稍微降低,因此簇數(shù)10是相對較優(yōu)的簇數(shù)。進而挖掘出關(guān)于“網(wǎng)上營業(yè)廳”的十大客戶訴求熱點問題,見表5。

        表5各簇對應(yīng)的客戶訴求熱點問題描述

        簇號客戶訴求熱點問題歸納0來電咨詢網(wǎng)上營業(yè)廳服務(wù)密碼問題1來電咨詢網(wǎng)上營業(yè)廳查詢客戶編號事宜2來電咨詢網(wǎng)上營業(yè)廳注冊或登陸問題3來電咨詢網(wǎng)上營業(yè)廳如何注冊及查詢電費賬單4來電咨詢網(wǎng)上營業(yè)廳如何操作5來電反映網(wǎng)上營業(yè)廳無法注冊或登陸6來電咨詢網(wǎng)上營業(yè)廳如何打印電費清單事宜7其他問題8來電咨詢網(wǎng)上營業(yè)廳查詢電費問題9來電咨詢網(wǎng)上營業(yè)廳如何找回密碼

        評估文本聚類效果主要是將聚類產(chǎn)生的簇標號關(guān)聯(lián)到原文本數(shù)據(jù)中,再人工對原文本描述與歸納出的熱點問題描述進行核查,得出相應(yīng)的準確率,見表6。

        表6聚類準確率統(tǒng)計

        簇號文本數(shù)量/條所占比例/%準確率/%01113.18951872.4951265018.637133319.49904170048.79451193.416861293.70937531.528282045.858691042.9898總計348810086.8

        不難看出簇1“來電咨詢網(wǎng)上營業(yè)廳查詢客戶編號事宜”的聚類準確率較低,經(jīng)追溯原始文本數(shù)據(jù)進行分析發(fā)現(xiàn)影響簇1準確率的主要因素有:a)簇1的文本所含的字數(shù)普遍較長,冗余信息和干擾信息較多,一定程度影響聚類效果;b)簇1中不少文本提及“客戶編號”只是用作客戶的標識,而非客戶真正咨詢的問題。如文本數(shù)據(jù)“客戶反映網(wǎng)上營業(yè)廳查詢電費時,不論輸入哪期都顯示:此結(jié)算戶在查詢年月內(nèi)沒有賬單信息!,但實際是有電費產(chǎn)生的(客戶編號:0319******)”。

        由于文本聚類的效果必然依賴于文本數(shù)據(jù)的質(zhì)量,因此可通過制定95598客戶訴求工單中 “來電內(nèi)容”的填寫規(guī)范,對同一業(yè)務(wù)的問題咨詢制定統(tǒng)一的填寫模板,并以簡潔的語言聚焦客戶的問題點,改進文本數(shù)據(jù)質(zhì)量,以提高文本聚類的準確率,得到更為精準的客戶訴求熱點。

        5 結(jié)束語

        用電客戶訴求智能聚類模型主要應(yīng)用了文本挖掘中的三大核心技術(shù):中文分詞技術(shù)、文本表示技術(shù)和聚類分析技術(shù),其中中文分詞基于IKAnalyze開源Java工具包實現(xiàn),文本表示和聚類分析利用Weka開源Java工具包實現(xiàn),最后通過Java平臺進行集成開發(fā)將文本聚類模型系統(tǒng)化(如圖5所示)。該系統(tǒng)能從95598服務(wù)熱線的來電內(nèi)容中挖掘出用電客戶的訴求熱點,從而獲取用電客戶的服務(wù)需求,為實現(xiàn)主動、精準的客戶服務(wù)提供決策支持。通過將3 500多條“網(wǎng)上營業(yè)廳”訴求文本作為測試數(shù)據(jù),實驗結(jié)果表明該系統(tǒng)能有效地進行客戶訴求文本的智能聚類,具有較高的聚類準確率,對95598客戶服務(wù)能力的提升有著重要意義。

        [1]諶志群,張國煊.文本挖掘研究進展[J]. 模式識別與人工智能,2005,18(1):65-74.

        CHENZhiqun,ZHANGGuoxuan.ResearchProgressofTextMining[J].PatternRecognitionandArtificialIntelligence,2005,18(1):65-74.

        [2]FELDMANR,DAGANI.KnowledgeDiscoveryinTextualData-bases(KDT)[C]//ProceedingsoftheFirstInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD-95).Montreal,Canada:AAAI, 1995:112-117.

        [3]MOTHEJ,CHRISMENTC,DKAKIT.InformationMining-useoftheDocumentDimensionstoAnalysisInteractivelyaDocumentSet[C]//Proc23rdBCSEuropeanColloquiumonIRResearch.ECIR,Darmstadt:BCSIRSG, 2001:66-77.

        [4]GHANEMM,CHORTARASA,GUOY,etal.AGridInfrastructureforMixedBioinformaticsDataandTextMining[J].ComputerSystemsandApplications, 2005, 34 (1) : 116 -130.

        [5]CATHERINEDB,WANDAP.BETTERR.FewFeatures:ASemanticApproachtoSelectingFeaturesfromText[C]//Proceedingsof2001IEEEInternationalConferenceonDataMining(ICDM’01).SanJose,California:IEEE, 2001.

        [6]MINORUK,HIROYUKIK.AnApplicationofTextMining:BibliographicNavigatorPoweredbyExtendedAssociationRules[C]//Proceedingsof33rdHawaiiInternationalConferenceonSystemSciences-volume2.Maui,Hawaii:IEEE, 2000.

        [7]HANJW,KAMBERM.數(shù)據(jù)挖掘概念與技術(shù)[M]. 范明,孟小峰,譯. 北京:機械工業(yè)出版社, 2013.

        [8]薛為民,陸玉昌. 文本挖掘技術(shù)研究[J]. 北京聯(lián)合大學學報(自然科學版),2005,19(4):59-63.

        XUEWeimin,LUYuchang.ResearchonTextMiningTechnology[J].JournalofBeijingUnionUniversity(NaturalScienceEdition), 2005,19(4):59-63.

        [9]馮智斌. 面向中文文挖掘的聚類算法研究[D]. 廣州:華南理工大學,2013.

        [10]李曉笛.Web文本挖掘技術(shù)研究及應(yīng)用[D]. 北京:北京交通大學,2015.

        [11]SAHONG,BUCKLEYB.Term-weightingApproachesinAutomaticTextRetrival[J].InformationProcessingandManagement,1998,24(5):513-523.

        (編輯王夏慧)

        Research on Intelligent Clustering for Electricity Customers’ Demands Based on Text Mining

        LIANG Haobo

        (Dongguan Power Supply Bureau of Guangdong Power Grid Co., Ltd., Dongguan, Guangdong 523000, China)

        In order to promote customer service capacity of power supply service hotline 95598 by means of excavating electricity customers’ service demands from incoming calling messages of 95598, this paper proposes an intelligent clustering model for electricity customers’ demands based on text mining technology and tries to realize it systematically by means of open source technology. This model is able to cluster text information of incoming calling of electricity customers intelligently and classify them into different demand themes, and then get demand hot focus of electricity customers so as to provide decision-making support for realizing precise customer service. Experiment indicates that this model can effectively realize intelligent clustering for text messages of customers’ demands and has higher clustering accuracy.

        text mining; text clustering; Chinese words segmentation; text representation; customer demand

        2016-03-17

        2016-05-24

        廣東電網(wǎng)有限責任公司科技項目(GDZC-031920160259)

        10.3969/j.issn.1007-290X.2016.08.009

        TP391

        B

        1007-290X(2016)08-0045-06

        梁浩波(1988),男,廣東東莞人。工程師,理學碩士,從事信息安全系統(tǒng)維護、數(shù)據(jù)挖掘的應(yīng)用研究。

        猜你喜歡
        營業(yè)廳分詞權(quán)重
        權(quán)重常思“浮名輕”
        當代陜西(2020年17期)2020-10-28 08:18:18
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        高速公路ETC網(wǎng)上營業(yè)廳的設(shè)計與實現(xiàn)
        為黨督政勤履職 代民行權(quán)重擔當
        銀行自助營業(yè)廳智能應(yīng)用解決方案
        基于公約式權(quán)重的截短線性分組碼盲識別方法
        電信科學(2017年6期)2017-07-01 15:44:57
        供電營業(yè)廳服務(wù)數(shù)據(jù)整合及管理應(yīng)用
        值得重視的分詞的特殊用法
        ETC掌上營業(yè)廳系統(tǒng)建設(shè)方案研究
        層次分析法權(quán)重的計算:基于Lingo的數(shù)學模型
        河南科技(2014年15期)2014-02-27 14:12:51
        国产综合开心激情五月| 久久精品人成免费| 激情综合丁香五月| 人人爽人人爽人人爽| 精品熟女少妇免费久久| 在线观看国产精品91| 色青青女同性恋视频日本熟女| 大屁股流白浆一区二区三区| 亚洲日韩小电影在线观看| 粗大的内捧猛烈进出少妇| 东北妇女肥胖bbwbbwbbw| 伊人久久亚洲综合影院首页| 久久视频在线视频精品| 91久久香蕉国产熟女线看| 亚洲 日本 欧美 中文幕| 94久久国产乱子伦精品免费| 精品亚洲欧美高清不卡高清| 青青草手机成人自拍视频| 国产传媒精品成人自拍| 亚洲av无码一区二区三区网址 | 精品国产人妻一区二区三区| 九九九影院| 亚洲中文字幕在线精品2021| 亚洲国产精品成人av网| 无码精品国产一区二区三区免费 | 亚洲美女av二区在线观看| 国产一区二区三区中出| 国产精品一区二区久久国产| 夜夜添夜夜添夜夜摸夜夜摸| 四虎影视在线观看2413| 亚洲精品无人区一区二区三区| 丝袜美腿制服诱惑一区二区 | 亚洲成av人片在www| 九九热在线视频观看这里只有精品| 中文字幕五月久久婷热| 国产一区二区三区最新地址 | 免费在线亚洲视频观看| 无码色av一二区在线播放| 麻豆亚洲av永久无码精品久久| 中国女人a毛片免费全部播放| 精品视频手机在线免费观看|