亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Hadoop的客服運(yùn)維文本聚類(lèi)算法研究

        2018-10-21 01:24:17王瑋嚴(yán)文濤蘇琦劉蔭于展鵬殷齊林趙憲佳孫更新
        關(guān)鍵詞:數(shù)據(jù)挖掘

        王瑋 嚴(yán)文濤 蘇琦 劉蔭 于展鵬 殷齊林 趙憲佳 孫更新

        摘要: 為快速準(zhǔn)確地提取和挖掘信息系統(tǒng)運(yùn)維服務(wù)過(guò)程中的關(guān)鍵咨詢問(wèn)題,本文利用分布式技術(shù),基于Hadoop的客服運(yùn)維文本聚類(lèi)算法,對(duì)海量文本數(shù)據(jù)進(jìn)行聚類(lèi)研究。給出了基于Hadoop的運(yùn)維數(shù)據(jù)分布式并行計(jì)算模型,并在Hadoop框架中對(duì)系統(tǒng)中所有運(yùn)維數(shù)據(jù)進(jìn)行分析處理。同時(shí),給出了分布式文本聚類(lèi)算法,并以10萬(wàn)余條電力信息系統(tǒng)運(yùn)維數(shù)據(jù)為數(shù)據(jù)源,對(duì)設(shè)計(jì)的分布式聚類(lèi)算法和傳統(tǒng)聚類(lèi)算法進(jìn)行分析對(duì)比。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的分布式聚類(lèi)算法所需時(shí)間低于傳統(tǒng)聚類(lèi)算法,不僅解決了傳統(tǒng)聚類(lèi)算法在處理海量數(shù)據(jù)方面由于數(shù)據(jù)規(guī)模過(guò)大引起的速度慢、效率低的問(wèn)題,而且還借助大數(shù)據(jù)中蘊(yùn)含的價(jià)值和動(dòng)力,提升了企業(yè)運(yùn)維服務(wù)水平。該研究具有較高的實(shí)用價(jià)值和理論意義。

        關(guān)鍵詞: 聚類(lèi)算法; 數(shù)據(jù)挖掘; 大數(shù)據(jù)分析; Hadoop; 客服運(yùn)維

        中圖分類(lèi)號(hào): TP311.13文獻(xiàn)標(biāo)識(shí)碼: A

        收稿日期: 20170518; 修回日期: 20170828

        作者簡(jiǎn)介: 王瑋(1970),女,漢族,山東濟(jì)南人,碩士,高級(jí)工程師,主要研究方向?yàn)槠髽I(yè)信息化應(yīng)用。Email: zhaoxj@jacore.com在信息系統(tǒng)運(yùn)維服務(wù)過(guò)程中,及時(shí)解決用戶問(wèn)題成為企業(yè)提升服務(wù)質(zhì)量的關(guān)鍵。當(dāng)用戶進(jìn)行咨詢時(shí),能否及時(shí)解決問(wèn)題會(huì)對(duì)用戶滿意度產(chǎn)生巨大影響。但用戶咨詢的問(wèn)題涉及面廣且重復(fù),因此要達(dá)到用戶滿意則需配置數(shù)量較多的運(yùn)維人員,不利于企業(yè)降低運(yùn)行成本。大部分運(yùn)維服務(wù)信息都是以文本信息的形式存在,對(duì)咨詢的關(guān)鍵問(wèn)題進(jìn)行內(nèi)容提取和挖掘,并對(duì)運(yùn)維信息進(jìn)行精確、快速的處理,從分析處理結(jié)果中獲取有用的信息成為運(yùn)維信息知識(shí)發(fā)現(xiàn)領(lǐng)域急需解決的核心問(wèn)題。利用分布式計(jì)算技術(shù)和文本聚類(lèi)技術(shù),通過(guò)并行數(shù)據(jù)挖掘的方法對(duì)大量的運(yùn)維數(shù)據(jù)進(jìn)行計(jì)算,這是解決該問(wèn)題的必要途徑。海量運(yùn)維客服數(shù)據(jù)中包含很多用戶重復(fù)咨詢的問(wèn)題,利用數(shù)據(jù)挖掘方法對(duì)關(guān)鍵咨詢的問(wèn)題進(jìn)行內(nèi)容提取,識(shí)別出關(guān)鍵信息,自動(dòng)統(tǒng)計(jì)用戶常見(jiàn)問(wèn)題及熱點(diǎn)問(wèn)題,自動(dòng)編寫(xiě)專門(mén)的培訓(xùn)資料并更新知識(shí)庫(kù),用以支撐決策及業(yè)務(wù)的智能化運(yùn)轉(zhuǎn),為用戶提供個(gè)性化的運(yùn)維服務(wù)和針對(duì)性的知識(shí)培訓(xùn),以便提高信息系統(tǒng)運(yùn)維水平及效率,從而實(shí)現(xiàn)以用戶為中心,多維度了解用戶,實(shí)現(xiàn)數(shù)據(jù)化管理,借助大數(shù)據(jù)中蘊(yùn)含的價(jià)值和動(dòng)力促進(jìn)公司服務(wù)水平不斷提升。在數(shù)據(jù)挖掘的技術(shù)領(lǐng)域中,文本聚類(lèi)是重要的技術(shù),無(wú)監(jiān)督的機(jī)器學(xué)習(xí)[1]是文本聚類(lèi)技術(shù)的重要特點(diǎn),一般流程是首先將文本進(jìn)行數(shù)據(jù)化預(yù)處理,然后通過(guò)相似度的計(jì)算方法對(duì)數(shù)據(jù)進(jìn)行處理,最后得出聚類(lèi)結(jié)果。本文以分析聚類(lèi)的基本原理為依據(jù),在大量運(yùn)維數(shù)據(jù)分析過(guò)程中對(duì)現(xiàn)有聚類(lèi)方法的優(yōu)點(diǎn)和缺點(diǎn)進(jìn)行總結(jié),在此基礎(chǔ)上,把分布式計(jì)算機(jī)技術(shù)應(yīng)用到數(shù)據(jù)挖掘領(lǐng)域中,提出了文本聚類(lèi)算法的分布式計(jì)算方法的應(yīng)用。針對(duì)傳統(tǒng)聚類(lèi)算法中大量數(shù)據(jù)的稀疏和高維兩方面不足所導(dǎo)致的問(wèn)題,文本聚類(lèi)算法中的分布式計(jì)算采取了有效的解決方法,提升了算法執(zhí)行的速度和分析效率。該研究具有較高的實(shí)際應(yīng)用價(jià)值。

        1基于Hadoop的運(yùn)維數(shù)據(jù)分布式并行計(jì)算模型

        聚類(lèi)是按照一定的標(biāo)準(zhǔn)把數(shù)據(jù)集合進(jìn)行多個(gè)簇的方式來(lái)劃分的分析過(guò)程,計(jì)算聚類(lèi)結(jié)果[2]就是用這些簇的集合進(jìn)行表示。在聚類(lèi)技術(shù)應(yīng)用領(lǐng)域,文本聚類(lèi)具有很高的應(yīng)用性,文本聚類(lèi)以聚類(lèi)的規(guī)則作為依據(jù),根據(jù)文本內(nèi)容將不同的文檔進(jìn)行聚類(lèi),最終將內(nèi)容相似的文檔劃分為一類(lèi)。隨著聚類(lèi)技術(shù)的發(fā)展及其在實(shí)際中的廣泛應(yīng)用,根據(jù)實(shí)現(xiàn)的具體思想和應(yīng)用領(lǐng)域不同,產(chǎn)生了很多不同的聚類(lèi)算法,主要包括基于劃分(partitionbased methods,PBM)的聚類(lèi)算法、基于層次(hierarchical methods,HM)的聚類(lèi)算法、基于密度(hensitybased methods,DBM)的聚類(lèi)算法、基于網(wǎng)格(gridbased methods,GBM)的聚類(lèi)算法和基于模型(modelbased methods,MBM)的聚類(lèi)算法。基于劃分的聚類(lèi)算法的代表算法是Kmeans聚類(lèi)算法[3],其核心思想是對(duì)包含N個(gè)對(duì)象的數(shù)據(jù)集合預(yù)先劃分為K個(gè)類(lèi),然后對(duì)數(shù)據(jù)集合中任何K個(gè)對(duì)象進(jìn)行選取,把選取出來(lái)的對(duì)象作為聚類(lèi)的初始中心點(diǎn),再以之前設(shè)定好的啟發(fā)式算法為依據(jù)進(jìn)行迭代重置,直到類(lèi)內(nèi)部對(duì)象的平均值不再發(fā)生變化為止。層次聚類(lèi)算法通過(guò)將數(shù)據(jù)組織成一個(gè)樹(shù)狀結(jié)構(gòu)來(lái)計(jì)算樣本之間的距離。層次聚類(lèi)以聚類(lèi)的順序?yàn)闃?biāo)準(zhǔn),劃分為從下向上和從上向下兩種順序的層次聚類(lèi)。在凝聚(agglomerative nesting,AGENES)聚類(lèi)算法[4]中,把數(shù)據(jù)集合的各個(gè)對(duì)象分別作為一個(gè)類(lèi),再按照每個(gè)類(lèi)之間的相似度規(guī)則逐層合并,直到全部對(duì)象合成一個(gè)類(lèi)。分裂分析(divisive analysis,DIANA)聚類(lèi)算法[5]則是典型的自上向下的聚類(lèi)算法,首先設(shè)置要得到的聚類(lèi)數(shù)目作為聚類(lèi)結(jié)束條件,采用類(lèi)的平均相異度作為相似度規(guī)則?;趧澐值木垲?lèi)方法的典型算法是基于密度的空間聚類(lèi)(densitybased spatial clustering of application with noise,DBSCAN)聚類(lèi)算法[6]。在DBSCAN聚類(lèi)算法中,如果一個(gè)對(duì)象的鄰域中包含多個(gè)對(duì)象,則創(chuàng)建一個(gè)以該對(duì)象為核心的新類(lèi),進(jìn)而繼續(xù)迭代,從核心對(duì)象出發(fā)對(duì)直接接觸的其他對(duì)象進(jìn)行尋找,直至尋找不到任何可以添加到類(lèi)的對(duì)象為止。統(tǒng)計(jì)信息網(wǎng)格(statistical information grid,STING)算法是基于網(wǎng)格的聚類(lèi)算法中最具有代表性的算法之一[7],該算法首先按照矩形方式對(duì)空間區(qū)域進(jìn)行單元格的劃分,劃分出來(lái)的矩形單元格和不同級(jí)別的對(duì)象之間相互對(duì)應(yīng),單元格按照對(duì)象之間的關(guān)系建立一個(gè)層次結(jié)構(gòu),然后劃分成諸多低一層的單元格。這樣可依據(jù)預(yù)先設(shè)定的網(wǎng)格單元屬性的信息來(lái)進(jìn)行統(tǒng)計(jì)查詢。基于模型的聚類(lèi)算法的代表性算法是自組織神經(jīng)網(wǎng)絡(luò)(self organizing maps,SOM)算法[8],該算法首先對(duì)神經(jīng)網(wǎng)絡(luò)輸出層賦予隨機(jī)的連接權(quán)向量,并對(duì)設(shè)置網(wǎng)絡(luò)的學(xué)習(xí)率進(jìn)行初始值的設(shè)置,向量的隨機(jī)選取是從訓(xùn)練數(shù)據(jù)中進(jìn)行選擇,然后再對(duì)選取的向量進(jìn)行操作,選取的向量與各連接權(quán)向量之間的相似度通過(guò)計(jì)算可以得出,把得出的相似度的值進(jìn)行比較,選出最大相似度的節(jié)點(diǎn)作為獲勝節(jié)點(diǎn),獲勝節(jié)點(diǎn)的作用是作為t時(shí)間學(xué)習(xí)權(quán)值的調(diào)整域進(jìn)行確定的中心,以獲勝節(jié)點(diǎn)為中心,對(duì)優(yōu)勝領(lǐng)域內(nèi)的節(jié)點(diǎn)的權(quán)值和獲勝節(jié)點(diǎn)的權(quán)值進(jìn)行及時(shí)更新。按照上面的操作過(guò)程執(zhí)行,直到學(xué)習(xí)率衰減到0或某個(gè)指定的閾值為止。

        對(duì)于海量運(yùn)維數(shù)據(jù),通過(guò)分布式系統(tǒng)對(duì)其進(jìn)行并行處理是提高計(jì)算效率和處理能力的重要途徑之一。Hadoop作為目前應(yīng)用最廣泛的一種云計(jì)算平臺(tái),利用HDFS分布式文件系統(tǒng)對(duì)海量運(yùn)維數(shù)據(jù)進(jìn)行存儲(chǔ),在分布式環(huán)境下通過(guò)MapReduce編程模型對(duì)運(yùn)維數(shù)據(jù)進(jìn)行并行處理。MapReduce是一種分布式并行計(jì)算編程模型,“Map(映射)”和“Reduce(歸約)”及其主要思想都是借鑒矢量編程語(yǔ)言的特性。運(yùn)維數(shù)據(jù)Hadoop并行計(jì)算模型的基本執(zhí)行流程如圖1所示。

        圖1運(yùn)維數(shù)據(jù)Hadoop并行計(jì)算模型的基本執(zhí)行流程在Hadoop結(jié)構(gòu)模型框架中,對(duì)系統(tǒng)中的所有運(yùn)維數(shù)據(jù)分析的MapReduce任務(wù)進(jìn)行初始化,轉(zhuǎn)化為系統(tǒng)中的Job,Job又被分為Map和Reudce部分。在MapReduce部分的執(zhí)行過(guò)程中,把輸入文件劃分為M份,如圖1左方所示分成了split 0~4,然后把每個(gè)split傳送給每個(gè)單獨(dú)的Map,因此Map作業(yè)數(shù)量是由M決定,和split一一對(duì)應(yīng)。在Map部分,形式為“”的輸入鍵值對(duì)是通過(guò)Map函數(shù)接收,經(jīng)過(guò)數(shù)據(jù)處理后,將生成同樣形式的運(yùn)維數(shù)據(jù)輸出鍵值對(duì)。數(shù)據(jù)合并過(guò)程就是將輸出鍵值對(duì)中有相同鍵的鍵值對(duì)合并在一起,Reduce過(guò)程與整個(gè)合并過(guò)程類(lèi)似,所以一般情況下,可以用Reduce函數(shù)代替合并過(guò)程,這樣海量的客服運(yùn)維數(shù)據(jù)就可以在Hadoop框架中進(jìn)行并行處理。

        2分布式文本聚類(lèi)算法

        本文的分布式文本聚類(lèi)算法,是為適應(yīng)客服運(yùn)維系統(tǒng)的海量數(shù)據(jù)集合的特點(diǎn)而設(shè)計(jì),與傳統(tǒng)聚類(lèi)算法相比,本算法具有支持分布式并行運(yùn)算和實(shí)時(shí)性的特點(diǎn)。本文的分布式聚類(lèi)算法是由基于劃分的聚類(lèi)和基于層次聚類(lèi)兩部分組成。客服運(yùn)維系統(tǒng)自身的特點(diǎn)決定了本算法必須具有較強(qiáng)的實(shí)時(shí)性,這就要求必須對(duì)海量運(yùn)維數(shù)據(jù)集合進(jìn)行預(yù)處理,從而達(dá)到初步降維的效果,在此基礎(chǔ)上,對(duì)已有明確相關(guān)性的文檔進(jìn)行初步聚類(lèi),然后再進(jìn)行二次聚類(lèi),最終達(dá)到系統(tǒng)要求的聚類(lèi)結(jié)果。分布式文本聚類(lèi)算法實(shí)現(xiàn)流程如圖2所示。

        圖2分布式文本聚類(lèi)算法實(shí)現(xiàn)流程對(duì)大文檔數(shù)據(jù)集進(jìn)行聚類(lèi)之前,首先需要進(jìn)行數(shù)據(jù)預(yù)處理,即對(duì)文檔集中的每個(gè)文檔對(duì)象進(jìn)行中文分詞。本文以IKAnalyer分詞器為工具,采用改進(jìn)的二元gram分詞方法準(zhǔn)確分詞,同時(shí)將文檔集合中的文檔對(duì)象表示成算法所需的數(shù)據(jù)形式。文檔對(duì)象空間的高維度可能會(huì)降低聚類(lèi)算法的準(zhǔn)確度,因此需對(duì)文檔對(duì)象首先進(jìn)行降維處理。本算法選取文檔對(duì)象中的特征詞,根據(jù)特征詞的權(quán)重是否小于設(shè)定的閾值,決定是否消去該特征詞與文檔對(duì)象的關(guān)系,以實(shí)現(xiàn)初步降維的效果。倒排表是將文檔對(duì)象中的特征詞作為劃分標(biāo)準(zhǔn),將文檔對(duì)象進(jìn)行聚合的數(shù)據(jù)結(jié)構(gòu)[9]。利用倒排表可以為后續(xù)基于劃分的聚類(lèi)算法初步聚類(lèi)進(jìn)行數(shù)據(jù)相關(guān)性準(zhǔn)備。

        在初步聚類(lèi)過(guò)程中,需要計(jì)算文檔對(duì)象間的相似度,由于在算法中文檔是以向量的形式表示,所以計(jì)算文檔對(duì)象間的相似度通常采用向量間的余弦?jiàn)A角公式,即

        Sim(D1,D2)=(∑ni=1x1ky2k)/(∑ni=1x21k∑ni=1y22k)

        式中,x1k和y2k分別表示向量D1和D2中的元素;如果Sim(D1,D2)的值越大,那么向量D1和D2之間的相似度就會(huì)越高。

        初始聚類(lèi)是按照一定的方法,選擇反倒排表的文檔對(duì)象,然后進(jìn)行歸類(lèi)處理。初始聚類(lèi)的目的是把文檔對(duì)象進(jìn)行劃分,然后放入文檔集合中,這些文檔集合是全劃分,所有文檔集合間沒(méi)有重疊。初始聚類(lèi)算法流程如下:

        1)在反倒排表的文檔對(duì)象中,把特征詞進(jìn)行關(guān)聯(lián)處理,再把進(jìn)行關(guān)聯(lián)處理后的文檔集合以權(quán)重值為依據(jù)進(jìn)行聚類(lèi)中心點(diǎn)的計(jì)算。

        2)應(yīng)用余弦?jiàn)A角公式對(duì)文檔對(duì)象和文檔集合中心點(diǎn)相似度進(jìn)行計(jì)算,從而將該文檔對(duì)象劃入與其相似度最大的文檔集合中。

        3)在所有包含該文檔對(duì)象的文檔集合中刪除該文檔。

        在二次聚類(lèi)過(guò)程中,需要對(duì)初步聚類(lèi)的劃分結(jié)果再次聚類(lèi),達(dá)到最終的穩(wěn)定聚類(lèi)結(jié)果。二次聚類(lèi)的基本流程如下:

        1)計(jì)算初步聚類(lèi)后劃分的每個(gè)文檔集合的中心點(diǎn)。

        2)通過(guò)基于層次的聚類(lèi)算法對(duì)初步聚類(lèi)結(jié)果集進(jìn)行二次聚類(lèi)計(jì)算。

        3)把二次聚類(lèi)的結(jié)果合并在一起,最終實(shí)現(xiàn)在相同類(lèi)集合中存放的文檔對(duì)象內(nèi)容都是相同的,不同類(lèi)的結(jié)合中存放的文檔內(nèi)容不同,并且每個(gè)文檔只能歸屬到一個(gè)類(lèi)。

        3Hadoop的分布式文本聚類(lèi)算法實(shí)現(xiàn)

        在Hadoop的分布式文本聚類(lèi)算法中,分布式應(yīng)用程序主要包括Mapper和Reducer兩部分。Mapper負(fù)責(zé)處理由InputFormat切割成的數(shù)據(jù)分片,然后通過(guò)Inputformat提供的記錄讀取器將輸入解析成鍵值對(duì)的形式提供給Mapper部分中的Map函數(shù)[10]。經(jīng)過(guò)map處理后的數(shù)據(jù)仍會(huì)以鍵值對(duì)的形式輸出[1116]。Mapper部分的輸出將分發(fā)到各個(gè)Reducer部分,在此過(guò)程中,Reducer部分為了對(duì)Mapper的輸出進(jìn)行并行處理,需要對(duì)Mapper的輸出進(jìn)行劃分和分割處理,然后在相同的Reducer上把相同的鍵的輸出進(jìn)行分配,最后要實(shí)現(xiàn)把輸入的鍵和與鍵對(duì)應(yīng)的值在Reducer部分進(jìn)行疊加結(jié)合。數(shù)據(jù)經(jīng)過(guò)Reducer部分處理后會(huì)繼續(xù)以鍵值對(duì)的形式輸出[1720]。該算法的具體步驟如下:

        1)將文檔數(shù)據(jù)集合保存到分布式Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)文件系統(tǒng)中作為輸入數(shù)據(jù),在Map中利用正則表達(dá)式對(duì)值進(jìn)行歸一化,然后使用分詞器對(duì)值進(jìn)行分詞操作。Reduce的輸入是Map的輸出的集合,Reduce把相同的key匯總后,再把相同的key的value值相加,得到特征詞語(yǔ)在該文檔中出現(xiàn)的次數(shù)。

        2)以1)的Reduce輸出為Map的數(shù)據(jù)輸入,計(jì)算每個(gè)文檔中特征詞語(yǔ)在哪些文檔中出現(xiàn)過(guò),Reduce部分的輸入將作為Map的輸出,計(jì)算文檔中特征詞語(yǔ)出現(xiàn)的頻率,進(jìn)而通過(guò)權(quán)重計(jì)算公式獲得每個(gè)特征詞語(yǔ)在每一個(gè)文檔中的加權(quán)權(quán)重值。將全部特征詞語(yǔ)進(jìn)行權(quán)重計(jì)算,對(duì)權(quán)重值小的詞語(yǔ)消去,進(jìn)行降維。

        3)以2)的Reduce輸出作為Map部分的輸入,通過(guò)Map的處理對(duì)中間結(jié)果的表達(dá)形式進(jìn)行格式轉(zhuǎn)換,Reduce的輸入為Map的輸出的集合,對(duì)value的集合進(jìn)行合并。

        4)以3)的Reduce輸出為Map部分的輸入,以文本特征詞為鍵,以文檔的編號(hào)為值,Reducer的輸入為Mapper輸出的集合,對(duì)文檔號(hào)進(jìn)行合并。

        5)Map的數(shù)據(jù)輸入是以4)的Reduce輸出為準(zhǔn),并且key值取決于文檔號(hào),value值取決于特征詞語(yǔ),Reduce的輸入為Mapper輸出的集合,對(duì)特征詞語(yǔ)進(jìn)行合并。

        6)以5)中的Reduce部分的輸出作為Map的輸入,對(duì)文檔編號(hào)為docId的文檔進(jìn)行權(quán)重關(guān)聯(lián),從而得到文檔編號(hào)為docId的文檔中特征詞的權(quán)重集合,然后通過(guò)反倒排表關(guān)聯(lián)對(duì)鍵值對(duì)中的所有特征詞進(jìn)行關(guān)聯(lián),并通過(guò)得出的特征詞關(guān)聯(lián)文檔的集合,對(duì)文檔集合的中心點(diǎn)進(jìn)行計(jì)算,并利用余弦公式計(jì)算中心點(diǎn)與文檔編號(hào)為docId的文檔間的相似度,從中找到相似度最大的文檔集合。最后以該文檔集合所對(duì)應(yīng)的特征詞為鍵,以該文檔編號(hào)docId為值。Reduce部分中以Map的輸出為Reduce的輸入,完成對(duì)值集合的合并。

        7)Map的輸入通過(guò)6)中的Reduce部分輸出得出,首先建立空集合,如果第1個(gè)文檔集合首先被輸入,那么就在建立的空集合中把第1個(gè)文檔集合添加進(jìn)來(lái)。如果輸入不是第1個(gè)文檔集合,則與已有集合中的類(lèi)進(jìn)行相似度比較,進(jìn)行比較之后的相似度的值如果超過(guò)了設(shè)定的閾值,那么就在已有的文檔集合中把進(jìn)行比較的類(lèi)的文檔添加進(jìn)來(lái),原來(lái)的類(lèi)將會(huì)被新合并的類(lèi)所取代,如果進(jìn)行比較的相似度的值沒(méi)有超過(guò)設(shè)定的閾值,那么就建立一個(gè)新的類(lèi),并把新的類(lèi)添加到已有的集合中。Reduce部分的輸入作為Map部分的輸出,在Reduce部分中對(duì)所有文檔集合進(jìn)行合并,直到所有文檔集合都添加到類(lèi)集合中。至此,整個(gè)分布式文檔聚類(lèi)算法結(jié)束。

        4實(shí)驗(yàn)與分析

        本文以10萬(wàn)余條電力信息系統(tǒng)運(yùn)維數(shù)據(jù)為數(shù)據(jù)源,從3個(gè)方面對(duì)設(shè)計(jì)的分布式聚類(lèi)算法和傳統(tǒng)聚類(lèi)算法的性能表現(xiàn)進(jìn)行測(cè)試,這些數(shù)據(jù)具有高維和稀疏性等特點(diǎn)。

        在同一分布式集群節(jié)點(diǎn)數(shù)量保持不變的情況下,分別使用10 000,40 000,70 000,100 000條測(cè)試數(shù)據(jù),計(jì)算所需時(shí)間的增減關(guān)系。不同數(shù)量級(jí)的數(shù)據(jù)對(duì)傳統(tǒng)聚類(lèi)算法和分布式聚類(lèi)算法的性能測(cè)試結(jié)果如圖3所示。由圖3可以看出,當(dāng)集群節(jié)點(diǎn)數(shù)量穩(wěn)定時(shí),數(shù)據(jù)量雖然增加,但是系統(tǒng)運(yùn)行時(shí)間卻在減少,而且在相同數(shù)據(jù)量的情況下,本文設(shè)計(jì)的分布式聚類(lèi)算法所需時(shí)間要低于傳統(tǒng)聚類(lèi)算法。

        保持測(cè)試數(shù)據(jù)量不變,通過(guò)分布式集群節(jié)點(diǎn)數(shù)量的變化,測(cè)試處理時(shí)間增量的增減關(guān)系。使用不同集群節(jié)點(diǎn)數(shù)量對(duì)傳統(tǒng)聚類(lèi)算法和分布式聚類(lèi)算法進(jìn)行測(cè)試,不同節(jié)點(diǎn)的數(shù)量運(yùn)行時(shí)間如圖4所示。

        由圖4可以看出,測(cè)試數(shù)據(jù)總量保持不變,隨著分布式集群節(jié)點(diǎn)數(shù)量的增加,系統(tǒng)運(yùn)行時(shí)間逐漸減少,而且在相同集群節(jié)點(diǎn)數(shù)量的情況下,本文設(shè)計(jì)的分布式聚類(lèi)算法所需時(shí)間要低于傳統(tǒng)的聚類(lèi)算法。

        以50 000條數(shù)據(jù)集分別對(duì)本文提出的分布式文本聚類(lèi)算法中的二次聚類(lèi)步驟分別進(jìn)行測(cè)試,查看在不同分布式集群節(jié)點(diǎn)的數(shù)量下,時(shí)間的增減關(guān)系。初步聚類(lèi)算法實(shí)現(xiàn)所消耗時(shí)間如圖5所示,二次聚類(lèi)算法實(shí)現(xiàn)所消耗時(shí)間如圖6所示。

        在分布式文本聚類(lèi)算法計(jì)算過(guò)程中,如果分布式集群節(jié)點(diǎn)數(shù)量保持不變,隨著處理的數(shù)據(jù)數(shù)量增加,系統(tǒng)運(yùn)行需要的時(shí)間減少;在處理數(shù)據(jù)數(shù)量不變的情況下,聚類(lèi)算法需要的時(shí)間隨著分布式集群節(jié)點(diǎn)數(shù)量的增加而呈遞減變化。從兩個(gè)聚類(lèi)步驟的時(shí)間復(fù)雜度測(cè)試算法中可以看出,在兩個(gè)聚類(lèi)步驟的時(shí)間增量上,分布式文本聚類(lèi)算法呈遞減變化。

        5結(jié)束語(yǔ)

        本文設(shè)計(jì)的分布式聚類(lèi)算法通過(guò)Hadoop分布式平臺(tái)來(lái)實(shí)現(xiàn),對(duì)運(yùn)維系統(tǒng)中咨詢的關(guān)鍵問(wèn)題進(jìn)行內(nèi)容提取,利用聚類(lèi)算法從海量數(shù)據(jù)中識(shí)別出關(guān)鍵信息,自動(dòng)統(tǒng)計(jì)出用戶常見(jiàn)問(wèn)題及熱點(diǎn)問(wèn)題,用以支撐決策及運(yùn)維服務(wù)的智能化運(yùn)轉(zhuǎn),借助大數(shù)據(jù)中蘊(yùn)含的價(jià)值和動(dòng)力促進(jìn)企業(yè)服務(wù)水平不斷提升,具有較高的實(shí)用價(jià)值和理論意義,對(duì)于海量數(shù)據(jù)的聚類(lèi)算法的執(zhí)行效率將是下一步研究的主要問(wèn)題。

        參考文獻(xiàn):

        [1]王繼成, 潘金貴, 張福炎. Web 文本挖掘技術(shù)研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2000, 37(5): 513520.

        [2]吳啟明, 易云飛. 文本聚類(lèi)綜述[J]. 河池學(xué)院學(xué)報(bào), 2008, 28(2): 2830.

        [3]毛國(guó)君, 段立娟, 王實(shí). 數(shù)據(jù)挖掘原理與算法[M]. 北京: 清華大學(xué)出版社, 2005.

        [4]Zhang T, Rramakrishoan R, Livny M. An Efficient Data Clustering Method for Very Large Databases [C]//In Procof ACMSIGMOD International Conference on Management of Data. Canada: ACM, 1996: 103114.

        [5]Aggarwal C, Han J, Yu P S, et al. A Framework for Projected Clustering of High Dimensional Data Streams[C]//13th International Conference on Very Large Databases. Endowment: VLDB, 2004: 852863.

        [6]胡可云, 田鳳占, 黃厚寬. 數(shù)據(jù)挖掘理論與應(yīng)用[M]. 北京: 清華大學(xué)出版社, 2008.

        [7]Fmurtagh S. A Survey of Recent Advances in Hierarchical Clustering Algorithms[J]. The Computer Journal, 1983, 26(4): 354359.

        [8]薛貴榮. 數(shù)據(jù)挖掘[M]. 北京: 清華大學(xué)出版社, 2007.

        [9]劉務(wù)華, 羅鐵堅(jiān), 王文杰. 文本聚類(lèi)算法的質(zhì)量評(píng)價(jià)[J]. 中國(guó)科學(xué)院研究生院學(xué)報(bào), 2006, 23(5): 640646.

        [10]Klusch M, Lodi S, Moro G. Distributed Clustering Based on Sampling Local Density Estimates[C]//Eighteenth International JointConference on Artificial Intelligence. London: Morgan Kaufmann Publishers, 2003: 485490.

        [11]欒亞建, 黃翀民, 龔高晟. Hadoop平臺(tái)的性能優(yōu)化研究[J]. 計(jì)算機(jī)工程, 2010, 36(14): 262263.

        [12]向小軍, 高陽(yáng), 商琳, 等. 基于Hadoop平臺(tái)的海量文本分類(lèi)的并行化[J]. 計(jì)算機(jī)科學(xué), 2011, 38(10): 184188.

        [13]許丞, 劉洪, 譚良. Hadoop云平臺(tái)的一種新的任務(wù)調(diào)度和監(jiān)控機(jī)制[J]. 計(jì)算機(jī)科學(xué), 2013, 40(1): 112117.

        [14]楊來(lái), 史忠植, 梁帆, 等. 基于Hadoop云平臺(tái)的并行數(shù)據(jù)挖掘方法[J]. 系統(tǒng)仿真學(xué)報(bào), 2013, 25(5): 8694.

        [15]胡丹, 于炯, 英昌甜, 等. Hadoop平臺(tái)下改進(jìn)的LATE調(diào)度算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2014, 50(4): 8689.

        [16]陳明麗, 劉旭敏. Hadoop平臺(tái)下改進(jìn)的推測(cè)任務(wù)調(diào)度算法[J]. 傳感器與微系統(tǒng), 2017, 36(2): 134137.

        [17]劉莎, 譚良. Hadoop云平臺(tái)中基于信任的訪問(wèn)控制模型[J]. 計(jì)算機(jī)科學(xué), 2014, 41(5): 155163.

        [18]史文浩, 江國(guó)華, 秦小麟. 基于用戶信任值的HDFS訪問(wèn)控制模型研究[J]. 計(jì)算機(jī)科學(xué)與探索, 2016, 10(1): 2535.

        [19]宛婉, 周?chē)?guó)祥. Hadoop平臺(tái)的海量數(shù)據(jù)并行隨機(jī)抽樣[J]. 計(jì)算機(jī)工程與應(yīng)用, 2014, 50(20): 115118.

        [20]趙慶. 基于Hadoop平臺(tái)下的CanopyKmeans高效算法[J]. 電子科技, 2014, 27(2): 2931.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
        亚洲情a成黄在线观看动漫尤物| 久久久久人妻精品一区三寸| 超清纯白嫩大学生无码网站| 欧美第五页| 国产高潮精品一区二区三区av| 亚洲熟女少妇一区二区三区青久久 | 国产精品女人呻吟在线观看| 中文字幕 人妻熟女| 国产一区二区三区免费精品| 人日本中文字幕免费精品| 国产极品女主播国产区| 亚洲一本大道无码av天堂| 国产一起色一起爱| 日韩av一区二区不卡在线| 色一情一乱一伦一视频免费看| 少妇人妻偷人精品一区二区| 国产在线高清无码不卡| 一区二区三区日韩精品视频| 亚欧色一区w666天堂| 欧美国产亚洲日韩在线二区| 日本视频一区二区二区| 91久久精品国产综合另类专区| 西西人体444www大胆无码视频| 老色鬼永久精品网站| 日本免费三片在线视频| 国产成人av一区二区三区在线观看| 7777精品伊人久久久大香线蕉| 91极品尤物国产在线播放| 人妻少妇精品视频专区二区三区| 国产日产精品一区二区三区四区的特点| 国产成人久久综合热| 精品国精品自拍自在线| 成年丰满熟妇午夜免费视频| 亚洲av无码片在线观看| 欧美—iGAO视频网| 亚洲乱码中文字幕视频| 少妇太爽了在线观看免费视频| 中文字幕无码专区一VA亚洲V专| 午夜视频在线观看日本| 99久久婷婷国产综合亚洲| 一本色道久久99一综合|