亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

采用分布式DBSCAN算法的用電行為分析

2018-07-04 13:30:08趙永彬王佳楠

小型微型計算機系統(tǒng) 2018年5期

趙永彬,陳碩,劉明,王佳楠,賁馳

1(國網(wǎng)遼寧省電力有限公司信息通信調(diào)度監(jiān)控中心,沈陽 110004)2(中國科學(xué)院沈陽計算技術(shù)研究所,沈陽 110168)3(中國科學(xué)院大學(xué),北京 100049)4(國家電網(wǎng)東北電力調(diào)控分中心,沈陽 110180)

1 引言

作為電力系統(tǒng)的主要參與者,用戶個體的實時用電行為是評估電力系統(tǒng)當(dāng)前所處的運行狀態(tài)的重要參考依據(jù).根據(jù)用戶的實時用電量數(shù)據(jù)可以實現(xiàn)對用戶用電行為特征的提取建模,基于用電行為特征的分析結(jié)果可以滿足包括異常用電行為的識別、用戶類型的評級、電網(wǎng)整體運行狀態(tài)的評估等多個方面的分析需求[1].從而為電力資源調(diào)度、售電定價等電力系統(tǒng)運營策略的制定調(diào)整提供準(zhǔn)確科學(xué)的數(shù)據(jù)支持,進一步提高電力企業(yè)的運營水平.

對于省級電力公司而言,其業(yè)務(wù)所涉及的用戶數(shù)量已達到千萬戶的數(shù)量級,每小時將產(chǎn)生上百GB的實時用電量數(shù)據(jù).以Strom、Spark為代表的分布式計算系統(tǒng)憑借著其高效性、高可靠性、高可拓展性的優(yōu)勢[2],在滿足系統(tǒng)計算資源需求的同時,提供了高效且易于開發(fā)的分布式數(shù)據(jù)處理框架,為大規(guī)模數(shù)據(jù)的集中處理和快速分析提供了平臺保證.

對于用電行為等無法進行明確類別劃分的樣本數(shù)據(jù),適用于聚類等無監(jiān)督學(xué)習(xí)的分析方式,根據(jù)樣本點在整個樣本空間的分布情況,實現(xiàn)對各樣本點所屬的類別的劃分.相較于如k-means等基于劃分的聚類算法,DBSCAN等基于密度的聚類算法能夠克服局部不收斂、聚類結(jié)果易受初始設(shè)定影響等局限性[3].將聚類算法的分析思想與分布式計算框架的處理流程相結(jié)合,進一步提高算法的處理效率,為大規(guī)模數(shù)據(jù)的處理分析提供了重要解決途徑.

本文采用基于密度聚類的DBSCAN算法實現(xiàn)對用戶用電行為類型的標(biāo)注,根據(jù)標(biāo)注的離群點識別異常用電行為.將DBSCAN密度可達的搜索合并思想與區(qū)域劃分、聚類合并等層次聚類的策略相結(jié)合[4],使用Spark分布式內(nèi)存計算框架所提供的處理架構(gòu)實現(xiàn)聚類算法的并行化,提高算法的處理規(guī)模.將各子簇中的邊界樣本作為本簇的特征點,降低聚類合并過程中的計算開銷,進一步提高分布式DBSCAN算法的效率.最后,基于實際的用電量數(shù)據(jù)驗證分布式DBSCAN算法在數(shù)據(jù)處理規(guī)模、算法執(zhí)行效率及準(zhǔn)確性上的優(yōu)勢.

2 行為特征提取與分析平臺選擇

為保證電網(wǎng)運營狀態(tài)的準(zhǔn)確實時監(jiān)控,電力公司以秒級的時間粒度讀取每一個用戶的實時用電量數(shù)據(jù),而單純的用電量數(shù)值數(shù)據(jù)無法準(zhǔn)確直觀的反應(yīng)用戶真實的用電行為.考慮到省級電力公司千萬級的用戶規(guī)模,在對用戶用電行為特征進行提取分析時,應(yīng)選用能夠滿足大數(shù)據(jù)量和高實時性處理性能需求的數(shù)據(jù)處理分析平臺.

2.1 用電行為特征的提取構(gòu)建

作為一種階段性的狀態(tài)描述,用電行為特征可以由用戶一段時間內(nèi)的實時用電量數(shù)據(jù)進行提取構(gòu)建.因此,本文選擇以5 min為一個時間窗,根據(jù)當(dāng)前時間窗內(nèi)的實時用電量數(shù)據(jù)完成用戶本時間窗內(nèi)用電行為特征的抽取建模，見表1.

表1 用電行為特征參數(shù)Table 1 Characteristic parameters of power consumption

為實現(xiàn)對用戶用電行為的全面描述,本文采用各時間窗內(nèi)實時用電量的平均值、方差、最大值、最小值4項統(tǒng)計指標(biāo),各時間窗內(nèi)以1分鐘為采樣間隔的瞬時用電量及變化率各5條樣本數(shù)據(jù)以及描述用電量數(shù)據(jù)變化波動情況的10個頻域特征,構(gòu)造出包含24維特征的用戶用電行為特征向量實現(xiàn)對用戶單個時間窗內(nèi)用電行為的描述.其中,描述用電量變化情況的頻域特征由時間窗內(nèi)的實時用電量經(jīng)過離散傅里葉變換(DFT)[5]后的結(jié)果合并提取后獲得.

對于時間窗內(nèi)N個(0≤n≤N-1)實時用電量數(shù)據(jù)構(gòu)成的有限長序列x(n),它的離散傅里葉變換x(k)仍為一個長度為N(0≤k≤N-1)的頻域有限長序列.則有:

(1)

將經(jīng)過離散傅里葉變換后的序列中每個頻域分量wi對應(yīng)的幅值記作ai.將各頻域分量進行排序后等距劃分為10個頻域區(qū)間,則描述實時用電量變化情況的10個頻域特征值由各頻域區(qū)間內(nèi)所有頻域分量的幅值進行求和后得到.

為避免噪聲數(shù)據(jù)和缺失值的影響,對每個用戶各時間窗內(nèi)的實時用電量數(shù)據(jù)進行等距分箱,在分箱內(nèi)對數(shù)據(jù)進行抽樣平滑等預(yù)處理操作.最終,對于每個時間窗內(nèi)保留50個數(shù)據(jù)點,用以進行特征的提取和構(gòu)建.

2.2 基于流計算的特征提取平臺

作為典型的Master-Worker架構(gòu)的分布式流計算系統(tǒng),Apache Storm大吞吐量、高可擴展性、高容錯性、高可靠性和易操作性的性能優(yōu)勢[6],使其能夠高效的完成對大規(guī)模用戶高時間密度的實時用電量數(shù)據(jù)進行的整合、清洗及特征構(gòu)建等一系列操作.

圖1 Storm內(nèi)部處理邏輯圖Fig.1 Storm internal processing logic diagram

在如圖1所示的Storm流作業(yè)處理邏輯中,Storm將數(shù)據(jù)處理操作劃分為用以進行數(shù)據(jù)接入的Spout和用以進行數(shù)據(jù)處理的Bolt兩大類.結(jié)合Kafka分布式消息隊列[7],將持續(xù)產(chǎn)生的實時用電量數(shù)據(jù)根據(jù)其所對應(yīng)的用戶來源劃分入對應(yīng)的Topic中,實現(xiàn)數(shù)據(jù)的并行化接入.

為特征提取過程的數(shù)據(jù)劃分、分箱平滑、抽樣、均值方差統(tǒng)計、頻域特征構(gòu)建、特征歸一化等一系列操作定義對應(yīng)的Bolt邏輯.同時,設(shè)置Bolt之間的數(shù)據(jù)傳遞方向,在提高數(shù)據(jù)并行化處理效率的同時,實現(xiàn)處理邏輯的高效復(fù)用.

2.3 基于內(nèi)存計算的行為分析平臺

Spark是由加州大學(xué)伯克利分校AMP實驗室開發(fā)的分布式內(nèi)存計算系統(tǒng),憑借與Hadoop的HDFS和YARN具有良好的兼容特性,使其擁有能夠高效可靠的處理大規(guī)模數(shù)據(jù)的性能優(yōu)勢.基于彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets,RDD)的抽象概念實現(xiàn)大規(guī)模數(shù)據(jù)在集群內(nèi)存中的統(tǒng)一管理和處理分析[8],解決了傳統(tǒng)MapReduce分布式數(shù)據(jù)處理框架將中間結(jié)果數(shù)據(jù)保留入磁盤,不適合處理機器學(xué)習(xí)算法中大規(guī)模迭代運算的性能短板.

在Spark中,RDD被定義為只讀的、分區(qū)記錄集合,可以通過程序中的容器對象、文件系統(tǒng)中的序列化文件以及其他RDD等多種來源進行構(gòu)造.通過定義合理的RDD分區(qū)策略,提高對RDD轉(zhuǎn)換(Transformation)和動作(Action)兩類基本操作的處理效率.

3 DBSCAN聚類算法的分布式實現(xiàn)

基于密度的聚類算法具有能夠挖掘出任意形狀的聚類簇、避免噪聲數(shù)據(jù)對聚類結(jié)果和收斂效率產(chǎn)生影響的性能優(yōu)勢.為適應(yīng)大規(guī)模數(shù)據(jù)集的分析處理需求,需要采用分布式計算的策略提升算法對大規(guī)模數(shù)據(jù)的處理能力.為進一步提高算法的性能,通過對聚類簇生成過程中樣本點的搜索合并策略進行優(yōu)化,降低計算過程中的時間和存儲開銷.

3.1 DBSCAN聚類算法的核心思想

DBSCAN聚類算法通過評估各樣本點之間的密度可達性,將所有密度相連的樣本點構(gòu)成一個獨立的聚類簇[9],并將每個聚類簇的大小與算法設(shè)置的參數(shù)閾值MinPts進行比較,將樣本個數(shù)小于MinPts的簇標(biāo)記為噪聲簇.

對于每一個樣本點,其E-鄰域內(nèi)即距離小于鄰域半徑Eps的所有樣本點都是密度可達的.在樣本空間中常用的距離衡量標(biāo)準(zhǔn)為歐氏距離,但也可以根據(jù)樣本分布特征選用其他的距離衡量標(biāo)準(zhǔn).同時,密度可達性具備可傳遞性,即對于圖2中的樣本點p,與其E-鄰域內(nèi)存在的樣本點m是密度可達的.同理,樣本點q與m也為密度可達的,則樣本點p與樣本點q之間也為密度可達的.

圖2 密度可達性原理圖Fig.2 Density-reachable diagram

由于密度可達為單向的傳遞概念,圖2中樣本點o到樣本點s和r均為密度可達的,則認為樣本點s與r為密度相連的.因此,DBSCAN聚類算法在選定未進行類別標(biāo)注的樣本點后,根據(jù)算法選用的距離衡量標(biāo)準(zhǔn),將E-鄰域內(nèi)所有密度可達的樣本點加入聚類簇后,根據(jù)密度可達性的傳遞性特點將新加入點的E-鄰域內(nèi)所有的樣本加入聚類簇,直至找不到新的樣本點加入,最終令所有的樣本點與所屬簇中的所有樣本點均為密度相連的.

通過對每一個簇中新加入樣本點的E-鄰域進行搜索拓展,DBSCAN算法能夠挖掘出任意形狀的聚類簇.由于DBSCAN算法所生成聚類簇的樣本點個數(shù)至少為1,因此其能確保每一個樣本點都擁有自己對應(yīng)的類別標(biāo)注,通過設(shè)置合理的MinPts參數(shù),將密度不符合要求的聚類簇標(biāo)記為噪聲,使算法能夠更好的識別噪聲數(shù)據(jù).

3.2 DBSCAN算法的分布式計算過程

當(dāng)單臺計算機的存儲資源遠遠無法滿足大規(guī)模數(shù)據(jù)集的處理需求時,傳統(tǒng)的DBSCAN算法無法保證對所有新加入樣本點的E-鄰域進行全面的搜索.層次聚類基于分治策略的算法思想將樣本空間細分為多個子空間,在子空間內(nèi)完成聚類分析后,再對各個子空間中獲得的聚類簇進行合并獲得最終的聚類結(jié)果[10],為實現(xiàn)大規(guī)模數(shù)據(jù)的聚類分析提供了有效的解決思路.

對于擁有N維特征的無標(biāo)注樣本集,將其每一維特征進行2k等分后可以獲得2kN個樣本子空間.在每一個樣本子空間中,使所有密度相連的樣本構(gòu)成一個聚類簇,并將各個樣本子空間中的聚類子簇依次進行合并得到最終的聚類結(jié)果.因此,DBSCAN算法的分布式實現(xiàn)過程如下所示:

1)設(shè)置合適的算法參數(shù):Eps和MinPts,并定義樣本空間中的距離衡量標(biāo)準(zhǔn)Distance(p,q)

2)將每個樣本點i的初始簇類別標(biāo)注記為ci,并對N維樣本特征的值域分別進行2k等分,獲得最初的樣本子空間集合S={s1,s2,…,st}并保證初始樣本子空間各維度的寬度大于所設(shè)置的Eps.

3)將各聚類簇根據(jù)其所包含樣本點所屬的樣本子空間進行分組,分別在各樣本子空間內(nèi)進行聚類簇的合并.

4)對于每一個樣本子空間st,若st中存在兩個分屬于聚類簇ca和cb的樣本點是密度相連的,則將兩個聚類簇的類別標(biāo)注統(tǒng)一為ca.

7)將樣本點個數(shù)小于MinPts的聚類簇的類別標(biāo)簽標(biāo)注為噪聲數(shù)據(jù)類別,獲得最終的聚類結(jié)果.

3.3 基于邊界特征提高聚類合并效率

在分布式DBSCAN聚類算法中,兩個不同類別標(biāo)注的聚類簇合并依據(jù)為存在兩個類別不同的樣本點是密度可達的.在已有的分布式DBSCAN聚類算法的實現(xiàn)方式中,通常采用增量合并的方式[11],即在合并各樣本子空間中的聚類簇時,令某單個樣本子空間的聚類簇作為合并基準(zhǔn),再加入其他樣本子空間中的聚類簇,實現(xiàn)聚類簇的合并.在聚類簇合并檢測時,需要計算待加入聚類簇中所有的樣本點與基準(zhǔn)聚類簇樣本點的密度連通性,會產(chǎn)生較大的計算開銷.

圖3 分布式DBSCAN聚類簇合并原理圖Fig.3 Cluster merging diagram of distributed DBSCAN

在圖3所示的聚類簇合并過程中,檢測來自于不同樣本子空間的兩個聚類簇能否進行合并時,對于每一個簇C只需保留到樣本子空間邊界E={e1,e2,…,es}的距離小于Eps的樣本點,即P={p1|distance(pi,es)

盡管層次聚類分治合并的算法思想與分布式計算框架相結(jié)合能夠?qū)崿F(xiàn)對大規(guī)模數(shù)據(jù)的分析處理,但在聚類簇合并過程中會產(chǎn)生巨大的存儲開銷,即由單個節(jié)點完成對來源于多個節(jié)點數(shù)據(jù)的合并匯總.由于兩個聚類簇的合并依據(jù)為其特征點集合之間是否存在密度相連的樣本點,因此在聚類合并時,只需將各聚類簇的編號及其特征樣本集合作為輸入,獲得聚類簇原編號與新編號間的對應(yīng)關(guān)系及新聚類簇的特征點集合.在全局中只需維護樣本點ID與其所屬聚類簇編號的對應(yīng)關(guān)系,在每次聚類合并過程后,更新各樣本所屬的類別,僅保留各聚類簇特征點集合內(nèi)樣本點的特征值.

相較于原有分布式DBSCAN算法所采用的增量合并策略,在聚類合并時僅比對特征點集合中樣本間的密度連通性,減少了不必要的計算操作.同時,也降低了層次聚類策略在聚類合并階段的存儲需求,避免層次聚類的性能瓶頸.在簇內(nèi)樣本點較為分散或?qū)Ω蠓秶鷺颖咀涌臻g進行合并等非特征點比重較大的情況下,對聚類合并過程的優(yōu)化更為明顯.

3.4 基于Spark實現(xiàn)高效的迭代運算

通過將數(shù)據(jù)處理過程抽象為對RDD的操作,Spark在實現(xiàn)對數(shù)據(jù)分布式處理的同時,將數(shù)據(jù)處理過程中的中間結(jié)果存放在內(nèi)存中,降低了對數(shù)據(jù)進行分布式迭代分析時的數(shù)據(jù)讀寫開銷,使計算分析過程能夠高效進行.

在如圖4所示的算法實現(xiàn)過程中,RDD1和RDD4由存放在HDFS上的原始數(shù)據(jù)集文件轉(zhuǎn)換而成.其中,RDD4中的每個元素以的格式存放各樣本點所屬的類別編號.RDD1中則以>的形式存放各個聚類簇所對應(yīng)的特征點.在進行算法的初始化時,每個樣本點被分配單獨的聚類簇編號,每個聚類簇的特征點為與之對應(yīng)的樣本點.

圖4 分布式DBSCAN算法在Spark上的實現(xiàn)過程Fig.4 Process of distributed DBSCAN on Spark

在設(shè)置算法參數(shù)Eps和MinPts的同時,確定樣本空間的距離衡量標(biāo)準(zhǔn)Distance(p,q)和特征劃分粒度2k.對RDD1進行g(shù)roupBy操作,將各聚類簇根據(jù)其特征點的位置分入對應(yīng)的樣本子空間后生成RDD2.其中,RDD2中的各個元素以>>的形式存放每個樣本子空間中各聚類簇的編號及其特征點.

對RDD2中的各元素進行map操作,即分別對每個樣本子空間內(nèi)的聚類簇進行合并,獲得聚類合并后的結(jié)果.并以>>的元素格式生成RDD3,存儲各樣本子空間內(nèi)的聚類簇經(jīng)過聚類合并后的類別編號及原始編號.

將RDD3與RDD4進行以原始類別編號進行right join操作,更新類別編號發(fā)生改動的樣本點,并以RDD4的原有元素形式保留操作結(jié)果作為新的RDD4.對RDD3按照新的類別編號進行reduce操作,并按照當(dāng)前樣本子空間的邊界更新簇的特征點,僅保留擁有特征點的聚類子簇,以RDD1的元素形式保留待合并的聚類子簇作為新的RDD1.

4 實驗結(jié)果分析與算法性能評估

本文采用的實驗環(huán)境為由5臺PC機構(gòu)成的小型分布式集群.其中,每臺PC機均配備Intel Core I5 6500處理器和8G內(nèi)存的存儲計算資源.集群中部署了包括Kafka、Storm、Hadoop、Spark等完成分布式存儲計算任務(wù)的系統(tǒng)組件.

為檢驗文中提出的分布式DBSCAN聚類算法在較大規(guī)模數(shù)據(jù)集上的分析效果和處理能力.本文選用某省電力公司10萬戶用戶在2016年6月10日的用電高峰時段內(nèi)1小時的實時用電量數(shù)據(jù),并將其按時間順序依次寫入Kafka中相應(yīng)的話題.以Kafka為數(shù)據(jù)源調(diào)用Storm流處理作業(yè),以5 min為時間窗對每個用戶的實時用電量數(shù)據(jù)進行預(yù)處理及特征提取操作,獲得共計120萬條用電行為特征記錄,作為驗證實驗結(jié)果的原始數(shù)據(jù)集.

4.1 用電行為分析的實驗結(jié)果

使用本文提出的分布式DBSCAN聚類算法在Spark中對原始數(shù)據(jù)集進行聚類分析,從異常用電行為識別和用戶用電等級評估兩個方面的分析結(jié)果對算法結(jié)果的準(zhǔn)確性進行評估.當(dāng)算法的Eps參數(shù)和MinPts參數(shù)分別設(shè)為0.57和5時,原始數(shù)據(jù)集被劃分為5個聚類簇,以實現(xiàn)對5個用戶用電等級的對應(yīng).對于不屬于任何一個聚類簇的樣本,則統(tǒng)一被標(biāo)注為噪聲數(shù)據(jù).

表2 聚類標(biāo)注與實際用電等級對比Table 2 Comparison of cluster label and actual level

將每個用戶的12個時間窗對應(yīng)樣本中占比最大的樣本類別作為該用戶的類別標(biāo)注.分別統(tǒng)計各個聚類類別所對應(yīng)的用戶數(shù),與原有的用戶用電等級標(biāo)注進行對比.由表2中的對比結(jié)果可知,DBSCAN聚類算法對用戶類型的劃分結(jié)果與實際對應(yīng)的用電等級分布基本相同.

異常用電行為識別的準(zhǔn)確性則使用正確率(Precision)和召回率(Recall)兩個指標(biāo)進行衡量.將聚類結(jié)果中標(biāo)注的463個噪聲樣本點與各自對應(yīng)時間窗中是否出現(xiàn)異常用電行為的警告記錄進行比對,可以得到本算法在異常用電行為識別上的正確率為87.57%,召回率為94.81%.

由實驗結(jié)果可知,本文中的分布式DBSCAN聚類算法在用戶用電行為的分析上具有較高的準(zhǔn)確性.憑借基于密度的聚類策略,DBSCAN算法能夠根據(jù)樣本點的分布特性實現(xiàn)聚類,同時不易受到噪聲數(shù)據(jù)的影響,但結(jié)果中的類別數(shù)量由算法參數(shù)決定,需要調(diào)整參數(shù)才能獲得所需的類別數(shù)目.

4.2 改進分布式DBSCAN算法的性能評估

文中提出的分布式DBSCAN算法采用僅保留聚類簇邊界特征樣本點作為聚類合并依據(jù)的策略,降低不必要的計算開銷,從而提高聚類合并過程的效率.為檢驗該策略對算法性能的提升效果,本文將原有采用增量合并策略的分布式DBSCAN聚類算法與Spark MLlib庫中提供的分布式k-means算法[12]作為對比.分別保留原始數(shù)據(jù)集中30萬、60萬、90萬及120萬條用電行為特征記錄構(gòu)成不同規(guī)模的數(shù)據(jù)集用以驗證算法的性能.

在參數(shù)設(shè)定上,對于分布式k-means算法,將算法中對應(yīng)的類別參數(shù)K設(shè)為10,迭代輪次n設(shè)為1000,收斂閾值α設(shè)為0.05.對于分布式DBSCAN算法,將Eps設(shè)為0.57,MinPts設(shè)為5,對于每一維特征采取16等分,兩類算法的距離衡量標(biāo)準(zhǔn)均采用歐氏距離.

表3 各算法在不同規(guī)模數(shù)據(jù)集上的時間開銷Table 3 Time cost of each algorithm on different data sets

由表3中的實驗結(jié)果可知,盡管DBSCAN聚類算法在結(jié)果準(zhǔn)確性方面存在優(yōu)勢,但原有的分布式實現(xiàn)方式計算開銷較大.在處理中等規(guī)模的數(shù)據(jù)集時,分布式k-means算法具有較為明顯的性能優(yōu)勢.隨著數(shù)據(jù)集規(guī)模的進一步增大,改進的分布式DBSCAN聚類算法相較于原有實現(xiàn)方式的時間開銷增長幅度較小.因此,基于邊界特征的聚類簇合并優(yōu)化策略能夠有效地提高分布式DBSCAN算法的計算效率.

5 結(jié)束語

作為一種直接有效的數(shù)據(jù)分析手段,基于用戶的實時用電量數(shù)據(jù)提取出用戶的用電行為特征能夠為后續(xù)的行為分析提供更加準(zhǔn)確的數(shù)據(jù)支持.將DBSCAN聚類算法成熟的分析思想與分布式計算框架的性能優(yōu)勢相結(jié)合,提高算法對大規(guī)模數(shù)據(jù)集的處理能力.在算法分布式執(zhí)行的過程中制定合理有效的計算策略,省去不必要的對比計算,降低聚類合并過程中所需要的存儲開銷,進一步提高算法效率.

采用分布式DBSCAN算法能夠?qū)崿F(xiàn)對大規(guī)模用戶的用電行為類型進行較為準(zhǔn)確的劃分,達到對異常用電行為的識別和用戶等級的評估的目的.由于本文僅從實時用電量數(shù)據(jù)的統(tǒng)計特征、采樣特征和頻域特征三個方面進行行為特征構(gòu)建,今后的研究工作中,可以更進一步的拓展特征構(gòu)建的數(shù)據(jù)來源和特征指標(biāo),結(jié)合特征選擇算法保留最優(yōu)特征子集,使算法的分析結(jié)果更加準(zhǔn)確.

：

[1] Jiang Ling,Wang Xu-dong,Yu Jian-cheng,et al.Research on power usage Behavior analysis based on distributed computing [J].Computer Technology and Development,2016,26(12):176-181.

[2] Cheng Xue-qi,Jin Xiao-long,Wang Yuan-zhuo,et al.Survey on big data system and analytic technology [J].Journal of Software,2014,25(9):1889-1908.

[3] Jin Jian-guo.Review of clustering method [J].Computer Science,2014,41(b11):288-293.

[4] Yu Xiao-shan,Wu Yang-yang.Parallel text hierarchical clustering based on MapReduce [J].Journal of Computer Applications,2014,34(6):1595-1599.

[5] Xiong Yuan-xin,Chen Yun-ping.Research on definition of discrete fourier transform [J].Engineering Journal of Wuhan University,2006,39(1):89-91.

[6] Sun Da-wei,Zhang Guang-yan,Zheng Wei-min.Big data stream computing:technologies and instances [J].Journal of Software,2014,25(4):839-862.

[7] Niu Mu.A distributed cache and analysis platform for large scale streaming data based on Kafka[D].Changchun:Jilin University,2016.

[8] Wang Tao,Yang Yan,Teng Fei,et al.Distributed clustering ensemble based on RDDs [J].Journal of Chinese Computer Systems,2016,37(7):1434-1439.

[9] Li Shuang-qing,Mu Sheng-di.Improved DBSCAN algorithm and its application [J].Computer Engineering and Applications,2014,50(8):72-76.

[10] Hai Mo,Zhang Shu-yun,Ma Yan-lin.Algorithm review of distributed clustering problem in distributed environments [J].Application Research of Computers,2013,30(9):2561-2564.

[11] Tian Lu-qiang.Research and application on distributed clustering and incremental clustering based on DBSCAN [D].Beijing:Beijing University of Technology,2016.

[12] Likas Aristidis,Vlassis Nikos,J.Verbeek Jakob.The global K-means clustering algorithm [J].Pattern Recognition,2003,36(2):451-461.

附中文參考文獻：

[1] 蔣菱,王旭東,于建成,等.基于分布式計算的海量用電數(shù)據(jù)分析技術(shù)研究[J].計算機技術(shù)與發(fā)展,2016,26(12):176-181.

[2] 程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,2014,25(9):1889-1908.

[3] 金建國.聚類方法綜述[J].計算機科學(xué),2014,41(b11):288-293.

[4] 余曉山,吳揚揚.基于MapReduce的文本層次聚類并行化[J].計算機應(yīng)用,2014,34(6):1595-1599.

[5] 熊元新,陳允平.離散傅里葉變換的定義研究[J].武漢大學(xué)學(xué)報(工學(xué)版),2006,39(1):89-91.

[6] 孫大為,張廣艷,鄭緯民.大數(shù)據(jù)流式計算:關(guān)鍵技術(shù)及系統(tǒng)實例[J].軟件學(xué)報,2014,25(4):839-862.

[7] 牛牧.基于Kafka的大規(guī)模流數(shù)據(jù)分布式緩存與分析平臺[D].長春:吉林大學(xué),2016.

[8] 王韜,楊燕,滕飛,等.基于RDDs的分布式聚類集成算法[J].小型微型計算機系統(tǒng),2016,37(7):1434-1439.

[9] 李雙慶,慕升弟.一種改進的DBSCAN算法及其應(yīng)用[J].計算機工程與應(yīng)用,2014,50(8):72-76.

[10] 海沫,張書云,馬燕林.分布式環(huán)境中聚類問題算法研究綜述[J].計算機應(yīng)用研究,2013,30(9):2561-2564.

[11] 田路強.基于DBSCAN的分布式聚類及增量聚類的研究與應(yīng)用[D].北京:北京工業(yè)大學(xué),2016.