何清
(中國科學(xué)院計算技術(shù)研究所智能信息處理重點實驗室,北京100190)
所謂物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng),也有人把它縮寫成 CPS(cyber physics system),“The Internet of things”是對其直觀的解釋.物聯(lián)網(wǎng)實際上通過射頻識別(RFID)裝置、紅外感應(yīng)器、全球定位系統(tǒng)、激光掃描器等信息傳感設(shè)備,按約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)相連接,進行信息交換和通信,目標(biāo)是實現(xiàn)智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò),人們稱之為物聯(lián)網(wǎng)[1].
目前物聯(lián)網(wǎng)的現(xiàn)狀包括以下幾方面.
1)國內(nèi)比國外熱——行業(yè)需求旺盛.我國人口眾多,每一個行業(yè)所涉及的人員也比較多,因此行業(yè)需求比較旺盛.
2)政府比市場熱——跨部門、跨行業(yè).這是由我國的國情所決定的,因為物聯(lián)網(wǎng)涉及到跨部門、跨行業(yè)問題,面對這樣的難題,只有政府才有協(xié)調(diào)的能力.因此政府看到了物聯(lián)網(wǎng)技術(shù)發(fā)展的趨勢,并且正在主導(dǎo)物聯(lián)網(wǎng)的發(fā)展.
3)教育比科研熱——渴求技術(shù)和就業(yè)壓力.這種情況一個具體的表現(xiàn)就是有的高校已經(jīng)開始試圖設(shè)立物聯(lián)網(wǎng)專業(yè).物聯(lián)網(wǎng)專業(yè)所涉及的上下游技術(shù)比較多,所以可以說是一個相當(dāng)綜合的專業(yè).從追求科學(xué)技術(shù)方面和就業(yè)壓力方面看,對于物聯(lián)網(wǎng)方面的知識是渴望掌握的.
4)應(yīng)用比基礎(chǔ)熱——技術(shù)集成創(chuàng)新.因為物聯(lián)網(wǎng)應(yīng)該是以技術(shù)集成創(chuàng)新為基礎(chǔ)的,所以說目前的研究更多的是如何有效地集成多種技術(shù)和進行技術(shù)集成創(chuàng)新,因此應(yīng)用比基礎(chǔ)更熱門.
5)硬件比軟件熱——可見、可檢.目前可以看到傳感器及傳感器網(wǎng)絡(luò)是非常熱門的研究方向,并且這些相關(guān)的產(chǎn)品都是可見的,它的效果也是可檢的,因此目前大家看到的研究狀況是硬件比軟件熱.
6)采集比處理熱——存儲在先挖掘在后.物聯(lián)網(wǎng)的技術(shù)處理必須以信息、數(shù)據(jù)為基礎(chǔ),首先必須先采集信息,之后才會進行處理,存儲在先,挖掘在后,因此大家能看到的是采集比處理熱.
物聯(lián)網(wǎng)目前正面臨著以下一系列的挑戰(zhàn)[1].
1)物聯(lián)網(wǎng)的商業(yè)模式有待清晰:因為物聯(lián)網(wǎng)涉及到上下游的很多行業(yè),在這種情況下采用什么樣的商業(yè)模式,各行業(yè)如何去切分這塊蛋糕,是有待解決的問題.
2)物聯(lián)網(wǎng)的安全性、可靠性、可管理性有待加強.信息共享與保護隱私的矛盾未得到解決,這個問題在云計算方面已經(jīng)得到了很大的重視.我國在云安全方面也已經(jīng)投入了很多的資金和力量來解決這個問題.
3)物聯(lián)網(wǎng)行業(yè)性太強,其公眾性和公用性不足,目前的物聯(lián)網(wǎng)還沒有強大到讓公眾能夠用起來.
4)物聯(lián)網(wǎng)的產(chǎn)業(yè)鏈長但分散,每一環(huán)節(jié)的規(guī)模效益不夠.
5)技術(shù)上重視數(shù)據(jù)收集,而忽略數(shù)據(jù)挖掘與智能處理.其原因在于目前物聯(lián)網(wǎng)發(fā)展過程的第一階段就是要把它部署成一個物聯(lián)網(wǎng),通過這個建成的物聯(lián)網(wǎng)把數(shù)據(jù)收集上來,之后才會進行數(shù)據(jù)挖掘和智能處理.但是就總體規(guī)劃而言,必須首先認識到數(shù)據(jù)挖掘和智能處理是將來物聯(lián)網(wǎng)智能水平的一個衡量標(biāo)準(zhǔn).
應(yīng)該說發(fā)展物聯(lián)網(wǎng)的關(guān)鍵是看系統(tǒng)的智能體現(xiàn)在什么地方,只有突出智能服務(wù)的特征,才能建立起一個巨大的物聯(lián)網(wǎng)產(chǎn)業(yè).
物聯(lián)網(wǎng)的計算模式分為云計算模式和物計算模式2種,只有這2種模式有機地結(jié)合起來才能實現(xiàn)物聯(lián)網(wǎng)中所需的計算、控制和決策.
1)云計算模式.
云計算作為一種基于互聯(lián)網(wǎng)、大眾參與、提供服務(wù)方式的新型計算模式,其目的是實現(xiàn)資源分享與整合,其中計算資源是動態(tài)、可伸縮且被虛擬化的.大量復(fù)雜的計算任務(wù),如服務(wù)計算、變粒度計算、軟計算、不確定計算、人參與的計算乃至于物參與的計算,都是云計算所面臨的任務(wù)[2].云計算模式就是通過分布式的架構(gòu)采集物聯(lián)網(wǎng)中的數(shù)據(jù),然后采用上面的云計算模式集的方法進行數(shù)據(jù)和信息處理.此模式一般用于輔助決策的數(shù)據(jù)挖掘和信息處理過程,系統(tǒng)的智能主要體現(xiàn)在數(shù)據(jù)挖掘和處理上,需要較強的集中計算能力和高帶寬,但終端設(shè)備比較簡單[3].
2)物計算模式.
物計算模式更多的是基于嵌入式,強調(diào)實時控制,對終端設(shè)備的性能要求較高,系統(tǒng)的智能的外在表現(xiàn)主要在終端設(shè)備上;但這種智能是嵌入的,是智能信息處理結(jié)果的利用,不能建立在復(fù)雜的終端計算基礎(chǔ)上,對集中處理能力和系統(tǒng)帶寬要求比較低.
之所以在物聯(lián)網(wǎng)中采用云計算模式,原因就在于云計算事實上具備了很好的特性,是并行計算、分布式計算和網(wǎng)格計算的發(fā)展.而物聯(lián)網(wǎng)中就迫切需要這種分布式的并行,目前物聯(lián)網(wǎng)采用的云計算模式正是這種分布式并行計算模式,其主要原因是:1)低成本的分布式并行計算環(huán)境;2)云計算模式開發(fā)方便,屏蔽掉了底層;3)數(shù)據(jù)處理的規(guī)模大幅度提高;3)物聯(lián)網(wǎng)對計算能力的需求是有差異的,云計算的擴展性好,都能滿足這種差異性所帶來的不同需求;4)云計算模式的容錯計算能力還是比較強的,健壯性也比較強,在物聯(lián)網(wǎng)中,由于傳感器在數(shù)據(jù)采集過程的物理分布比較廣泛,這種容錯計算是非常必要的.
從物聯(lián)網(wǎng)的架構(gòu)來看,基本分為4層:感知層、傳輸層、信息處理層和決策控制層.
1)感知層:主要是通過傳感器實現(xiàn)對物品的識別和信息數(shù)據(jù)的采集.
2)傳輸層:通過現(xiàn)有的2G、3G以及未來4G通信網(wǎng)絡(luò)將信息進行可靠傳輸.
3)信息處理層:通過后臺系統(tǒng)進行智能信息處理,其中一個重要方面就是數(shù)據(jù)管理.
4)決策控制層:根據(jù)數(shù)據(jù)挖掘結(jié)果和預(yù)案庫來反饋控制和管理物聯(lián)網(wǎng),而數(shù)據(jù)挖掘是決策支持和過程控制的重要技術(shù)支撐手段.
互聯(lián)網(wǎng)將信息互聯(lián)互通,物聯(lián)網(wǎng)將現(xiàn)實世界的物體通過傳感器和互聯(lián)網(wǎng)連接起來,并通過云存儲、云計算實現(xiàn)云服務(wù).物聯(lián)網(wǎng)具有行業(yè)應(yīng)用的特征,依賴云計算對采集到的各行各業(yè)、數(shù)據(jù)格式各不相同的海量數(shù)據(jù)進行整合、管理、存儲,并在整個物聯(lián)網(wǎng)中提供數(shù)據(jù)挖掘服務(wù),實現(xiàn)預(yù)測、決策,進而反向控制這些傳感網(wǎng)絡(luò),達到控制物聯(lián)網(wǎng)中客觀事物運動和發(fā)展進程的目的.
數(shù)據(jù)挖掘是決策支持和過程控制的重要技術(shù)制成手段,它是物聯(lián)網(wǎng)中的重要一環(huán)[4].物聯(lián)網(wǎng)中的數(shù)據(jù)挖掘已經(jīng)從傳統(tǒng)意義上的數(shù)據(jù)統(tǒng)計分析、潛在模式的發(fā)現(xiàn)與挖掘,轉(zhuǎn)向物聯(lián)網(wǎng)中不可缺少的工具和環(huán)節(jié).
1)分布式并行整體數(shù)據(jù)挖掘.物聯(lián)網(wǎng)的計算設(shè)備和數(shù)據(jù)在物理上是天然分布的,因此不得不采用分布式并行數(shù)據(jù)挖掘,需要云計算模式.
2)實時高效的局部數(shù)據(jù)處理.物聯(lián)網(wǎng)任何一個控制端均需要對瞬息萬變的環(huán)境實時分析并做出反應(yīng)和處理,需要物計算模式和利用數(shù)據(jù)挖掘結(jié)果.
3)數(shù)據(jù)管理與質(zhì)量控制.多源、多模態(tài)、多媒體、多格式數(shù)據(jù)的存儲與管理是控制數(shù)據(jù)質(zhì)量和獲得真實結(jié)果的重要保證,需要基于云計算的存儲.
4)決策和控制.挖掘出的模式、規(guī)則、特征指標(biāo)用于預(yù)測、決策和控制.
物聯(lián)網(wǎng)特有的分布式特征,決定了物聯(lián)網(wǎng)中的數(shù)據(jù)挖掘具有以下特征.
1)高效的數(shù)據(jù)挖掘算法:算法復(fù)雜度低、并行化程度高.
2)分布式數(shù)據(jù)挖掘算法:適合數(shù)據(jù)垂直劃分的算法、重視數(shù)據(jù)挖掘多任務(wù)調(diào)度算法.
3)并行數(shù)據(jù)挖掘算法:適合數(shù)據(jù)水平劃分、基于任務(wù)內(nèi)并行的挖掘算法.
4)保護隱私的數(shù)據(jù)挖掘算法:數(shù)據(jù)挖掘在物聯(lián)網(wǎng)中一定要注意保護隱私.
云計算相關(guān)技術(shù)的飛速發(fā)展和高速寬帶網(wǎng)絡(luò)的廣泛使用,使得實際應(yīng)用中分布式數(shù)據(jù)挖掘的需求不斷增長.分布式數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)與分布式計算技術(shù)的有機結(jié)合,主要用于分布式環(huán)境下的數(shù)據(jù)模式發(fā)現(xiàn),它是物聯(lián)網(wǎng)中要求的數(shù)據(jù)挖掘,是在網(wǎng)絡(luò)中挖掘出來的.通過與云計算技術(shù)相結(jié)合,可能會產(chǎn)生更多、更好、更新的數(shù)據(jù)挖掘方法和技術(shù)手段.
1)分布式數(shù)據(jù)挖掘的優(yōu)點.
考慮到商業(yè)競爭和法律約束等多方面的因素,在許多情況下,為了保證數(shù)據(jù)挖掘的安全性和容錯性,需要保護數(shù)據(jù)隱私,將所有數(shù)據(jù)集中在一起進行分析往往是不可行的[5].分布式數(shù)據(jù)挖掘系統(tǒng)能將數(shù)據(jù)合理地劃分為若干個小模塊,并由數(shù)據(jù)挖掘系統(tǒng)并行處理,最后再將各個局部的處理結(jié)果合成最終的輸出模式,這樣做可以充分利用分布式計算的能力和并行計算的效率,對相關(guān)的數(shù)據(jù)進行分析與綜合,從而節(jié)省大量的時間和空間開銷.
2)分布式數(shù)據(jù)挖掘面臨的問題.
a)算法方面.實現(xiàn)數(shù)據(jù)預(yù)處理中各種數(shù)據(jù)挖掘算法,以及多數(shù)據(jù)挖掘任務(wù)的調(diào)度算法.
b)系統(tǒng)方面.能在對稱多處理機(symmetrical multi-processing,SMP)、大規(guī)模并行處理機(massively parallel processor,MPP)等具體的分布式平臺上實現(xiàn),考慮結(jié)點間負載平衡、減少同步與通訊開銷、異構(gòu)數(shù)據(jù)集成等問題[5].
3)分布式數(shù)據(jù)挖掘的系統(tǒng)分類.
分布式數(shù)據(jù)挖掘系統(tǒng),按照不同的角度可以劃分為以下幾類[5].
a)根據(jù)結(jié)點間數(shù)據(jù)分布情況是否同構(gòu)分為同構(gòu)和異構(gòu)2類,同構(gòu)的分布式數(shù)據(jù)挖掘系統(tǒng)的結(jié)點間數(shù)據(jù)的屬性空間相同,異構(gòu)的分布式數(shù)據(jù)挖掘系統(tǒng)的結(jié)點間數(shù)據(jù)具有不同的屬性空間.
b)按照數(shù)據(jù)模式的生成方式,分布式數(shù)據(jù)挖掘系統(tǒng)分為集中式、局部式和重分布式3類.①在集中式分布式數(shù)據(jù)挖掘系統(tǒng)中,先把數(shù)據(jù)集中于中心點,再生成全局?jǐn)?shù)據(jù)模式,該系統(tǒng)適合模型精度較高、但數(shù)據(jù)量較小的情況;②在局部式分布式數(shù)據(jù)挖掘系統(tǒng)中,先在各結(jié)點處生成局部數(shù)據(jù)模式,然后再將局部數(shù)據(jù)模式集中到中心結(jié)點生成全局?jǐn)?shù)據(jù)模式,該系統(tǒng)適合模型精度較低,但效率較高的情形;③在重分布式數(shù)據(jù)挖掘系統(tǒng)中,首先將所有數(shù)據(jù)在各個結(jié)點間重新分布,然后再按照與局部式系統(tǒng)相同的方法生成數(shù)據(jù)模式.
并行數(shù)據(jù)挖掘系統(tǒng)與分布式數(shù)據(jù)挖掘系統(tǒng)都用網(wǎng)絡(luò)連接各個數(shù)據(jù)處理結(jié)點,網(wǎng)絡(luò)中的所有結(jié)點構(gòu)成一個邏輯上的統(tǒng)一整體,用戶可以對各個結(jié)點上的數(shù)據(jù)進行透明存取.
并行挖掘與分布式挖掘的不同點主要有如下.
1)應(yīng)用目標(biāo)不同.并行數(shù)據(jù)挖掘中各個處理機結(jié)點并行完成數(shù)據(jù)挖掘任務(wù),以提高數(shù)據(jù)挖掘系統(tǒng)的整體性能;分布式數(shù)據(jù)挖掘?qū)崿F(xiàn)場地自治和數(shù)據(jù)的全局透明共享,而不要求利用網(wǎng)絡(luò)中的所有結(jié)點來提高系統(tǒng)的處理性能.
2)實現(xiàn)方式不同.并行數(shù)據(jù)挖掘中各結(jié)點間可以采用高速網(wǎng)絡(luò)連接,結(jié)點間的數(shù)據(jù)傳輸代價相對較低;分布式數(shù)據(jù)挖掘的各結(jié)點間一般采用局域網(wǎng)或廣域網(wǎng)相連,網(wǎng)絡(luò)帶寬較低,點到點的通信開銷較大.
3)各結(jié)點的地位不同.并行數(shù)據(jù)挖掘的各結(jié)點是非獨立的,在數(shù)據(jù)處理中只能發(fā)揮協(xié)同作用,而不能有局部應(yīng)用,適合于算法內(nèi)并行;分布式數(shù)據(jù)挖掘系統(tǒng)的各結(jié)點除了能通過網(wǎng)絡(luò)協(xié)同完成全局事務(wù)外,每個結(jié)點可以獨立運行自己的數(shù)據(jù)挖掘任務(wù),執(zhí)行局部應(yīng)用,具有高度的自治性,適合不同算法之間的并行.
云計算通過廉價的PC服務(wù)器,可以管理大數(shù)據(jù)量與大集群,其關(guān)鍵技術(shù)在于能夠?qū)υ苾?nèi)的基礎(chǔ)設(shè)施進行動態(tài)按需分配與管理.云計算的任務(wù)可以被分割成多個進程在多臺服務(wù)器上并行計算,然后得到最終結(jié)果,其優(yōu)點是對大數(shù)據(jù)量的操作性能非常好.從用戶角度來看,并行計算是由單個用戶完成的,分布式計算是由多個用戶合作完成的,云計算是在可以沒有用戶參與指定計算結(jié)點的情況下,交給網(wǎng)絡(luò)另一端的云計算平臺的服務(wù)器結(jié)點自主完成計算,這樣云計算就同時具備了并行與分布式的特征.
數(shù)據(jù)挖掘在物聯(lián)網(wǎng)中采取了云服務(wù)的方式來提供數(shù)據(jù)挖掘的結(jié)果用于決策與控制.云計算模式是物聯(lián)網(wǎng)的基石,能夠保證分布式并行數(shù)據(jù)挖掘,實現(xiàn)高效、實時挖掘.云服務(wù)模式是數(shù)據(jù)挖掘的普適模式,能夠保證挖掘技術(shù)的共享,降低數(shù)據(jù)挖掘應(yīng)用的門檻,滿足海量挖掘的需求.國內(nèi)中國科學(xué)院計算技術(shù)研究所于2008年底開發(fā)完成了基于Hadoop的并行分布式數(shù)據(jù)挖掘系統(tǒng)PDMiner.中國移動進一步建設(shè)了256臺服務(wù)器、1 000個CPU、256TB存儲組成的“大云”試驗平臺,并在與中國科學(xué)院計算技術(shù)研究所合作開發(fā)的并行數(shù)據(jù)挖掘系統(tǒng)基礎(chǔ)上,結(jié)合數(shù)據(jù)挖掘、用戶行為分析等需求,在上海、江蘇等地進行了應(yīng)用試點,在提高效率、降低成本、節(jié)能減排等方面取得了極為顯著的效果[6].在此基礎(chǔ)上中國科學(xué)院計算技術(shù)研究所2009年開發(fā)完成了面向云計算的數(shù)據(jù)挖掘服務(wù)平臺COMS,現(xiàn)已用于國家電網(wǎng)與國家信息安全領(lǐng)域.數(shù)據(jù)挖掘云服務(wù)平臺COMS作為無錫“感知環(huán)境,智慧環(huán)?!杯h(huán)境監(jiān)控物聯(lián)網(wǎng)應(yīng)用示范工程重要的一環(huán),2010年7月2日通過了環(huán)保部組織的專家論證,現(xiàn)正在落實中.
在國際上,CHU等采用Map-Reduce并行編程模式實現(xiàn)了機器學(xué)習(xí)算法[7],這是在多核環(huán)境下并行算法的實現(xiàn).另外,在多節(jié)點的云計算平臺上的開源項目Apache Mahout 0.5于2011年5月27日發(fā)布[8].
數(shù)據(jù)挖掘云服務(wù)平臺包括以下幾個方面的要求[9].
1)基礎(chǔ)建設(shè):專業(yè)人士成為服務(wù)的提供者,大眾和各種組織成為服務(wù)的受益方,按領(lǐng)域、行業(yè)進行構(gòu)建.
2)虛擬化:計算資源自主分配和調(diào)度.
3)需求:大眾參與應(yīng)對個性化和多樣化的需求.
4)可信:算法通用、可查、可調(diào)和可視.
5)安全:隱私數(shù)據(jù)由客戶自己在平臺終端完成加密保護.
數(shù)據(jù)挖掘云服務(wù)平臺的結(jié)構(gòu)如圖1所示.可以看出,1)硬件資源管理子系統(tǒng)和后臺并行挖掘子系統(tǒng)緊密結(jié)合;2)平臺對用戶透明,資源抽象成提供數(shù)據(jù)挖掘服務(wù)的“云”;3)用戶通過前臺的Web交互界面定制數(shù)據(jù)挖掘任務(wù).
圖1 數(shù)據(jù)挖掘云服務(wù)平臺Fig.1 Data mining cloud service platform
圖2是數(shù)據(jù)挖掘云服務(wù)系統(tǒng)架構(gòu),既包括了數(shù)據(jù)挖掘預(yù)處理云服務(wù)[10],也包括了數(shù)據(jù)挖掘算法云服務(wù),如關(guān)聯(lián)規(guī)則云服務(wù)[11]、分類云服務(wù)[6,12-13]、聚類云服務(wù)[14]和異常發(fā)現(xiàn)云服務(wù)[15],總體上還有工作流子系統(tǒng),對數(shù)據(jù)挖掘的任務(wù)進行多任務(wù)的組合,以達到數(shù)據(jù)挖掘的目標(biāo).
圖2 數(shù)據(jù)挖掘云服務(wù)系統(tǒng)架構(gòu)Fig.2 System architecture of data mining cloud services
云計算是物聯(lián)網(wǎng)的基石,數(shù)據(jù)挖掘是物聯(lián)網(wǎng)不可缺少的重要一環(huán).物聯(lián)網(wǎng)如果不加入智能信息處理和數(shù)據(jù)挖掘就不能體現(xiàn)智能,就只是傳感器網(wǎng).而數(shù)據(jù)挖掘云服務(wù)是物聯(lián)網(wǎng)中先進、實用、可持續(xù)、可推廣的數(shù)據(jù)挖掘方式.
[1]鄔賀銓.中國物聯(lián)網(wǎng)應(yīng)用應(yīng)該考慮中國國情[EB/OL].(2010-06-29)[2011-11-25].http://cloud.csdn.net/a/20100629/267886.html.
[2]李德毅.2012云計算技術(shù)發(fā)展報告[M].北京:科學(xué)出版社,2012.
[3]馬文方.泛在計算:少談些概念多做些實事[N].中國計算機報,2010-05-10(38).
[4]張誠,郭毅.數(shù)據(jù)挖掘與云計算——專訪中國科學(xué)院計算機研究所何清博士[J].數(shù)字通信,2011,38(3):5-7.
[5]王媛媛.基于概念格模型的關(guān)聯(lián)規(guī)則挖掘算法研究及實現(xiàn)[D].合肥:合肥工業(yè)大學(xué),2005:55-56.WANG Yuanyuan.Research and implementation of algorithms of mining association rules based on concept lattice[D].Hefei:Hefei University of Technology,2005:55-56.
[6]HE Qing,DU Changying,WANG Qun,et al.A parallel incremental extreme SVM classifier[J].Neurocomputing,2011,74(16):2532-2540.
[7]CHU C T,KIM S K,LIN Y A,et al.Map-reduce for machine learning on multicore[C]//Proceedings of the Twentieth Annual Conference on Neural Information Processing Systems.Vancouver,Canada,2006:281-288.
[8]The Apache Software Foundation.27 May 2011—Apache Mahout 0.5 released[EB/OL].[2011-12-25].http://mahout.apache.org/.
[9]何清.基于云計算的海量數(shù)據(jù)挖掘[EB/OL].(2010-05-25)[2011-11-25].http://cloud.csdn.net/a/20100525/267105.html.
[10]HE Qing,TAN Qing,MA Xudong,et al.The high-activity parallel implementation of data preprocessing based on MapReduce[C]//The Fifth International Conference on Rough Set and Knowledge Technology(RSKT).Beijing,China,2010:646-654.
[11]LI Ning,ZENG Li,HE Qing,et al.Parallel implementation of apriori algorithm based on MapReduce[C]//Proceedings of the 13th ACIS International Conference on Software Engineering,Artificial Intelligence,Networking and Parallel/Distributed Computing.Kyoto,Japan,2012(accepted).
[12]HE Qing,ZHUANG Fuzhen,LI Jincheng,et al.Parallel implementation of classification algorithms based on MapReduce[C]//The Fifth International Conference on Rough Set and Knowledge Technology(RSKT).Beijing,China,2010:655-662.
[13]HE Qing,WANG Qun,DU Changying,et al.A parallel hyper-surface classifier for high dimensional data[C]//Proceedings of the 3rd International Symposium on Knowledge Acquisition and Modeling.Wuhan,China,2010:338-343.
[14]ZHAO Weizhong,MA Huifang,HE Qing.Parallel K-means clustering based on mapreduce[C]//The 1st International Conference on Cloud Computing.Beijing,China,2009:674-679.
[15]HE Qing,MA Yunlong,WANG Qun,et al.Parallel outlier detection using KD-tree based on mapreduce[C]//Proceedings of the 2011 IEEE Third International Conference on Cloud Computing Technology and Science.Athen,Greece,2011:75-80.