亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向大數(shù)據(jù)的空間數(shù)據(jù)挖掘綜述

        2017-02-16 02:24:24杜江毅邊馥苓
        地理空間信息 2017年1期
        關(guān)鍵詞:空間數(shù)據(jù)數(shù)據(jù)挖掘聚類

        杜江毅,邊馥苓

        (1. 武漢大學(xué) 測(cè)繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430079;2. 湖北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢 430068;3. 武漢大學(xué) 國際軟件學(xué)院,湖北 武漢 430079)

        面向大數(shù)據(jù)的空間數(shù)據(jù)挖掘綜述

        杜江毅1,2,邊馥苓3

        (1. 武漢大學(xué) 測(cè)繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430079;2. 湖北工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢 430068;3. 武漢大學(xué) 國際軟件學(xué)院,湖北 武漢 430079)

        隨著大數(shù)據(jù)時(shí)代的到來,海量空間數(shù)據(jù)與獲取手段不足的矛盾日益顯著,空間數(shù)據(jù)挖掘的地位日益提高。從大數(shù)據(jù)的含義出發(fā),分析了空間數(shù)據(jù)與大數(shù)據(jù)的關(guān)系,回顧了傳統(tǒng)空間數(shù)據(jù)挖掘存在的問題,最后從平臺(tái)和算法兩個(gè)方面探討了空間大數(shù)據(jù)挖掘的最新研究進(jìn)展。

        大數(shù)據(jù);空間數(shù)據(jù)挖掘;云計(jì)算

        近年來,大數(shù)據(jù)已經(jīng)引起了學(xué)術(shù)界、產(chǎn)業(yè)界和政府部門的高度關(guān)注。實(shí)際上,人類第一次開始關(guān)注大數(shù)據(jù)是在1980年,當(dāng)時(shí)著名的未來學(xué)家阿爾文·托夫勒就熱情洋溢地稱呼大數(shù)據(jù)為“第三次浪潮的華彩樂章”[1]。在學(xué)術(shù)界,最早關(guān)注大數(shù)據(jù)的是Nature,2008 年9月其推出“Big Data”??瑥亩嚅T學(xué)科的角度介紹了大數(shù)據(jù)所帶來的機(jī)遇與挑戰(zhàn)[2]。Science在2011年2月也推出了名為“Dealing with Big Data”的專刊,同樣發(fā)表了與大數(shù)據(jù)相關(guān)的論點(diǎn)。在產(chǎn)業(yè)界,2011年5月McKinsey公司再次明確提出大數(shù)據(jù)的概念,并為企業(yè)和政府應(yīng)對(duì)大數(shù)據(jù)的發(fā)展提出了自己的思考[3]。許多企業(yè)和組織也將大數(shù)據(jù)作為未來的主要業(yè)務(wù),提出了多種大數(shù)據(jù)解決方案或應(yīng)用,如IBM的InfoSphere大數(shù)據(jù)分析平臺(tái)[4]。美、英等國政府也出臺(tái)了多項(xiàng)政策和措施,以應(yīng)對(duì)大數(shù)據(jù)的挑戰(zhàn)[5-6]。

        總之,正如舍恩伯格和庫克耶[7]所說,“大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型”,“是人們獲得新的認(rèn)知,創(chuàng)造新的價(jià)值的源泉;還是改變市場(chǎng)、組織機(jī)構(gòu),以及政府與公民關(guān)系的方法”。如今大數(shù)據(jù)的價(jià)值不斷被認(rèn)可,它涉及到人類生活、企業(yè)發(fā)展、國家戰(zhàn)略等各個(gè)應(yīng)用領(lǐng)域[7],而這些應(yīng)用領(lǐng)域中的數(shù)據(jù)絕大多數(shù)與空間位置有關(guān),如何從海量的空間數(shù)據(jù)中獲取有價(jià)值的信息(空間數(shù)據(jù)挖掘)已成為大數(shù)據(jù)的主要應(yīng)用方向[8-9]。

        1 大數(shù)據(jù)時(shí)代的空間數(shù)據(jù)

        1.1 大數(shù)據(jù)的定義

        隨著大數(shù)據(jù)在全世界的興起,大數(shù)據(jù)的定義也呈現(xiàn)多種解釋。一般來說,數(shù)據(jù)量的大小超過正常處理范圍和大小、用戶采用普通的軟件工具和處理方法難以處理的數(shù)據(jù)集,即可稱為大數(shù)據(jù)[6]。

        2008年Nature中的定義為大數(shù)據(jù)“是人類認(rèn)知過程的進(jìn)步,規(guī)模是無法用目前的技術(shù)、方法和理論,在可容忍的時(shí)間內(nèi)獲取、管理、處理的數(shù)據(jù)集”[10]。Gartner公司認(rèn)為大數(shù)據(jù)是一種體量巨大、增長(zhǎng)極快、樣式繁多的信息價(jià)值;需要采用新的處理方法和模式,才能確保其體現(xiàn)出更強(qiáng)更準(zhǔn)確的決策力、洞察力、以及優(yōu)化流程的能力[11]。這個(gè)定義最重要的意義在于明確了如何才能從這些快速增長(zhǎng)的動(dòng)態(tài)的數(shù)據(jù)集中獲取有價(jià)值的信息,即大數(shù)據(jù)是三維的:容量、多樣、速度,但它忽略了大數(shù)據(jù)具有的價(jià)值性。因此,IDC在2011 年的報(bào)告中給出了更能為人們所接受的大數(shù)據(jù)的定義:具有“4V”特點(diǎn)的數(shù)據(jù)集,即容量(Volume)、多樣(Variety)、速度(Velocity)和價(jià)值(Value),就是大數(shù)據(jù);同時(shí),IDC指出,“大數(shù)據(jù)技術(shù)展現(xiàn)了一種技術(shù)及其構(gòu)架的新時(shí)代,針對(duì)各種超大規(guī)模的數(shù)據(jù)集,以經(jīng)濟(jì)的方式,迅速地獲取、發(fā)現(xiàn)和分析技術(shù),提取價(jià)值”[12]。

        1.2 時(shí)空數(shù)據(jù)是大數(shù)據(jù)的基礎(chǔ)

        大數(shù)據(jù)的復(fù)雜性,導(dǎo)致其難以被傳統(tǒng)的技術(shù)所利用。這些數(shù)據(jù)中的絕大多數(shù)來源于空間數(shù)據(jù),因?yàn)榧s80%的數(shù)據(jù)與空間位置有關(guān)[13-14]。

        隨著國民經(jīng)濟(jì)的快速發(fā)展,計(jì)算機(jī)技術(shù)和空間信息技術(shù)的不斷進(jìn)步和普及,具有時(shí)間屬性并隨時(shí)間變化而變化的空間數(shù)據(jù)——時(shí)空數(shù)據(jù)的獲取量急速增加,形成了具有時(shí)空屬性的大數(shù)據(jù)[15]。這些數(shù)據(jù)流客觀存在,并被人為賦予地理編碼與時(shí)間標(biāo)簽,從這個(gè)角度看,時(shí)空數(shù)據(jù)不僅是大數(shù)據(jù)的重要組成部分,更可被看成是大數(shù)據(jù)的基礎(chǔ)。因此,時(shí)空數(shù)據(jù)與信息的存儲(chǔ)與處理技術(shù)本身就是大數(shù)據(jù)存儲(chǔ)與處理技術(shù),只是前者更多是關(guān)注于地學(xué)領(lǐng)域,而后者涵蓋幾乎所有領(lǐng)域。

        相比于傳統(tǒng)空間數(shù)據(jù),時(shí)空數(shù)據(jù)更加復(fù)雜和多樣。它描述了研究對(duì)象隨時(shí)間變化的運(yùn)動(dòng)軌跡,記錄了對(duì)象的空間屬性和時(shí)間屬性,即“動(dòng)態(tài)”的發(fā)展過程,具有數(shù)據(jù)量龐大、非線性以及時(shí)變等特征[16]。時(shí)空大數(shù)據(jù)被廣泛地應(yīng)用在國防、工業(yè)、農(nóng)業(yè)、交通、氣象等方面,如分析隨時(shí)間變化的車輛運(yùn)行狀況和人流的移動(dòng)規(guī)律所產(chǎn)生的時(shí)空數(shù)據(jù),有助于改善交通狀況,如圖1所示。

        圖1 時(shí)空大數(shù)據(jù)的應(yīng)用

        時(shí)空數(shù)據(jù)形式多樣,價(jià)值巨大,具有空間性、時(shí)間性、多維性、海量性、復(fù)雜性和不確定性等特點(diǎn)。這些數(shù)據(jù)雖然極大地拓寬了人類可利用的數(shù)據(jù)范圍,但數(shù)量的激增和數(shù)據(jù)本身的一些不足,也極大地影響了數(shù)據(jù)的價(jià)值發(fā)現(xiàn),如垃圾多、污染重、利用難等。要提高這些數(shù)據(jù)的單位價(jià)值,就不得不進(jìn)一步發(fā)展數(shù)據(jù)挖掘等技術(shù)。

        2 傳統(tǒng)空間數(shù)據(jù)挖掘存在的問題

        空間數(shù)據(jù)挖掘所用理論方法的好壞直接影響到所發(fā)現(xiàn)知識(shí)的質(zhì)量??捎玫睦碚摲椒ㄖ饕写_定集合論、擴(kuò)展集合論、仿生學(xué)方法、可視化、決策樹等,其中包括:概率論、證據(jù)理論、空間統(tǒng)計(jì)學(xué)、規(guī)則歸納、聚類分析、空間分析、神經(jīng)網(wǎng)絡(luò)、遺傳算法等[9]。經(jīng)過多年研究,上述理論和算法都取得了很大的進(jìn)展,但也存在一些問題:

        1)目前多數(shù)的空間數(shù)據(jù)挖掘算法都是由傳統(tǒng)的數(shù)據(jù)挖掘算法移植而來,并沒有考慮空間數(shù)據(jù)與一般數(shù)據(jù)在存儲(chǔ)、處理和特性等方面的區(qū)別,如面對(duì)高維海量的空間數(shù)據(jù),目前的GIS不足以描述空間要素的多維信息結(jié)構(gòu),不能方便地進(jìn)行多維信息的空間概括性分析,而且挖掘效率很低,因此采用傳統(tǒng)算法往往會(huì)對(duì)空間數(shù)據(jù)和空間對(duì)象的利用不足,收不到良好的挖掘效果。

        2)被污染的空間數(shù)據(jù)會(huì)直接影響空間數(shù)據(jù)挖掘,使其不能提供可靠的知識(shí)、優(yōu)質(zhì)的服務(wù)和決策支持。但實(shí)際上,從現(xiàn)實(shí)世界采集的數(shù)據(jù)絕大多數(shù)都是有污染的。無論采用什么方式獲取的空間數(shù)據(jù),都無可避免的存在一些問題或錯(cuò)誤。如何減少受污染的數(shù)據(jù)對(duì)最終挖掘結(jié)果的影響,一直都是空間數(shù)據(jù)挖掘需要面臨的重要問題。

        3)空間數(shù)據(jù)具有明顯的不確定性。這主要是由數(shù)據(jù)采樣、數(shù)據(jù)模型抽象、空間概念和空間數(shù)據(jù)轉(zhuǎn)換導(dǎo)致的[9]。當(dāng)前的空間數(shù)據(jù)挖掘算法一般都是基于確定集合理論研究確定數(shù)據(jù),也有一些對(duì)空間數(shù)據(jù)不確定性的研究,但主要是針對(duì)空間位置的不確定性,對(duì)數(shù)據(jù)本身的不確定性研究還顯不足。

        4)目前的空間數(shù)據(jù)挖掘技術(shù)還缺少適當(dāng)?shù)目臻g知識(shí)表達(dá)方法[9]。一般來說,對(duì)空間數(shù)據(jù)挖掘獲得的知識(shí)的最好的表達(dá)方法是自然語言。但是,如何用定性的自然語言來較為準(zhǔn)確地描述定量的數(shù)值之間的關(guān)系呢?如何描述知識(shí)發(fā)現(xiàn)中的支持度、置信度、強(qiáng)弱規(guī)則等專業(yè)名詞呢?如何描述不確定的空間數(shù)據(jù)的隨機(jī)性和模糊性呢?這些都是亟待解決的問題。

        5)空間數(shù)據(jù)挖掘產(chǎn)生的所有模式并非都是用戶需要的。因此需要一種技術(shù)來評(píng)估基于主觀度量所發(fā)現(xiàn)的模式的興趣度。這種評(píng)估根據(jù)給定用戶類,基于用戶的確信或期望,評(píng)估模式的價(jià)值。此外,通過使用興趣度度量或用戶指定的約束指導(dǎo)發(fā)現(xiàn)過程,也可更快更好地獲得用戶感興趣的模式。

        6)空間數(shù)據(jù)挖掘能為科學(xué)發(fā)展、商業(yè)管理、政府決策等活動(dòng)提供有效的幫助,但也帶來了泄露信息的風(fēng)險(xiǎn)。如何在保護(hù)空間數(shù)據(jù)隱私的前提下,進(jìn)行成功的空間數(shù)據(jù)挖掘,也是目前空間數(shù)據(jù)挖掘面臨的一大問題。

        除了上述典型問題之外,空間數(shù)據(jù)挖掘還存在其他問題,如空間數(shù)據(jù)挖掘的智能化。畢竟無法要求每個(gè)人都學(xué)習(xí)和掌握空間數(shù)據(jù)挖掘技術(shù),特別是在大數(shù)據(jù)時(shí)代下,空間數(shù)據(jù)挖掘面對(duì)海量的數(shù)據(jù),要繼續(xù)以往的輝煌,還需要研究者們更大的努力。

        3 大數(shù)據(jù)時(shí)代空間數(shù)據(jù)挖掘進(jìn)展

        如何充分利用大數(shù)據(jù),已成為當(dāng)代一個(gè)新的熱點(diǎn)問題,空間大數(shù)據(jù)挖掘應(yīng)運(yùn)而生。它是體現(xiàn)大數(shù)據(jù)價(jià)值、充分利用大數(shù)據(jù)的基礎(chǔ)技術(shù),可從大數(shù)據(jù)中提取信息,從信息中發(fā)現(xiàn)有價(jià)值的知識(shí),讓大數(shù)據(jù)為社會(huì)發(fā)展發(fā)揮更大的作用。

        舍恩伯格和庫克耶曾指出,在大數(shù)據(jù)時(shí)代,分析信息時(shí)面臨的第一個(gè)轉(zhuǎn)變就是我們有遠(yuǎn)超以往數(shù)據(jù)量的更多的數(shù)據(jù)用來分析,甚至擁有與某個(gè)特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)采樣[7]。那么,如果想更快地分析更多的數(shù)據(jù),選擇優(yōu)化的并行算法,并采用適合海量數(shù)據(jù)處理的平臺(tái),就成為人們目前最佳的選擇。

        3.1 傳統(tǒng)空間數(shù)據(jù)挖掘研究進(jìn)展

        近年來,針對(duì)傳統(tǒng)空間數(shù)據(jù)挖掘存在的問題,很多學(xué)者提出了新的有效方法。陳銘[17]提出了一種基于相似維的高維子空間聚類方法SDSCA——首先刪除原高維數(shù)據(jù)空間中的冗余屬性,然后運(yùn)用相似維來尋找彼此相似的屬性,最后在這些相似屬性所形成的子空間上運(yùn)用傳統(tǒng)聚類算法進(jìn)行聚類。石亞冰[18]等針對(duì)傳統(tǒng)空間聚類算法K-means“對(duì)初始種子選取的依賴性過大,也容易陷入局部極小解”的缺點(diǎn),提出了一種綜合考慮空間數(shù)據(jù)對(duì)象特點(diǎn)的基于最大維密度選擇方案的K-means優(yōu)化算法,很好地消除了聚類結(jié)果的波動(dòng)性,同時(shí)也較客觀地呈現(xiàn)了空間對(duì)象的分布規(guī)律。

        針對(duì)空間數(shù)據(jù)和空間數(shù)據(jù)挖掘的不確定性,何彬彬[19]等以EM和Apriori算法為基礎(chǔ),將空間數(shù)據(jù)和空間數(shù)據(jù)挖掘的不確定性進(jìn)行結(jié)合,提出了一種新的挖掘算法模型,提高了挖掘的真實(shí)性和客觀性。

        空間數(shù)據(jù)清理是空間數(shù)據(jù)挖掘的重要工作之一。根據(jù)空間數(shù)據(jù)清理的實(shí)際特點(diǎn),Kim W[20]等提出了處理由未知屬性值造成的數(shù)據(jù)噪聲的方法。徐揚(yáng)[21]等提出了一種針對(duì)重復(fù)數(shù)據(jù)的清理方法:先對(duì)所有記錄按照預(yù)先指定的屬性項(xiàng)進(jìn)行排序,然后比較排序數(shù)據(jù),從而檢查出重復(fù)記錄的方法。

        陳霞[22]和陳桂芬等利用時(shí)序算法和可視化技術(shù),充分挖掘了大量農(nóng)業(yè)數(shù)據(jù)中的價(jià)值,為農(nóng)作物的種植提供有力的決策依據(jù),并為空間數(shù)據(jù)挖掘的利用提出了一個(gè)新的思路。

        自從1999年Rakesh Aggrawal在KDD會(huì)議上提出將“隱私保護(hù)數(shù)據(jù)挖掘”作為數(shù)據(jù)挖掘領(lǐng)域未來研究的重點(diǎn)之一以來,數(shù)據(jù)挖掘中的隱私保護(hù)已成為一個(gè)研究熱點(diǎn),特別是針對(duì)高維數(shù)據(jù)進(jìn)行的挖掘。Nergiz M E[23]等提出了用于應(yīng)對(duì)高維問題的基于聚類的MiRaCle匿名算法,該算法是基于對(duì)多關(guān)系K-匿名數(shù)據(jù)庫的嚴(yán)格假定,它匿名的過程比傳統(tǒng)方法高效。Ghinita G[24]等提出了多維數(shù)據(jù)的l-多樣性的匿名算法,能夠保證每個(gè)事物具有不同的準(zhǔn)標(biāo)志屬性和敏感值,防止高維數(shù)據(jù)在隱私保護(hù)時(shí)可能的信息丟失,也能保持準(zhǔn)標(biāo)志屬性和敏感值間的關(guān)系。針對(duì)稀疏多維數(shù)據(jù),Terrovitis M等提出了Km匿名方法——從具備部分敏感值的數(shù)據(jù)中保護(hù)數(shù)據(jù),其信息丟失也較少[25-26]。

        總之,傳統(tǒng)的空間數(shù)據(jù)挖掘雖然在大數(shù)據(jù)時(shí)代遇到了新的挑戰(zhàn),但仍然有著重要的研究意義,仍然是獲取數(shù)據(jù)價(jià)值的最有效途徑之一。

        3.2 基于云計(jì)算的空間大數(shù)據(jù)挖掘研究進(jìn)展

        面對(duì)海量的數(shù)據(jù),除了優(yōu)化傳統(tǒng)的空間數(shù)據(jù)挖掘算法,提高空間數(shù)據(jù)質(zhì)量以外,采用專門處理大數(shù)據(jù)的平臺(tái)也是一個(gè)重要的選擇,這就必須提到云計(jì)算。云計(jì)算是一種可以提供更強(qiáng)大的處理能力、更廉價(jià)的處理?xiàng)l件的完善系統(tǒng)?;谠朴?jì)算的數(shù)據(jù)挖掘系統(tǒng),可以透明地為用戶服務(wù);用戶不需要了解系統(tǒng)運(yùn)行原理與過程,也不需要擔(dān)心系統(tǒng)的存儲(chǔ)和安全問題,只需要知道選擇合適的算法,就可以獲得有價(jià)值的知識(shí)。圖2是基于云計(jì)算的海量數(shù)據(jù)挖掘服務(wù)的層次結(jié)構(gòu)圖[27]。

        圖2 基于云計(jì)算的海量數(shù)據(jù)挖掘服務(wù)的層次結(jié)構(gòu)圖

        1)基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)研究。中國科學(xué)院計(jì)算技術(shù)研究所開發(fā)的PDMiner是目前國內(nèi)最早的基于云計(jì)算平臺(tái)Hadoop的并行數(shù)據(jù)挖掘系統(tǒng)平臺(tái)。它實(shí)現(xiàn)了各種并行數(shù)據(jù)挖掘算法,如數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則分析以及分類、聚類等算法;能夠處理大規(guī)模數(shù)據(jù)集;整合了已有的計(jì)算資源,提高了計(jì)算資源的利用效率[28]。中國移動(dòng)研究院早在2007年就開始了云計(jì)算平臺(tái)下數(shù)據(jù)挖掘系統(tǒng)的研究,啟動(dòng)了“大云”的研發(fā)工作;并研發(fā)出基于Hadoop的并行數(shù)據(jù)挖掘工具——BC-PDM。廈門大學(xué)數(shù)據(jù)挖掘研究中心與臺(tái)灣銘傳大學(xué)資訊工程系、中華資料采礦協(xié)會(huì)合作開發(fā)了云端數(shù)據(jù)挖掘決策系統(tǒng)MCU Smart Score,它是一套基于云計(jì)算的數(shù)據(jù)挖掘決策支持系統(tǒng)。Weka是由Waikato大學(xué)開發(fā)的基于Java語言的數(shù)據(jù)挖掘平臺(tái),它集成了適合數(shù)據(jù)挖掘的當(dāng)今最新的機(jī)器學(xué)習(xí)算法(如分類、聚類、關(guān)聯(lián)規(guī)則、回歸等)和數(shù)據(jù)預(yù)處理工具,在兼容性和可擴(kuò)展性方面有獨(dú)特的優(yōu)勢(shì)[29-30]。Apache Mahout是全新的開源項(xiàng)目數(shù)據(jù)挖掘平臺(tái),主要包括推薦、聚類、分類3部分,并可通過使用Apache Hadoop 庫有效地?cái)U(kuò)展到云中[31-32]。

        2)基于云計(jì)算的數(shù)據(jù)挖掘算法研究。目前國內(nèi)外針對(duì)基于云計(jì)算的數(shù)據(jù)挖掘算法的研究較多。例如,首都師范大學(xué)周麗娟教授[33]等提出的云計(jì)算環(huán)境下的基于復(fù)合鏈表挖掘的并行FP-Growth算法。該算法在傳統(tǒng)的FP-Growth算法基礎(chǔ)上進(jìn)行了優(yōu)化,一定程度上解決了傳統(tǒng)FP-Growth算法的性能瓶頸,實(shí)現(xiàn)了更高的效率和更好的擴(kuò)展性。信息工程大學(xué)的李宏偉教授[34]等則用到了概念格的理論,提出了一種基于概念格的已知空間依賴剔除策略。該策略實(shí)現(xiàn)了對(duì)冗余規(guī)則和已知空間依賴的有效剔除。CAO X J[35]利用MapReduce計(jì)算框架,并結(jié)合粒計(jì)算,實(shí)現(xiàn)了關(guān)聯(lián)規(guī)則挖掘的算法。林長(zhǎng)方[36]等針對(duì)關(guān)聯(lián)規(guī)則典型算法Apriori提出了基于MapReduce框架的簡(jiǎn)單并行算法,并在該算法的基礎(chǔ)上,提出了一種采用固定多階段結(jié)合挖掘策略的改進(jìn)算法。

        4 結(jié) 語

        大數(shù)據(jù)已成為政策界和學(xué)術(shù)界最火熱的名詞之一,不過也有專家對(duì)大數(shù)據(jù)的火熱提出了質(zhì)疑,如清華大學(xué)的王程韡[37]通過引入反事實(shí)思想實(shí)驗(yàn)提出大數(shù)據(jù)虛熱的判斷。不過無可置疑的是,當(dāng)今世界對(duì)大數(shù)據(jù)的普遍認(rèn)知為:大數(shù)據(jù)確實(shí)開啟了一次重大的時(shí)代轉(zhuǎn)型,它正在改變我們的生活。正如格雷所說,大數(shù)據(jù)是代表著“大趨勢(shì)”的科學(xué)研究“第四范式”[38]。在大數(shù)據(jù)時(shí)代,傳統(tǒng)的空間數(shù)據(jù)挖掘技術(shù)面對(duì)海量的數(shù)據(jù),要想實(shí)現(xiàn)從“無窮”的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的知識(shí),需要從理論、算法和云平臺(tái)等方面做出巨大的改善。

        [1] 阿爾文·托勒夫.第三次浪潮[M].黃明堅(jiān)譯.北京:中信出版社,2006

        [2] Nature. Big Data[EB/OL].http://www.nature.com/news/ specials/bigdata/index.html,2015-03-01/2015-09-15

        [3] McKinsey Global Institute. 2011 Big Data: The Next Frontier for Innovation, Competition, and Productivity[R].2011

        [4] IBM-InfoSphere平臺(tái)-中國[EB/OL]. http://www-01.ibm.com/ software/cn/data/infosphere/?re=masthead, 2015-03-01/2015-09-15

        [5] The White House Office of Science and Technology Policy.Fact Sheet: Big Data Across the Federal Government[R]. 2012

        [6] 胡雄偉,張寶林,李抵飛.大數(shù)據(jù)研究與應(yīng)用綜述(上)[J].標(biāo)準(zhǔn)科學(xué),2013(9):29-34

        [7] 維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].盛楊燕,周濤譯.杭州: 浙江人民出版社,2012

        [8] 王樹良,丁剛毅,鐘鳴.大數(shù)據(jù)下的空間數(shù)據(jù)挖掘思考[J].中國電子科學(xué)研究院學(xué)報(bào),2013,2(1):8-17

        [9] 李德仁,王樹良,李德毅.空間數(shù)據(jù)挖掘理論與應(yīng)用(第二版)[M].北京:科學(xué)出版社,2013

        [10] Graham Rowe D, Goldston D, Doctorow C, et a1.Big Data: Science in the Petabyte Ara[J].Nature,2008,455(7209):8-9

        [11] JI C Q,LI Y, QIU W M, et al. Big Data Processing in Cloud Computing Environments[C]//Proc of the 12th International Symposium on Pervasive Systems, Algorithms and Networks, 2012:17-23

        [12] Gantz J, Reinsel D. Extracting Value from Chaos [EB/OL].http:// www.emc.com/collateral/analyst-reports/idc-extractingvalue-from-chaos-ar.pdf,2010/ 2015-03-01

        [13] Densham P J, Goodchild M F. Spatial Decision Support Systems: a Research Agenda[C]//Proceedings GIS/LIS'89, Orlando, FL, 1989:707-716

        [14] Shekhar S, XIONG H. Encyclopedia of GIS[M]. New York: Springer, 2007

        [15] LI X, CHENG G D, LIU S M, et al. Heihe Watershed Allied Telemetry Experimental Research (HiWATER)[J]. Bulletin of American Meteorological Society,2013,94(8):10

        [16] 曹聞.時(shí)空數(shù)據(jù)模型及其應(yīng)用研究[D].鄭州:信息工程大學(xué),2011

        [17] 陳銘.高維聚類算法研究[D].南京:南京師范大學(xué),2011

        [18] 石亞冰,元昌安,覃曉,等.基于最大維密度的全局優(yōu)化空間聚類算法[J].計(jì)算機(jī)仿真,2013,30(3):277-280

        [19] 何彬彬,方濤,郭達(dá)志.不確定性空間數(shù)據(jù)挖掘算法模型[J].中國礦業(yè)大學(xué)學(xué)報(bào),2007,36(1):121-125

        [20] Kim W, Choi B J, HONG E K, et al. A Taxonomy of Dirty Data[J].Data Mining and Knowledge Discovery,2003(7):81-99

        [21] 徐揚(yáng),馮克忠,馬亞明. 空間數(shù)據(jù)重復(fù)記錄的清理方法研究[J].測(cè)繪科學(xué),2008,33(6):125-126

        [22] 陳霞.基于時(shí)序算法的可視化空間數(shù)據(jù)挖掘研究與應(yīng)用[D].長(zhǎng)春:吉林農(nóng)業(yè)大學(xué),2012

        [23] Nergiz M E, Clifton C, Nergiz A E. MultiRelational K-anonymity[C]//Proc of the 23rd IEEE International Conference on Data Engineering,2007:1 417-1 421

        [24] Ghinita G, TAO Y F, Kalnis P.On the Anonymization of Spare High-dimensional Data[C]//Proc of the 24th International Conference on Data Engineering,2008:715-724

        [25] Terrovitis M, Mamoulisn, Kalnis P. Privacy Preservation in the Publication of Spare Multidimensional Data[M]. London: Taylor and Francis Group,2011:35-56

        [26] 張海濤,黃慧慧,徐亮,等.隱私保護(hù)數(shù)據(jù)挖掘研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2013,30(12):3 549-3 535

        [27] 賀瑤,王文慶,薛飛.基于云計(jì)算的海量數(shù)據(jù)挖掘研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(2):69-72

        [28] 何清,莊福振,曾立,等. PDMiner:基于云計(jì)算的并行分布式數(shù)據(jù)挖掘工具平臺(tái)[J].中國科學(xué):信息科學(xué),2014(7):871-885

        [29] Hall M, Frank E, Holmes G, et al. The WEKA Data Mining Software: an Update[J]. ACM SIGKDD Explorations,2009, 11(1):10-18

        [30] Witten I H Frank E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations[M].Morgan Kaufman'2003

        [31] 朱倩,錢立.基于Mahout的推薦系統(tǒng)的分析與設(shè)計(jì)[J].科技通報(bào),2013,29(6):35-36

        [32] 馬寧.基于Mahout的推薦系統(tǒng)的研究與實(shí)現(xiàn)[D].蘭州:蘭州大學(xué),2013

        [33] 周麗娟,王翔.云環(huán)境下關(guān)聯(lián)規(guī)則算法的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(2):499-503

        [34] 李宏偉,陳虎,王振宇,等.基于概念格的空間關(guān)聯(lián)規(guī)則挖掘優(yōu)化[J].測(cè)繪科學(xué)技術(shù)學(xué)報(bào),2013,30(3):304-307

        [35] CAO X J. An Algorithm of Mining Association Rules Based on Granular Computing[J]. Physics Procardia,2012,33:1 248-1 253

        [36] 林長(zhǎng)方,吳揚(yáng)揚(yáng),黃仲開,等.基于MapReduce的Apriori算法并行化[J].江南大學(xué)學(xué)報(bào),2014,13(4):411-415

        [37] 王程韡.“大數(shù)據(jù)”是“大趨勢(shì)”嗎:基于關(guān)鍵詞共現(xiàn)方法的反事實(shí)分析[J].科學(xué)學(xué)與科學(xué)技術(shù)管理,2015,36(1):3-11

        [38] 潘教峰,張曉林. 第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)[M].北京:科學(xué)出版社,2012

        P208

        B

        1672-4623(2017)01-0008-04

        10.3969/j.issn.1672-4623.2017.01.003

        杜江毅,博士研究生,研究方向?yàn)榭臻g數(shù)據(jù)挖掘、云計(jì)算。

        2015-10-20。

        項(xiàng)目來源:國家自然科學(xué)基金青年基金資助項(xiàng)目(41301371)。

        猜你喜歡
        空間數(shù)據(jù)數(shù)據(jù)挖掘聚類
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于DBSACN聚類算法的XML文檔聚類
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        元數(shù)據(jù)驅(qū)動(dòng)的多中心空間數(shù)據(jù)同步方法研究
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        基于文件系統(tǒng)的分布式海量空間數(shù)據(jù)高效存儲(chǔ)與組織研究
        另类内射国产在线| 亚洲AV成人无码久久精品在| 波多野结衣一区二区三区免费视频 | 无码小电影在线观看网站免费| 国产精品丝袜久久久久久不卡| 亚洲AV无码资源在线观看| 国产综合一区二区三区av| 国产精品亚洲一二三区| 国产一区二区三区十八区| 夜夜爽夜夜叫夜夜高潮| 国产av无码专区亚洲av中文| 色五月丁香五月综合五月4438| 中文字幕有码无码av| 欧美性爱一区二区三区无a| 成人特黄特色毛片免费看| 国产精品美女主播一区二区| 激情综合婷婷色五月蜜桃| 午夜无码伦费影视在线观看| 三级4级全黄60分钟| 日韩av一区二区毛片| 亚洲精品中文字幕二区| 精品国产一区二区三区a| 国产一区二区三区小说| 熟妇人妻无乱码中文字幕| 国产午夜激情视频自拍| 美国黄色片一区二区三区| 亚洲av国产大片在线观看| 亚洲精品国产一区二区免费视频| 亚洲av日韩一区二区| 国产免费内射又粗又爽密桃视频| 免费无码成人av在线播| 精品日本韩国一区二区三区| 青青草视频网站在线观看| 中文字幕无码av波多野吉衣| 亚洲日本中文字幕天天更新| 亚洲色偷偷综合亚洲AVYP| 加勒比一区二区三区av| 日本h片中文字幕在线| 幻女bbwxxxx在线视频| 白白色发布在线播放国产| 日韩人妻系列在线视频|