亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)科學(xué)綜述

        2018-06-05 10:05:44周梅
        科技創(chuàng)新導(dǎo)報 2017年36期
        關(guān)鍵詞:機(jī)遇與挑戰(zhàn)大數(shù)據(jù)

        周梅

        摘 要:隨著現(xiàn)代科學(xué)技術(shù)的發(fā)展,源源不斷的數(shù)據(jù)開始出現(xiàn),為了合理利用這些數(shù)據(jù),大數(shù)據(jù)科學(xué)應(yīng)用而生,并逐漸開始服務(wù)于一些產(chǎn)業(yè)。并且世界各國各公司也制定了相關(guān)的大數(shù)據(jù)發(fā)展戰(zhàn)略。本文介紹了大數(shù)據(jù)分析常用的方法與應(yīng)用,諸如統(tǒng)計分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化,也介紹了大數(shù)據(jù)處理中批量式處理數(shù)據(jù)系統(tǒng)、流式數(shù)據(jù)處理系統(tǒng)兩種常用處理系統(tǒng),并簡單介紹了大數(shù)據(jù)處理流程,最終也總結(jié)了大數(shù)據(jù)發(fā)展過程中所面臨的機(jī)遇與挑戰(zhàn)。

        關(guān)鍵詞:大數(shù)據(jù) 大數(shù)據(jù)分析方法 大數(shù)據(jù)系統(tǒng) 機(jī)遇與挑戰(zhàn)

        中圖分類號:TP31 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2017)12(c)-0139-07

        Abstract:Where there are developments of science and technology,there are waves of data made available. Utilize the data better, big data science arises which gradually severs some industries. And different companies and countries make different strategies to promote the progress of data science research. Our paper illustrate the fundamental methods for data analysis, such as statistics analysis, data mining、data visualization. And it also states the two different processing methods of batch processing and stream processing and four different processing systems of batch processing system, stream processing system, interactive data handing system and graph processing system and the basic processes in big data. Finally, opportunities and challenges are analyzed which may be faced in future.

        Key Words: Big data; Data analysis methods; Data processing systems; Opportunities and challenges

        1 大數(shù)據(jù)的介紹

        現(xiàn)在社會處于高速發(fā)展時期,科學(xué)技術(shù)日益發(fā)達(dá),人們之間的交流日益密切,而這一系列過程往往包含著海量數(shù)據(jù)的產(chǎn)生,并伴隨著如下特征[1-3]:(1)數(shù)據(jù)量大,大數(shù)據(jù)單位至少是P;(2)類型繁多,包括各種類型數(shù)據(jù);(3)價值密度低,因此需要深入研究大數(shù)據(jù),從中提取有用信息;(4)速度快,時效高。并且大數(shù)據(jù)中也隱藏著巨大的價值,諸如XO Communications通過使用IBM SPSS預(yù)測分析軟件,減少了將近一半的客戶流失率。XO現(xiàn)在可以預(yù)測客戶的行為,發(fā)現(xiàn)行為趨勢,并找出存在缺陷的環(huán)節(jié),從而幫助公司及時采取措施,保留客戶。此外,IBM新的Netezza網(wǎng)絡(luò)分析加速器,將通過提供單個端到端網(wǎng)絡(luò)、服務(wù)、客戶分析視圖的可擴(kuò)展平臺,幫助通信企業(yè)制定更科學(xué)、合理決策;2013年,英國華威商學(xué)院和美國波士頓大學(xué)物理系的研究發(fā)現(xiàn),用戶通過谷歌搜索的金融關(guān)鍵詞或許可以把脈金融市場的走向,相應(yīng)的投資戰(zhàn)略收益高達(dá)326%。而此前,也有專家嘗試通過Twitter博文情緒來預(yù)測股市波動。從預(yù)測的原理上來看,穩(wěn)定發(fā)展的美國股市是比較適合大數(shù)據(jù)預(yù)測發(fā)揮其作用的。對國內(nèi)而言,百度推出的中小企業(yè)景氣指數(shù)預(yù)測,應(yīng)用百度海量的搜索數(shù)據(jù)來刻畫我國中小企業(yè)運行發(fā)展的景氣狀態(tài),以期能夠及時、有效地反映中小企業(yè)運行狀況,提高經(jīng)濟(jì)監(jiān)測的全面性和及時性;以及專業(yè)籃球隊會通過搜集大量數(shù)據(jù)分析賽事情況,然后在其基礎(chǔ)上分析賽事情況,找到兩三個制勝法寶等。正如麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素,人民對于海量數(shù)據(jù)的挖掘和運用,預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來?!贝髷?shù)據(jù)已經(jīng)成為新世紀(jì)的石油。而世界各個國家、公司也頻繁開啟了大數(shù)據(jù)戰(zhàn)略。

        2 大數(shù)據(jù)的分析方法

        對于網(wǎng)絡(luò)中的大數(shù)據(jù)應(yīng)用,一個重要問題是如何用統(tǒng)一的數(shù)學(xué)模型表示數(shù)據(jù)從而進(jìn)一步挖掘和分析任務(wù),不同的表示形式可以糾纏和隱藏或多或少地使變化數(shù)據(jù)背后的解釋性因素不同。因此,有必要對大數(shù)據(jù)的可行性和實用性進(jìn)行檢查。

        2.1 統(tǒng)計分析

        在大數(shù)據(jù)時代,隨著計算方法的進(jìn)步和數(shù)據(jù)倉庫的出現(xiàn),應(yīng)該對數(shù)據(jù)進(jìn)行挖掘處理,這樣會使分析結(jié)果比抽樣統(tǒng)計更加可靠。統(tǒng)計學(xué)領(lǐng)域也應(yīng)更新傳統(tǒng)觀念,學(xué)習(xí)新生事物,適應(yīng)大數(shù)據(jù)環(huán)境,擴(kuò)展統(tǒng)計學(xué)的應(yīng)用領(lǐng)域,創(chuàng)造出適合大數(shù)據(jù)的新的統(tǒng)計方法。大數(shù)據(jù)時代的統(tǒng)計特點對傳統(tǒng)的抽樣分析提出挑戰(zhàn),對抽樣分析結(jié)果的代表性及可靠性提出質(zhì)疑。

        大數(shù)據(jù)時代統(tǒng)計分析應(yīng)轉(zhuǎn)變思路,統(tǒng)計方法應(yīng)與時俱進(jìn)。在計算機(jī)技術(shù)飛速發(fā)展的今天,我們?nèi)绾问褂靡呀?jīng)儲備的大量資料進(jìn)行全樣本分析,應(yīng)該是大數(shù)據(jù)時代統(tǒng)計分析的新特征。

        大數(shù)據(jù)分析的經(jīng)濟(jì)價值,已經(jīng)開始撼動社會的方方面面。同時,大數(shù)據(jù)時代也向包括統(tǒng)計在內(nèi)的傳統(tǒng)領(lǐng)域提出了挑戰(zhàn),醫(yī)院管理者、臨床專家需要做好充足的準(zhǔn)備,以迎接大數(shù)據(jù)時代所帶來的變化與挑戰(zhàn)。

        2.2 數(shù)據(jù)挖掘

        隨著信息網(wǎng)絡(luò)的普及和移動互聯(lián)網(wǎng)的廣泛應(yīng)用,全世界聯(lián)網(wǎng)設(shè)備呈爆發(fā)式增長,根據(jù)賽門鐵克公司的調(diào)研報告, 全球企業(yè)數(shù)據(jù)存儲總量已達(dá)到2.2ZB(1ZB等于10ZB),并且以每年近70%速率增長。如何有效地挖掘“大數(shù)據(jù)”的潛在價值,是人類目前面臨的重大問題。

        2.2.1 數(shù)據(jù)挖掘的定義

        從技術(shù)的角度對數(shù)據(jù)挖掘(Data mining)定義:是指從大量、不完全、有噪聲、模糊、隨機(jī)的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。從商業(yè)的角度定義數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)的過程。不管是技術(shù)角度還是商業(yè)角度,數(shù)據(jù)挖掘的實質(zhì)是從海量數(shù)據(jù)中提取出對人類有價值的或有潛在價值的最終被人類利用而產(chǎn)生生產(chǎn)力的信息。

        2.2.2 大數(shù)據(jù)存儲技術(shù)

        隨著聯(lián)網(wǎng)設(shè)備呈指數(shù)方式增長,導(dǎo)致數(shù)據(jù)量激增,這種趨勢改變了長期以來以“計算”為中心的模式,進(jìn)而顛覆性改變到以“數(shù)據(jù)存儲”為中心的模式。大數(shù)據(jù)挖掘必須首先解決大數(shù)據(jù)的存儲問題。將現(xiàn)有的存儲技術(shù)RAID并行存儲、NAS附網(wǎng)存儲、SAN存儲區(qū)域網(wǎng)等網(wǎng)絡(luò)存儲體系進(jìn)行有機(jī)融合,采取集群網(wǎng)絡(luò)模式將成千上萬的商業(yè)網(wǎng)絡(luò)存儲系統(tǒng)連接起來,并應(yīng)用到大數(shù)據(jù)存儲中,這是解決大數(shù)據(jù)存儲的關(guān)鍵問題。同時在這種集群化的網(wǎng)絡(luò)存儲系統(tǒng)中采取創(chuàng)新性的數(shù)據(jù)存儲機(jī)制完成存儲操作和創(chuàng)新性的查詢機(jī)制完成查詢操作。由于采用集群聯(lián)網(wǎng)的方式將世界各地的商業(yè)化網(wǎng)絡(luò)存儲系統(tǒng)連接起來,就形成了多層次、多維度數(shù)據(jù)存儲體系,對大數(shù)據(jù)的存儲機(jī)制,很多文獻(xiàn)都給出了解決方案,如基于GHT的傳感器網(wǎng)絡(luò)數(shù)據(jù)中心存儲機(jī)制就是一種有成效的大數(shù)據(jù)存儲機(jī)制。各存儲系統(tǒng)如何協(xié)同工作、大數(shù)據(jù)存儲位置表示等諸多方面還需要繼續(xù)研究。

        2.2.3 大數(shù)據(jù)挖掘技術(shù)

        大數(shù)據(jù)里隱藏著無窮的價值,但從里面挖掘有用的信息,卻是不容易的。主要是因為數(shù)據(jù)太大,難以消化;信息種類繁多,難以識別;信息表示不統(tǒng)一,難以處理等。因此,人類擁有海量數(shù)據(jù),但卻覺得知識缺乏。數(shù)據(jù)挖掘技術(shù)經(jīng)歷了多個階段,也產(chǎn)生了很多數(shù)據(jù)挖掘算法。關(guān)聯(lián)規(guī)則挖掘已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域里舉足輕重的研究,關(guān)聯(lián)規(guī)則挖掘算法可以從大數(shù)據(jù)存儲系統(tǒng)中挖掘出隱藏的關(guān)聯(lián)規(guī)則。遺傳算法(GA)是數(shù)據(jù)挖掘算法中最常用的算法,是通過模擬自然進(jìn)化全局搜索大數(shù)據(jù)的算法。采用GA算法,對存儲體系中的大數(shù)據(jù)進(jìn)行搜索,對隨機(jī)產(chǎn)生的規(guī)則進(jìn)行進(jìn)化處理,直到大數(shù)據(jù)存儲系統(tǒng)中的隱含規(guī)則被挖掘出來,從而發(fā)現(xiàn)隱含在數(shù)據(jù)中的規(guī)則。在主流數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,基于遺傳算法的關(guān)聯(lián)規(guī)則自動挖掘算法也被設(shè)計出來,促進(jìn)了數(shù)據(jù)挖掘技術(shù)的發(fā)展。

        2.3 數(shù)據(jù)可視化

        傳統(tǒng)的科學(xué)可視化技術(shù)已成功應(yīng)用于各學(xué)科領(lǐng)域,但如果將其直接應(yīng)用于大數(shù)據(jù),將面臨實用性和有效性問題,這說明需要對科學(xué)可視化技術(shù)重新審視與深入研究。

        2.3.1 分布式并行可視化算法

        可擴(kuò)展性是構(gòu)造分布式并行算法的一項重要指標(biāo)。傳統(tǒng)的科學(xué)可視化算法應(yīng)用在小規(guī)模的計算機(jī)集群中,最多可以包括幾百個計算節(jié)點,而實際應(yīng)用是要在數(shù)千甚至上萬個計算節(jié)點上運行。隨著數(shù)據(jù)規(guī)模的逐漸增大,算法的效率逐漸成為數(shù)據(jù)分析流程的瓶頸,設(shè)計新的分布并行可視化算法已經(jīng)成為一個研究熱點。

        2.3.2 信息可視化

        信息可視化是跨學(xué)科領(lǐng)域的大規(guī)模非數(shù)值型信息資源的視覺展現(xiàn),能夠幫助人們理解和分析數(shù)據(jù)。信息可視化中的交互方法能夠?qū)崿F(xiàn)用戶與數(shù)據(jù)的快速交互,更好地驗證假設(shè)和發(fā)現(xiàn)內(nèi)在聯(lián)系。信息可視化技術(shù)提供了理解高維度、多層次、時空、動態(tài)、關(guān)系等復(fù)雜數(shù)據(jù)的手段,與科學(xué)可視化相比,信息可視化更側(cè)重于抽象數(shù)據(jù)集,如對非結(jié)構(gòu)化文本或者高維空間中不具有固有的二維或三維幾何結(jié)構(gòu)的點的視覺展現(xiàn)。信息可視化適用于大規(guī)模非數(shù)字型信息資源的可視化表達(dá)。

        2.3.3 可視化分析算法

        大數(shù)據(jù)的可視化算法不僅要考慮數(shù)據(jù)規(guī)模,而且要考慮視覺感知的高效算法。需要引入創(chuàng)新的視覺表現(xiàn)方法和用戶交互手段。更重要的是用戶的偏好必須與自動學(xué)習(xí)算法有機(jī)結(jié)合起來,這樣可視化的輸出具有高度適應(yīng)性??梢暬惴☉?yīng)擁有巨大的控制參數(shù)搜索空間,減少數(shù)據(jù)分析與探索的成本及降低難度,可以組織數(shù)據(jù)并且減少搜索空間。

        3 大數(shù)據(jù)處理方式

        大數(shù)據(jù)科學(xué)中需要尋找特定數(shù)據(jù)處理方式對數(shù)據(jù)進(jìn)行分析,進(jìn)而提高處理效率、處理精度。其中常用的處理方式包括批量式處理、流式處理、交互式處理。

        3.1 批量式處理方式

        批量處理方式主要是針對體量巨大、精確度高且價值密度較低數(shù)據(jù)的處理方式。這種方式適用于先存儲后分析,對實時性要求不高,但數(shù)據(jù)需要很高準(zhǔn)確性和全面性的場景。MapReduce是批處理方式中非常重要的模型之一。其核心思想為,首先將海量數(shù)據(jù)分為若干數(shù)據(jù)塊,然后將這些數(shù)據(jù)塊進(jìn)行并行處理并以分布方式得到中間結(jié)果,最后將各中間結(jié)果合并得到最終結(jié)果。然而這種批處理方式往往比較耗時,且不提供用戶與系統(tǒng)的交互手段,所以這種處理方式無法與預(yù)期或與以往結(jié)果相吻合時,比較難以修正。因此,批處理方式多用于相對比較成熟的領(lǐng)域。

        目前,批量處理方式主要應(yīng)用于互聯(lián)網(wǎng)、公共服務(wù)等領(lǐng)域。在互聯(lián)網(wǎng)領(lǐng)域中,批處理方式的典型應(yīng)用包括:(1)社交網(wǎng)絡(luò):Facebook等社交軟件通過用戶瀏覽的文檔、圖片、視頻等信息,利用批處理方式分析后得到用戶間的隱含關(guān)系,并推薦朋友或相關(guān)主題,提升用戶體驗。(2)電子商務(wù):電商平臺可以根據(jù)用戶購買商品的記錄,瀏覽商品頁面的次數(shù)及停留時間,利用批處理方式準(zhǔn)確定位用戶所需產(chǎn)品,從而提高銷量。在公共服務(wù)領(lǐng)域中,批處理方式的典型應(yīng)用包括:(1)醫(yī)療衛(wèi)生:通過對患者既往病史及生活方式信息進(jìn)行批量處理,對病人的病情進(jìn)行分析,并提供相應(yīng)的治療措施,節(jié)約了患者的就醫(yī)時間。(2)能源方面:通過對區(qū)域內(nèi)用戶的地理位置、歷史信息,及個人的能源使用情況等信息進(jìn)行批處理,優(yōu)化電力、水利等部門的能源分配方案,既能提升服務(wù)質(zhì)量,也能節(jié)約資源。隨著人們對數(shù)據(jù)中蘊含價值的提升,大數(shù)據(jù)批處理會有更多應(yīng)用的領(lǐng)域。

        一個GFS集群由一個主服務(wù)器和多個塊服務(wù)器構(gòu)成,可以由多個客戶端訪問,如圖1所示,每一個塊服務(wù)器都是典型的Linux機(jī)器,運行用戶級服務(wù)器進(jìn)程。

        Map Reduce是一種采用全局最優(yōu)化方法來解決大規(guī)模群組中的海量數(shù)據(jù)處理問題的分布式編程模型。該模型首先使用Bloom filter來減少返回null的查詢的數(shù)量;其次使用本地內(nèi)存來緩存從存儲系統(tǒng)返回的記錄,使用的LRU(Least Recently Used)緩存方式能夠良好地近似出詞頻,從而增加緩存效率;繼Bigtable之后使用了開源系統(tǒng)建模的分布式存儲系統(tǒng)HBase,降低了通信成本。Map Reduce的三層結(jié)構(gòu)如圖2所示。

        3.2 流式處理方式

        針對批處理性能的問題,科學(xué)家們又提出了實時數(shù)據(jù)處理,實時數(shù)據(jù)處理可以分為流式處理方式和交互式處理方式兩種。

        流式數(shù)據(jù)是一個無窮的數(shù)據(jù)序列,每個數(shù)據(jù)沒有固定的格式,但往往包含有序的標(biāo)簽(如時間)。流式數(shù)據(jù)一般情況下是被按序處理,然而數(shù)據(jù)的到達(dá)時間不可預(yù)知,這將會導(dǎo)致數(shù)據(jù)的邏輯順序與物理順序不一致,并且數(shù)據(jù)的流速會產(chǎn)生較大的波動,因此系統(tǒng)需要有很強(qiáng)的異構(gòu)數(shù)據(jù)處理能力,并且還需要很好的可伸縮性,以應(yīng)對復(fù)雜且不穩(wěn)定的數(shù)據(jù)流。并且由于流式數(shù)據(jù)是活動的,這與批處理方式(先存儲后查詢)的方式不同,需要系統(tǒng)能保留數(shù)據(jù)的活動性。流式處理針對這種特性,需要提供相應(yīng)的能實時返回當(dāng)前結(jié)果的查詢接口。

        目前,流式數(shù)據(jù)處理主要應(yīng)用于數(shù)據(jù)采集和金融方面。在數(shù)據(jù)采集方面,通過主動的數(shù)據(jù)采集實時數(shù)據(jù),即時進(jìn)行分析,挖掘其中的價值。通過傳感器,采集日志中的海量信息,實時分析并提供動態(tài)顯示,可以用于環(huán)境監(jiān)測、災(zāi)害預(yù)警等場景中。在金融方面,對銀行日常運營中的短時效性的數(shù)據(jù)進(jìn)行流式處理,發(fā)現(xiàn)其內(nèi)在的特征與規(guī)律,可以幫助銀行更有效地進(jìn)行實時決策。如股票期貨市場,批處理方式不能針對當(dāng)前情況及時響應(yīng),就需要流式處理方式的幫助。總之,流式處理主要針對的是來源復(fù)雜、結(jié)構(gòu)不固定、物理順序不一,且價值密度低的數(shù)據(jù)。而相應(yīng)的處理工具則要求具有高性能、實時、可擴(kuò)展等特性。

        Storm高速事件處理系統(tǒng)由Twitter支持并開發(fā),雅虎、Spotify還有The Weather Channel等也在使用該系統(tǒng),其特點是允許增量計算(見圖3)。

        Spark Streaming特點是能夠進(jìn)行圖形操作、機(jī)器學(xué)習(xí)以及訪問SQL。同時Apache Spark的Stack可將library與數(shù)據(jù)流(Spark SQL,Mllib,GraphX等)相結(jié)合,并提供一體化編程模型(見圖4)。

        Samza系統(tǒng)是將存儲與處理在同一機(jī)器上進(jìn)行,能夠在不額外載入內(nèi)存情況下保持高效處理,適于處理大量狀態(tài)的情況(見圖5)。

        3.3 交互式處理方式

        交互式處理是一種靈活、直觀、便于控制的大數(shù)據(jù)處理方式。對于操作人員的請求,數(shù)據(jù)以對話方式輸入,系統(tǒng)通過提供相應(yīng)的數(shù)據(jù)或提示信息,引導(dǎo)操作人員進(jìn)行下一步操作,直至得到最終結(jié)果。交互式數(shù)據(jù)處理方式的結(jié)果可以立刻被使用,同時系統(tǒng)中的數(shù)據(jù)文件也可以被及時修改,這些特性保證了輸入信息可以被及時處理。

        交互式數(shù)據(jù)處理在許多領(lǐng)域已經(jīng)有了廣泛的應(yīng)用,其中最典型的兩個應(yīng)用場景是信息處理領(lǐng)域和互聯(lián)網(wǎng)領(lǐng)域。在信息處理領(lǐng)域中,傳統(tǒng)的交互式處理主要以關(guān)系型數(shù)據(jù)管理系統(tǒng)為主,面向聯(lián)機(jī)事務(wù)管理和聯(lián)機(jī)分析處理。聯(lián)機(jī)事務(wù)處理多用于政府、醫(yī)療及對操作順序有嚴(yán)格要求的工業(yè)控制領(lǐng)域。聯(lián)機(jī)分析處理則廣泛應(yīng)用于數(shù)據(jù)分析、商業(yè)智能等領(lǐng)域。目前,以Hive、Pig等為代表的分布式數(shù)據(jù)倉庫已經(jīng)能支持上千臺服務(wù)器的規(guī)模。在互聯(lián)網(wǎng)領(lǐng)域中,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,用戶與平臺和其他用戶之間的交互更加復(fù)雜且頻繁,而搜索引擎、微博及諸如百度知道的在線問答平臺等網(wǎng)絡(luò)平臺則利用復(fù)雜的交互式處理滿足了用戶的需求。目前,各大平臺主要使用NoSQL類型的數(shù)據(jù)庫來進(jìn)行交互式數(shù)據(jù)處理。如HBase的多為有續(xù)表的列式存儲、MongoDB的JSON格式的數(shù)據(jù)嵌套存儲等。

        4 大數(shù)據(jù)處理基本流程

        4.1 數(shù)據(jù)采集

        大數(shù)據(jù)指的是其規(guī)模、其涌現(xiàn)速度和其處理難點超出目前常規(guī)技術(shù)能管理、處理和分析的數(shù)據(jù)(見圖6)。

        于是就有了如何認(rèn)識數(shù)據(jù)的問題。倘若人類僅僅獲取數(shù)據(jù),停留在這個層面,意義還是有限。只有對用戶有用的數(shù)據(jù)(稱為信息),用戶才會感興趣。但信息還是低級層面,用戶更感興趣的是知識。換句話說,我們要討論如何從數(shù)據(jù)到信息到知識再到智慧這四個層次的演變:即借助于傳感器或軟件采集和處理到信號,從而形成數(shù)據(jù),經(jīng)處理后變成信息,再通過挖掘形成知識,最終上升到智慧層次(見圖6)。對人類來說最關(guān)心的是金字塔頂上的東西,只有處理到最上層(智慧)才是大家最感興趣的東西。換言之,人們不只想知道感知到的是什么數(shù)據(jù),還想知道這些數(shù)據(jù)代表什么,更想知道面對這些數(shù)據(jù)我們應(yīng)該采取的應(yīng)對策略是什么。要做到這一點,就需要很好的工具。這就涉及到大數(shù)據(jù)分析問題。

        大數(shù)據(jù)分析學(xué),籠統(tǒng)地講就是大數(shù)據(jù)分析技術(shù)。那么,大數(shù)據(jù)分析技術(shù)具體是指什么?迄今為止,還沒有權(quán)威人士給出明確的答案。但目前人們認(rèn)識到有兩大問題是重點:一個就是文本的分析學(xué),第二個就是機(jī)器學(xué)習(xí)。

        4.2 數(shù)據(jù)分析與挖掘

        就大數(shù)據(jù)的處理平臺來說,大數(shù)據(jù)系統(tǒng)需要非常大的數(shù)據(jù)處理、傳輸和存儲能力,目前云計算平臺是最符合要求的計算基礎(chǔ)設(shè)施。云平臺實現(xiàn)了計算資源和物理資源的虛擬化,通過資源池對處理能力進(jìn)行快速動態(tài)分配和調(diào)用,具有一定的可伸縮性,能夠最大限度地利用已有計算能力,降低運行成本,節(jié)省用戶開支。數(shù)據(jù)分析方法通常如下所示。

        (1)關(guān)聯(lián)分析與FP.growth算法關(guān)聯(lián)分析是挖掘數(shù)據(jù)庫中兩個或多個變量之間存在的關(guān)系,該問題由Agrawal等于1993年首先提出。經(jīng)典的關(guān)聯(lián)算法為Apriori算法,該算法需要對頻繁項集進(jìn)行迭代生成和掃描。針對Apriori算法的固有缺陷,有學(xué)者提出了不產(chǎn)生候選挖掘頻繁項集的方法:FP-growth算法。通過建立FP—tree,該算法解決了Apriori算法中的長頻繁項搜索子項數(shù)量巨大的問題。實驗表明,F(xiàn)P—growth對不同長度的規(guī)則都有很好的適應(yīng)性,同時在效率上較之Apriori算法有巨大的提高。FP—growth的并行化,主要研究基于Map/Re—duce的FP—growth算法。理論上,通過對FP—Tree不斷的遞歸挖掘就可以得到所有的完備頻繁模式(Frequent Patterns)。但是在目前海量數(shù)據(jù)的現(xiàn)狀下。FP—Tree已經(jīng)大到無法駐留在計算機(jī)的內(nèi)存中,因此并行化是必然的選擇。

        (2)分布式聚類算法為了發(fā)現(xiàn)設(shè)備故障和狀態(tài)異常,可以對狀態(tài)數(shù)據(jù)進(jìn)行聚類,將正常狀態(tài)和故障狀態(tài)區(qū)分出來。通過聚類,可以將數(shù)據(jù)劃分為不同的簇,其簇問差異較大,而簇內(nèi)差異較小。聚類以樣本間的相似度為基礎(chǔ),可以通過不同的距離計算方式達(dá)到不同的分類效果,如曼哈頓距離、歐氏距離、漢明距離或夾角余弦等。在能源互聯(lián)網(wǎng)中數(shù)據(jù)采集量巨大,聚類需要分布式運行,整個聚類任務(wù)被當(dāng)作一個Hadoop任務(wù)來并行運行,通過將分布式計算與迭代計算相結(jié)合,大大減少了計算時間。

        5 大數(shù)據(jù)面臨的挑戰(zhàn)

        麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合;具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。例如,一個公民的心率和陣列望遠(yuǎn)鏡一天將產(chǎn)生巨大的原始數(shù)據(jù)。海量的數(shù)據(jù)規(guī)模中很多數(shù)據(jù)是我們不感興趣的。在大數(shù)據(jù)處理中面臨的挑戰(zhàn)是如何不丟棄有用信息的情況下定義有效的濾波器。我們需要研究的是科學(xué)數(shù)據(jù)簡化,能夠智能地處理這些原始數(shù)據(jù)。當(dāng)人類消費信息時,很容易受到許多異質(zhì)性的影響。事實上,自然語言的細(xì)微差別和豐富性可以提供寶貴的深度。然而,機(jī)器分析算法期望均勻的數(shù)據(jù),并且不能理解細(xì)微差別。因此,數(shù)據(jù)必須作為數(shù)據(jù)分析(或之前)的第一步仔細(xì)構(gòu)建。

        在大數(shù)據(jù)的應(yīng)用中,數(shù)據(jù)的隱私是一個巨大的問題。管理隱私實際上既是技術(shù)性的又是社會學(xué)問題,必須從兩個角度共同解決,實現(xiàn)大數(shù)據(jù)的承諾。例如,考慮從基于位置的服務(wù)收集的數(shù)據(jù),這些新架構(gòu)需要用戶與服務(wù)提供商分享的位,導(dǎo)致明顯的隱私問題。隱藏用戶身份而不隱藏其的位置將無法正確解決這些隱私問題。攻擊者基于位置的服務(wù)器可以從其位置信息中查出查詢源的身份。在大數(shù)據(jù)時代,數(shù)據(jù)采集和訪問肯定會通過網(wǎng)絡(luò)進(jìn)行,這可能更容易受到攻擊。我們可以通過當(dāng)前相關(guān)的研究課題來想象可能的攻擊。

        另一個非常重要的方面是重新考慮大數(shù)據(jù)用例中信息共享的安全性。今天許多在線服務(wù)要求我們分享私人信息。不僅在計算方面,而且在網(wǎng)絡(luò)的角度來看,隱私成為開發(fā)大數(shù)據(jù)的關(guān)鍵。數(shù)據(jù)社區(qū)在十多年前就實現(xiàn)了隱私保護(hù)數(shù)據(jù)發(fā)布(PPDP)的隱私問題,其次是隱私知識學(xué)習(xí)的新研究課題。此外,世界領(lǐng)先研究人員最近的調(diào)查報告指出,大數(shù)據(jù)的出現(xiàn)是機(jī)器學(xué)習(xí)技術(shù)發(fā)展的動力引擎,同時機(jī)器學(xué)習(xí)在大數(shù)據(jù)時代的隱私方面也構(gòu)成了關(guān)鍵威脅。

        參考文獻(xiàn)

        [1] Alexandros Labrinidis,H.V.Jagadish.Challenges and opportunities with big data[J].Proceedings of the VLDB Endowment,2012,5(12):2032-2033.

        [2] Keim DA.Information Visualization and Visual Data Mining[J].IEEE Transactions on Visualization and Computer Graphics,2002,8(1):1-8.

        [3] PC Wang,HW shen,CR Johnson,et al.The top 10 challenges in extreme-scale visual analytics[J].IEEE Computer Graphics and Applications,2012,32(4):63-67.

        [4] Chaomei Chen.An Information-Theoretic View of Visual Analytics[J].Computer Graphics,2008,28(1):18.

        [5] Zhicheng Liu,Nancy Nersessian,John Stasko.Distributed Cognition as a Theoretical Framework for Information Visualization[J]. IEEE Transactions on Visualization and Computer Graphics,2008,14(6):1173-1180.

        [6] Cui Weiwei,Liu Shixia,Tan Li,et al.Textflow: Towards better understanding of evolving topics in text[J].IEEE Transactions on Visualization and Computer Graphics,2011,17(12):2412-2421.

        [7] Herman Ivan,Melancon Guy,Marshall M.Scott.Graph visualization and navigation in information visualization:asurvey[J].IEEE Transactions on Visualization and Computer Graphics,2002,6(1):24-43.

        [8] Gou Liang,Zhang Xiaolong,Lu ke.Treenetviz: Revealing patterns of networks over tree structures[J].IEEE Transactions on Visualization and Computer Graphics,2011,17(12):2449-2458.

        [9] Cui Weiwei,Zhou Hong,Qu Huamin,et al.Geometry-based edge clustering for graph visualization[J].IEEE Transactions on Visualization and Computer Graphics,2008,14(6):1277.

        [10]David Selassie,Brandon Heller,Jeffrey Heer.Divided Edge Bundling for Directional Network Data[J].IEEE Transactions on Visualization and Computer Graphics,2011,17(2):2354-2363.

        [11]Ozan Ersoy,Christophe Hurter,F(xiàn)ernando Paulovich,et al.Skeleton-Based Edge Bundling for Graph Visualization[J].IEEE Transactions on Visualization and Computer Graphics,2011,17(12):2364-2373.

        [12]王祖超,袁曉如.軌跡數(shù)據(jù)可視分析研究[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2015(1):9-25.

        [13]陳誼,劉瑩,田帥,等.食品安全大數(shù)據(jù)可視分析方法研究[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2017(1):8-16.

        [14]陳良臣.大數(shù)據(jù)可視分析的若干關(guān)鍵技術(shù)研究[J].數(shù)字技術(shù)與應(yīng)用,2015(11):98.

        [15] 佚名.《空間可視分析方法和應(yīng)用》出版[J].測繪通報,2008(2):10.

        [16]鄧超,宋金偉,孫瑞志,等.基于熱力圖的卷煙市場數(shù)據(jù)可視分析系統(tǒng)[J].煙草科技,2016(12):91-97.

        [17]姜曉睿,田亞,蔣莉,等.城市道路交通數(shù)據(jù)可視分析綜述[J].中國圖象圖形學(xué)報,2015(4):454-467.

        [18]沈漢威,張小龍,陳為,等.可視化及可視分析專題前言[J].軟件學(xué)報,2016(5):1059-1060.

        [19]聶俊嵐,陳歡歡,郭棟梁,等.多維數(shù)字戰(zhàn)場態(tài)勢可視分析研究[J].小型微型計算機(jī)系統(tǒng),2014(3):626-629.

        [20]梁榮華.“大數(shù)據(jù)可視分析”專欄序[J].中國圖象圖形學(xué)報,2015(4):453.

        [21]杜一,任磊.DaisyVA:支持信息多面體可視分析的智能交互式可視化平臺[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2013(8):1177-1182.

        [22]戴國忠,陳為,洪文學(xué),等.信息可視化和可視分析:挑戰(zhàn)與機(jī)遇——北戴河信息可視化戰(zhàn)略研討會總結(jié)報告[J].中國科學(xué):信息科學(xué),2013(1):178-184.

        [23]Paek T,Dumais S,Logan R.WaveLens:A new view onto internet search results[A].Proc.of the CHI[C].2004:727-734.

        猜你喜歡
        機(jī)遇與挑戰(zhàn)大數(shù)據(jù)
        我國綠色金融在發(fā)展中如何面對當(dāng)前的機(jī)遇和挑戰(zhàn)
        互聯(lián)網(wǎng)浪潮下保險市場面臨的機(jī)遇與挑戰(zhàn)
        時代金融(2016年27期)2016-11-25 18:22:56
        探討大數(shù)據(jù)背景下金融產(chǎn)業(yè)面臨的機(jī)遇與挑戰(zhàn)
        商情(2016年39期)2016-11-21 08:28:59
        大數(shù)據(jù)給財會行業(yè)帶來的機(jī)遇與挑戰(zhàn)
        文化差異對初入國際市場的法國中小企業(yè)影響分析
        中國市場(2016年33期)2016-10-18 14:09:48
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        MOOC環(huán)境下黨校圖書館應(yīng)對策略研究
        少妇被猛烈进入中文字幕| 国产亚洲美女精品久久久| 狠狠色综合播放一区二区| 看全色黄大色大片免费久久久| 日本a爱视频二区三区| 国产精品自产拍av在线| 国产精品伦理久久一区| 日韩国产人妻一区二区三区| 东北少妇不带套对白| 人妻少妇精品无码专区动漫| 欧韩视频一区二区无码| 亚洲av粉色一区二区三区| 亚洲av手机在线一区| 偷拍一区二区盗摄视频| 亚洲国产精品久久久久久无码| 国产欧美日韩综合精品二区| 久久久久亚洲AV成人网毛片 | 国产一品二品精品在线| a级毛片100部免费观看| 91视频免费国产成人| 国产精品av免费网站| 免费人成视网站在线剧情 | 日日碰狠狠添天天爽无码| 久久精品一区二区三区av| 国产精品白浆视频免费观看| 日韩精品有码在线视频| av黄色在线免费观看| 又黄又爽又无遮挡免费的网站| 亚洲中文字幕无码专区| 国产极品美女到高潮视频| 日本熟女视频一区二区三区| 国产在线高清理伦片a| 黑人玩弄人妻中文在线| 亚洲AV成人无码国产一区二区| 国产一区二区三区特黄| 亚洲国产丝袜久久久精品一区二区| 国产农村妇女精品一二区| 午夜一级在线| 国产成人高清视频在线观看免费| 日本一卡二卡3卡四卡免费观影2022| 无码人妻精品一区二区三区在线 |