佘朝兵
摘 要:近年來,隨著我國云計算技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)中的數(shù)據(jù)增長速度非???,每天產(chǎn)生的數(shù)據(jù)量非常龐大,我國已經(jīng)進入了大數(shù)據(jù)時代。在大數(shù)據(jù)時代,需要充分挖掘數(shù)據(jù)的隱藏價值,對數(shù)據(jù)加強分析。在大數(shù)據(jù)時代,采用傳統(tǒng)的數(shù)據(jù)庫已經(jīng)不能對數(shù)據(jù)進行有效處理,因此,需要采用更先進的數(shù)據(jù)處理方式。主要闡述了大數(shù)據(jù)的概念和特點,并分析了大數(shù)據(jù)下的數(shù)據(jù)分析理念,闡述了相關(guān)的數(shù)據(jù)分析技術(shù)。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;計算機;互聯(lián)網(wǎng)
中圖分類號:TP311.13 文獻標(biāo)識碼:A DOI:10.15913/j.cnki.kjycx.2017.07.045
數(shù)據(jù)分析是數(shù)據(jù)處理的核心流程,通過數(shù)據(jù)分析可以充分挖掘數(shù)據(jù)的價值。在大數(shù)據(jù)的背景下,數(shù)據(jù)量非常龐大,因此,對數(shù)據(jù)的查詢、儲存和分析的要求都越來越高。在實際操作中,需要針對大數(shù)據(jù)時代的特點探究有效的數(shù)據(jù)分析模式和技術(shù)。
1 大數(shù)據(jù)的概念和特點
可以將大數(shù)據(jù)看作處理能力非常強的計算機,也可以認為是對大量數(shù)據(jù)進行分析和處理的技術(shù),即在規(guī)定的時間內(nèi)對大量的數(shù)據(jù)進行分析和整合,充分挖掘數(shù)據(jù)的價值,總結(jié)出重要的信息。此外,還可以將大數(shù)據(jù)看作在規(guī)定的時間內(nèi)對數(shù)據(jù)的信息分析和拆解技術(shù)。
大數(shù)據(jù)具有廣泛性的特點,在大數(shù)據(jù)時代下,人們的生活方式和思想方式發(fā)生了巨大的改變,計算機和互聯(lián)網(wǎng)已經(jīng)成為了人們生活中不能缺少的部分,因此,對大數(shù)據(jù)的處理、整合和分析都在不斷變化。在大數(shù)據(jù)時代下,這些數(shù)據(jù)往往是公開和透明的,很多領(lǐng)域都可以運用。對于這些數(shù)據(jù)的分析結(jié)果,對人們的生活、學(xué)習(xí)和工作都有很大的幫助。
大數(shù)據(jù)具有社會性的特點。大數(shù)據(jù)時代將大量的信息都匯聚在一起,通過互聯(lián)網(wǎng)將各種數(shù)據(jù)連接在一起,充分挖掘數(shù)據(jù)的價值,促進了社會的進一步發(fā)展,因此,大數(shù)據(jù)具有社會性。此外,大數(shù)據(jù)還具有動態(tài)性的特點,在大數(shù)據(jù)的時代下,各種數(shù)據(jù)和信息都時刻發(fā)生著變化,在任何時間都會產(chǎn)生數(shù)據(jù)信息。
2 大數(shù)據(jù)下的數(shù)據(jù)分析技術(shù)
2.1 大數(shù)據(jù)的具體分析過程
在大數(shù)據(jù)時代下,對數(shù)據(jù)分析和處理需要按照一定的規(guī)定和流程。在實際生活中,各種數(shù)據(jù)已經(jīng)在每一個領(lǐng)域和每一個行業(yè)都有所滲透,且這些數(shù)據(jù)在不同的地區(qū)與不同的行業(yè)之間發(fā)生著轉(zhuǎn)變。大數(shù)據(jù)時代的數(shù)據(jù)分析與以往的數(shù)據(jù)分析要求不同,因此,大數(shù)據(jù)分析已經(jīng)逐漸代替了原來的傳統(tǒng)數(shù)據(jù)分析技術(shù)。在大數(shù)據(jù)時代下的數(shù)據(jù)分析技術(shù)要從社會的各個領(lǐng)域和地區(qū)搜集各種信息,然后將這些信息轉(zhuǎn)化為有效的數(shù)據(jù),再采用數(shù)據(jù)分析技術(shù)對數(shù)據(jù)加以分類、整合和分析。在對數(shù)據(jù)分析時,要將沒有用的信息刪除,對有用的信息進行深層分析和處理,并運用到實際生活和工作中,發(fā)揮數(shù)據(jù)的各種優(yōu)勢。
2.2 大數(shù)據(jù)的分析模式
根據(jù)數(shù)據(jù)的來源對其進行劃分,可以將大數(shù)據(jù)分為以下幾種:①我國不同行業(yè)和不同領(lǐng)域的各種統(tǒng)計數(shù)據(jù)。②在互聯(lián)網(wǎng)上用戶對各種信息和資源的點擊率和瀏覽次數(shù),且包括動態(tài)網(wǎng)站網(wǎng)頁和社會網(wǎng)站上的各種信息的變化。在對這一類的數(shù)據(jù)搜索時,通過網(wǎng)絡(luò)的實時監(jiān)控數(shù)據(jù)和搜索關(guān)鍵詞的搜索量就可以獲得各種互聯(lián)網(wǎng)中的數(shù)據(jù)。③通信領(lǐng)域的數(shù)據(jù)。包括個人用戶的信息、通話記錄時間等相關(guān)數(shù)據(jù)。④用戶的行為以及用戶對系統(tǒng)的操作等日志數(shù)據(jù)。
由于大數(shù)據(jù)的數(shù)量非常多,且來源于不同的領(lǐng)域和行業(yè),可通過各種途徑獲取。對于非結(jié)構(gòu)化的數(shù)據(jù),在對其分析時,對于通信領(lǐng)域的數(shù)據(jù),可以采用查詢和歸納統(tǒng)計的方式來實現(xiàn),可以在較短的時間內(nèi)獲取有價值的信息。對于這種數(shù)據(jù)處理,采用查詢式的分析模式。
對于日志數(shù)據(jù),可以對用戶的點擊瀏覽行為分析,從而了解日志和系統(tǒng)的運行行為。如果是在互聯(lián)網(wǎng)中產(chǎn)生的數(shù)據(jù),則應(yīng)通過搜索引擎來對數(shù)據(jù)進行檢索、處理和分析。由于我國的科學(xué)技術(shù)在不斷進步,大數(shù)據(jù)的分析引擎已經(jīng)變得非常便捷和準(zhǔn)確,可以在海量的信息中獲取最有價值和最有用的數(shù)據(jù)。對于網(wǎng)頁數(shù)據(jù)和日志數(shù)據(jù)而言,在實際處理過程中比較接近,通過對數(shù)據(jù)的仔細分析就可以得到有價值的信息。
國民經(jīng)濟中非常重要的數(shù)據(jù)主要通過實時監(jiān)控來分析。這種數(shù)據(jù)分析模式稱之為實時數(shù)據(jù)分析處理模式。無論是哪種數(shù)據(jù)分析模式,都可以采用關(guān)聯(lián)規(guī)則、回歸分析、分類和神經(jīng)網(wǎng)絡(luò)等來處理。
2.3 大數(shù)據(jù)分析技術(shù)
在大數(shù)據(jù)時代下,數(shù)據(jù)量非常龐大,且其來源非常復(fù)雜,這些數(shù)據(jù)資源是不斷變化的,為了從不斷變化和迅速增張的數(shù)據(jù)中分析和得出有利用價值的信息,要采用先進的數(shù)據(jù)分析技術(shù)。只有這樣,才能處理數(shù)據(jù)量非常大的數(shù)據(jù)。由于數(shù)據(jù)的結(jié)構(gòu)和種類非常多,而主要的數(shù)據(jù)類型為非結(jié)構(gòu)化的數(shù)據(jù)類型和半結(jié)構(gòu)化的數(shù)據(jù)類型,因此,可以采用基于MapReduce的大數(shù)據(jù)處理技術(shù)來處理分析技術(shù)。
在實際的對數(shù)據(jù)處理的過程中,對于基于MapReduce的連接算法,其可以有效提高對相關(guān)數(shù)據(jù)的查詢效率。在大數(shù)據(jù)時代,數(shù)據(jù)量非常龐大,采用這種連接算法,可以提高算法的執(zhí)行效率,對提高查詢效率有很好的作用,通過加入索引的方式使網(wǎng)絡(luò)的傳輸量減小,提高查詢?nèi)蝿?wù)的效率和質(zhì)量。
基于MapReduce的迭代算法是數(shù)據(jù)挖掘的一種重要方式,尤其是在大數(shù)據(jù)時代,采用這種方式,可以有效處理海量數(shù)據(jù)的分布式計算框架,可以采用局部線性的方式避免運行延遲出現(xiàn),從而有效提升運算執(zhí)行效率和速度。
基于MapReduce的調(diào)度算法,對其優(yōu)化可以有效提升上層算法的效率。在一般的數(shù)據(jù)處理中,常見的調(diào)度機制是推測執(zhí)行調(diào)度策略。但在異構(gòu)的環(huán)境下,這種方式并不好,而大數(shù)據(jù)背景下的數(shù)據(jù)很多都為異構(gòu)數(shù)據(jù),因此,需要對基于MapReduce的調(diào)度算法進行優(yōu)化,采用容量調(diào)度策略和公平調(diào)度策略。在對任務(wù)查詢時,可以重新組合,對模型優(yōu)化。
3 結(jié)束語
大數(shù)據(jù)時代需要分析的數(shù)據(jù)在數(shù)量上非常多,且有多種來源,很多數(shù)據(jù)都非常復(fù)雜,因此,在分析時要降低維度、將其逐層抽象,然后對多種類型和來源數(shù)據(jù)進行解讀和概括。在實際的數(shù)據(jù)分析中,需要針對不同來源的數(shù)據(jù)采用不同的分析模式,具體分析時采用基于MapReduce的數(shù)據(jù)分析技術(shù)可以滿足大數(shù)據(jù)時代數(shù)據(jù)分析要求。
參考文獻
[1]單海波.淺談大數(shù)據(jù)時代的數(shù)據(jù)分析與挖掘[J].科技創(chuàng)新與應(yīng)用,2016(24).
[2]程學(xué)旗,靳小龍,王元卓.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,2014(09).
[3]張學(xué)敏.大數(shù)據(jù)時代的數(shù)據(jù)分析[J].電子世界,2014(16).
[4]朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014(02).
〔編輯:張思楠〕