陳陵
(重慶工貿(mào)職業(yè)技術(shù)學院)
【摘要】本文對大數(shù)據(jù)從定義、到分析方法及應用作了較詳細的講解,希望對想了解大數(shù)據(jù)的人有所幫助。
【關鍵詞】大數(shù)據(jù) 分析 應用
“大數(shù)據(jù)”是目前最流行的詞匯,其實它就是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn)。
大約從2009年開始,“大數(shù)據(jù)”才流行于互聯(lián)網(wǎng)信息技術(shù)行業(yè)的。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們在互聯(lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。
大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分模谝栽朴嬎銥榇淼募夹g(shù)創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會逐步為人類創(chuàng)造更多的價值。
大數(shù)據(jù)時代的超大數(shù)據(jù)體量和占相當比例的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存在,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)庫的管理能力,大數(shù)據(jù)技術(shù)將是IT領域新一代的技術(shù)與架構(gòu),它將幫助人們存儲管理好大數(shù)據(jù)并從大體量、高復雜的數(shù)據(jù)中提取價值,相關的技術(shù)、產(chǎn)品將不斷涌現(xiàn),將有可能給IT行業(yè)開拓一個新的黃金時代。
大數(shù)據(jù)本質(zhì)也是數(shù)據(jù),其關鍵的技術(shù)依然逃不脫:大數(shù)據(jù)存儲和管理;大數(shù)據(jù)檢索使用(包括數(shù)據(jù)挖掘和智能分析)。圍繞大數(shù)據(jù),一批新興的數(shù)據(jù)挖掘、數(shù)據(jù)存儲、數(shù)據(jù)處理與分析技術(shù)將不斷涌現(xiàn),讓我們處理海量數(shù)據(jù)更加容易、更加便宜和迅速,成為企業(yè)業(yè)務經(jīng)營的好助手,甚至可以改變許多行業(yè)的經(jīng)營方式。
大數(shù)據(jù)處理數(shù)據(jù)時代理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。具體的大數(shù)據(jù)處理方法其實有很多,但是根據(jù)長時間的實踐,筆者總結(jié)了一個基本的大數(shù)據(jù)處理流程,并且這個流程應該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個處理流程可以概括為四步,分別是采集、導入和預處理、統(tǒng)計和分析,以及挖掘。
大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。
在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深入的思考和設計。
不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。可視化是給人看的,數(shù)據(jù)挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預測性的判斷。我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設計成能夠從“文檔”中智能提取信息。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數(shù)據(jù)進行處理可以保證一個預先定義好的高質(zhì)量的分析結(jié)果。
真正的革命并不在于分析數(shù)據(jù)的機器,而在于數(shù)據(jù)本身和我們?nèi)绾芜\用數(shù)據(jù)。一旦把統(tǒng)計學和現(xiàn)在大規(guī)模的數(shù)據(jù)融合在一起,將會顛覆很多我們原來的思維。所以現(xiàn)在能夠變成數(shù)據(jù)的東西越來越多,計算和處理數(shù)據(jù)的能力越來越強,所以大家突然發(fā)現(xiàn)這個東西很有意思。所以,大數(shù)據(jù)能干啥?能干很多很有意思的事情。大數(shù)據(jù)的核心就是預測,大數(shù)據(jù)能夠預測體現(xiàn)在很多方面。大數(shù)據(jù)不是要教機器像人一樣思考,相反,它是把數(shù)學算法運用到海量的數(shù)據(jù)上來預測事情發(fā)生的可能性。正因為在大數(shù)據(jù)規(guī)律面前,每個人的行為都跟別人一樣,沒有本質(zhì)變化,所以商家會比消費者更了消費者的行為。
在2008年次貸危機渡過之后,華爾街并未終止這次危機的風險根源——信貸業(yè)務。相反,各大銀行將個人、組織儲蓄、支付、信貸記錄數(shù)據(jù)連通、分享并進行外包分析,利用數(shù)據(jù)類別的交叉關聯(lián)建立風險模型,提前分析預測出不良信貸的可能性,從而避免金融信用產(chǎn)品的濫發(fā),增強預監(jiān)管。在我國,阿里、騰訊、京東等大型電商,均已引入了基于瀏覽與購買記錄的消費傾向分析系統(tǒng),對商家的推廣策略、供應鏈管理等方面起到了重大促進作用。
美國有一家創(chuàng)新企業(yè)Decide.com,它可以幫助人們做購買決策,告訴消費者什么時候買什么產(chǎn)品,什么時候買最便宜,預測產(chǎn)品的價格趨勢,這家公司背后的驅(qū)動力就是大數(shù)據(jù)。他們在全球各大網(wǎng)站上搜集數(shù)以十億計的數(shù)據(jù),然后幫助數(shù)以十萬計的用戶省錢,為他們的采購找到最好的時間,降低交易成本,為終端的消費者帶去更多價值。
美國教育部門對大數(shù)據(jù)的運用主要是創(chuàng)造了“學習分析系統(tǒng)”——一個數(shù)據(jù)挖掘、?;桶咐\用的聯(lián)合框架。這些“學習分析系統(tǒng)”旨在向教育工作者提供了解學生到底是在“怎樣”學習的更多、更好、更精確的信息。舉例來說,一個學生成績不好是由于他因為周圍環(huán)境而分心了嗎?期末考試不及格是否意味著該學生并沒有完全掌握這一學期的學習內(nèi)容,還是因為他請了很多病假的緣故?利用大數(shù)據(jù)的學習分析能夠向教育工作者提供有用的信息,從而幫助其回答這些不太好回答的現(xiàn)實問題。
所有,我們應好好學習大數(shù)據(jù)、研究大數(shù)據(jù)、用好大數(shù)據(jù)。
參考文獻:[1]伊恩·艾瑞斯,主編 大數(shù)據(jù)思維與決策 人民郵電出版社
[2]楊光霞,主編,SPSS數(shù)據(jù)統(tǒng)計與分析 清華大學出版社