魏堅
摘要:現(xiàn)在很多行業(yè)對多項數(shù)據(jù)的分析是企業(yè)取得成功的一個強(qiáng)有力的支撐條件,如李克強(qiáng)總理在談到大數(shù)據(jù)分析時不斷的強(qiáng)調(diào),經(jīng)濟(jì)數(shù)據(jù)和目標(biāo)的進(jìn)一步調(diào)整,中小企業(yè)將面臨更大的壓力,互聯(lián)網(wǎng)金融除了解決便利性問題外,更重要的是如何圍繞特有的大數(shù)據(jù)資源展開對實體經(jīng)濟(jì)的服務(wù)。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)的特征;分析運(yùn)用
筆者最近看了一部好萊塢的勵志電影《點(diǎn)球成金》,是由布拉德·皮特主演的一部美國奧斯卡獲獎影片,所講述的是皮特扮演的棒球隊總經(jīng)理利用計算機(jī)數(shù)據(jù)分析,對球隊進(jìn)行了翻天覆地的改造,讓一家不起眼的小球隊能夠取得巨大的成功。在片中布拉德·皮特基于歷史數(shù)據(jù),利用數(shù)據(jù)建模定量分析不同球員特點(diǎn),合理搭配,重新組隊,并且打破傳統(tǒng)思維,通過分析比賽數(shù)據(jù),尋找“性價比”最高球員,運(yùn)用數(shù)據(jù)取得成功。
那么什么是大數(shù)據(jù)呢?對于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了這樣的定義?!按髷?shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。在現(xiàn)在的信息成爆炸式的增長下,面對海量的數(shù)據(jù),給我們帶來了思維上的革新:更多,更雜,更好。而大數(shù)據(jù)的4V特征更是值得我們?nèi)パ芯繒?/p>
第一,Volume 是對大數(shù)據(jù)在于數(shù)據(jù)結(jié)構(gòu)上面的一個簡單的總結(jié),它簡單的闡述了數(shù)據(jù)的單位換算和數(shù)據(jù)的不同結(jié)構(gòu),不同于傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu),在現(xiàn)在的信息中,非結(jié)構(gòu)數(shù)據(jù)的規(guī)模和增長速度遠(yuǎn)遠(yuǎn)超出了我們的預(yù)料,幾乎占據(jù)了總量的80%-90%,而且比結(jié)構(gòu)化的數(shù)據(jù)增長量快10-15倍。
第二,Variety 這一塊體現(xiàn)了大數(shù)據(jù)的不同的數(shù)據(jù)結(jié)構(gòu)以及其多樣性,很多不同的形式,比如圖片,音頻和其它復(fù)雜的形式,在大數(shù)據(jù)中,很多的結(jié)構(gòu)是無序或沒有其固定的格式也沒有固定的語法和語義其模式也不明顯。
第三,Value 在信息爆炸的時代,大量無關(guān)的信息充斥著我們的互聯(lián)網(wǎng),如何從這些信息當(dāng)中剝離出有用的信息,就成了我們大數(shù)據(jù)要面對的問題,也因此出現(xiàn)了對于未來趨勢和可預(yù)測性分析的各種方法,如人工智能,搜索引擎和各種可行性算法。在這里,我們必須認(rèn)識到,大數(shù)據(jù)分析不僅僅是一種技術(shù),而是要產(chǎn)生生產(chǎn)價值,對于在大數(shù)據(jù)里去挖掘有用的信息,就好比在深海里去淘金,從海量數(shù)據(jù)中挖掘稀疏但珍貴的信息,價值的密度很低,也是大數(shù)據(jù)的一個重要的特征。
第四,Variety 主要是大數(shù)據(jù)的來源和處理的方式方法,對于大數(shù)據(jù)的來源,我們一般從互聯(lián)網(wǎng),物聯(lián)網(wǎng)和企業(yè)的內(nèi)外部去獲取,那么獲取后的數(shù)據(jù)如何去處理呢,在信息急速更迭的時代,我們在處理數(shù)據(jù)的時候一定要實時分析而不是批量式,要講究立竿見影的效果而不是事后諸葛亮,對于分析的數(shù)據(jù)要采取輸入,處理和丟棄,而且數(shù)據(jù)之間頻繁交互,比如游客在旅行途中上傳的圖片和日志,就與游客的位置、行程等信息有了很強(qiáng)的關(guān)聯(lián)性。
越來越多的行業(yè)已經(jīng)認(rèn)識到大數(shù)據(jù)的商業(yè)價值,像銀行這類的金融機(jī)構(gòu)在對貸款、保險、發(fā)卡等多業(yè)務(wù)線數(shù)據(jù)集成分析、市場評估,新產(chǎn)品風(fēng)險評估,股票等投資組合趨勢分析,來增加其市場份額,并且在一定程度上提高了客戶的忠誠度,既提高了銀行的整體收入,也降低了風(fēng)險。對于零售產(chǎn)業(yè),可以在基于用戶的地理位置信息進(jìn)行精準(zhǔn)營銷,通過用戶的網(wǎng)絡(luò)社交習(xí)慣進(jìn)行購買行為的分析,這樣既促進(jìn)了用戶的購買熱情,也極大的順應(yīng)了用戶的購買習(xí)慣,如某家商店是專門賣牛奶的,通過對用戶的購買行為分析得出在本店購買牛奶后又到了另外一家包子店去購買包子,且人數(shù)還不少,那么這家店鋪就可以考慮和包子鋪進(jìn)行合作或者在店里增加賣包子的這個業(yè)務(wù),使其利潤最大化。
企業(yè)在進(jìn)行大數(shù)據(jù)分析架構(gòu)時一般會采用以下幾個步驟:第一,在當(dāng)前的數(shù)據(jù)里更加深挖并分析當(dāng)前數(shù)據(jù)。第二,針對數(shù)據(jù)的多樣性和數(shù)據(jù)量進(jìn)行結(jié)構(gòu)化分析。第三,提高數(shù)據(jù)分析的速度。第四,保持現(xiàn)有的地位并發(fā)現(xiàn)新的模式。在這里美國的亞馬遜和塔吉特率先利用大數(shù)據(jù)來提高自身的競爭力,《紐約時報》的一篇報道曾引爆了整個美國:一天,一位美國父親氣勢洶洶的沖進(jìn)了塔吉特的賣場,并大聲質(zhì)問塔吉特的工作人員,為什么往她女兒的郵箱里發(fā)送帶有嬰兒用品的優(yōu)惠券,而他的女兒才讀高中,這讓他怒不可揭。
然而經(jīng)過幾天后,他父親認(rèn)識到他女兒真的懷孕了,因為他女兒在互聯(lián)網(wǎng)的搜索引擎上搜索的關(guān)鍵詞以及在社交網(wǎng)絡(luò)上的種種跡象和行為的軌跡,使得沃爾瑪捕捉到了她懷孕的信息。在沃爾瑪?shù)臄?shù)據(jù)分析模型里,許多孕婦在第2個妊娠期的開始會買許多大包裝的無香味護(hù)手霜;在懷孕的最初20周大量購買補(bǔ)充鈣、鎂、鋅的善存片之類的保健品。然后塔吉特經(jīng)過25種的數(shù)據(jù)化模型分析在消費(fèi)指數(shù)里建立了一個“懷孕指數(shù)分析”,通過這個指數(shù)的,塔吉特就會通過郵件和電話短信的方式給她們發(fā)送指定的優(yōu)惠券。
與塔吉特相比,亞馬遜在大數(shù)據(jù)分析上更加先進(jìn)一布,亞馬遜 有一種“預(yù)測式發(fā)貨”的新專利,他們通過對用戶購買習(xí)慣和行為的數(shù)據(jù)的分析,可以在他們還沒有下單購物前,提前發(fā)出包裹。這項技術(shù)可以縮短發(fā)貨時間,從而降低消費(fèi)者前往實體店的沖動。因為亞馬遜的大量數(shù)據(jù)表明,如果在網(wǎng)上購物的時候從下單到收貨之間的時間拖延的話可能會降低人們的購物意愿,導(dǎo)致他們放棄網(wǎng)上購物。所以亞馬遜根據(jù)自己的大數(shù)據(jù)模型分析,來了解和解析之前的訂單狀況,追蹤用戶的購物習(xí)慣,從而在他們提前下單前將包裹寄出,根據(jù)該專利文件,雖然包裹會提前從亞馬遜發(fā)出,但在用戶正式下單前,這些包裹仍會暫存在快遞公司的轉(zhuǎn)運(yùn)中心或卡車?yán)?。而亞馬遜的分析依據(jù)就是可能會參考之前的訂單、商品搜索記錄、愿望清單、購物車,甚至包括用戶的鼠標(biāo)在某件商品上懸停的時間。
大數(shù)據(jù)正在改變我們的生活,它將所有依賴信息不對稱盈利的業(yè)務(wù)都將消失。也在顛覆一些傳統(tǒng)的行業(yè),帶來一場信息化的革命,正如一些專家所說:“大數(shù)據(jù)對政府、金融機(jī)構(gòu)、企業(yè)來說,象空氣一樣不可或缺”。(作者單位:湖北省黃岡師范學(xué)院商學(xué)院)
參考文獻(xiàn):
[1][美]伊恩·艾瑞斯(Ian Ayres) 著;宮相真 譯
[2]][美]伊森(Jean Paul Isson),哈里奧特(Jesse S.Harriott) 著;漆晨曦,劉斌 譯
[3][英]維克托·邁爾-舍恩伯格,肯尼思·庫克耶 著;盛楊燕,周濤 譯