當(dāng)前,大數(shù)據(jù)是個(gè)很熱的詞,各種大數(shù)據(jù)分析工具也時(shí)常出現(xiàn),讓人感覺(jué)非常時(shí)髦。那么,大數(shù)據(jù)究竟是什么?目前的研究進(jìn)展如何?對(duì)普通人的生活有何影響?本文將圍繞這些問(wèn)題展開(kāi)介紹。
一、什么是大數(shù)據(jù)
人類(lèi)的一切語(yǔ)言文字、圖形圖畫(huà)、音像記錄等,所有感官可以察覺(jué)到的事物,只要能被記下來(lái),能夠查詢(xún)到,都可以稱(chēng)為數(shù)據(jù)(data)。大數(shù)據(jù)也是數(shù)據(jù),但又不同于一般的數(shù)據(jù)。一般來(lái)說(shuō),大數(shù)據(jù)除了一般數(shù)據(jù)的特征,還具有體量巨大、處理速度快、數(shù)據(jù)類(lèi)型多樣和潛在價(jià)值高這四個(gè)特征。
1.體量巨大。體量巨大指的是大數(shù)據(jù)包含的數(shù)據(jù)數(shù)量非常多,占用的存儲(chǔ)空間較大。以平時(shí)接觸較多的手機(jī)流量來(lái)說(shuō),常見(jiàn)統(tǒng)計(jì)單位為kB、MB和GB等。這些統(tǒng)計(jì)單位之間的關(guān)系為1GB=1024MB,1MB=1024kB。就目前的技術(shù)而言,要成為大數(shù)據(jù),存儲(chǔ)至少達(dá)到TB級(jí)別以上,而1TB=1024GB。但要注意,如果只是體量巨大,而結(jié)構(gòu)單一,也不能稱(chēng)為大數(shù)據(jù)。
2.處理速度快。實(shí)際生活中,數(shù)據(jù)量可能會(huì)隨著時(shí)間的積累而不斷增長(zhǎng),也可能隨著空間的變化而不斷變化。數(shù)據(jù)都具有一定的時(shí)效性,如果采集到的數(shù)據(jù)不能得到及時(shí)處理,最終會(huì)過(guò)期作廢,失去應(yīng)用的價(jià)值。對(duì)于海量的數(shù)據(jù),如果能在有效時(shí)間內(nèi)完成處理,則可以稱(chēng)為大數(shù)據(jù);反之,則不能稱(chēng)之為大數(shù)據(jù)。
3.數(shù)據(jù)類(lèi)型多樣。作為大數(shù)據(jù),其包含的數(shù)據(jù)類(lèi)型可能是多種多樣的,并不僅僅局限于一種數(shù)據(jù)類(lèi)型。目前,文字、圖片、語(yǔ)音、圖像,一切在網(wǎng)絡(luò)上可以傳輸和顯示的信息,都可以屬于大數(shù)據(jù)的范疇。從結(jié)構(gòu)上來(lái)說(shuō),當(dāng)前的大數(shù)據(jù)主要指半結(jié)構(gòu)化和非結(jié)構(gòu)化的信息,如網(wǎng)站的各種日志文件、發(fā)布的音視頻文件等。
4.潛在價(jià)值高。大數(shù)據(jù)應(yīng)用的最終目的是通過(guò)挖掘和分析,發(fā)現(xiàn)趨勢(shì)或規(guī)律,進(jìn)而指導(dǎo)實(shí)際工作。如果數(shù)據(jù)本身是毫無(wú)規(guī)律的,不能對(duì)實(shí)際工作行程進(jìn)行指導(dǎo),則不能稱(chēng)為大數(shù)據(jù)。盡管大數(shù)據(jù)的潛在價(jià)值高,但由于數(shù)據(jù)量巨大,所以?xún)r(jià)值密度低,要通過(guò)大量分析才能實(shí)現(xiàn)從數(shù)據(jù)到價(jià)值的轉(zhuǎn)變。
二、大數(shù)據(jù)典型案例
迄今為止,已經(jīng)有不少的大數(shù)據(jù)應(yīng)用經(jīng)典案例,這些案例的出現(xiàn),使人們真正認(rèn)識(shí)了大數(shù)據(jù)的威力。
1.啤酒與尿布。20世紀(jì)90年代,全球零售業(yè)巨頭沃爾瑪在對(duì)消費(fèi)者購(gòu)物行為分析時(shí)發(fā)現(xiàn),男性顧客在購(gòu)買(mǎi)嬰兒尿片時(shí),常常會(huì)順便搭配幾瓶啤酒來(lái)犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷(xiāo)手段。沒(méi)想到這個(gè)舉措居然使尿布和啤酒的銷(xiāo)量都大幅增加了,取得了較好的經(jīng)濟(jì)效益。如今,“啤酒+尿布”的例子早已成了大數(shù)據(jù)技術(shù)應(yīng)用的經(jīng)典案例,被人們津津樂(lè)道。
2.Google成功預(yù)測(cè)冬季流感。2009年,Google通過(guò)分析5000萬(wàn)條美國(guó)人最頻繁檢索的詞匯,將之和美國(guó)疾病中心在2003年到2008年間季節(jié)性流感傳播時(shí)期的數(shù)據(jù)進(jìn)行比較,并建立一個(gè)特定的數(shù)學(xué)模型。通過(guò)該模型,最終成功預(yù)測(cè)了2009年冬季流感的傳播,甚至可以具體到特定的地區(qū)和州。
3.大數(shù)據(jù)與喬布斯癌癥治療。喬布斯是蘋(píng)果手機(jī)的創(chuàng)始人,也是世界上第一個(gè)對(duì)自身所有DNA和腫瘤DNA進(jìn)行排序的人。他支付了高達(dá)幾百萬(wàn)美元的費(fèi)用,得到包括整個(gè)基因的數(shù)據(jù)文檔。醫(yī)生根據(jù)分析結(jié)果按需下藥,最終這種方式幫助喬布斯延長(zhǎng)了好幾年的生命。
除此之外,還有其他很多的大數(shù)據(jù)應(yīng)用案例,如淘寶平臺(tái)對(duì)用戶(hù)的精準(zhǔn)畫(huà)像、“互聯(lián)網(wǎng)+”思維下的平臺(tái)優(yōu)勢(shì),以及近年來(lái)頻頻爆出的演唱會(huì)上利用AI技術(shù)和人臉大數(shù)據(jù)抓捕逃犯等。隨著技術(shù)的不斷發(fā)展,未來(lái)會(huì)有更多的大數(shù)據(jù)應(yīng)用出現(xiàn)。
三、目前發(fā)展情況
目前,IT界普遍認(rèn)為當(dāng)前大數(shù)據(jù)技術(shù)主要起源于谷歌。谷歌工程師在2003至2006年先后公開(kāi)發(fā)表了關(guān)于Map Reduce、GFS和Big Table等核心技術(shù)的學(xué)術(shù)論文,這一系列技術(shù)迅速引起巨大反響,吸引了雅虎、Facebook等互聯(lián)網(wǎng)公司的注意,直接導(dǎo)致了目前應(yīng)用最為廣泛的開(kāi)源大數(shù)據(jù)框架Apache Hadoop的誕生。
隨著人們對(duì)數(shù)據(jù)科學(xué)的深入認(rèn)識(shí),發(fā)達(dá)國(guó)家都意識(shí)到數(shù)據(jù)作為國(guó)家戰(zhàn)略資產(chǎn)的重要性,以美國(guó)為首的多個(gè)國(guó)家先后發(fā)布了大數(shù)據(jù)的國(guó)家發(fā)展戰(zhàn)略,聯(lián)合國(guó)也發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》白皮書(shū)。報(bào)告中總結(jié)了各國(guó)政府如何利用大數(shù)據(jù)更好地服務(wù)和保護(hù)人民,指出了大數(shù)據(jù)的到來(lái)對(duì)于聯(lián)合國(guó)和各國(guó)政府是個(gè)歷史性機(jī)遇。
在國(guó)內(nèi),大數(shù)據(jù)技術(shù)也提上了國(guó)家的戰(zhàn)略發(fā)展日程。2013年,我國(guó)多位院士聯(lián)合上書(shū)國(guó)務(wù)院,建議設(shè)立國(guó)家專(zhuān)項(xiàng)開(kāi)展大數(shù)據(jù)技術(shù)研究,將大數(shù)據(jù)上升為國(guó)家戰(zhàn)略。在2014年的兩會(huì)上包括金山和小米公司董事長(zhǎng)雷軍在內(nèi)的多位代表提出加快實(shí)施大數(shù)據(jù)國(guó)家戰(zhàn)略的建議。2016年,工業(yè)和信息化部正式印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》,全面部署“十三五”時(shí)期大數(shù)據(jù)產(chǎn)業(yè)發(fā)展工作,加快建設(shè)數(shù)據(jù)強(qiáng)國(guó),為實(shí)現(xiàn)制造強(qiáng)國(guó)和網(wǎng)絡(luò)強(qiáng)國(guó)提供強(qiáng)大的產(chǎn)業(yè)支撐。
由上可見(jiàn),大數(shù)據(jù)技術(shù)及應(yīng)用已經(jīng)成為一項(xiàng)新的戰(zhàn)略,受到政府部門(mén)的高度重視。未來(lái),大數(shù)據(jù)技術(shù)作為一個(gè)成熟的技術(shù),將應(yīng)用到國(guó)計(jì)民生的各個(gè)領(lǐng)域,對(duì)各個(gè)領(lǐng)域帶來(lái)巨大的沖擊和變革,以及前所未有的發(fā)展機(jī)遇。
四、未來(lái)發(fā)展趨勢(shì)
未來(lái),大大數(shù)據(jù)技術(shù)發(fā)展將呈現(xiàn)以下幾個(gè)趨勢(shì)。
1.可視化推動(dòng)大數(shù)據(jù)發(fā)展平民化。大數(shù)據(jù)可視化技術(shù)從存儲(chǔ)空間中將這些關(guān)鍵信息進(jìn)行提取,通過(guò)圖像、圖形的形式將這些信息更直觀地表達(dá)出來(lái),并運(yùn)用多種不同的分析手段來(lái)提取位置信息,將這些潛在信息通過(guò)圖形、圖像等直觀方式展示出來(lái),從而幫助人們更好地理解、挖掘大數(shù)據(jù)下隱藏的信息??梢暬夹g(shù)將使得普通人群也可以直觀看出大數(shù)據(jù)的價(jià)值,推動(dòng)大數(shù)據(jù)應(yīng)用的平民化。
2.與云計(jì)算關(guān)系越來(lái)越密切。大數(shù)據(jù)的未來(lái)正朝著智能化的方向發(fā)展,涉及讓機(jī)器用人的思維去思考,理解人類(lèi)的行為模式,并對(duì)未來(lái)進(jìn)行預(yù)測(cè),這些智能化的實(shí)現(xiàn)都離不開(kāi)云計(jì)算。云計(jì)算是一種基于互聯(lián)網(wǎng)的計(jì)算方式,其計(jì)算效率高、速度快、成本低,不需要人們掌握專(zhuān)業(yè)的技術(shù)知識(shí)就可以使用,具有很強(qiáng)的靈活性。目前,很多大數(shù)據(jù)技術(shù)都已和云計(jì)算緊密結(jié)合。
3.與物聯(lián)網(wǎng)緊密結(jié)合。隨著智能交通、智能家居、智能物流、智慧景區(qū)等應(yīng)用的興起,物聯(lián)網(wǎng)已成為未來(lái)經(jīng)濟(jì)的新增長(zhǎng)點(diǎn)。物聯(lián)網(wǎng)是指把所有物品通過(guò)信息傳感設(shè)備與互聯(lián)網(wǎng)連接起來(lái),實(shí)現(xiàn)智能化識(shí)別和管理。物聯(lián)網(wǎng)應(yīng)用中會(huì)有海量的數(shù)據(jù)需要處理,和大數(shù)據(jù)結(jié)合是必然的趨勢(shì)。
五、高校的大數(shù)據(jù)專(zhuān)業(yè)
如今,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展如日中天,各大高校的大數(shù)據(jù)專(zhuān)業(yè)建設(shè)也是如火如荼。2016年初,教育部公布的《2015年度普通高等學(xué)校本科專(zhuān)業(yè)備案和審批結(jié)果》中共有3所高校(分別是北京大學(xué)、對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)和中南大學(xué))獲批開(kāi)辦“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專(zhuān)業(yè)。2017年和2018年,教育部又進(jìn)行了兩次該專(zhuān)業(yè)的申請(qǐng)批準(zhǔn),分別通過(guò)了32所高校和248所高校的大數(shù)據(jù)專(zhuān)業(yè)申請(qǐng)。
總體來(lái)說(shuō),各大高校的大數(shù)據(jù)技術(shù)專(zhuān)業(yè)學(xué)制均為四年,旨在培養(yǎng)具有大數(shù)據(jù)思維、運(yùn)用大數(shù)據(jù)思維及分析應(yīng)用技術(shù)的高層次大數(shù)據(jù)人才。在培養(yǎng)過(guò)程中,要求學(xué)生掌握計(jì)算機(jī)理論和大數(shù)據(jù)處理技術(shù),從大數(shù)據(jù)應(yīng)用的三個(gè)主要層面系統(tǒng)地培養(yǎng)學(xué)生掌握大數(shù)據(jù)應(yīng)用中的各種典型問(wèn)題的解決辦法,實(shí)際提升學(xué)生解決實(shí)際問(wèn)題的能力。
大數(shù)據(jù)專(zhuān)業(yè)畢業(yè)生能夠從事大數(shù)據(jù)研究和開(kāi)發(fā)應(yīng)用的高層次人才。畢業(yè)生能在政府機(jī)構(gòu)、企業(yè)、公司等從事大數(shù)據(jù)管理、研究、應(yīng)用開(kāi)發(fā)等方面的工作。同時(shí),也可以考取軟件工程、計(jì)算機(jī)科學(xué)與技術(shù)、應(yīng)用統(tǒng)計(jì)學(xué)等專(zhuān)業(yè)的研究生或出國(guó)深造。
作者單位:鄭州大學(xué)軟件學(xué)院