倪明選:大數(shù)據(jù)如何改變世界
大數(shù)據(jù)時(shí)代的來(lái)臨,帶給我們眾多的沖擊,而斯諾登事件的曝光,讓全世界人都認(rèn)識(shí)到了數(shù)據(jù)的重要性。那么,大數(shù)據(jù)時(shí)代將給我們帶來(lái)哪些變革,IEEE Fellow、香港科技大學(xué)教授倪明選在西安交通大學(xué)召開的“2014高等教育信息化創(chuàng)新論壇”上發(fā)表的主題演講,就為我們闡述了他所帶領(lǐng)的科研團(tuán)隊(duì)在數(shù)據(jù)挖掘方面所做的研究與探索。
倪明選以谷歌為例,向大家解釋了谷歌為什么能夠全面了解用戶行為。他說(shuō),谷歌提供的服務(wù)十分全面。谷歌每一次功能的更新,界面的優(yōu)化,精準(zhǔn)的搜索,資料備份,免費(fèi)的超大郵箱,都讓大家感覺谷歌的服務(wù)太好了。可是世上本無(wú)免費(fèi)的午餐,這一切源自谷歌搜集了用戶所有的數(shù)據(jù),進(jìn)行行為分析,以獲得巨額的廣告商機(jī),而這也切實(shí)說(shuō)明了數(shù)據(jù)的價(jià)值所在。
倪明選強(qiáng)調(diào),他們希望不僅從大數(shù)據(jù)中發(fā)現(xiàn)更多的知識(shí),更重要的是通過數(shù)據(jù)的搜集與挖掘,從而達(dá)到預(yù)控的目的。他說(shuō),谷歌的服務(wù)非常不錯(cuò),在功能更新和界面友好度上也下了很大功夫,谷歌通過搜集數(shù)據(jù),了解客戶的行為,從而進(jìn)行針對(duì)性的廣告。
此外,谷歌的科學(xué)家曾發(fā)表過一篇文章,講述他們?cè)鲞^的疾病預(yù)防和流感分析。谷歌通過搜索定位,哪些人在什么地區(qū)搜索過“流感”這樣的關(guān)鍵字,分析出可能發(fā)生流感的范圍。而美國(guó)疾病控制與預(yù)防中心從搜集資料到發(fā)布流感情況,需要一兩周才能得出流感分析結(jié)果,谷歌科學(xué)家只用了一天,結(jié)果跟美國(guó)疾病控制與預(yù)防中心做得一樣好。
歷史還告訴我們,跟不上科技步伐的人可能要被淘汰,大數(shù)據(jù)也是一樣,眾多實(shí)例說(shuō)明了大數(shù)據(jù)的潛力與價(jià)值,美國(guó)許多大公司都在不同的領(lǐng)域從事大數(shù)據(jù)的研究,我們看到的僅僅只是冰山一角。
在報(bào)告中,倪明選還列舉了一些大數(shù)據(jù)帶來(lái)的影響。例如,2013年諾貝爾物理學(xué)獎(jiǎng)獲得者希格斯證明了上帝粒子的存在,歐洲科學(xué)家們建立了一個(gè)超大實(shí)驗(yàn)室,每年搜集幾個(gè)P的數(shù)據(jù),大量的數(shù)據(jù)無(wú)法處理,只能再送到十幾個(gè)一級(jí)的實(shí)驗(yàn)室。第一級(jí)實(shí)驗(yàn)室搜集后再送到第二級(jí)實(shí)驗(yàn)室,把所有的數(shù)據(jù)再做分析,最終證明了95%的概率上帝粒子是存在的。如果數(shù)據(jù)量再大一些,基本可以證明上帝粒子100%存在。
倪明選認(rèn)為,大數(shù)據(jù)分析有三個(gè)最主要的元素:第一,要知道想解決什么問題;第二,數(shù)據(jù)非常重要,收集各種各樣的數(shù)據(jù);第三,什么樣的技術(shù)能從數(shù)據(jù)中解決問題。如同給你一個(gè)礦藏,其中蘊(yùn)藏著巨大的資源,挖出礦藏是你的本領(lǐng)。
倪明選在計(jì)算機(jī)科研領(lǐng)域工作超過35年,一直從事網(wǎng)絡(luò)體系結(jié)構(gòu)研究,2006年起負(fù)責(zé)國(guó)家973計(jì)劃有關(guān)無(wú)線傳感網(wǎng)絡(luò)的項(xiàng)目,從而開始進(jìn)入大數(shù)據(jù)領(lǐng)域。當(dāng)時(shí)他們做了各種科研實(shí)驗(yàn),搜集了很多數(shù)據(jù),還拿到了當(dāng)時(shí)上海交通的數(shù)據(jù),上海市所有的士要求安裝GPS,所有的士在每30秒到1分鐘要經(jīng)過二級(jí)GPRS報(bào)告的士什么時(shí)間、在什么地點(diǎn),有沒有載人,速度多少。他們就思考這些數(shù)據(jù)有什么用,能夠帶來(lái)什么好處,能否用的士數(shù)據(jù)幫助大家選擇從A到B的最佳線路。倪明選帶領(lǐng)的團(tuán)隊(duì)通過擁有的6000多部上海的士數(shù)據(jù),最終解決了上海的“熱區(qū)”(是指擁擠的地方,交通容易堵塞)問題。比如從某地去機(jī)場(chǎng),導(dǎo)航只能給出距離最近的路線或是收費(fèi)最少的路線,但是導(dǎo)航并不能說(shuō)清目前的交通狀況,了解最優(yōu)路況的自然是的士司機(jī),所以他們通過的士司機(jī)最常走的路線,找到最優(yōu)路徑,最后得出上海在什么時(shí)間、什么地方形成熱區(qū)。
如今,不少城市都以“智慧城市”為目標(biāo),建立自己的數(shù)據(jù)中心。倪明選認(rèn)為,很多部門并不了解數(shù)據(jù)中心的作用,到處都建立數(shù)據(jù)中心,但是數(shù)據(jù)還是存不下。
在他看來(lái),數(shù)據(jù)中心耗電量大,有些企業(yè)如谷歌在當(dāng)?shù)卦O(shè)立的數(shù)據(jù)中心,政府并不能看到數(shù)據(jù),這屬于戰(zhàn)略資源。隨著信息化的不斷發(fā)展,現(xiàn)代政府應(yīng)該建設(shè)數(shù)據(jù)中心,因?yàn)橐话闵碳矣袛?shù)據(jù)但是沒有地方存儲(chǔ),政府給中小企業(yè)提供存放數(shù)據(jù)的地方,政府的數(shù)據(jù)應(yīng)該放在數(shù)據(jù)中心,那么企業(yè)就可以分享,企業(yè)在政府?dāng)?shù)據(jù)上面將創(chuàng)造更多的價(jià)值。例如,做PM2.5評(píng)估就需要掌握20年來(lái)的香港空氣數(shù)據(jù),這應(yīng)該是政府提供的。又如在房地產(chǎn)領(lǐng)域,其“身價(jià)”也應(yīng)該放在數(shù)據(jù)中心里面,相關(guān)部門可以開發(fā)更大的應(yīng)用,告訴人們哪些地方可以租,哪些地方不能租,這是政府應(yīng)該做的。不管是商業(yè)、學(xué)業(yè),還是產(chǎn)學(xué)研結(jié)合,其目的都是創(chuàng)造更多價(jià)值。
倪明選及其團(tuán)隊(duì)為廣州的“小蠻腰”(廣州塔)開發(fā)了一個(gè)室內(nèi)導(dǎo)航APP,通過APP可以查詢小蠻腰內(nèi)每一層具體有哪些店鋪。而當(dāng)站在小蠻腰最高層俯瞰廣州城區(qū)時(shí),還可以通過APP來(lái)知道了解廣州每一棟建筑是什么。另外,他們還為廣州最大的消費(fèi)中心——正佳廣場(chǎng),開發(fā)了室內(nèi)導(dǎo)航APP,具有查詢停車位和商鋪的具體位置等功能,還可以記錄用戶的消費(fèi)習(xí)慣,推送店鋪廣告、打折信息等。
數(shù)據(jù)的搜集也很重要。國(guó)內(nèi)IT企業(yè)如百度、騰訊、阿里巴巴就做得很好,阿里巴巴不管什么數(shù)據(jù)都會(huì)保留,也許之前不知道有什么用,但是他們看到了未來(lái)的價(jià)值在這個(gè)地方。
倪明選認(rèn)為,數(shù)據(jù)的搜集也很重要。國(guó)內(nèi)IT企業(yè)如百度、騰訊、阿里巴巴就做得很好,阿里巴巴不管什么數(shù)據(jù)都會(huì)保留,也許之前不知道有什么用,但是現(xiàn)在他們看到了未來(lái)的價(jià)值。
他說(shuō),過去人們?cè)谶M(jìn)行計(jì)算機(jī)教學(xué)的時(shí)候,算法非常重要。其實(shí)算法不是唯一重要的東西,海量數(shù)據(jù)的分析方法比算法更重要。其中需要調(diào)出的參數(shù)不是幾百個(gè),幾千個(gè)或者幾萬(wàn)個(gè),而是百萬(wàn)千萬(wàn)甚至是上億個(gè)。有專家表示,數(shù)據(jù)可以幫助人們抓出特性,通過分層來(lái)減少神經(jīng)網(wǎng)路。
不久前,阿里巴巴開展了關(guān)于客戶行為分析的一個(gè)競(jìng)賽。阿里巴巴希望像谷歌一樣做針對(duì)性廣告,通過客戶行為分析推送廣告。這個(gè)競(jìng)賽就是把1000個(gè)客戶在4-8月的所有購(gòu)買物品資料全部調(diào)出,也就是客戶登錄天貓后,哪些東西是放在購(gòu)物車后真的買了,花了多少錢,這些數(shù)據(jù)都給予保留。通過這些數(shù)據(jù)的分析,參賽者給出9月該客戶會(huì)買什么東西,誰(shuí)猜得誰(shuí)就是冠軍。實(shí)際上這個(gè)競(jìng)賽可以用協(xié)同過濾的方法。需要了解客戶的性別、年齡、花費(fèi)多少、先買什么后買什么。通過掌握客戶的行為,比如A買了一個(gè)物品,B跟A是否很類似,那么這個(gè)物品推薦給B,B八成也會(huì)購(gòu)買,那么推薦就算是成功的。如何去定義客戶的相似度,需要豐富的實(shí)踐和直覺。當(dāng)然,在大數(shù)據(jù)時(shí)代,面對(duì)海量的數(shù)據(jù),在進(jìn)行參數(shù)調(diào)取時(shí),有些機(jī)器是無(wú)法進(jìn)行的,目前采用的都是“天河二號(hào)”。
針對(duì)這些實(shí)例倪明選說(shuō),數(shù)據(jù)的價(jià)值正在于此。因此,需要盡量搜集更多的數(shù)據(jù),通過創(chuàng)新思維,讓數(shù)據(jù)創(chuàng)造更多的價(jià)值。他認(rèn)為,一方面,大數(shù)據(jù)的確帶來(lái)了新的技術(shù)變革,但新的技術(shù)確實(shí)會(huì)帶來(lái)最大的隱私權(quán)問題。如同谷歌了解用戶所有的信息,即使用戶并不希望它知道這些隱私卻又無(wú)可奈何;另一方面,每次登錄各種APP都需要知道用戶的地址信息。那么隱私權(quán)怎么得到保護(hù)?法律永遠(yuǎn)跟不上科技的步伐。但是我們只能向前看,不能走后退路。所以法律要跟上科技發(fā)展,這是必須要走的方向。
“歷史還告訴我們,跟不上科技步伐的人可能要被淘汰,大數(shù)據(jù)也是一樣,眾多實(shí)例說(shuō)明了大數(shù)據(jù)的潛力與價(jià)值,美國(guó)許多大公司都在不同的領(lǐng)域從事大數(shù)據(jù)的研究,我們看到的僅僅只是冰山一角?!彼f(shuō)。