鄔賀銓院士:大數(shù)據(jù)時代的發(fā)展趨勢
編者按:在以“從大數(shù)據(jù)中挖掘大價值”為主題的“第二屆中國大數(shù)據(jù)應(yīng)用論壇”上,光纖傳送網(wǎng)與寬帶信息網(wǎng)專家、國家信息化專家組咨詢委員會委員、中國通信協(xié)會副理事長、中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會理事長鄔賀銓,發(fā)表了題為“大數(shù)據(jù)時代的發(fā)展趨勢”的演講,預(yù)言了大數(shù)據(jù)的機遇和挑戰(zhàn)。
鄔賀銓院士
院士簡介:鄔賀銓,1943年1月出生于廣州,廣東番禺人,中國工程院院士,光纖傳送網(wǎng)與寬帶信息網(wǎng)專家。1964年畢業(yè)于武漢郵電學(xué)院,曾任信息產(chǎn)業(yè)部電信科學(xué)技術(shù)研究院副院長兼總工程師、大唐電信集團副總裁?,F(xiàn)兼任國家863計劃監(jiān)督委員會副主任、國家973計劃專家顧問組成員、國家信息化專家組咨詢委員會委員、中國通信協(xié)會副理事長,是國內(nèi)最早從事數(shù)字通信技術(shù)研究的骨干之一。
大數(shù)據(jù)作為云計算、物聯(lián)網(wǎng)之后,IT行業(yè)又一大顛覆性的技術(shù)革命,其商業(yè)價值正逐漸成為行業(yè)人士爭相追捧的利潤焦點。大數(shù)據(jù)時代的ICT趨勢涉及四個方面的問題:大數(shù)據(jù)浪潮的到來、大帶寬發(fā)展的趨勢、大網(wǎng)絡(luò)布局的演變、大數(shù)據(jù)挖掘的挑戰(zhàn)。
1998年每個網(wǎng)民每個月只需要1M流量,2003年就需要100M,2008年就需要1G,到2014年每個月要10G。2001年,全世界互聯(lián)網(wǎng)流量累計達到1EB需要一年,到2004年只需要一個月,而到了2013年只需要一天。2012年全世界互聯(lián)網(wǎng)一天的信息量大概是1EB,可以刻滿1.68億張DVD?,F(xiàn)在全世界產(chǎn)生的數(shù)據(jù)量每年增加40%,每兩年數(shù)據(jù)翻一番。2012年和2013年產(chǎn)生的數(shù)據(jù)量總和是人類有史以來到2011年產(chǎn)生數(shù)據(jù)量的總和,這個數(shù)據(jù)規(guī)模為1.8ZB,假如把這個數(shù)據(jù)裝在32G的IPad上,要裝575億個,把這些iPad摞起來,可以摞起兩座中國長城。2020年全球數(shù)據(jù)將達到40ZB,如果將數(shù)據(jù)裝在光盤上,這些光盤總重量等于424艘美國尼米茲號航母。所以說,大數(shù)據(jù)時代到來了。
大數(shù)據(jù)有企事業(yè)單位數(shù)據(jù)、政府?dāng)?shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù),包括自媒體數(shù)據(jù)、富媒體數(shù)據(jù)、日志數(shù)據(jù)等等,每天的數(shù)據(jù)量很大。比如淘寶,每天數(shù)據(jù)量就超過50個TB;新浪微博高峰的時候,一秒鐘就要接收100萬以上的響應(yīng)請求;百度每天處理大概60億次搜索請求;中國聯(lián)通每秒鐘記錄83萬條用戶上網(wǎng)條數(shù);北京公交一卡通每天有4000萬條刷卡記錄,而北京地鐵每天乘客1000萬,把這些數(shù)據(jù)加以分析,可以用于改善北京的交通狀況,優(yōu)化北京的公交線路。
大數(shù)據(jù)無所不在。如北京有八十萬個攝像頭,一個月的數(shù)據(jù)就達到數(shù)十個PB。北京公安局規(guī)定,所有超市,只要有開放食品架的,全都要裝高清攝像頭,能清晰的拍攝到走在架前人的臉部,以防投毒。
大數(shù)據(jù)的應(yīng)用也很多,比如淘寶,通過采集淘寶網(wǎng)上成交額比較高的390個類目的商品價格得出淘寶的CPI,比國家統(tǒng)計局公布的CPI更早預(yù)測到經(jīng)濟狀況。國家統(tǒng)計局統(tǒng)計的CPI主要根據(jù)是剛性的物品,比如食品。但經(jīng)濟好與不好,人們都要吃飯,因此差別不大。可是淘寶上都是買化妝品、電子產(chǎn)品、服裝,經(jīng)濟不好就會少買,因此,淘寶CPI更能反映價格走勢,一般來講,比我們國家統(tǒng)計局公布的CPI,能提前一個月至半個月預(yù)測到走勢。中央首長看到淘寶的統(tǒng)計以后就說“你們每天把淘寶的CPI送到中南?!?。2013年經(jīng)濟情況下行壓力大,很多中小企業(yè)貸款很難,因為他們沒有擔(dān)保。阿里公司根據(jù)淘寶網(wǎng)上中小公司遭遇的狀況,篩選出財務(wù)健康的誠信企業(yè),不用擔(dān)保放貸300多億元,壞賬率僅0.3%,2012年公布的四大商業(yè)銀行壞賬率是這個數(shù)的13倍。
一個地方發(fā)生流感,便會有很多人在網(wǎng)上搜索相關(guān)詞匯,根據(jù)這些詞匯出現(xiàn)的頻率,便可以判斷這個地方是否出現(xiàn)流感征狀。Google在2009年甲型H1N1流感出現(xiàn)時,它比美國疾控中心提前幾個月發(fā)布公告。Google前雇員創(chuàng)辦了Climate公司,從美國氣象局獲得幾十年的天氣數(shù)據(jù),并與各地的農(nóng)業(yè)狀況、土壤狀況關(guān)聯(lián)起來,向有需求的農(nóng)場主說“誰問我明天種什么能賺錢,我告訴你,如果我說錯了,我的賠償要比保險公司還要高”。據(jù)說到現(xiàn)在為止,他們還沒賠過。而我們國家的農(nóng)業(yè)還未充分使用大數(shù)據(jù),農(nóng)民只是根據(jù)簡單的判斷,今年豬肉貴了,明年大量養(yǎng)豬,明年豬肉便宜了,而后年豬肉又貴了。所以農(nóng)業(yè)上的大數(shù)據(jù)應(yīng)用是很有幫助的。
大數(shù)據(jù)必然驅(qū)動大帶寬,這是全世界國際互聯(lián)網(wǎng)干線的流量狀況。根據(jù)美國的預(yù)測顯示,2010年比2009年的全世界數(shù)據(jù)量增長了62%,按這個推斷,十年來國際互聯(lián)網(wǎng)流量要增長1000倍,美國自身的互聯(lián)網(wǎng)流量也是十年間增長1000倍。無論亞洲金融危機還是其他危機,互聯(lián)網(wǎng)流量都不受影響,依舊保持高速增長。
首先是光纖瀏覽。早年是模擬的頻分復(fù)用,上世紀90年代開啟了光纖復(fù)用,叫數(shù)字的時分(TDM),當(dāng)時一對光纖可以傳2.5GB的三萬電話電路;波分復(fù)用,一對光纖不僅僅可以傳一個波長,還可以同時傳輸多個波長?,F(xiàn)在,一對光纖在工程上已經(jīng)可以傳送1.6TB,相當(dāng)于2000萬電話電路。光纖通信還可以采用更多的光纖技術(shù),做到一對光纖傳輸16個TB,兩億電話電路。光纖傳輸能力十年擴大了1000倍,目前來看還有很大發(fā)展空間?,F(xiàn)在光纖光纜成本很低,中國生產(chǎn)世界一半的光纖光纜,同時也消耗了世界一半的光纖光纜,十年前中國的翻新光纖一公里賣到2000多元人民幣,去年報價是一公里光纖53元,現(xiàn)在光纖比面條便宜,極大地支撐了寬帶化發(fā)展。可以看到,1995年的時候數(shù)據(jù)總?cè)萘勘容^小,只有2.5G到10GB,波分數(shù)量也只有8到40個。到2010年可以看到,信道單波長已經(jīng)做到100G,信道容量做到15個、50個波長。到2020年單波長要做到1T,總?cè)萘窟€會增大。隨著大數(shù)據(jù)時代來臨,運營商還要大量的增加光纖容量。
另外,不單是干線容量增加,用戶節(jié)路帶寬也希望增加,所以新的運營商在推動“光纖到戶”。實際上“光纖到戶”是廣義的,并不真正是“光纖到戶”,而是光纖到大區(qū)、光纖到大樓。這樣用戶的帶寬能上到100兆。除了有線,我們希望無線也是寬帶的。第一代移動通信在90年代的時候就退網(wǎng)了,那個時候是模一的電路交換,帶寬比較差,現(xiàn)在中國基本上都是增強型3G,幾十兆。前幾年在上海世博會上嘗試了眼鏡型的3G,也叫LTE實驗,現(xiàn)在全國已經(jīng)有十多個城市在開展實驗。
第一代移動通信蜂窩小區(qū)靠頻率不同來區(qū)分用戶,叫做FDMA頻分多址;第二代移動通信GSM靠時分來區(qū)分用戶,叫TDMA時分多址;從第二代開始,第三代移動通信有CDMA的是碼分多址;現(xiàn)在到第四代移動通信叫OFDMA,是正交頻分多址,把頻率、時間、空間的因素都利用起來,使得移動通信的峰值速率每年平均加倍,10年1000倍。提高移動通信的峰值速率要付出很大代價。早年GSM只有kbps,后來到100k,到3G是Mbps,甚至是10M量級,現(xiàn)在到LTE開始是百兆量級,隨著移動通信峰值速率越來越高,我們的終端能力也越來越強,不斷提升終端的寬帶化的能力。要提升這個能力現(xiàn)在面臨很多挑戰(zhàn),比如說當(dāng)手機離基站很近的時候,它可以直接從基站獲得信號;當(dāng)手機回到家里,可能樓宇的墻壁鋼筋水泥太厲害以致信號穿不過去,就要加上室內(nèi)中繼來接力。當(dāng)遠離天線時要發(fā)展終端到終端,也就是當(dāng)你拿著手機走在路上時,沒打電話和上網(wǎng),但是不知不覺當(dāng)了第三者,當(dāng)了別人的二傳手。
過去沒有人談云計算,上世紀80年代談數(shù)據(jù)庫、90年代談IBC,現(xiàn)在談云計算。實際上云計算更準確應(yīng)該是云服務(wù),未來會發(fā)展成什么還不知道。云計算底層有一個基礎(chǔ)設(shè)施,像我們很多企業(yè)把它的數(shù)據(jù)庫托管到運營商那里,這就使用了云計算,使用了IaaS系統(tǒng)。IaaS里頭有數(shù)據(jù)中心、存儲器、服務(wù)器,對運營商來講,是“數(shù)字房地產(chǎn)”。運營商希望進一步在上面增加開發(fā)工具,叫PaaS,可以提供JAVA、Web2.0等一些開發(fā)工具和中間件等等,企業(yè)可以租用這些開發(fā)工具,開發(fā)企業(yè)要的一些軟件,比如說數(shù)據(jù)挖掘等等。對于一些小企業(yè)而言,沒有開發(fā)能力便干脆直接租用軟件,這是SaaS。比如說,現(xiàn)在任何企業(yè)都希望大數(shù)據(jù)分析,但是每個企業(yè)去買這些數(shù)據(jù)分析軟件是很不劃算的,因此租用第三方的分析軟件是一個可能的方向。更進一步的有Business,有能力的企業(yè)可以在上面更多的開發(fā)。所以云計算并不是為大數(shù)據(jù)而誕生的,但云計算正好適應(yīng)了大數(shù)據(jù)的需要。
另外一點,網(wǎng)絡(luò)節(jié)點位置要從信源中心向能源中心擴展。我國有20個省市制定云計算規(guī)劃,大規(guī)模數(shù)據(jù)中心建設(shè)成為各地發(fā)展熱點,11個省市云計算投資均超過100億元。按照工信部等八部委在2013年1月14日發(fā)布的《關(guān)于數(shù)據(jù)中心建設(shè)布局的指導(dǎo)意見》,中國的數(shù)據(jù)中心要考慮氣候環(huán)境、能源供應(yīng),建議我們國家的云計算中心向高緯度地區(qū)集中,也就是內(nèi)蒙、西北這些地區(qū)。過去的數(shù)據(jù)中心放在上海、北京、廣州這些地方,而將來的數(shù)據(jù)中心有一半是云計算中心,而另一半更多要放到內(nèi)蒙、西北,也就是說網(wǎng)絡(luò)結(jié)點位置會從信源中心往能源中心拓展,實際上云計算會改變互聯(lián)網(wǎng)的流量和流向。
由于數(shù)據(jù)量非常大,過去運營商并不是每個省線路都互相直聯(lián),往往要通過北京互聯(lián),有些通過上海和廣州?,F(xiàn)在中國電信ChinaNet網(wǎng)絡(luò)每個省之間都直聯(lián)了,因為數(shù)據(jù)量太大,所以希望網(wǎng)絡(luò)要扁平化。過去我們都說什么東西都到IP層做交換,隨著數(shù)據(jù)發(fā)展以后,我們希望路由器的容量會很大,一個純IP電的Tpbs路由器,一個端口就1000瓦,功耗很大,如果光的類型交換,一個端口才25瓦,而且大數(shù)據(jù)里大量的數(shù)據(jù)是過路的,而不是落地的,因此現(xiàn)在改變了互聯(lián)網(wǎng)的格局,凡是能在光層上做的交換絕不在電層上做,凡是能在MPI層上做的交換絕不在IP層上做?,F(xiàn)在IP要變成包裝,能不在IP上交換的絕不在IP上交換。
另外,過去的路由器本身具有轉(zhuǎn)發(fā)和控制功能,也有節(jié)點控制功能、業(yè)務(wù)控制功能,每個路由器都是獨立自我的,它根據(jù)來的數(shù)據(jù)選路,但是這樣的方式很難適應(yīng)大數(shù)據(jù)時空動態(tài)性,大數(shù)據(jù)的產(chǎn)生位置、發(fā)生時間可能是不均和不平衡的,如果動態(tài)需求希望我們的網(wǎng)絡(luò)也是動態(tài)的,那么傳統(tǒng)路由器的剛性設(shè)計很難適應(yīng)動態(tài)需求,因此現(xiàn)在提出SDN(軟件定義網(wǎng)),希望把路由器里頭操作系統(tǒng)提起來,然后把路由器控制集中,這樣造成網(wǎng)絡(luò)操作系統(tǒng),而路由器就剩下傳輸與轉(zhuǎn)發(fā)功能。
大數(shù)據(jù)推動城域網(wǎng)體系的演變,早年都是大計算機連大服務(wù)器,后來很多時間提的是客戶服務(wù)器,計算機連到服務(wù)器。當(dāng)一個熱門的節(jié)目所有終端都希望下載的時候,這個服務(wù)器就是瓶頸。因此出來了P2P,即各個終端能力都很強,每個終端沒必要把內(nèi)容全部下載,只需要下載其中一部分,然后相互交換,就叫做Peer-to-Peer?,F(xiàn)在這個體系架構(gòu)也需要改變,因為大數(shù)據(jù)的出現(xiàn),一個終端到一個服務(wù)器之間,很多數(shù)據(jù)裝不下的,便可能需要調(diào)用其他服務(wù)器存儲數(shù)據(jù)來支持。因此最近五年,我們國家接入網(wǎng)流量帶寬增長了6倍,而城域網(wǎng)流量增長了22倍,有更大流量在服務(wù)器之間交換。也就是說,網(wǎng)絡(luò)的體系會從客戶服務(wù)器的垂直架構(gòu)向服務(wù)器之間的水平架構(gòu)優(yōu)化。
另外,由于數(shù)據(jù)量很大,所以現(xiàn)在Google、雅虎、亞馬遜、騰訊、新浪、百度都紛紛把它們的數(shù)據(jù)通過CDN寫到不同地方。騰訊總部在深圳,可是它把很多服務(wù)器放在北京、廣州、上海等地,甚至分散到很多省,目的是縮短用戶接入到服務(wù)器的距離,所以內(nèi)容分配網(wǎng)應(yīng)用而生。近年發(fā)展得很快,內(nèi)容分配網(wǎng)會對整個互聯(lián)網(wǎng)流量流向產(chǎn)生重大的影響,走了捷徑,那么省間長途流量就可以下來,所以內(nèi)容分配網(wǎng)拉近了信源和用戶的距離。
大數(shù)據(jù)技術(shù)涉及到數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)挖掘、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)安全等,涉及到很多環(huán)節(jié)。比如說挖掘就需要對數(shù)據(jù)進行清洗、合并、壓縮、轉(zhuǎn)換格式等,然后進行統(tǒng)計分析、知識發(fā)現(xiàn)以及可視化處理,再來找出它的關(guān)聯(lián)規(guī)則、分類、聚類、排序列和優(yōu)化路徑。
曾經(jīng)有人認為買高端服務(wù)器才可靠,后來Google首創(chuàng)利用低端服務(wù)器,但低端服務(wù)器可靠性不好,怎么辦呢?冗余配置。就是把一個數(shù)據(jù)拷到三個服務(wù)器里,三個低端服務(wù)器的價格仍然比一個高端的服務(wù)器便宜,這樣一來既提高可靠性又降低了成本。所以大數(shù)據(jù)的分析需要分布存儲和冗余備份。大數(shù)據(jù)跟過去的分析不一樣,過去的數(shù)據(jù)都是存到靜止的數(shù)據(jù)庫里再分析。而現(xiàn)今的大數(shù)據(jù)是每時每刻都有,根本沒有停止的時候,我們不可能等數(shù)據(jù)停下來再分析,我們必須一邊走一邊分析。過去的分析是靜止的,叫做“帶數(shù)據(jù)進程序”,現(xiàn)在的分析是活動的,也就是“帶程序進數(shù)據(jù)”。所以大數(shù)據(jù)分析會帶來很大的挑戰(zhàn)。
另外,更難的挑戰(zhàn)是非結(jié)構(gòu)化的數(shù)據(jù)。所謂結(jié)構(gòu)化,就是說可以用文本表格等方式來表達,即便用文本表格方式來表達,從語意上理解還是比較難。比如地震的時候,網(wǎng)絡(luò)上為了監(jiān)控輿情,看看究竟評論是正面的多還是負面的多,有一條信息說“當(dāng)他發(fā)現(xiàn)他兒子還活著的時候,他抱頭痛哭?!卑凑辗治觯巴纯蕖笔秦撁娴?,但實際上這是正面的。要讓計算機懂得人的感情,這是比較難的部分。而照片的分析比起文字的分析更難,要通過OCR掃描出里面的文字,把文字作為標簽加到照片上。視頻分析可說是難上加難。比如2013年1月份,周克華在南京殺了人,當(dāng)時攝像頭把他拍下來了,南京市調(diào)出幾十萬個攝像頭視頻,拍多長就要看多長,沒有分析的辦法就需要靠人看,過程十分慢。因此大數(shù)據(jù)呼喚智能化的處理、智能化的分析。
另外,大數(shù)據(jù)需要虛擬化和可視化。比如說,上海江蘇路的路上有很多攝像頭,每個攝像頭背后連一個電視屏幕,在交通管理中心的一面墻上放了很多屏,但再大的墻壁也放不下全上海這么多交通攝像頭,所以只能每10秒鐘顯示一條馬路的攝像頭,這些都是分離的,一個一個看很難看出問題。所以我們希望通過軟件,把這條馬路的攝像頭合成一個視頻,只要看這個視頻就知道全馬路攝像頭的狀況,最好是合成全上海一幅圖,就像上海市領(lǐng)導(dǎo)坐著直升機俯視上海一樣,看到上海市整個城市里頭,在哪個時刻段,哪段路交通堵塞。大數(shù)據(jù),無論數(shù)據(jù)有多大,無論是PB還是TB,結(jié)果都應(yīng)該是非常直觀的一幅圖。
最后,寬帶化、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等催生大數(shù)據(jù),大數(shù)據(jù)預(yù)示信息化發(fā)展進入新階段,大數(shù)據(jù)是信息化新浪潮的結(jié)晶。為適應(yīng)大數(shù)據(jù)的需求,光纖通信和移動通信加速寬帶化。大數(shù)據(jù)加快了云計算、CDN和對等直聯(lián)(或NAP)節(jié)點的部署,網(wǎng)絡(luò)節(jié)點位置從信源中心向能源中心轉(zhuǎn)移,信源中心向用戶靠攏,互聯(lián)網(wǎng)顯現(xiàn)去中心化。大數(shù)據(jù)挖掘?qū)?shù)據(jù)采集、存儲、分析、決策、呈現(xiàn)和安全等技術(shù)帶來大挑戰(zhàn)。
(編輯:劉啟強 羅麗冰)