袁冰
很多網(wǎng)民都知道這樣一句話:“在互聯(lián)網(wǎng)上,沒有人知道你是一條狗”。這句話是美國著名雜志《紐約客》(New Yorker)上一幅漫畫的標(biāo)題,作者是彼得·斯坦納,他于1993年創(chuàng)作了一幅漫畫——一條狗坐在電腦前通過敲擊鍵盤與另外一條坐在電腦前的狗交談,漫畫的標(biāo)題就是上面這句話,這句話的意思是說,因?yàn)榫W(wǎng)絡(luò)的虛擬性和隱匿性,別人無法知道你是誰。隨著互聯(lián)網(wǎng)的迅速普及,這句話也以驚人的速度傳播到了網(wǎng)絡(luò)世界的每一個(gè)角落。然而,時(shí)過境遷,基于網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,出于商業(yè)或管制等各種目的而想方設(shè)法了解“你到底是誰”的個(gè)人和組織與日俱增??梢院敛晃Q月柭牭刂v,眼下,在互聯(lián)網(wǎng)上,每個(gè)人都知道你是一條狗。大數(shù)據(jù)的廣泛應(yīng)用,使得網(wǎng)絡(luò)世界真正成為了現(xiàn)實(shí)世界在互聯(lián)網(wǎng)上的一種延續(xù)。
一、大數(shù)據(jù)的概念范疇
什么是大數(shù)據(jù),維基百科是這樣定義的:大數(shù)據(jù),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大數(shù)據(jù),指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。在總數(shù)據(jù)量相同的情況下,與個(gè)別分析獨(dú)立的小型數(shù)據(jù)集(data set)相比,將各個(gè)小型數(shù)據(jù)集合并后進(jìn)行分析可得出許多額外的信息和數(shù)據(jù)關(guān)系性,可用來察覺商業(yè)趨勢、判定研究質(zhì)量、避免疾病擴(kuò)散、打擊犯罪或測定實(shí)時(shí)交通路況等;這樣的用途正是大型數(shù)據(jù)集盛行的原因。
美國NIST對大數(shù)據(jù)的描述是:數(shù)量大、獲取速度快或形態(tài)多樣的數(shù)據(jù),難以用傳統(tǒng)關(guān)系型數(shù)據(jù)分析方法進(jìn)行有效分析,或者需要大規(guī)模的水平擴(kuò)展才能高效處理。
GARTNER 公司對大數(shù)據(jù)的描述是:體量大、快速和多樣化的信息資產(chǎn),需用高效率和創(chuàng)新型的信息技術(shù)加以處理,以提高發(fā)現(xiàn)洞察、做出決策和優(yōu)化流程的能力。
業(yè)界通常用4個(gè)V(即Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征:一是數(shù)據(jù)體量巨大且增長迅速(Volume),二是數(shù)據(jù)類型繁多(Variety),三是價(jià)值密度低(Value),四是處理速度快(Velocity)。
二、大數(shù)據(jù)的應(yīng)用案例
如今大數(shù)據(jù)的應(yīng)用正從互聯(lián)網(wǎng)行業(yè)逐步向其他行業(yè)擴(kuò)散。技術(shù)的不成熟使全球大數(shù)據(jù)應(yīng)用普遍處于起步階段,中國也不例外;同時(shí),技術(shù)格局和信息化發(fā)展程度也使大數(shù)據(jù)應(yīng)用呈現(xiàn)"階梯式"發(fā)展格局。
(一)大數(shù)據(jù)在互聯(lián)網(wǎng)部分應(yīng)用較成熟,且應(yīng)用不斷豐富。在互聯(lián)網(wǎng)部分的應(yīng)用我國與領(lǐng)先國家同步。應(yīng)用類型如:
1.搜索引擎:如GOOGLE、百度等,是最早的互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用;
2.定向廣告:互聯(lián)網(wǎng)最主要的商業(yè)模式;
3.個(gè)性推薦:是亞馬遜等電子商務(wù)網(wǎng)站60%以上交易來源;
4.互聯(lián)網(wǎng)金融;
5.其它應(yīng)用:如趨勢預(yù)測、網(wǎng)站預(yù)警和防護(hù)、語音搜索、圖像搜索等。
(二)廣義的信息產(chǎn)業(yè)開始積極探索,總體而言我國落后于領(lǐng)先國家。主要應(yīng)用于:
1.政府:輿情分析、民意調(diào)査、交通管理;
2.電信:話單分析、智能管道;
3.金融:欺詐防范、征信評估;
4.零售:趨勢預(yù)測、營銷策劃;
5.醫(yī)藥:疾病監(jiān)測、基因分析、藥品分析等。
(三)還有其他行業(yè)的零星案例,如:制造業(yè)、房地產(chǎn)、農(nóng)業(yè),我國在這些領(lǐng)域的應(yīng)用目前嚴(yán)重落后。
(四)大數(shù)據(jù)應(yīng)用場景簡介
場景1:電子商務(wù)
搜索、電商、廣告、SNS等數(shù)據(jù)驅(qū)動的互聯(lián)網(wǎng)服務(wù)取得巨大成功,激發(fā)了大數(shù)據(jù)應(yīng)用的想象力!
場景2:互聯(lián)網(wǎng)廣告
實(shí)時(shí)競價(jià)交易
場景3:電信網(wǎng)網(wǎng)絡(luò)
根據(jù)人口流動和分布趨勢,結(jié)合基站接入負(fù)載,識別價(jià)值小區(qū)、識別業(yè)務(wù)熱點(diǎn)區(qū)域、分析網(wǎng)絡(luò)覆蓋質(zhì)量,優(yōu)化基站的規(guī)劃和建設(shè)(如圖);根據(jù)實(shí)時(shí)位置信令數(shù)據(jù)處理,快速定位用戶投訴的時(shí)間與位置,提高無線網(wǎng)絡(luò)投訴的預(yù)攔截成功率,并能對關(guān)鍵用戶進(jìn)行主動關(guān)懷和保障署,提高客戶對電信服務(wù)整體的感知度。
場景4:政府城市功能規(guī)劃
根據(jù)運(yùn)營商位置信令數(shù)據(jù),分析城市人口的分布與流動,助力智慧城市規(guī)劃,如:分析人口流動與城市空間的關(guān)系及人口分布與公共設(shè)施使用狀態(tài)關(guān)系,輔助商業(yè)、居住、教育、醫(yī)療、公園、餐飲、娛樂等城市基礎(chǔ)及公共公益設(shè)施的引導(dǎo)和規(guī)劃,輔助城市交通規(guī)劃及公共交通引導(dǎo)等。例如:西班牙電信通過手機(jī)用戶全天活動的位置"熱點(diǎn)地圖”以輔助政府制定停車場計(jì)劃、管理公共事努;新加坡通過手機(jī)信號探知城市的人流和熱點(diǎn)地區(qū),動態(tài)安排城市服努人員。
場景5:科研大數(shù)據(jù)
基于海量數(shù)據(jù)的科研活動、過程、方法和基礎(chǔ)設(shè)施,生動揭示了在海量數(shù)據(jù)和無處不在網(wǎng)絡(luò)上發(fā)展起來的與實(shí)驗(yàn)科學(xué)、理論推演、計(jì)算機(jī)仿真這三種科研范式相輔相成的科學(xué)研究第四范式“大數(shù)據(jù)開創(chuàng)科研”,科研本身是以獲取數(shù)據(jù)和分析數(shù)據(jù)為核心的工作,大數(shù)據(jù)的應(yīng)用使得科研結(jié)果可重現(xiàn)要求從結(jié)果回溯到數(shù)據(jù)與分析,采用不同的分析方法可能會得到新的科學(xué)發(fā)現(xiàn)。
場景6:文化娛樂大數(shù)據(jù)
如:美國最大付費(fèi)視頻網(wǎng)站通過大數(shù)據(jù)決策自制劇生產(chǎn),大獲成功,內(nèi)容發(fā)行商成功改行做了內(nèi)容制造方。
三、大數(shù)據(jù)技術(shù)發(fā)展趨勢
大數(shù)據(jù)技術(shù)進(jìn)展及趨勢可從可視化、分析、計(jì)算、存儲、預(yù)處理等五個(gè)環(huán)節(jié)進(jìn)行分析。
在可視化環(huán)節(jié)面臨的主要挑戰(zhàn)是海量數(shù)據(jù)和直觀理解,未來,可視化中的人機(jī)交互將是發(fā)展的方向;
在分析環(huán)節(jié)面臨的主要挑戰(zhàn)是非結(jié)構(gòu)化數(shù)據(jù)分析、數(shù)據(jù)量和分析深度、分析自動化,大規(guī)模深度學(xué)習(xí)、數(shù)據(jù)挖掘的實(shí)時(shí)化將會是未來發(fā)展的趨勢;
在計(jì)算環(huán)節(jié)面臨的主要挑戰(zhàn)是數(shù)據(jù)密集計(jì)算的效率、不同計(jì)算場景的特點(diǎn),未來將向基于YARN的融合平臺、混合計(jì)算模式MR+XX、分布式內(nèi)存計(jì)算發(fā)展;
在存儲環(huán)節(jié)面臨的主要挑戰(zhàn)是高效數(shù)據(jù)査詢訪問、低成本超大容量問題,未來,高效率索引和査詢技術(shù)、實(shí)時(shí)/流式數(shù)據(jù)存儲將能有效解決存儲環(huán)節(jié)存在的問題;
在預(yù)處理環(huán)節(jié)面臨的主要挑戰(zhàn)是多源、多模態(tài)數(shù)據(jù)融合、數(shù)據(jù)質(zhì)量與可用性,數(shù)據(jù)實(shí)體識別技術(shù)、數(shù)據(jù)清洗和自動修復(fù)、質(zhì)量和可用性評價(jià),將必然會在預(yù)處理環(huán)節(jié)發(fā)揮重要的作用。
目前,國際互聯(lián)網(wǎng)行業(yè)形成了 “互聯(lián)網(wǎng)公司原創(chuàng)—開源擴(kuò)散—IT制造商產(chǎn)品化”的明顯格局,即大數(shù)據(jù)技術(shù)創(chuàng)新的三個(gè)梯隊(duì),我國領(lǐng)先的互聯(lián)網(wǎng)和設(shè)備商處于第二第三梯隊(duì),但與國際同行比較還相對滯后。如:百度、阿里、騰訊,依托搜索、廣告、電商、推薦、金融等應(yīng)用,屬于第二梯隊(duì)。
四、大數(shù)據(jù)產(chǎn)業(yè)生態(tài)體系和規(guī)模
大數(shù)據(jù)產(chǎn)業(yè)生態(tài)體系包括:大數(shù)據(jù)處理服務(wù)提供商、大數(shù)據(jù)解決方案提供商、數(shù)據(jù)交易市場。
大型互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)業(yè)務(wù)采用前店后廠模式,其在大數(shù)據(jù)產(chǎn)業(yè)生態(tài)體系的形成過程中輸出了關(guān)鍵的大數(shù)據(jù)技術(shù)、服務(wù)和應(yīng)用理念。
根據(jù)Wikibon 2013 數(shù)據(jù)分析,大數(shù)據(jù)服務(wù)類收入包括大數(shù)據(jù)在線應(yīng)用、專業(yè)咨詢服務(wù)、技術(shù)支持服務(wù)等。服務(wù)類收入在大數(shù)據(jù)市場中占比約44%;大數(shù)據(jù)相關(guān)的軟件、硬件產(chǎn)品仍是大數(shù)據(jù)市場主要收入構(gòu)成,其中軟件收入占比為19%,硬件收入占比37%。數(shù)據(jù)交易市場尚處于萌芽期,市場規(guī)模仍然很小。
五、各國政府高度重視大數(shù)據(jù)發(fā)展
各國政府高度重視大數(shù)據(jù)發(fā)展,政府頻繁出手。
在美國:
2009年5月,聯(lián)邦政府開放數(shù)據(jù)平臺data.gov上線;2012年3月,聯(lián)邦6部門聯(lián)合啟動大數(shù)據(jù)研究計(jì)劃;加速共用應(yīng)用;2013年5月,要求新增數(shù)據(jù)必須機(jī)器可讀,代碼開源。
在英國:
2013年1月,政府向大數(shù)據(jù)技術(shù)研發(fā)投資1.89億英鎊;2013年5月,政府和李嘉誠基金會聯(lián)合設(shè)立首個(gè)醫(yī)藥大數(shù)據(jù)研究所;2013年6月,政府信息經(jīng)濟(jì)戰(zhàn)略發(fā)布;提出數(shù)據(jù)創(chuàng)新計(jì)劃;2013年10月,計(jì)劃發(fā)布data capability strategy。
在日本
2013年6月,發(fā)布了“創(chuàng)建最尖端IT國家宣言”,闡述2013-2020年以開放公共數(shù)據(jù)和大數(shù)據(jù)為核心的新IT國家戰(zhàn)略,提出開放公共數(shù)據(jù)、促進(jìn)活用等6項(xiàng)行動;2013-2016年實(shí)施。
在澳大利亞:
2013年8月,澳公共服務(wù)大數(shù)據(jù)政策出臺,提出2014年前的6項(xiàng)行動計(jì)劃,由專門部門負(fù)責(zé)實(shí)施。2013年6月18日,八國集團(tuán)發(fā)布數(shù)據(jù)開放憲章,將在數(shù)據(jù)開放方面一致采取以下5大原則:一是開放數(shù)據(jù)是默認(rèn)選項(xiàng),二是確保質(zhì)量和數(shù)量,三是允許所有人使用,四是開放數(shù)據(jù)以改善政府效率,五是開放數(shù)據(jù)以促進(jìn)創(chuàng)新。并提出了優(yōu)先開放的14類政府和公共數(shù)據(jù):公司注冊、犯罪和司法、地球觀測、教育、能源、環(huán)保、金融、地理、醫(yī)療、科學(xué)研究、統(tǒng)計(jì)、交通等。
政府擁有的數(shù)據(jù)不僅量大,而且準(zhǔn)確度高、價(jià)值巨大。開放數(shù)據(jù)是政府對大數(shù)據(jù)的最大支持,必將推動大數(shù)據(jù)的深度應(yīng)用于發(fā)展。
參 考 文 獻(xiàn)
[1]左金鐘,馬伊民,習(xí)清伶,等.滾降系數(shù)不匹配對基帶傳輸系統(tǒng)的性能影響[J].國外電子測量技術(shù),2011,08(11):21-28.
[2]馮鋼,吳詩其,李樂民,等.一種準(zhǔn)最佳數(shù)字傳輸系統(tǒng)的性能分析與實(shí)現(xiàn)[J].電子科技大學(xué)學(xué)報(bào),2010,05(16):470-476.
[3]張學(xué)成,趙爾沅,樂光新,等.基于離散小波變換的OFDM基帶傳輸系統(tǒng)性能分析[J].現(xiàn)代電信科技,2012,06(15):47-50.