中國(guó)信息通信研究院(原工業(yè)和信息化部電信研究院)日前在北京召開(kāi)的“ICT深度觀察大型報(bào)告會(huì)”,同期發(fā)布“2014年十大關(guān)鍵詞和2015年十大趨勢(shì)”。“十大關(guān)鍵詞”包括:大數(shù)據(jù)、4G、云計(jì)算、網(wǎng)絡(luò)與信息安全、移動(dòng)互聯(lián)網(wǎng)、互聯(lián)網(wǎng)金融、鐵塔公司、阿里巴巴上市、微信、可穿戴設(shè)備。
一是積極采用大數(shù)據(jù)技術(shù)優(yōu)化既有業(yè)務(wù)。在搜索領(lǐng)域,百度基于大數(shù)據(jù)和深度學(xué)習(xí)推出了以圖搜圖、語(yǔ)音搜索等更加精確的搜索服務(wù);在廣告領(lǐng)域,互聯(lián)網(wǎng)公司通過(guò)對(duì)數(shù)億用戶建立的上萬(wàn)個(gè)指標(biāo)的客戶畫(huà)像,能夠精準(zhǔn)的分析用戶屬性和行為。據(jù)統(tǒng)計(jì),基于大數(shù)據(jù)的實(shí)時(shí)競(jìng)價(jià)(RTB)廣告年均增速已達(dá)150%,幾家大型的互聯(lián)網(wǎng)公司都已經(jīng)建立了大規(guī)模的廣告交換網(wǎng)絡(luò)(Ad Exchange)。二是今年以來(lái)陸續(xù)推出一系列面向第三方的大數(shù)據(jù)服務(wù)。阿里巴巴面向商戶提供了量子恒道、數(shù)據(jù)魔方、數(shù)據(jù)超市等一系列大數(shù)據(jù)服務(wù),百度推出“司南”、數(shù)據(jù)工廠和百度大腦等一系列大數(shù)據(jù)服務(wù),下一步將在政府、制造、醫(yī)療、金融、零售、教育等傳統(tǒng)領(lǐng)域開(kāi)展合作。三是借助大數(shù)據(jù)技術(shù)向線下業(yè)務(wù)延伸?;ヂ?lián)網(wǎng)金融在大數(shù)據(jù)支撐下超速發(fā)展。阿里小額貸款無(wú)需傳統(tǒng)擔(dān)保,不良貸款率僅為傳統(tǒng)銀行的1/5, 成本不及銀行的百分之一。京東利用消費(fèi)記錄、退換貨記錄、配送信息、購(gòu)物評(píng)價(jià)等數(shù)據(jù)評(píng)價(jià)用戶信用,瞬間就可向用戶發(fā)放“京東白條”的消費(fèi)貸款。四是技術(shù)開(kāi)放及創(chuàng)新加快。在大數(shù)據(jù)分析集群方面,這些企業(yè)能夠結(jié)合自主研發(fā),構(gòu)建全球領(lǐng)先的大數(shù)據(jù)系統(tǒng),阿里巴巴大數(shù)據(jù)平臺(tái)單集群規(guī)模達(dá)5000 臺(tái)服務(wù)器,騰訊5600臺(tái),百度則達(dá)到1.2萬(wàn)臺(tái),數(shù)據(jù)量管理規(guī)模約為100PB到1000PB。在數(shù)據(jù)挖掘技術(shù)方面,百度在深度學(xué)習(xí)技術(shù)方面加強(qiáng)投入,聚集了一批國(guó)際頂尖人才,產(chǎn)出的成果在搜索、廣告等業(yè)務(wù)中應(yīng)用效果明顯,在學(xué)術(shù)界也有較大影響。阿里和騰訊相繼將其核心大數(shù)據(jù)存儲(chǔ)(OceanBase)、大規(guī)模數(shù)據(jù)倉(cāng)庫(kù)(TDW)等技術(shù)通過(guò)開(kāi)源模式與產(chǎn)業(yè)界分享,帶動(dòng)了其他企業(yè)的技術(shù)創(chuàng)新。
大數(shù)據(jù)在全社會(huì)的應(yīng)用,總體上仍處于早期階段。Gartner 在2014年9月發(fā)布的報(bào)告中指出,傳統(tǒng)企業(yè)普遍都在摸索階段,認(rèn)為“在采用大數(shù)據(jù)方面其他人都比我超前”其實(shí)是誤區(qū)。Gartner的調(diào)查顯示,在北美地區(qū),即便有47% 的受訪企業(yè)已經(jīng)投資大數(shù)據(jù),但是大多數(shù)仍在探索階段,只有13%的已經(jīng)部署了大數(shù)據(jù)解決方案。傳統(tǒng)企業(yè)在大數(shù)據(jù)應(yīng)用的思路上也在糾偏,更加務(wù)實(shí)。一是從盲目追求嚴(yán)格符合3V 標(biāo)準(zhǔn)、非結(jié)構(gòu)的“大”數(shù)據(jù),到更加注重更干凈、結(jié)構(gòu)化小的數(shù)據(jù)。二是從把希望寄托在互聯(lián)網(wǎng)、社交等外部數(shù)據(jù)上,到更加注重企業(yè)自身沉淀下來(lái)的內(nèi)部數(shù)據(jù)的價(jià)值挖掘。三是從一味追求Hadoop 等高大上的分布式先進(jìn)技術(shù),轉(zhuǎn)而更加注重根據(jù)業(yè)務(wù)需求把Hadoop 與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)結(jié)合起來(lái)用。四是拋棄一夜之間大數(shù)據(jù)使得企業(yè)數(shù)據(jù)分析實(shí)現(xiàn)飛躍的幻想,轉(zhuǎn)而改走從小處著手自發(fā)生長(zhǎng)的道路。
各級(jí)政府高度重視大數(shù)據(jù)發(fā)展。2014年3月份,“大數(shù)據(jù)”首次出現(xiàn)在今年全國(guó)兩會(huì)的《政府工作報(bào)告》中,相關(guān)話題也成為今年兩會(huì)的熱點(diǎn),多位代表和委員提交了相關(guān)提案,建議將大數(shù)據(jù)上升為國(guó)家戰(zhàn)略。2014年6月,全國(guó)政協(xié)召開(kāi)雙周協(xié)商座談會(huì),就“利用大數(shù)據(jù)技術(shù)提升政府治理能力”提出建議,委員們認(rèn)為,大數(shù)據(jù)等現(xiàn)代技術(shù)發(fā)展迅猛,正對(duì)全球經(jīng)濟(jì)社會(huì)產(chǎn)生重大影響,在政府治理中運(yùn)用大數(shù)據(jù)等現(xiàn)代技術(shù),能夠顯著提高政府科學(xué)決策、監(jiān)管市場(chǎng)、公共服務(wù)、社會(huì)管理和生態(tài)文明建設(shè)等能力,是建設(shè)透明、效能、服務(wù)、責(zé)任型政府的迫切需要。北京、上海、廣東、貴州等省市積極行動(dòng),推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展。北京中關(guān)村2014年2月發(fā)布《加快培育大數(shù)據(jù)產(chǎn)業(yè)集群推動(dòng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)的意見(jiàn)》,力圖引領(lǐng)周邊區(qū)域籌建京津冀大數(shù)據(jù)走廊。廣東省在制度創(chuàng)新上走在前列,2014年年初在全國(guó)率先成立了大數(shù)據(jù)管理局,負(fù)責(zé)研究擬訂并組織實(shí)施大數(shù)據(jù)戰(zhàn)略、規(guī)劃和政策措施,引導(dǎo)和推動(dòng)大數(shù)據(jù)研究和應(yīng)用等工作。貴州省出臺(tái)了力度空前的大數(shù)據(jù)發(fā)展優(yōu)惠政策,力圖走“后發(fā)先行”跨越發(fā)展道路。在各地各部門(mén)積極推進(jìn)的同時(shí),業(yè)界對(duì)國(guó)家層面的大數(shù)據(jù)頂層設(shè)計(jì)也寄予厚望。更系統(tǒng)的大數(shù)據(jù)發(fā)展政策有望在明年出臺(tái)。
一是數(shù)據(jù)開(kāi)放程度較低、流動(dòng)性差,數(shù)據(jù)資源結(jié)構(gòu)性短缺普遍存在。一方面一些政府部門(mén)和大型企事業(yè)單位手中擁有寶貴的數(shù)據(jù)資源。另一方面,多數(shù)企業(yè)在開(kāi)展大數(shù)據(jù)應(yīng)用時(shí)都面臨外部數(shù)據(jù)短缺、獲取成本高的困境。造成這種現(xiàn)象很大程度上因?yàn)閿?shù)據(jù)流動(dòng)性不足造成的。然而,國(guó)內(nèi)數(shù)據(jù)責(zé)權(quán)利不清晰,開(kāi)放與保護(hù)的邊界不明確,隱私隔離與數(shù)據(jù)清洗等方面的標(biāo)準(zhǔn)不完善,導(dǎo)致企業(yè)擔(dān)心法律風(fēng)險(xiǎn)和輿論壓力而不敢大規(guī)模開(kāi)發(fā)、利用和流通,資源難以發(fā)揮價(jià)值。在國(guó)外,特別是美國(guó),對(duì)接需求與供給的數(shù)據(jù)中間商(databroker)或數(shù)據(jù)交易市場(chǎng)(data marketplace)已經(jīng)存在多年,在數(shù)據(jù)資源合理流動(dòng)方面發(fā)揮了價(jià)值。我國(guó)也可引進(jìn)這樣的機(jī)制來(lái)促進(jìn)數(shù)據(jù)流通,但如何有效監(jiān)管是未來(lái)政府需要考慮的問(wèn)題。
二是大數(shù)據(jù)相關(guān)的法律法規(guī)有待進(jìn)一步完善。如何應(yīng)對(duì)隱私保護(hù)挑戰(zhàn),在世界各國(guó)都是大數(shù)據(jù)發(fā)展中的焦點(diǎn)問(wèn)題。2014年美國(guó)白宮進(jìn)行了為期90天的大數(shù)據(jù)與隱私調(diào)研,在美國(guó)國(guó)內(nèi)激起熱烈討論,一派認(rèn)為目前垂直領(lǐng)域的隱私管理和行業(yè)自律機(jī)制已經(jīng)夠用,沒(méi)必要出臺(tái)新的法律,另一派則呼吁要加強(qiáng)立法工作。2014年5 月,歐洲法院裁決,當(dāng)個(gè)人信息明顯過(guò)時(shí)或不相關(guān)時(shí),民眾有權(quán)行使“被遺忘權(quán)”要求服務(wù)商刪除,隱私保護(hù)力度加強(qiáng)。我國(guó)于2012 年底出臺(tái)了《全國(guó)人大常委會(huì)關(guān)于加強(qiáng)網(wǎng)絡(luò)信息保護(hù)的決定》,2013年7月工信部發(fā)布《電信和互聯(lián)網(wǎng)用戶個(gè)人信息保護(hù)規(guī)定》,在立法上前進(jìn)了一步,但與其他國(guó)家相比,我國(guó)對(duì)網(wǎng)絡(luò)個(gè)人隱私信息的安全保護(hù)處于起步或者比較低的水平,無(wú)法適應(yīng)大數(shù)據(jù)日益發(fā)展和網(wǎng)民對(duì)個(gè)人信息安全保護(hù)的需求不斷增長(zhǎng)的實(shí)際需求。
三是大數(shù)據(jù)人才短缺瓶頸突出。數(shù)據(jù)分析師是今年人才市場(chǎng)上最熱門(mén)的職位之一,但國(guó)內(nèi)這方面的人才缺口還比較大。據(jù)報(bào)道,僅廣東地區(qū)的數(shù)據(jù)分析人才缺口就達(dá)百萬(wàn),而全國(guó)電子商務(wù)領(lǐng)域的數(shù)據(jù)分析人才需求缺口將達(dá)300萬(wàn)以上。也有人預(yù)計(jì),未來(lái)兩年內(nèi)中國(guó)專用數(shù)據(jù)分析人員預(yù)計(jì)缺口在1400萬(wàn)。既精通數(shù)據(jù)分析又懂業(yè)務(wù)的復(fù)合型人才更是踏破鐵鞋無(wú)覓處。今年以來(lái),國(guó)內(nèi)很多高校開(kāi)始培養(yǎng)大數(shù)據(jù)專門(mén)人才,清華大學(xué)、復(fù)旦大學(xué)、西安交大、浙江大學(xué)等高校也先后設(shè)立數(shù)據(jù)科學(xué)研究機(jī)構(gòu),開(kāi)設(shè)大數(shù)據(jù)專業(yè)。但短期內(nèi),解決企業(yè)人才短缺陣痛,更多還要依靠企業(yè)內(nèi)部跨部門(mén)培養(yǎng)。
【2014年“大數(shù)據(jù)”大事記】
2月28日,廣東省政府印發(fā)《廣東省經(jīng)濟(jì)和信息化委員會(huì)主要職責(zé)內(nèi)設(shè)機(jī)構(gòu)和人員編制規(guī)定》,設(shè)立廣東省經(jīng)濟(jì)和信息化委員會(huì),下設(shè)廣東省大數(shù)據(jù)管理局。廣東成為全國(guó)第一個(gè)設(shè)立大數(shù)據(jù)專門(mén)機(jī)構(gòu)省份;
3月5日,國(guó)務(wù)院總理李克強(qiáng)在《政府工作報(bào)告》中提出,“設(shè)立新興產(chǎn)業(yè)創(chuàng)業(yè)創(chuàng)新平臺(tái),在新一代移動(dòng)通信、集成電路、大數(shù)據(jù)、先進(jìn)制造、新能源、新材料等方面趕超先進(jìn),引領(lǐng)未來(lái)產(chǎn)業(yè)發(fā)展”,大數(shù)據(jù)首次寫(xiě)入政府工作報(bào)告;
6月19日,中關(guān)村大數(shù)據(jù)交易產(chǎn)業(yè)聯(lián)盟發(fā)布《中關(guān)村數(shù)海大數(shù)據(jù)交易平臺(tái)規(guī)則》( 征求意見(jiàn)稿),這是國(guó)內(nèi)第一份數(shù)據(jù)交易規(guī)范;
10月10日,新一代分布式計(jì)算框架Apache Spark 在DaytonaGraySort 基準(zhǔn)測(cè)試中, 打破了由Apache Hadoop 保持的記錄。Hadoop 需要用2100節(jié)點(diǎn)在72 分鐘內(nèi)完成對(duì)100TB 數(shù)據(jù)的排序運(yùn)算,而這次測(cè)試中Spark 只用了206個(gè)節(jié)點(diǎn),并在23分鐘內(nèi)完成。