王海濤,毛睿,明仲
1. 深圳大學計算機與軟件學院,廣東 深圳 518060;2. 大數據系統(tǒng)計算技術國家工程實驗室,廣東 深圳 518060
大數據是新一代信息技術的核心方面和競爭前沿,也是制約大數據產業(yè)快速發(fā)展的關鍵瓶頸。大數據技術創(chuàng)新能力已經成為后信息時代衡量國家競爭力的重要指標。與傳統(tǒng)信息產業(yè)的發(fā)展過程相似,大數據必將逐漸形成一個相對獨立、體系完善的產業(yè)形態(tài),完成傳統(tǒng)信息產業(yè)的升級換代。互聯網和云計算的發(fā)展過程與趨勢已經證明,大數據未來的產業(yè)形態(tài)將是以服務為核心的新型產業(yè)形態(tài),大數據產業(yè)體系的各個環(huán)節(jié)將提供極為豐富的服務。
大數據是國家、社會和產業(yè)在后信息時代的戰(zhàn)略性資源,以大數據為核心支撐的新一代信息技術與應用(如互聯網+、物聯網、智慧城市、智能制造等)利用大數據資源的手段和工具,為社會提供信息服務,其最終目的是利用大數據解決科學研究、社會管理、產業(yè)發(fā)展等一系列實際問題,從而在戰(zhàn)略決策、運營管理、終端服務等不同層面和環(huán)節(jié)提升效能與效益,形成新的核心競爭力。當前,全社會數據產生越來越快、積累越來越多,大數據資源越來越豐富,而現有的信息技術已經跟不上數據的發(fā)展,特別是對大數據的處理、分析與應用已經成為全球性問題,引起了各國政府和產業(yè)界的高度重視。
大規(guī)模且高復雜性的大數據,其處理時間、響應速度等都有明確且具體的要求,這對計算平臺的架構、計算模型的框架、共性技術等提出了更高的要求。傳統(tǒng)的以計算速度為優(yōu)先的設計理念已經不能滿足當前大數據時代的處理需求,新計算平臺的研發(fā)、框架設計和共性技術開發(fā)等需要兼顧效率與效能的雙重標準,同時兼顧大數據類型多、變化快、價值稀疏的特性。
大數據計算平臺是大數據的硬件與系統(tǒng)基礎,對大數據的所有分析與處理都需要在高性能的計算平臺上進行;共性技術是大數據分析與處理的知識與技術基礎,所有的大數據系統(tǒng)都涉及數據采集、傳輸、存儲、處理和分析過程中的多項共性的技術;典型的應用可以用來驗證計算平臺和共性技術的可行性與執(zhí)行效率,并為相近應用的研發(fā)提供借鑒。
經過近幾年的快速發(fā)展,大數據已經形成從數據采集、數據處理到數據分析的完整產業(yè),為社會經濟的發(fā)展提供有力的數據支持。然而技術的發(fā)展趕不上數據數量和形式的變化速度,這需要大數據研發(fā)和從業(yè)人員不斷努力來適應新情況。下面從計算平臺、共性技術和應用3個方面對大數據的技術現狀及存在的問題進行闡述。
大數據計算平臺是大數據產品體系的核心龍頭。大數據計算平臺以云計算為基礎環(huán)境、以服務模式為總體架構,覆蓋大數據應用全過程,支持多源異構海量數據的采集、存儲、集成、處理、分析、可視化展現、交互式應用,涉及企業(yè)大數據產品體系的各個層面,為各層產品實現提供關鍵技術支撐。
當前,面向信息服務的大數據計算平臺還遠不成熟,平臺優(yōu)化和節(jié)能等關鍵技術有待突破,面臨的問題主要包括以下幾個方面。
● 平臺研發(fā)需要交叉學科知識。由于大數據計算平臺環(huán)境復雜,要提高大數據計算平臺的處理能力、優(yōu)化平臺性能和降低能耗、提高平臺的安全性和隱私保護,需要多學科、多種專業(yè)背景的科研人員協同創(chuàng)新、聯合攻關,才能實現技術突破。平臺研發(fā)需要交叉學科知識。
● 平臺研發(fā)人才缺乏。由于大數據應用在許多行業(yè)屬于新生事物,雖然很多企業(yè)管理者認識到了大數據的潛在價值,但還處于觀望狀態(tài),不愿冒風險做領先者;多數企業(yè)缺少大數據技術和應用人才,也缺少大數據應用的技術平臺,無法開展實際應用項目;目前大數據技術還很不成熟,很多是開源軟件,實施應用項目成本高、風險大。企業(yè)、科研機構和大學協同創(chuàng)新是突破行業(yè)示范應用障礙的有效途徑。
● 平臺框架需要突破。大數據計算平臺的處理和分析能力主要依賴分布式計算框架來完成。分布式計算框架不僅要提供高效的計算模型、簡單的編程接口,還要具備容錯能力和高擴展性。大數據計算平臺的計算框架主要分為批處理和流處理兩種。批處理計算框架主要針對靜態(tài)數據的離線計算,吞吐量好,但是不能保證實時性;流處理計算框架主要針對動態(tài)數據的在線實時計算,時效性好,但是難以獲取數據全貌。
● 技術環(huán)境不統(tǒng)一。目前大數據最前沿的計算框架和衍生的生態(tài)圈都分布在以GitHub為主的開源社區(qū)內,形成了大數據基礎架構和大數據分析處理技術群。大數據的技術環(huán)境為用戶提供了豐富的技術選擇,但也給用戶掌握和使用多樣性的大數據技術造成障礙,且提高了應用成本。
根據處理流程,大數據技術可以分為基礎架構支持、數據采集、數據存儲、數據計算以及展現與交互幾類。具體來說,基礎架構涉及的技術包括云計算平臺、云存儲、虛擬化、網絡以及資源監(jiān)控等;數據采集涉及的技術包括數據總線、抽取—轉換—加載(extract-transform-load,ETL)工具等;數據存儲涉及的技術包括分布式文件系統(tǒng)、關系型數據庫、NoSQL數據庫、內存數據庫等;數據計算涉及的技術包括數據查詢、統(tǒng)計與分析、數據預測與挖掘、圖譜挖掘、商業(yè)智能(business intelligence,BI)等;展現與交互技術包括圖形與報表、可視化工具、增強現實技術等。此外,大數據技術還包括大數據的安全與隱私保護等相關技術。
當前,大數據的存儲、處理、分析、展示等關鍵技術有待突破,大數據處理和分析能力、算法的數據處理能力遠遠達不到實際應用要求。現有的信息技術不足以解決大數據的問題,面對豐富和復雜的大數據應用場景,需要多學科、多領域的交叉合作才能解決。這給傳統(tǒng)信息技術帶來了挑戰(zhàn),主要表現在:多源多模大數據的獲取和融合;對數據質量和低質量數據的容忍;面向大數據算法及理論的進一步研究;對現有可擴展存儲和處理的計算架構更新設計;對大數據并行處理及分析挖掘技術適應性設計等。
隨著國家政策扶持力度的不斷加大,產業(yè)資本的持續(xù)投入,國內外發(fā)展大數據的積極性都很高,行業(yè)應用得到快速推廣。當前,大數據的應用給企業(yè)不僅帶來了技術和應用模式上的突破,還為商業(yè)模式的創(chuàng)新以及企業(yè)的轉型發(fā)展帶來了驅動力。對公共服務機構來說,挖掘大數據的潛在價值對解決城市發(fā)展問題、完善社會機制、更好地服務于市民有著重大的意義。
雖然大數據應用逐步深入人們的生活,但限于目前大數據技術仍不成熟,因此與實際問題解決需求存在一定的差異,主要表現如下。
● 時空大數據面臨海量數據管理、時空數據融合、時空大數據理論框架和時空推理與數據挖掘的深度結合的挑戰(zhàn);針對時空大數據模式發(fā)現與價值提煉的問題,揭示大尺度事件的演化推理機理,突破大尺度安全時間的理解和局限的挑戰(zhàn)。
● 媒體大數據的包容量大、源頭多且成分迥異的特性,給媒體大數據計算理論和關聯算法的研究帶來了巨大的挑戰(zhàn)。此外,目前無論是科學研究還是新技術開發(fā),都沒有解決計算機按內容自動搜索視頻媒體的可行性方案。
● 為了有效地利用物聯網海量多樣化的大數據,挖掘其價值,一方面需要對網絡進行優(yōu)化,使其具備未來物聯網需具備的承載大數據的能力;另一方面,對用戶的服務進行分析挖掘,充分實現物聯網的潛在價值。
● 物流大數據應用領域面臨使用大數據技術推動電子商務與現代物流的協同發(fā)展問題,是物流大數據應用的一大挑戰(zhàn)。
在國際社會和我國政府將大數據上升為國家戰(zhàn)略的背景下、在我國大數據計算平臺和共性技術研究不充分的情況下,國家發(fā)展和改革委員會于2017年正式批復由深圳大學牽頭建設大數據系統(tǒng)計算技術國家工程實驗室(以下簡稱國家工程實驗室)。國家工程實驗室面向國家實施大數據戰(zhàn)略的需求,著重解決我國大數據計算平臺安全可信性差、軟件通用性低的突出問題;采用國產高性能處理器互聯芯片和計算平臺,實現大數據智能診斷和自動糾錯等可靠性信息高速轉發(fā),提升大數據計算平臺的安全控制能力,滿足國家加密算法的要求;以研制自主可控、通用性強的大數據計算平臺為核心目標,解決高性能大數據計算中的共性問題,并以此為基礎,著力開展大數據示范性應用研發(fā)。各技術方向的架構和關系如圖1所示。
圖1 國家工程實驗室研究方向
國家工程實驗室計劃突破的3個主要技術方向包括高性能高安全的大數據計算平臺研發(fā)、高度通用的大數據計算共性關鍵技術研究、大數據示范性應用研發(fā),有針對性地解決目前我國大數據計算平臺面臨的安全性差、通用性低等突出問題。采用全國產化、面向特定工程領域的芯片及軟件技術,實現完全自主可控的高性能大數據計算平臺。將在該自主可控的硬件計算平臺上,研發(fā)可以適用于大數據計算共性關鍵技術的通用系統(tǒng)軟件。還將面向大數據計算中的示范性應用,開展應用軟件技術的研發(fā),實現“硬件—系統(tǒng)軟件—應用軟件”的完整的大數據計算生態(tài)環(huán)境。
(1)高性能高安全的大數據計算平臺研發(fā)
隨著國家、國防信息化建設的發(fā)展,構建自主可控的大數據計算平臺是國家戰(zhàn)略安全的至關重要的問題。目前我國絕大多數的大數據計算平臺都基于國外的軟硬件系統(tǒng)。大數據計算平臺安全可信性差和軟件通用性低等問題,成為大數據行業(yè)最為突出的核心問題。采用國外的基礎技術平臺,不僅在核心技術上受制于人,而且對我國重要數據信息的安全構成了直接威脅。國家工程實驗室將從“硬件—系統(tǒng)軟件—應用”3個層次,全面構建國產化高可靠性、高性能大數據平臺。該平臺的建設以研制基于國產化處理器的大數據計算硬件系統(tǒng)為核心方向。采用創(chuàng)新的RAS 2.0(增強的可靠性(reliability)、可用性(availability)及可服務性(serviceability))和處理器互聯技術,提供超越現有標準開放平臺的單機可靠性和計算性能。采用基于固件、不依賴操作系統(tǒng)(operatin system,OS)的故障響應和診斷機制,能夠全面、自動收集故障信息并進行分析,實現主動預警、隔離、替換失效部件,并率先支持CPU、內存等核心部件的在線維護,面向計劃內零停機維護設計,保障重要部門和企業(yè)的關鍵業(yè)務連續(xù)運行。
(2)高 度通用的大數據計算共性關鍵技術研究
國家工程實驗室將開展面向高度通用的大數據計算共性關鍵技術的研究。大數據計算在數據量、數據類型方面與傳統(tǒng)高性能計算有顯著不同,對數據的實時響應、安全性等方面也有特殊的要求。國家工程實驗室擬在通用大數據并行計算框架、一體化平臺集成、數據存儲、資源調度、數據安全、一體化應用環(huán)境6個方面開展研究?;诙攘靠臻g的大數據抽象框架,利用度量空間將大數據復雜繁多的數據類型和多樣化的距離抽象為統(tǒng)一的數據類型和距離函數接口,并通過支撐點選取算法選取若干支撐點,以數據到支撐點的距離為坐標,從而將數據從無坐標的度量空間映射到有坐標的多維空間,使眾多數學工具得以使用。
(3)大數據示范性應用研發(fā)
研發(fā)特定領域的大數據示范性應用及其共性技術是國家工程實驗室建設的重要目標之一。國家工程實驗室建設期間將從“智慧城市”“智能制造”“智慧政府”及“智慧服務”等領域的關鍵應用技術出發(fā),開展五大示范性應用及共性技術的開發(fā),包括多維時空大數據分析在智慧城市中的示范應用、物流大數據示范應用、媒體大數據分析的示范應用、物聯網大數據示范應用以及大數據可視化分析技術的示范應用。通過示范應用的開發(fā)及共性技術的研究,建立大數據“產學研用”協同創(chuàng)新生態(tài)鏈,促進大眾創(chuàng)業(yè)和萬眾創(chuàng)新。
國家工程實驗室的總體功能定位概括為我國大數據領域領先的“4個基地”,分別介紹如下。
(1)大數據技術創(chuàng)新與計算平臺基地
國家工程實驗室特別注重大數據計算共性關鍵技術的源頭創(chuàng)新能力,大數據計算平臺的基礎支撐能力以及對前沿技術成果和重大項目方案的集成、測試、驗證的能力,保障產業(yè)界對先進、成熟的技術的應用需求。
(2)人才培養(yǎng)與交流基地
國家工程實驗室以重大需求引領技術創(chuàng)新和多學科交叉為人才培養(yǎng)特色,以校企聯合及國際化為人才培養(yǎng)途徑,著力培養(yǎng)兼具理論探索和實踐開發(fā)的復合型人才;同時,通過與中國港澳地區(qū)及歐美知名高校開展聯合研究、特色專業(yè)、訪問學者等活動,實現國際高端人才的常態(tài)化交流與合作,發(fā)展成為區(qū)域性大數據高端人才培養(yǎng)與國際交流基地。
(3)產業(yè)孵化與服務基地
國家工程實驗室針對深圳、香港及珠三角地區(qū)新一代信息技術領域創(chuàng)客群體對大數據技術與服務的共性需求,提供大數據創(chuàng)新創(chuàng)業(yè)的技術、平臺、人才等公共技術服務支撐,促進創(chuàng)業(yè)項目加速成熟。
(4)大數據協同創(chuàng)新基地
國家工程實驗室廣泛對接政府和社會資源,成為以政府開放數據為源頭、以社會應用需求為引領、以大數據平臺為核心、以廣東及香港高校人才團隊為支撐、以社會資本為紐帶、以龍頭企業(yè)和產業(yè)園區(qū)為出口的大數據上下游鏈條協同合作與發(fā)展的樞紐,共同建設良好的融合大數據領域“政產學 研資介用”多元創(chuàng)新資源的產業(yè)生態(tài)圈。
國家工程實驗室以高校為建設主體,實現大數據領域的共性核心技術創(chuàng)新、核心平臺建設、高端人才培養(yǎng)、公共技術服務,符合大數據領域技術驅動的發(fā)展要求。同時,高校作為國家公立科研機構,能夠從根本上保障協同創(chuàng)新的公立性和持續(xù)性。
為有效地支撐大數據產業(yè)發(fā)展與應用推廣,充分發(fā)揮國家工程實驗室建設成果對各行業(yè)大數據應用的基礎共性需求的支撐能力,實驗室將建設大數據“產學研”合作及行業(yè)應用示范平臺,平臺提供的核心子系統(tǒng)與功能包括以下幾個方面。
(1)數據資源目錄系統(tǒng)與服務
平臺將提供數據資源目錄服務。一方面,將已經聚集的數據資源處理成標準數據集,授權第三方合作伙伴使用;另一方面,接收外部數據資源匯聚,將所用數據資源經過處理后的標準數據集以數據資源目錄的形式提供給授權用戶訪問、查詢、分級使用,同時提供基于數據資源開展項目的清單,便于數據資源價值理解與橫向對比,促進產業(yè)生態(tài)發(fā)展。
(2)行業(yè)大數據應用案例庫及服務
為促進行業(yè)大數據應用普及推廣,不斷強化行業(yè)大數據應用的標準化與產品化發(fā)展,平臺提供行業(yè)大數據應用案例庫及相關服務,將依托平臺構建的各個行業(yè)大數據應用案例進行統(tǒng)一管理,并對外授權服務。同時,借鑒開源軟件管理與發(fā)展模式,任何基于本平臺提供的案例進行定制開發(fā)的案例有義務提交到本平臺,明確不同案例版本的所有權,促進合作方之間的共贏發(fā)展。
(3)資源管理與共享服務
為有效支撐不同用戶及案例的開發(fā)與運行,平臺將提供資源管理與共享服務,進行用戶及案例管理,平臺將根據用戶案例的開發(fā)與運行所需資源進行動態(tài)分配與管控,實現在IaaS層、PaaS層的平臺資源共享。
大數據系統(tǒng)計算技術創(chuàng)新平臺處在國際大數據競相發(fā)展的起步階段和國際大數據的技術體系與產業(yè)格局尚未完善成熟的初級階段。瞄準國際大數據技術與產業(yè)發(fā)展趨勢,針對國家大數據發(fā)展戰(zhàn)略需求,依托區(qū)域大數據創(chuàng)新創(chuàng)業(yè)優(yōu)越環(huán)境,發(fā)揮建設單位的創(chuàng)新成果基礎與互補資源優(yōu)勢,集中圍繞大數據處理與分析的主題,以建設大數據計算平臺與大數據共性技術為核心任務,以研發(fā)和促進大數據重大行業(yè)應用示范為導向,以構建多學科、多領域交叉融合的創(chuàng)新載體為手段,全面系統(tǒng)地突破大數據領域的技術與應用問題,通過自主創(chuàng)新的大數據成果,支持和驅動相關產業(yè)轉型升級和雙創(chuàng)戰(zhàn)略深化實現。
首先,創(chuàng)新平臺將強化國家大數據創(chuàng)新能力建設。大數據是新一代信息技術的核心方面和競爭前沿,也是制約大數據產業(yè)快速發(fā)展的關鍵瓶頸。大數據技術創(chuàng)新能力已經成為后信息時代衡量國家競爭力的重要指標。與傳統(tǒng)信息技術創(chuàng)新相比,大數據技術創(chuàng)新對科技人才、科研載體、合作模式、資源要素等提出了更高的要求,迫切需要能夠有效組織、融合、協同、發(fā)展多元化創(chuàng)新主體和資源的新型、高水平的大數據創(chuàng)新載體,承擔起滿足國家大數據需求的創(chuàng)新、組織、交流、合作的職責。通過本項目研發(fā)出自主可控的大數據計算平臺和一系列大數據共性技術,將成為國家大數據創(chuàng)新體系的重要組成部分和推進抓手。
其次,創(chuàng)新平臺將滿足我國大數據技術與應用的重大需求。大數據系統(tǒng)技術按技術創(chuàng)新平臺建設的直接產出就是系統(tǒng)全面地提供大數據技術成果,具體包括時空大數據、物流大數據、媒體大數據、物聯網大數據等示范性大數據應用的相關機器學習理論、分析模型與算法以及應用相關工具、系統(tǒng)與平臺、行業(yè)大數據應用解決方案等。這些技術成果具有極強的適用性和推廣性,可進一步面向具體應用場景與需求進行第三方定制開發(fā),應用到更廣泛的行業(yè)、領域、環(huán)節(jié)、場景,突破制約我國大數據應用發(fā)展的瓶頸。
再次,創(chuàng)新平臺將促進我國大數據技術服務產業(yè)發(fā)展壯大。與傳統(tǒng)信息產業(yè)的發(fā)展過程相似,大數據必將逐漸形成一個相對獨立、體系完善的產業(yè)形態(tài),成為傳統(tǒng)信息產業(yè)的升級換代?;ヂ摼W和云計算的發(fā)展過程與趨勢已經證明,大數據未來的產業(yè)形態(tài)將是以服務為核心的新型產業(yè)形態(tài),大數據產業(yè)體系的各個環(huán)節(jié)將形成極為豐富的服務。建設從計算平臺、共性技術到示范應用,全面覆蓋大數據技術體系中主要環(huán)節(jié)的核心技術創(chuàng)新與突破,相應的技術成果將以技術、專利、軟件、系統(tǒng)、平臺、方案、培訓、咨詢等形式為社會提供服務,促進我國大數據技術服務產業(yè)發(fā)展壯大。
最后,創(chuàng)新平臺將助力我國大數據“雙創(chuàng)”生態(tài)環(huán)境成熟完善。當前我國“雙創(chuàng)”戰(zhàn)略激發(fā)了眾多創(chuàng)客團隊和創(chuàng)業(yè)孵化器的快速發(fā)展,大量與信息技術和服務相關的創(chuàng)業(yè)項目,特別是在互聯網、移動互聯網、物聯網、智能硬件等領域的創(chuàng)業(yè)項目,都離不開大數據技術的支持。大數據系統(tǒng)計算技術創(chuàng)新平臺研制大數據計算平臺,研究大數據共性技術,具備開展大數據應用的全部核心功能與組件,并通過服務的方式一站式提供給用戶,因此將成為“雙創(chuàng)”戰(zhàn)略的重要支撐,降低創(chuàng)客群體使用大數據技術的門檻,有助于創(chuàng)客群體之間的交流合作,形成以平臺為核心的大數據相關創(chuàng)新創(chuàng)業(yè)生態(tài)圈。
本文從大數據計算平臺、共性技術和大數據應用的現狀及存在的問題出發(fā),介紹了大數據系統(tǒng)計算技術國家工程實驗室的大數據系統(tǒng)計算技術創(chuàng)新平臺。創(chuàng)新平臺以研制高性能高安全的計算平臺、高度通用的大數據共性技術為基礎,進行大數據示范應用的研發(fā)。依托創(chuàng)新平臺打造大數據生態(tài)創(chuàng)新基地,完善大數據“產學研”一體的綜合生態(tài)圈;建設大數據“產學研”合作及行業(yè)應用示范平臺,改善大數據人才培養(yǎng)的環(huán)境,促進大數據研究領域科研成果的轉化。創(chuàng)新平臺的建設將提升國家大數據創(chuàng)新能力,滿足我國大數據技術與應用的重大需求,促進我國大數據技術服務產業(yè)發(fā)展壯大,助力我國大數據“雙創(chuàng)”生態(tài)環(huán)境的成熟完善。