大約在十年前,大數(shù)據(jù)剛剛提出來,那時(shí)候BAT、谷歌、Twitter這樣的大型互聯(lián)網(wǎng)企業(yè),都有一個(gè)很實(shí)際的需求,就是他的用戶數(shù)超過了1億,數(shù)據(jù)量也非常龐大,那時(shí)候就提出了大數(shù)據(jù)。十年過去了,大數(shù)據(jù)推廣到現(xiàn)在,已經(jīng)深入到各個(gè)領(lǐng)域。我們的思路就要過渡到現(xiàn)在解決實(shí)際應(yīng)用的問題,也就是數(shù)據(jù)多變化、價(jià)值密度低、數(shù)據(jù)的準(zhǔn)確率低等問題,需要在實(shí)際應(yīng)用當(dāng)中提升數(shù)據(jù)的準(zhǔn)確率,才能更好地服務(wù)社會大眾。
我們神舟軟件是中國連續(xù)多年的百強(qiáng)企業(yè),強(qiáng)項(xiàng)就是做產(chǎn)品:第一個(gè)強(qiáng)項(xiàng)就是做工業(yè)大數(shù)據(jù)所需要的工業(yè)信息化產(chǎn)品,從CAD畫圖到三維造型,再到數(shù)字加工的一整套體系,形成了一整套的產(chǎn)品鏈。第二個(gè)強(qiáng)項(xiàng)就是做數(shù)據(jù)庫處理。神舟軟件是以做自主產(chǎn)品為基礎(chǔ)和核心的企業(yè)。這些年,我們從數(shù)據(jù)處理方面接觸到政務(wù)應(yīng)用。我們可以看到,政務(wù)已經(jīng)提到云上來了,很多的數(shù)據(jù)分析處理能力欠缺,相比支線分析,關(guān)聯(lián)分析可能做得相對少一些,比如要畫一個(gè)人物的畫像,除了看他的社保數(shù)據(jù),我們還要看他的交通數(shù)據(jù)、金融數(shù)據(jù)等,這樣才能畫出整個(gè)人物畫像。
現(xiàn)在大數(shù)據(jù)應(yīng)用最多的還是垂直行業(yè),這些年我們也做過垂直行業(yè),也有融合分析,這是我們發(fā)展的重點(diǎn)。另外,現(xiàn)在專業(yè)領(lǐng)域的大數(shù)據(jù)跟移動互聯(lián)網(wǎng)結(jié)合得比較多,大部分基于移動端提供服務(wù)。大數(shù)據(jù)如果達(dá)到TB級以上,就需要分布式的技術(shù),也就是大數(shù)據(jù)的組合技術(shù)。另外云的管理、數(shù)據(jù)挖掘分析能力、大數(shù)據(jù)的人才、大數(shù)據(jù)的產(chǎn)品都要跟得上。
從產(chǎn)品現(xiàn)狀來看,首先我們在采集方面是比較齊全的,采集之后還做分析、檢索等,這樣分析就更具體了。因?yàn)槲覀兪亲鐾ㄓ卯a(chǎn)品,會接觸更多的領(lǐng)域,包括我們做航天發(fā)射的時(shí)候,計(jì)算發(fā)射的整個(gè)軌跡時(shí),要實(shí)時(shí)地畫出來;做工業(yè)信息化的時(shí)候需要智能地生產(chǎn)。這都是實(shí)時(shí)性比較高的產(chǎn)品。
我們產(chǎn)品都很有特色。在計(jì)算資源,即存儲網(wǎng)絡(luò)和IP網(wǎng)絡(luò)上,我們的特色在于應(yīng)用虛擬化;在做數(shù)據(jù)治理上,我們是從分析需求角度分析數(shù)據(jù),在梳理完數(shù)據(jù)以后,要衡量用哪些手段和工具去分析和處理數(shù)據(jù),再建模型、做方法庫,這些是數(shù)據(jù)治理的要素,我們圍繞著這幾個(gè)要素去構(gòu)建產(chǎn)品線。我們在構(gòu)建數(shù)據(jù)處理平臺各個(gè)層次的產(chǎn)品線時(shí),這些產(chǎn)品需要裝在云服務(wù)端,在我們的虛擬化平臺上,可以很好地實(shí)現(xiàn)本地不留數(shù)據(jù)的處理方式,我們用戶可以用本地不留數(shù)據(jù)的方式來處理業(yè)務(wù),還要對前端提供查詢服務(wù),同時(shí)提供準(zhǔn)確、嚴(yán)密的授權(quán)。同時(shí)我們的資產(chǎn)平臺也能管理用戶的數(shù)據(jù)資產(chǎn)。通過這幾個(gè)環(huán)節(jié),我們構(gòu)建了一個(gè)基本完整的大數(shù)據(jù)的處理平臺。
一些大的用戶需要完整的平臺,有的用戶只需要一部分平臺來構(gòu)建行業(yè)性的應(yīng)用。我們這個(gè)平臺的特點(diǎn):第一,我們以自有產(chǎn)品為主,并與經(jīng)典的信息化基本一致,都采用標(biāo)準(zhǔn)的社科語句,能夠?qū)崿F(xiàn)大數(shù)據(jù)分析。我們提供的接口使大數(shù)據(jù)的開發(fā)和管理更加簡便。在上下游的產(chǎn)業(yè)鏈上,我們從硬件、虛擬化、上層的分析到資產(chǎn)管理,形成了一套全生態(tài)的整體方案。另外,我們這個(gè)平臺可以支撐TB級的系統(tǒng)。我們的采集平臺有各種類型的采集工具:數(shù)據(jù)庫方面,既有通用數(shù)據(jù)庫,也有變形式數(shù)據(jù)庫;在檢索方面,我們在解決TB級系統(tǒng)時(shí),需要快速地檢索、分析,傳統(tǒng)的方式就不能滿足要求,我們有自己專利的產(chǎn)品,能夠解決我們在PB級數(shù)據(jù)量的快速檢索和分析;在文本類的分析上,我們神軟智匯大數(shù)據(jù)產(chǎn)品是分布式的,通過類似于集群的提交模式,可以把文本任務(wù)分解到底層的存儲上執(zhí)行,然后獲取結(jié)果,返回到上層應(yīng)用;在數(shù)據(jù)模型上,很多企業(yè)會用IBM的數(shù)據(jù)挖掘產(chǎn)品,我們自研的產(chǎn)品目前積累的數(shù)據(jù)模型比SPSS(統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案)還要多,SPSS標(biāo)準(zhǔn)的模型是20多個(gè),我們現(xiàn)在積累了40多個(gè)。
我們國家級的重大工程,其中一個(gè)工程每天涉及數(shù)據(jù)條數(shù)是2.3萬億條,存儲10天,就是23萬億的存儲量。2.3萬億是個(gè)什么概念,“雙十一”期間淘寶的交易量是1億筆交易,產(chǎn)生的數(shù)據(jù)大概在60~70億條,而我們的系統(tǒng)每天是2.3萬億,相當(dāng)于是淘寶的幾百倍。在這么大的數(shù)據(jù)下,用我們的分布式系統(tǒng)實(shí)現(xiàn)了及時(shí)地分析和查詢管理,我們還做了很多這樣的國家級工程。另外,我們也做了電信、金融的數(shù)據(jù)分析。我們跟清華合作車聯(lián)網(wǎng),通過一些實(shí)時(shí)數(shù)據(jù)分析,實(shí)現(xiàn)節(jié)能和智能調(diào)度。我們給新聞出版總署做了文本分析的大數(shù)據(jù)平臺,它的所有報(bào)刊都能夠智能地畫像、分析。在農(nóng)業(yè)領(lǐng)域涉及大量的數(shù)據(jù)類型,不光是本身的農(nóng)產(chǎn)品價(jià)格,還有自己從300多個(gè)小的批發(fā)市場采集,另外通過協(xié)調(diào)數(shù)據(jù)、交換數(shù)據(jù)、購買數(shù)據(jù)的方式,以及融合本地的氣侯數(shù)據(jù)、氣象數(shù)據(jù),林業(yè)數(shù)據(jù)、水產(chǎn)數(shù)據(jù),將各種各樣的數(shù)據(jù)匯集在一起,形成一個(gè)價(jià)格的分析平臺。這樣的多數(shù)據(jù)融合,就涉及國家政策方面的協(xié)調(diào),在系統(tǒng)做完之后,可以體會到,現(xiàn)在政府對數(shù)據(jù)還沒有完全開放。沒有完整的立法,就做不到完全開放,加之各個(gè)部門有自己的服務(wù)范圍,同時(shí)又有數(shù)據(jù)安全、管理權(quán)限的問題。