記者:目前大數(shù)據(jù)主要在哪些業(yè)務上得到應用?
連晉波:數(shù)據(jù)在許多產(chǎn)業(yè)已使用了多年, 如金融業(yè)制定投資策略、網(wǎng)上交易平臺在已經(jīng)建立的分析基礎上推薦引擎、航空和保險行業(yè)使用分析來制定定價優(yōu)化模型、保險公司用于分析開發(fā)風險評估模型、零售和投資領域、網(wǎng)絡行為分析等等。
EMC公司贊助了人類所面臨的大數(shù)據(jù)項目是一個全球性大眾媒體項目,專注于人類的新的實時收集、分析、印證和海量數(shù)據(jù)的可視化能力。該項目設有超過200個大數(shù)據(jù)是如何改變我們的生活的故事。
記者:您認為大數(shù)據(jù)在媒體行業(yè)可以有何作為?
連晉波:大數(shù)據(jù)技術在媒體行業(yè)將大有作為,特別是全媒體時代。 除我們熟識的媒體數(shù)據(jù)管理、內(nèi)容分發(fā)等外,通過龐大的受眾,可以廣泛應用到如 用戶行為分析、輿情分析、社會熱點分析和預測等等,通過大數(shù)據(jù)分析,新聞傳播、內(nèi)容推送將更有針對性,更精準,這些都是具有重大的政治和經(jīng)濟意義。
另外,通過大數(shù)據(jù)技術,將幫助傳統(tǒng)媒體客戶增強競爭力和快速轉(zhuǎn)型。
記者:技術上,引入大數(shù)據(jù)需要在系統(tǒng)架構上解決哪幾個方面的關鍵問題?
連晉波:大數(shù)據(jù)時代需要新的架構,主要在4個方面:
◎ 首先,建立一個向外擴展(Scale-out)的存儲基礎設施,輕松管理PB級別的數(shù)據(jù),如Isilon集群存儲系統(tǒng),可以輕松管理單一文件系統(tǒng)達到20PB、實現(xiàn)100GB/s的吞吐能力。同時處理結構化數(shù)據(jù)和非結構化數(shù)據(jù)的大規(guī)模并行處理平臺?!?這里包含了并行處理大數(shù)據(jù)和處理快數(shù)據(jù)的能力。在Pivotal架構中Greenplum和Gemfire分別承擔了類似的功能?!?大數(shù)據(jù)要求一種新的學科: 數(shù)據(jù)科學。傳統(tǒng)的BI專注于現(xiàn)有的數(shù)據(jù)管理和報告,目的是監(jiān)控和管理企業(yè)內(nèi)部。而新的數(shù)據(jù)科學應用先進的分析工具和算法來生成預測的見解和新的產(chǎn)品創(chuàng)新?!?敏捷的分析應用。大數(shù)據(jù)應用與以往不同,主要為移動設備訪問和社交網(wǎng)絡設計;必須使用新的框架靈活快速建立應用;部署于云計算和虛擬化環(huán)境。
記者:海量信息分析平臺(greenplum)具有哪些特點?
連晉波:公司的Greenplum產(chǎn)品 通過提供可轉(zhuǎn)變組織數(shù)據(jù)使用方式的完整技術和服務平臺,推動著大數(shù)據(jù)分析的未來發(fā)展。目前已經(jīng)整合加入Pivotal框架中。◎ Greenplum Database:利用行業(yè)領先的大規(guī)模并行處理 (MPP)數(shù)據(jù)庫,該數(shù)據(jù)庫旨在支持新一代大數(shù)據(jù)倉庫存儲和分析,并且能夠存儲和分析PB級別的數(shù)據(jù)。 ◎ Greenplum HD:實現(xiàn)創(chuàng)新,例如實時數(shù)據(jù)交互、更高的可靠性以及更簡單 Hadoop 部署和使用。 ◎ Greenplum Data Computing Appliance:通過業(yè)內(nèi)第一款完整大數(shù)據(jù)分析平臺的革命性模塊化體系結構,將無共享的MPP關系數(shù)據(jù)庫與企業(yè)級Apache Hadoop結合在一起。 ◎ Greenplum MR: Greenplum推出的MapR Apache Hadoop M5版本產(chǎn)品包提供了高性能 Hadoop平臺。■