霍娜
每天微博上的留言轉載、電子商務網站上的用戶點擊流、各種音視頻記錄文件、大量的網絡服務日志……大數(shù)據時代撲面而來。大數(shù)據有三V特征——海量(Volume)、多樣(Variety)和實時分析(Velocity)。3月30日,在2012第五屆中國數(shù)據中心大會的大數(shù)據分析與數(shù)據治理分論壇上,杭州瑞網廣通技術有限公司總裁楊建軍就介紹,他們?yōu)槠桨渤鞘?、智能安防、?shù)字城市監(jiān)控云所做的項目的數(shù)據量都已是PB級的。如何對海量的結構化和非結構化數(shù)據做實時分析,從而支撐決策,是大數(shù)據時代業(yè)界的共同挑戰(zhàn)。
數(shù)據分析:從挖金土豆到篩金沙
大數(shù)據之所以成為業(yè)界的熱點,是因為現(xiàn)在做數(shù)據分析的價值越來越大,在Hadoop等技術的支持下,成本相對越來越低。對于企業(yè)做數(shù)據分析的價值和方法的前后變化,Informatica公司大中國區(qū)首席產品顧問但彬在論壇上,用一個非常生動形象的比喻做了說明:“如果將做數(shù)據分析比喻成開采金礦,原來我們所做的是用挖掘機挖金土豆,而現(xiàn)在則是用篩子來篩金沙。因為現(xiàn)在大量分布在社交網絡的數(shù)據,對企業(yè)而言就是就像是大量的金沙,分布廣泛而分散。如果能用低成本的方法篩出金沙,是非常有價值且值得做的事情?!?
但彬介紹,Informatica作為一家數(shù)據集成公司,更關注的是如何把來自各個地方的大數(shù)據,通過像抽水機的泵一樣的裝置整合到需要的程度和地方。Informatica2011年完成了近8億元的收入,這也是對大數(shù)據市場火熱程度的一個印證。
Informatica主要從四個方向考慮大數(shù)據處理的一些問題:第一,大數(shù)據的集成,即從數(shù)據種類的多樣性方面,整合所有來源的所有數(shù)據類型,不管是來自交易系統(tǒng)的結構化數(shù)據,社交網絡的半結構化、非結構化數(shù)據,還是來自RFID讀卡器的感應數(shù)據;第二,保障數(shù)據的權威、可信性,保障數(shù)據安全,實現(xiàn)可重復利用、一致的數(shù)據質量;第三是實現(xiàn)數(shù)據的自助式服務,消除手工操作帶來的錯誤,提高生產率,允許分析員通過基于瀏覽器的工具直觀地定義和校驗從源到目標的處理流程,以此自動生成映射邏輯,交由開發(fā)人員部署運行;第四是自適應服務,通過多協(xié)議數(shù)據配置、集成數(shù)據質量等手段實現(xiàn)交付適應不同項目需求的數(shù)據。
從交易到交互,從互聯(lián)網行業(yè)到傳統(tǒng)行業(yè),大數(shù)據的滲透力和影響力不容小覷。在Teradata大中華區(qū)首席架構師張新宇看來,除了數(shù)據管理,更重要的是數(shù)據分析,利用新的分析方法,比如通過使用Map Reduce(編程語言可以是Java/Python/Perl/C/C++)新分析框架,提供針對多種數(shù)據的并行處理能力等,實現(xiàn)大數(shù)據的洞察力是更關鍵的。
北京賽迪時代信息產業(yè)股份有限公司存儲工程服務事業(yè)部總經理李降龍也介紹,大數(shù)據帶來的挑戰(zhàn)在于怎樣實時處理這些數(shù)據,通過虛擬化搭建一個計算和存儲資源池,以彈性架構有效地合理分配和使用它們,并建立合理應用系統(tǒng),使大數(shù)據得到最好的管理和使用,才能發(fā)揮大數(shù)據的價值。論壇上民族證券CIO顏陽也分享了證券公司對于大數(shù)據的理解以及他們所做輿情分析的大數(shù)據應用。
職場新貴:數(shù)據科學家
針對大數(shù)據而生的新一代分析工具——Map Reduce近年來備受關注,它一次遍歷數(shù)據,連接列表順序分析,而不需要像傳統(tǒng)的SQL那樣為了排序需要對表做自關聯(lián)。Map Reduce在數(shù)字營銷優(yōu)化、社交網絡及關系分析、欺詐檢測及預防、設備數(shù)據分析等場景中都有非常好的應用。
除了原有的關系型數(shù)據分析,結合非關系型數(shù)據(NoSQL)的探索性分析的需求在企業(yè)內部越來越旺盛,如此一來,一種新的IT職業(yè)——數(shù)據科學家會越來越火。
張新宇介紹,近十年來做數(shù)據分析的從業(yè)人員數(shù)量急劇上升,已經占到所有行業(yè)從業(yè)人數(shù)的0.01%。數(shù)據科學家有很強的技術功底,除了傳統(tǒng)的會寫SQL,還會與非關系型數(shù)據打交道,熟悉很多數(shù)據分析的軟件,有很強的數(shù)據功底,對業(yè)務也很敏感。另外,數(shù)據科學家也會有很強的好奇心或求知欲,他要很明確地知道,當發(fā)現(xiàn)業(yè)務問題的時候如何通過業(yè)務模式的調整去解決。他既是一個數(shù)據分析的專家,也可能是一個SaaS的專家,也可能是個超級用戶,或者是一個Java的程序員,自己寫程序處理。
傳統(tǒng)的ETL 開發(fā)人員、應用模型人員/OLAP架構師或者Data 管控及主數(shù)據管理人員主要在關系型數(shù)據上工作。與他們不同,數(shù)據科學家通常與非關系型數(shù)據打交道,會很早接觸并采用企業(yè)內部的新數(shù)據源,要針對數(shù)據模型及數(shù)據結構沒有預先設定的情況,習慣使用各種比較靈活的語言,會有各種新的數(shù)據產品的可執(zhí)行的想法。