吉燕勇
我想跟大家分享兩個話題,一個是IBM怎么看大數(shù)據(jù),另一個是IBM的認知計算。
IBM如何看大數(shù)據(jù)
現(xiàn)在有很多大數(shù)據(jù)項目在實施過程中,怎么證明這個項目能成功呢?我們有三個標準,第一是看它是否能夠改變企業(yè)做決策的方式;第二是看這個項目是否能夠改造創(chuàng)造價值的方式;第三是看是否通過它能夠改變對每個用戶創(chuàng)造價值的方式。
大數(shù)據(jù)其實是關(guān)于產(chǎn)業(yè)轉(zhuǎn)型、提升、重塑秩序,轉(zhuǎn)型以后會出現(xiàn)一個多發(fā)經(jīng)濟,會有新的經(jīng)濟形態(tài)呈現(xiàn)。第一是由基于洞察的服務(wù)構(gòu)成的;第二是數(shù)據(jù)的生產(chǎn)者、消費者以及運營者可以在同一個平臺共享利益。由于云計算比較成熟、分析能力比較豐富,所以洞察經(jīng)濟是應(yīng)運而生的。想要得到一個方法論,就要在標準、模塊和資本化中有更多的探索。
IBM大數(shù)據(jù)能力
IBM過去十年投入了200億元,通過收購和研發(fā)構(gòu)建了非常健全的大數(shù)據(jù)體系。第一部分是大數(shù)據(jù)本身的存儲、探索以及管理能力;第二部分是數(shù)據(jù)分析,也叫預測,包括算法、建模、積極學習;第三部分就是計算能力。我們希望通過大數(shù)據(jù)本身的能力,包括建模、預測、云計算,能夠創(chuàng)造出價值。
有了相關(guān)能力,怎么使用呢?想通過大數(shù)據(jù)改變一些決策方式。比如,兩個選手在打網(wǎng)球比賽之前,幫助選手做三個PPI:S球的成功率多少等等,這樣對網(wǎng)球比賽會有新的幫助。我們通過8182場比賽,包括4100萬數(shù)據(jù)點(這是數(shù)據(jù)的收集和儲存),找到5500個模型出來,再進行分析,由45個模型最終變成19個影響勝負的關(guān)鍵點。每個選手之間的比賽,選擇三個點,這三點做得比較好就能贏,做的不好就不能贏,最終經(jīng)過學習和訓練,以此來指導選手如何能夠贏得比賽。我們通過大數(shù)據(jù)分析來改變決策,影響比賽的勝負。
IBM戰(zhàn)略的方向
第一、基于云計算;第二、希望把企業(yè)的數(shù)據(jù),包括銀行數(shù)據(jù)、保險數(shù)據(jù)、企業(yè)的內(nèi)部數(shù)據(jù)和企業(yè)的外部數(shù)據(jù)相結(jié)合,幫助企業(yè)建立一個企業(yè)洞察體系。通過這種方式幫助企業(yè)決策,并產(chǎn)生出更高的價值。
IBM在大數(shù)據(jù)中的新動向是擁抱開源。我們擁抱開源,培養(yǎng)100萬個數(shù)據(jù)科學家,目前做大數(shù)據(jù)特別緊缺科學家。我們建立一個Spark技術(shù)中心,IBM成為Spark的創(chuàng)始性會員,IBM通過開源加速大數(shù)據(jù)開發(fā)的能力。
我們希望通過大數(shù)據(jù)的能力,幫助客戶做更多的創(chuàng)新。比如,我們在制造行業(yè),通過預測性的運維與質(zhì)量管理,做出高端制造。在制造業(yè)轉(zhuǎn)型的大背景下,企業(yè)會安裝很多海量的傳感器,這些傳感器采集很多的數(shù)據(jù),如何把這些數(shù)據(jù)集中到大數(shù)據(jù)中心,是很多企業(yè)面臨高端制造時遇到的困難。如何通過這些傳感器的數(shù)據(jù)做實時的運維也是比較大的挑戰(zhàn)。我們通過Spark和大數(shù)據(jù)平臺,做實時的運維和維護,這樣可以實現(xiàn)秒級、分鐘級的健康檢測,并對所有的狀況進行分析。
關(guān)于大數(shù)據(jù),最大的挑戰(zhàn)還是非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)性增長所帶來的新的技術(shù)挑戰(zhàn)。IBM推出了認知計算,并進入到認知時代。在這之前是編程時代,需要寫程序、精確編程,而在這之后則是認知時代。
在認知計算中,人工智能有很多新的發(fā)展。在1997年,IBM便有人工智能。2011年,沃森系統(tǒng)戰(zhàn)勝了人類,這算得上是一個新的里程碑。今年,阿爾法狗也是人工智能上一個突破。
那什么是認知計算呢?每個公司的理解不一樣。IBM認為就是URL。U是指能夠理解各種數(shù)據(jù);R是指這個系統(tǒng)能夠推理和抉擇;L是指能夠自主學習。所以,沃森通過危險邊緣游戲,能夠理解你說什么,也能夠進行推理和決策、回答問題,還可以增強學習能力。這是IBM所有的認知解決方案、認知計算的基本能力。
沃森如何實現(xiàn)這個能力呢?你提出問題以后,它需要對問題進行分析和分解。把問題變成若干個小問題之后,通過檢索知識庫,產(chǎn)生一些假設(shè),再通過證據(jù)庫的證據(jù)打分,考量這個假設(shè)有多高的可能性,最后合并成一個答案。所以整個的架構(gòu)中有一個信息庫和一個證據(jù)庫。
目前IBM做得比較好、進展比較快的是,在美國已經(jīng)可以通過計算機在腫瘤醫(yī)院幫助癌癥病人看病,里面有知識庫的信息。很多數(shù)據(jù)也是有專利的,包括實驗、病歷,還有公共數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等等。此外,還有一些證據(jù)庫,如果病人口述一些癥狀,他希望通過知識庫判斷出侯選結(jié)果。
如何建立知識系統(tǒng)和知識庫呢?如何把行業(yè)內(nèi)的內(nèi)容放在一起,構(gòu)建知識庫呢?這是一個比較復雜的過程。有了知識庫以后,又如何檢索出結(jié)果呢?怎么通過繼續(xù)學習,通過推理,通過自學習,讓系統(tǒng)更加的智能化,最終通過知識庫,怎么形成假設(shè),通過證據(jù)庫怎么進行打分,形成一個答案?這和搜索引擎不一樣,搜索出關(guān)健詞以后,可以看到一萬、兩萬個風險答案,而在這里只有一個答案可以看到。認知計算對傳統(tǒng)大數(shù)據(jù)的落地是比較大且有利的補充,但還是有區(qū)別。
傳統(tǒng)大數(shù)據(jù)的分析,有以下幾個特點:首先是用數(shù)字方式與計算機交付;其次是問題相對比較清晰;第三是需要提供一個確定的答案。你需要存儲數(shù)據(jù)、記錄算法,用機器學習,建模,就可以做到。
認知計算中更多是通過資產(chǎn)語言進行交互,不需要通過計算機編程,答案也不見得是百分之百的,它可能是70%或是90%。目前,在美國看病需要通過的答案是80%~90%,專家需要對答案進行下一步分析,分析出為什么是80%~90%。
另外,處理更多的東西沒有明確的信息,因為數(shù)據(jù)量很大,不知道數(shù)據(jù)存到哪兒,如何分析,則需要計算機自己算出來。
目前,很多企業(yè)認同要把認知計算落地中國,IBM在中國有一款產(chǎn)品已經(jīng)落地,并且是免費,名叫IBM Watson Analytics。只要有數(shù)據(jù),就可以導入進去,不需要任何程序。你不需要做任何安裝,它是基于云的服務(wù),只需要通過互聯(lián)網(wǎng)使用就可以了。IBM Watson Analytics基于自然語言,人們可以直接問他問題,當然目前還是英文版本的,中文的還沒有做完。比如,把銷售數(shù)據(jù)放進去以后,想知道哪個區(qū)域銷售量最好,他會馬上告訴你答案。
(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)