◎雷濤
目前大數(shù)據(jù)在互聯(lián)網(wǎng)金融領域主要解決三個問題:(一)解決運營交易成本過高的問題。網(wǎng)銀降低了20萬個網(wǎng)點成本,而阿里主要是把信用和抵押進行置換。(二)提供流動性,解決資產(chǎn)與負債流動性不匹配的問題。P2P就是將存款進行轉(zhuǎn)讓,比如眾籌。(三)拓展4000萬中小微企業(yè)市場。互聯(lián)網(wǎng)金融出現(xiàn)以后,把市場體量做大了,不只服務于現(xiàn)有客戶,還可以把碎片化的需求和供給進行整合,進而細化滲透到中小企業(yè)市場。同時,我們還關注到了金融高端客戶市場,即理財?shù)倪\營市場。海外金融機構(gòu)提到,對于每一位高端客戶,與其接觸的次數(shù)及準確接觸的能力都是非常有限的。那么,怎樣把理財內(nèi)容和手段精準提供給每一位高端客戶,這是大數(shù)據(jù)可以解決的問題之一。
大家都在談互聯(lián)網(wǎng)的優(yōu)勢,覺得互聯(lián)網(wǎng)很美妙。但是要研究互聯(lián)網(wǎng),一定要面對互聯(lián)網(wǎng)自身的問題,其中最具挑戰(zhàn)的就是信息過載問題。在互聯(lián)網(wǎng)上,信息以WebPage的形式呈現(xiàn),等待人們?nèi)c擊,那么互聯(lián)網(wǎng)經(jīng)濟的主體必然是注意力經(jīng)濟。例如,2013年1月,財經(jīng)金融類網(wǎng)站總訪問次數(shù)381539萬,訪問時長9122萬小時,即10413年。如何從這些過載的信息中獲取被稀釋了的數(shù)據(jù)價值?這是當前互聯(lián)網(wǎng)經(jīng)濟面對的最具挑戰(zhàn)的一個問題。
是不是互聯(lián)網(wǎng)就是終極形態(tài)?我們給出了一個經(jīng)濟范疇的定義,即這樣的模式怎么去掙錢?;ヂ?lián)網(wǎng)早期最簡單的業(yè)務形態(tài)是2B,即企業(yè)向客戶出售產(chǎn)品或服務,以直接賺取金錢為目的。衡量指標就是產(chǎn)量等概念。第二個時代就是2C,即互聯(lián)網(wǎng)經(jīng)濟下,企業(yè)盡可能多地發(fā)展用戶,不以直接從用戶處賺取金錢為目的,希望通過后向收費或者發(fā)掘用戶終身價值等方式賺取利潤。這個時代,像谷歌、Facebook等公司主要是經(jīng)營用戶,衡量指標是用戶體量。
未來我們看到的將是2D的業(yè)務形態(tài),也就是大數(shù)據(jù)經(jīng)濟。數(shù)據(jù)將是未來企業(yè)的重要資產(chǎn)。企業(yè)通過數(shù)據(jù)創(chuàng)造新的商業(yè)模式,或直接通過數(shù)據(jù)售賣以及利用數(shù)據(jù)提供增值服務獲得巨大利潤。在這一時代,海量用戶和良好的數(shù)據(jù)資產(chǎn)將成為未來核心競爭力與收入的重要來源。這個數(shù)據(jù)未必是靠人的點擊。比如,你可能與運營商沒有任何交易往來,但是手機的傳感器在持續(xù)記錄你的位置信息,這個信息在不斷地跟基站通訊,你的行為就已經(jīng)被運營商捕捉了。所以2D更多的是以數(shù)據(jù)為驅(qū)動力的生意模式。這種生意模式可以把附加值擴展得很大。
以上是對互聯(lián)網(wǎng)經(jīng)濟形態(tài)的分析。具體說,就是大數(shù)據(jù)更多的是幫助金融企業(yè),包括傳統(tǒng)銀行獲得金融IQ,即接觸市場和用戶的權(quán)利和能力。我們認為,傳統(tǒng)銀行的數(shù)據(jù)價值遠大于互聯(lián)網(wǎng)公司。其實,金融企業(yè)很多先下的數(shù)據(jù)沉睡在數(shù)據(jù)庫里,而這些數(shù)據(jù)的價值遠遠大于阿里數(shù)據(jù)的價值。
大數(shù)據(jù)可以幫助金融企業(yè)解決信息不對稱,及營銷、定價、風險和欺詐問題。從我們做過的案例中發(fā)現(xiàn),主要體現(xiàn)在以下三個方面:
(一)市場營銷。包括交叉銷售、二次銷售方面。體現(xiàn)在如何進行客戶挽留、客戶價值評估等。例如給保險公司做了全量的數(shù)據(jù)處理后,就可以實現(xiàn)很多財險和壽險的匹配。還包括客服投訴評估和產(chǎn)品投放評估等。
(二)信貸和風險。主要是信用分配、風險評估、實施授權(quán)、風險干預和欺詐識別等。
(三)預測與估價。包括周期行為分析、量化分析、流失分析、催收分析等。
實現(xiàn)路徑的關鍵點,就是“去IOE”(替代IBM小型機、Oracle數(shù)據(jù)庫、EMC存儲)。完備數(shù)據(jù)是核心,處理一千倍以上數(shù)據(jù)規(guī)模,需要顛覆性的系統(tǒng)架構(gòu)才能解決。我們?yōu)橐患掖笮凸煞葜沏y行做完備數(shù)據(jù),幫助客戶看到過去需要通過業(yè)務規(guī)則、銀行家的經(jīng)驗形成的業(yè)務判斷,現(xiàn)在通過機器學習的方式,發(fā)現(xiàn)了很多新規(guī)則。比如異常交易、欺詐等,很多都是通過數(shù)據(jù)本身的特性發(fā)現(xiàn)的??萍紕?chuàng)新本身帶來的深刻變革就發(fā)生在今天。現(xiàn)在太多銀行用僵化的表結(jié)構(gòu)、或用字段的方式去對客戶、市場、業(yè)務規(guī)則做描述,而新的互聯(lián)網(wǎng)的思路用一張表就處理完成。這種新的結(jié)構(gòu),完全依賴于云計算新的方式。
另外,金融業(yè)本身也在發(fā)生業(yè)務革新。銀行屬性從記賬式的賣方更多轉(zhuǎn)向風險、欺詐、定價的買方屬性。而這些特點很多都是非線性的,需要大量的計算能力。業(yè)務驅(qū)動加之科技目標驅(qū)動,使得新的基礎設施部署成為必然。
舍恩伯格的《大數(shù)據(jù)時代》有一個核心的概念——全量。大數(shù)據(jù)首先要數(shù)據(jù)全量在線?,F(xiàn)在太多系統(tǒng)都是孤立的,銀行的對公、對私,還有卡業(yè)務都是分開的,當把所有業(yè)務糅合在一起時,就會發(fā)現(xiàn)很多客觀規(guī)律。有一個保險公司的案例,這家保險公司以前只能做抽樣,對高端人群、某一個險種人群的調(diào)查,通過在兩千個維度里抽取一些維度,比如收入,進行建模,建模之后進行試用,再考察結(jié)論?,F(xiàn)在有了大規(guī)模的計算能力,就不進行干預,完全讓機器自己去找規(guī)律,讓機器學習出在兩千個維度里到底什么是建模的規(guī)則,這完全是黑箱建模的思路。
黑箱建模讓我們發(fā)現(xiàn)了很多以前不知道的規(guī)律。比如,實現(xiàn)機器學習以后,能發(fā)現(xiàn)反洗錢有1000多條在線規(guī)則。對于保險用戶,在9000多萬用戶里有百分之零點幾的用戶年收入四萬多,但是買了七萬多的保險產(chǎn)品。那么相應的銷售人員是以怎樣的保險理財理念去推銷產(chǎn)品的?有怎樣的經(jīng)驗?這是需要發(fā)掘的。
在無假設條件下,通過機器學習能發(fā)現(xiàn)用戶特征。這些工具、方式、方法,可以幫助金融客戶非常清晰地了解以前未知的市場和用戶。
現(xiàn)在大數(shù)據(jù)又擴展到另外一個范疇,自然語義內(nèi)容、視覺內(nèi)容、行為關系網(wǎng)絡等復雜的關系。這些內(nèi)容在以前的數(shù)據(jù)結(jié)構(gòu)上很難處理,現(xiàn)在有了大規(guī)模的計算平臺,大數(shù)據(jù)可以讓系統(tǒng)用新的組織方式,如矩陣、向量進行處理。這個數(shù)據(jù)非常稀疏,但是有很大的社會屬性和經(jīng)濟價值,它會通過評估關系的鏈條來描述出很多個體的社會屬性,也就是個體的社會資本?,F(xiàn)在供應鏈金融規(guī)模比較大,但是需要靠專業(yè)領域技巧去識別供應鏈。其實銀行根據(jù)轉(zhuǎn)賬記錄建立一個大的社交網(wǎng)絡就可以傳播這些鏈條,就可以把一些細碎的、小型供應鏈通過計算模式挖掘出來。
要精確,還是要混雜?
一家保險公司,怎樣評估它的產(chǎn)品?品牌是很模糊、很難量化的,我們用了十多億條微博數(shù)據(jù)和論壇數(shù)據(jù)來畫一條曲線,也就是在這個周期之內(nèi)品牌的波動,就可以把品牌感知量化,把產(chǎn)品投放也量化。
要群體,還是要個體?
銀行做數(shù)據(jù)業(yè)務做了10多年,實際上就是群體和個體的差異。互聯(lián)網(wǎng)數(shù)據(jù)完全瞄向個體,數(shù)據(jù)結(jié)構(gòu)也是精準于個體,而傳統(tǒng)的數(shù)據(jù)面向經(jīng)營指標、面向群體。宏觀意義上來看,假如小明去了100次書店,以前要回答的問題是他第101次買不買書,即業(yè)績和經(jīng)營指標的問題;而現(xiàn)在我們關心的是他第101買什么書,需要將什么樣的內(nèi)容推薦給他。這不是一個概率問題,而是一個模糊的程度問題。量化這個程度,我們要基于個體描述,而不是基于群體的共性描述。
要決策,還是要工具?
很多人認為大數(shù)據(jù)是決策性的,筆者認為,大數(shù)據(jù)實際上更多的是一個自動化的匹配工具。我們?yōu)橐患冶kU公司計算了9000萬用戶在每一個險種上的流失概率。當結(jié)論上升到領導的時候,這個決策必須是宏觀的,周期很長,幾個月后反饋回來可能就有偏差了。而大數(shù)據(jù)的動作是直接把數(shù)據(jù)下沉,9000萬個用戶的所有流失概率全部分給5萬個保險代理人,每個人通過專門的程序就可以看到由他負責的客戶到底在做什么樣的動作。把權(quán)限和能力全部推到一線,而不是上升、匯總到總部做決策。所以大數(shù)據(jù)更多的是一個自動進行的過程,而不是分析決策的過程。