沈帥奇/Shen Shuaiqi
(香港理工大學 香港999077)
隨著信息技術的飛速發(fā)展,數(shù)據(jù)正在迅速膨脹并呈現(xiàn)出幾何級數(shù)的增長,大數(shù)據(jù)時代已經(jīng)來到了每個人的身邊。大數(shù)據(jù)的特點可以用所謂的“4V”概括:Volume,數(shù)據(jù)規(guī)模龐大,增長速度快;Variety,數(shù)據(jù)類型多樣,大部分是非結構化數(shù)據(jù),構成復雜;Value,數(shù)據(jù)中的信息價值巨大卻隱藏較深,需要復雜的算法提??;Velocity,對數(shù)據(jù)處理要求速度快、時效性強,并進行實時反饋。大數(shù)據(jù)技術分析處理海量的數(shù)據(jù),并從中提取有價值的信息,大數(shù)據(jù)技術的應用正在為各行各業(yè)帶來創(chuàng)新與變革,而其中最重要的應用領域便是銀行業(yè)。
銀行業(yè)是天生擁有數(shù)據(jù)資源的行業(yè),同時也是數(shù)據(jù)驅動的行業(yè)。其業(yè)務從儲蓄、信用卡、信貸,到各種金融理財產(chǎn)品,都會產(chǎn)生和積累大量數(shù)據(jù),反過來這些業(yè)務的經(jīng)營發(fā)展也離不開數(shù)據(jù)分析的支撐。例如,為了提高服務質量,降低貸款風險,提升投資收益,銀行需要對客戶的各項業(yè)務數(shù)據(jù)進行長期存儲、整合和分析,從而對客戶產(chǎn)生更全面的了解,例如信用評級、消費傾向等。
長期以來,銀行在傳統(tǒng)數(shù)據(jù)庫上對結構化數(shù)據(jù)的處理技術(例如SQL分析)已經(jīng)趨于完善。然而,傳統(tǒng)數(shù)據(jù)庫的信息量并不豐富,也不完整。例如,銀行存儲有客戶的基本身份信息,但對于客戶的興趣愛好、生活習慣、行業(yè)領域、家庭狀況等其他信息卻難以準確掌握。而對于非結構化的數(shù)據(jù),例如客戶網(wǎng)頁瀏覽行為、資金往來、話音服務記錄等,傳統(tǒng)的數(shù)據(jù)庫架構難以進行處理,更無法結合多維度信息進行綜合分析。尤其值得關注的是,隨著銀行用戶數(shù)量的增加、業(yè)務和產(chǎn)品的擴張以及近年來互聯(lián)網(wǎng)金融的興起,銀行的數(shù)據(jù)產(chǎn)生量也呈現(xiàn)爆發(fā)式增長,使數(shù)據(jù)分析的規(guī)模和復雜度都超過了傳統(tǒng)數(shù)據(jù)庫的處理能力。數(shù)據(jù)處理與計算因龐大的數(shù)據(jù)量而難以及時完成,一些模型甚至由于過于復雜而無法在傳統(tǒng)數(shù)據(jù)庫上應用。正因如此,大數(shù)據(jù)技術在銀行業(yè)受到了空前的重視。
大數(shù)據(jù)技術對于銀行業(yè)最重要的作用在于兩個方面:一方面在于能夠為其處理日益增加的海量數(shù)據(jù),用大數(shù)據(jù)平臺替代結構化關系數(shù)據(jù)庫,解決傳統(tǒng)數(shù)據(jù)技術面臨的困境;另一方面,銀行需要通過種種算法模型,從數(shù)據(jù)中挖掘出更多價值,為銀行的業(yè)務發(fā)展帶來進一步的提升。
銀行業(yè)的大數(shù)據(jù)應用,每家有不一樣的側重點和目的,因而有著多種多樣的實現(xiàn)途徑、技術路線和具體方案,但大多不外乎以下兩大類。
建立大數(shù)據(jù)的數(shù)據(jù)倉庫:利用大數(shù)據(jù)平臺強大的處理能力處理原有的數(shù)據(jù)分析業(yè)務,對大量報表的關聯(lián)和聚合進行分析。
對數(shù)據(jù)的進一步挖掘:使用數(shù)據(jù)挖掘算法開發(fā)一些新的應用,從數(shù)據(jù)中獲取更多價值,為客戶提供更優(yōu)質、更具個性化的服務。
主要目標是對過于集中的數(shù)據(jù)庫進行分布式改造,建立大數(shù)據(jù)的存儲和備份數(shù)據(jù)池,大力提高存儲、處理海量非結構化數(shù)據(jù)的能力。數(shù)據(jù)管理和應用如圖1所示,數(shù)據(jù)存儲和備份如圖2所示。分布式數(shù)據(jù)庫有如下技術架構。
●通過數(shù)據(jù)分布實現(xiàn)海量數(shù)據(jù)處理能力,把這些數(shù)據(jù)打散到不同的節(jié)點,來實現(xiàn)橫向擴展以及處理能力的提高。
●數(shù)據(jù)匯集機制支持本銀行全國集中管理模式,通過網(wǎng)絡和云計算平臺,把數(shù)據(jù)匯集到總行集中管理模式的應用上。
●通過將數(shù)據(jù)復制至備份節(jié)點實現(xiàn)高可靠性,節(jié)點與節(jié)點之間也有數(shù)據(jù)復制的機制,來實現(xiàn)數(shù)據(jù)出現(xiàn)異常情況下的快速恢復。
●基于硬件的可靠消息總線,每秒能有50~60萬消息的處理能力,可以通過增加硬件的設備來提高它的處理能力。
●隨著用戶規(guī)模增長的需要,系統(tǒng)處理能力可以無限橫向擴展,理想效果達到可以不斷地通過新增加的資源,包括數(shù)據(jù)中心的資源,來滿足業(yè)務發(fā)展的需要。
●硬件方面:使用大量標準化的硬件,如機房機柜采用的標準x86服務器,目前運行在其上的數(shù)據(jù)庫(TD-SQL)可實現(xiàn)數(shù)十萬級IOPS的讀寫能力。
● 軟件方面:采用了大量開源軟件,如Java、MySQL、Linux等,同時使用包括LVS、TGW、TLinux、TD-SQL、TDW等有實際運營經(jīng)驗的開源軟件。
IDC研究表明,金融行業(yè)未來80%的數(shù)據(jù)主要呈現(xiàn)為影像、照片、音頻、視頻等非結構化數(shù)據(jù)。2010~2020年,非結構化數(shù)據(jù)將以44倍的發(fā)展速度迅猛增長。同時,非結構化數(shù)據(jù)對傳統(tǒng)針對結構化數(shù)據(jù)的現(xiàn)有處理系統(tǒng)也提出了嚴峻挑戰(zhàn)。如何有效地保存和處理這些海量非結構化數(shù)據(jù)?其管理架構應主要具備以下4個功能板塊。
(1)分級存儲功能
根據(jù)票據(jù)影像文件生成時間與訪問頻度,合理利用在線、近線、離線存儲介質,減少生產(chǎn)存儲容量。
(2)自動歸檔功能
根據(jù)歸檔策略,將訪問頻度低的文件通過“打包歸檔”方式實現(xiàn)數(shù)據(jù)保護,滿足監(jiān)管要求。
(3)自動備份功能
實現(xiàn)“海量小文件”的高速備份,在系統(tǒng)故障和個別文件損毀的情況下,能有效管理數(shù)億的文件,并能夠實現(xiàn)數(shù)據(jù)的快速恢復。
(4)透明訪問功能
當應用系統(tǒng)訪問已經(jīng)歸檔的文件時,方案可以自動將歸檔數(shù)據(jù)從近線存儲中回調至生產(chǎn)存儲,保證應用在等待若干秒后能夠訪問到所需數(shù)據(jù),無需人工干預,操作人員無感知。
(1)主流技術之一:甲骨文(Oracle)大數(shù)據(jù)系統(tǒng)
甲骨文將大數(shù)據(jù)平臺的行為概括為數(shù)據(jù)獲取、數(shù)據(jù)組織和數(shù)據(jù)分析,并為這3個階段開發(fā)了不同的產(chǎn)品,而這些產(chǎn)品又與其推出的“大數(shù)據(jù)機”完全集成到一起。隨著甲骨文大數(shù)據(jù)機的推出,甲骨文成為了以全面、軟/硬件集成的產(chǎn)品滿足企業(yè)關鍵大數(shù)據(jù)需求的公司。
甲骨文完整的大數(shù)據(jù)平臺包括Oracle NoSQL數(shù)據(jù)庫、甲骨文大數(shù)據(jù)連接器、大數(shù)據(jù)一體機、數(shù)據(jù)庫云服務器、商務智能云服務器等產(chǎn)品。其中,Oracle NoSQL數(shù)據(jù)庫支持水平擴展、彈性配置、透明負載平衡等特性,Oracle大數(shù)據(jù)連接器實現(xiàn)Hadoop與Oracle數(shù)據(jù)庫和Oracle數(shù)據(jù)庫云服務器的優(yōu)化集成,大數(shù)據(jù)機實現(xiàn)軟件與硬件的完美結合。整個大數(shù)據(jù)平臺完成了數(shù)據(jù)的流動、獲取、組織、分析和可視化等全過程。
(2)主流技術之二:SAP大數(shù)據(jù)平臺
SAP 大數(shù)據(jù)平臺由 SAPHANA、SAP IQ、Hadoop、高級分析和可視化工具組成。SAP大數(shù)據(jù)業(yè)務涉及4個層面,包括吸收、存儲、處理以及展現(xiàn),針對半結構性數(shù)據(jù)、結構性數(shù)據(jù)以及非結構性數(shù)據(jù),其中數(shù)據(jù)處理的SAPHANA是SAP大數(shù)據(jù)解決方案的核心。
SAPHANA是一個利用內存計算的新型實時數(shù)據(jù)平臺,能夠實現(xiàn)在海量數(shù)據(jù)持續(xù)增加的情況下支持實時業(yè)務驅動,可以在本地部署,也可以通過云交付。SAP HANA平臺可以助力企業(yè)的實時業(yè)務,包括對運營報表、數(shù)據(jù)倉庫、大數(shù)據(jù)預測分析和文字分析的實時分析;涉及核心流程加速、計劃優(yōu)化應用和感知響應應用等實時應用以及數(shù)據(jù)庫、移動端、云端的實時平臺。
大數(shù)據(jù)技術在銀行業(yè)的應用非常廣泛,目前國內多家銀行已經(jīng)開始了有益的嘗試,并在業(yè)內實現(xiàn)了許多成功的應用案例。主要是在大數(shù)據(jù)平臺上使用數(shù)據(jù)挖掘算法,開發(fā)新的應用,從數(shù)據(jù)中獲取更多價值支撐業(yè)務,例如歷史交易數(shù)據(jù)存儲查詢、客戶畫像、用戶流失預測、精準營銷和個性化服務、金融產(chǎn)品個性化推薦、信用卡欺詐檢測等。
(1)需求
隨著銀行交易數(shù)據(jù)的爆發(fā)性增長,傳統(tǒng)數(shù)據(jù)庫結構難以對海量歷史數(shù)據(jù)進行長期存儲和處理,存儲成本昂貴,橫向擴展能力欠缺。
移動互聯(lián)網(wǎng)的發(fā)展,使用戶可以隨時隨地對賬戶進行歷史交易數(shù)據(jù)的查詢及分析操作。數(shù)據(jù)庫系統(tǒng)面對高并發(fā)數(shù)據(jù)查詢壓力激增,響應延遲,亟需提升查詢、分析的性能。
(2)方案
使用TDH下的交互式SQL分析引擎Transwarp Inceptor支持銀行的數(shù)據(jù)倉庫業(yè)務,Transwarp Inceptor采用分布式內存計算方式,將涉及海量數(shù)據(jù)的復雜任務分割成小任務交給多臺機器同時處理,加快計算速度。
TDH采用通過添加服務器的方式來橫向擴展(Scale Out)處理能力,保證投入和處理能力的提升是線性關系,擴展性極佳,可以無限提升存儲和計算能力,具體如圖3所示。
(3)實例:銀聯(lián)實時查詢服務系統(tǒng)
銀聯(lián)公司利用上述大數(shù)據(jù)平臺,實現(xiàn)了海量歷史交易數(shù)據(jù)的快捷高效處理,為持卡人提供實時交易查詢服務,并提供多維度統(tǒng)計分析,持卡人可通過手機、電腦等不同渠道享受豐富的大數(shù)據(jù)服務。圖4是電子對賬單示意。
(1)需求
當前,銀行日常營業(yè)窗口產(chǎn)生大量單據(jù)、證件等紙質文件,均需掃描成照片文檔在系統(tǒng)上保存。傳統(tǒng)的數(shù)據(jù)庫對半結構化、非結構化文檔和圖片支持較差,現(xiàn)有管理平臺性能不足,檢索、查詢、統(tǒng)計等繁瑣而低效,加之數(shù)據(jù)量龐大,只能分頭存放在分行,因此,無法滿足數(shù)據(jù)管理的智能化、集中化要求,亟需利用大數(shù)據(jù)技術來解決。
(2)方案
一是實現(xiàn)數(shù)據(jù)文件存儲保管的二級索引。二級索引的設計是將記錄文件的一級索引與介質一起存放,由介質服務器管理,備份服務器只管理二級索引。這種分布式的索引技術可以支持數(shù)十億文件的高性能管理。
二是實現(xiàn)數(shù)據(jù)文件查詢調用的透明訪問。歸檔操作時,一方面將超過一定時間的數(shù)據(jù)文件遷移到近線存儲,另一方面在生產(chǎn)存儲留下相應的存根。該存根指向文件遷出后的實際位置。在應用系統(tǒng)訪問已經(jīng)歸檔的文件時,就訪問到了存根,此時會觸發(fā)一個將歸檔文件回調至生產(chǎn)存儲的操作,使得應用系統(tǒng)能夠讀取到該文件。IBM中小銀行影像管理基礎架構解決方案如圖5所示。
(3)實例:中國農業(yè)銀行票據(jù)影像文件管理平臺
農業(yè)銀行數(shù)據(jù)庫中,大量支票、交易票據(jù)、證件都以圖片存檔,大小為50 kB~1 MB不等,每天新增存儲量達到2 TB,為此,農行建立了票據(jù)影像文件管理平臺,利用大數(shù)據(jù)技術進行了小文件存儲的全面優(yōu)化。
●海量小文件的備份效率提高到每小時數(shù)百GB,備份時間約縮短至傳統(tǒng)方式的1/10。相對于備份方式,該平臺可以支持更高頻率的備份,大大提高數(shù)據(jù)安全性。
●通過數(shù)據(jù)生命周期思想,有效控制在線數(shù)據(jù)規(guī)模,降低存儲采購成本;一站式解決海量文件存儲、備份、歸檔、容災問題,建設成本低?!駥崿F(xiàn)全自動數(shù)據(jù)管理,減少大量運維成本與人員投入;索引、文件一體化存儲,并融合備份與容災,簡化系統(tǒng)組網(wǎng),一套平臺統(tǒng)一管理;通過軟件可視化進行電子影像系統(tǒng)的容災管理,隨時掌控容災的路徑、狀態(tài)。
●矩陣式多控架構,系統(tǒng)資源支持線性擴展,滿足客戶未來長期的數(shù)據(jù)增長需求。
(1)需求
銀行卡交易數(shù)據(jù)能夠反映持卡人消費行為習慣以及消費市場中企業(yè)的經(jīng)營狀況。通過對客戶的數(shù)據(jù)挖掘,可以形成特定的客戶畫像,并為商戶提供有價值的關聯(lián)信息或是出售分析服務,打造新的商業(yè)模式,如圖6所示。
(2)方案
首先,將銀行卡客戶的完整消費行為記錄,按照多副本進行半結構化數(shù)據(jù)的分布式存儲。在各分布式存儲節(jié)點的物理機上,部署數(shù)據(jù)挖掘分析系統(tǒng)、風險分析模型系統(tǒng)和交易報文分析系統(tǒng),利用相應數(shù)學模型、多維指標綜合處理系統(tǒng),在海量數(shù)據(jù)的基礎上進行數(shù)據(jù)的整理、分析、統(tǒng)計和結果輸出。
(3)實例:中國銀聯(lián)客戶畫像系統(tǒng)
中國銀聯(lián)利用客戶信息系統(tǒng)(如圖7所示)挖掘銀聯(lián)持卡人歷史交易數(shù)據(jù)中的潛在規(guī)律,從多角度形成數(shù)據(jù)支持,刻畫出持卡人的交易行為特征,為精準營銷、客戶服務等工作提供強有力支持。
同時,挖掘商戶之間的關聯(lián)性,直接(銀聯(lián)的商戶服務)或間接(面向收單機構等合作伙伴)為商戶提供經(jīng)營決策支持、合作性指導、競爭性指導等服務,在商圈品牌引進、店鋪選址、聯(lián)合營銷等領域有很大的潛在價值。
在社交媒體風靡世界各國,引發(fā)各階層、各年齡段、各文化背景的人們大量使用社交軟件的背景下,人們對網(wǎng)絡社交應用的粘性和依賴性越來越強。微信、微博、Facebook、Twitter等社交媒體上匯集著大量豐富多樣的大數(shù)據(jù)資源,是人們行為特征的最大信息資源池,對大數(shù)據(jù)分析者們有著巨大的吸引力。當然,銀行業(yè)經(jīng)營者也不會放棄這塊寶地,紛紛試圖從社交媒體上得到用戶行為數(shù)據(jù)和消費規(guī)律,從而開展精準營銷。
亞太地區(qū)的幾大銀行,如新加坡銀行、香港匯豐銀行等,已開始創(chuàng)建自己的用戶社交媒體活動圈,發(fā)布Facebook頁面,并創(chuàng)建Twitter賬戶以及Linkedln檔案。他們認識到通過社交媒體不僅能展示自己,更重要的是可與客戶開展互動。
營銷方法有以下幾個方面。
●利用社交媒體分析工具判斷消費者情緒。
●利用銀行整體品牌分析模型將品牌認知度與客戶特定的營銷活動相集成。
●利用情緒分析來判斷對營銷活動的實施響應情況。
獲得的成效如下。
●實時了解品牌認知度以及競爭品牌認知度。
●設定新的情感目標,以提高營銷活動的反饋率。
●利用情緒知識和有針對性的營銷反饋數(shù)據(jù)提高服務中心參與度。
(1)需求
近年來銀行信用卡發(fā)卡量迅速增長,在大量發(fā)卡的同時,申請者和持卡者的風險評估、信用評估等方面面臨越來越多的壓力。不僅數(shù)量龐大、工作量繁雜,而且時效性和準確度要求高。迫切需要一個可拓展、高性能的數(shù)據(jù)倉庫解決方案,提升業(yè)務敏捷性,建立對客戶信用風險的自動化、智能化評估機制,從而減少不良貸款比例。
(2)方案:Greenplum
銀行采用無共享開放平臺的MPP架構,將所有分行和支行用于保存已有客戶和潛在客戶的信用記錄、交易特征記錄等的服務器、數(shù)據(jù)庫,均通過網(wǎng)絡連通,沒有磁盤級共享或連接,服務器以完全并行的方式處理每個查詢。這種方式更容易添加模塊化設備集群,確?,F(xiàn)有資源優(yōu)化,降低初始成本支出。數(shù)據(jù)集中在同一平臺,減少了系統(tǒng)維護工作量。Greenplum架構如圖8所示。
(3)實例1:中信銀行客戶營銷和信用評估系統(tǒng)
中信銀行自2014年建立起大數(shù)據(jù)客戶系統(tǒng)后,實現(xiàn)了業(yè)務數(shù)據(jù)的集中整合,建立了數(shù)據(jù)庫營銷平臺。同時,結合實時、歷史數(shù)據(jù)的挖掘分析,建立了統(tǒng)一的客戶視圖,更清楚地了解客戶的價值體系,針對性地開展營銷活動。
中信銀行根據(jù)建立的數(shù)據(jù)挖掘模型,風險管理部門每天評估客戶的行為,并對客戶的信用額度在同一天進行調整,從而減少了信用卡的不良貸款比率。
(4)實例 2:阿里小貸征信系統(tǒng)
阿里小貸為客戶提供小額貸款業(yè)務,無需抵押物和擔保人,客戶能否申請貸款和貸款額度完全取決于大數(shù)據(jù)平臺計算出的信用值。阿里小貸部門依據(jù)貸款者線上經(jīng)營的信用數(shù)據(jù)、財務數(shù)據(jù),通過對這些海量數(shù)據(jù)的在線分析,予以授信。
阿里小貸征信系統(tǒng)每天處理上PB的數(shù)據(jù)量,包括店鋪等級、收藏、評價等幾百億個信息項,運算上百個數(shù)據(jù)模型,甚至需要測評用戶對假設情景的掩飾和撒謊程度,對大數(shù)據(jù)平臺的可靠性、安全性以及計算的準確性提出了極高要求。
阿里公司將是否放貸、貸款額度和風險評估完全交給大數(shù)據(jù)處理平臺,無需人工處理,實現(xiàn)“3分鐘申請、1秒放款、0人工干預”的高效工作模式。有效識別和分散風險,提供更有針對性、多樣化的服務,減少不良貸款比率。批量化、流水化的作業(yè)使得交易成本大幅下降。無需抵押物、擔保人和繁瑣的申請流程,降低了貸款申請門檻,吸引了更多小額貸款用戶。