俞 楓苑 博趙文瑜馮必成侯 秦
基于BIRCH大數(shù)據(jù)聚類方法在證券業(yè)的個性化服務
俞 楓1苑 博2趙文瑜3馮必成4侯 秦5
本文以客戶細分、客戶聚類為切入點,為證券企業(yè)對客戶適當性服務與分類管理提供技術支持。第一,本文提出了一種適用于大數(shù)據(jù)集的組合聚類方法:BIRCH方法。其通過構建CF(聚類特征)樹層次,實現(xiàn)對數(shù)據(jù)的壓縮。第二,本文針對證券交易記錄數(shù)據(jù),從年度換手率,年度持倉率,年度持股時長等的特征提取算法。通過記錄證券交易數(shù)據(jù)提取出可多方面描述客戶狀態(tài)的動態(tài)屬性,可增加證券企業(yè)對客戶的識別。并根據(jù)這些動態(tài)屬性進行聚類,其結果可為證券企業(yè)探求不同客戶的、最具偏好的針對性需求作支撐。
BIRCH方法;大數(shù)據(jù);特征提取;證券交易
(一)背景分析
金融體制在中共“十八大”提出,將作為未來十年發(fā)展改革的重點?!吨袊髷?shù)據(jù)技術與產業(yè)發(fā)展白皮書(2013)》于2013年,中國計算機學會發(fā)布,其指出:“未來中國的金融企業(yè)將構建智慧型、智能型的數(shù)據(jù)分析體系,充分挖掘其中的規(guī)律,從而支持業(yè)務創(chuàng)新與服務創(chuàng)新?!蔽覈鹘鹑谄髽I(yè)如今都制定了“十二五”發(fā)展規(guī)劃,其中,最核心的指導思想和目標是以科技引領創(chuàng)新。未來幾年,我國的金融行業(yè)在“大數(shù)據(jù)”時代下的轉型主要集中在三大方面:(1)、根據(jù)巴塞爾協(xié)議和第二代償付能力等的要求,建立全面的風險管理體制,向嚴監(jiān)管轉型,“大數(shù)據(jù)”能夠加強風險的可審性和管理力度;(2)、企業(yè)管理模式從粗放式向精細化、集約化轉型,并且將信息化重點從業(yè)務信息化向管理信息化轉變。“大數(shù)據(jù)”能夠支持精細化管理;(3)、企業(yè)工作中心從“以利潤為中心”和“以保單為中心”向“以客戶為中心”轉型,“大數(shù)據(jù)”為服務創(chuàng)新提供“原料”支持,通過數(shù)據(jù)挖掘等技術可以更好地實現(xiàn)“以客戶為中心”理念,通過對客戶消費的行為模式進行分析,提高客戶轉化率,針對不同用戶開發(fā)不同的、與之匹配的產品,以滿足客戶個性化市場需求,從而實現(xiàn)差異化競爭。我國金融三大支柱產業(yè)中,證券行業(yè)是與“大數(shù)據(jù)”粘合度最高的支柱產業(yè),憑借其較高的信息化起點和較快的業(yè)務發(fā)展速度,其現(xiàn)已實現(xiàn)了交易撮合、價格生成發(fā)布的自動化和集中化。隨著信息科技、互聯(lián)網(wǎng)等技術的發(fā)展,證券行業(yè)的信息系統(tǒng)在發(fā)布、交易、結算、信息披露、技術監(jiān)控、信息咨詢與服務等方面已經逐漸完善。在“大數(shù)據(jù)”時代,互聯(lián)網(wǎng)金融模式不僅可以大幅度削減交易的成本,還可以降低信息挖掘處理的成本。此外,證券企業(yè)的客戶信息將逐漸成為新的資產和為客戶提供個性化服務的原材料。
(二)問題提出
如今,我國證券行業(yè),正由規(guī)模、傭金等兩方面的競爭,逐步轉向以資訊、產品、交易渠道等三方面的服務競爭,這勢必將成為證券行業(yè)發(fā)展的大趨勢。并且,這對我國證券行業(yè)的競爭格局產生較為深遠的影響。這無疑對現(xiàn)有證券企業(yè)的管理體制是一次從頭到腳的顛覆式改革。客戶對證券企業(yè)的需求提升主要在信息資訊和投資咨詢兩方面體現(xiàn)。部分證券企業(yè)開始推出點對點服務、定期股評報告會等服務。但大多數(shù)證券企業(yè)推出新服務時,是以交易量為服務推出的動力源。
現(xiàn)在,證券行業(yè)已從傳統(tǒng)的新增客戶競爭,轉向定量客戶的鞏固和持續(xù)。盡管傭金仍成為客戶選擇證券企業(yè)的關鍵因素,但越來越多的客戶開始關注證券企業(yè)的個性化服務。
(三)本文主要研究內容及意義
第一,從“大數(shù)據(jù)時代”到來的關鍵要素的視角,闡述“證券業(yè)大數(shù)據(jù)”的由來,展示了業(yè)界和學術界內較為突出的“證券業(yè)大數(shù)據(jù)”研究成果和應用。并介紹“證券業(yè)大數(shù)據(jù)”的數(shù)據(jù)結構和數(shù)據(jù)特點。本文在聚類分析方法方面的主要研究對象是BIRCH方法。BIRCH方法是由Zhang、Ramakrishnan、Linvy提出的組合(多階段)層次聚類方法。BIRCH方法通過CF(聚類特征)來刻畫、概括一個簇,形成CF樹。CF樹可以在信息量沒有較多損失的前提下,“壓縮”聚類的層次結構。其次,再通過其它各類聚類方法對CF樹的葉結點進行聚類,把稀疏的簇當做異常點剔除,把稠密的簇合并成更大的簇。并將第二階段(宏聚類階段)的聚類結果還原到第一階段(微聚類階段)的輸入數(shù)據(jù)對象(觀測)上,從而實現(xiàn)完成的聚類分析。該方法具有伸縮性強、儲存空間小、抗異常數(shù)據(jù)干擾能力強等特點,且其在大數(shù)據(jù)集仍保持優(yōu)良的有效性。在Zhang、Ramakrishnan、Linvy的基礎上,大多數(shù)學者對BIRCH方法的衍生研究主要集中于BIRCH微聚類階段:(1)閾值動態(tài)更新機制;(2)CF樹結點分裂技術(3)混合型屬性數(shù)據(jù)集處理。
(一)Birch算法的主要思想
Birch算法通過掃描數(shù)據(jù)庫,建立一個初始存放于內存中的聚類特征樹,然后對聚類特征樹的葉結點進行聚類。它的核心是聚類特征(CF)和聚類特征樹(CFTree)。CF是指三元組CF=(N,LS,SS),用來概括子簇信息,而不是存儲所有的數(shù)據(jù)點。其中:N:簇中D維點的數(shù)目;LS:N個點的線性和;SS:N個點的平方和。
在BIRCH算法中用到了兩個重要的知識:聚類特征(CF)和CF-Tree聚類特征CF是一個三元組,其中N表示子集內點的數(shù)目;和是與數(shù)據(jù)點同維度的向量,是線性和,是平方和。
(二)BIRCH算法的過程
把待分類的數(shù)據(jù)插入一棵樹中,并且原始數(shù)據(jù)都在葉子節(jié)點上。這棵樹看起來是這個樣子:
在這棵樹中有3種類型的節(jié)點:Nonleaf、Leaf、MinCluster,Root可能是一種Nonleaf,也可能是一種Leaf。所有的Leaf放入一個雙向鏈表中。每一個節(jié)點都包含一個CF值,CF是一個三元組是與數(shù)據(jù)點同維度的向量,是線性和,是平方和。
之后是插入過程,插入是從CF-Tree根節(jié)點開始的
(1)從數(shù)據(jù)庫中讀取第一條數(shù)據(jù),用這條數(shù)據(jù)構造一個葉子節(jié)點和一個子簇,子簇就包含在葉子節(jié)點中
(2)當讀到后面的第2,第3條數(shù)據(jù)時,需要加入判斷,這個時候就要用到關鍵的參數(shù)B和T,如果新插入的這條數(shù)據(jù)符合已經存在的葉子節(jié)點,則將他封裝為一個簇,加入到該葉子節(jié)點中,這里判斷符合不符合的標準就是根據(jù)閾值T判斷的,如果加入該葉子節(jié)點使得半徑超過T,則需要新建簇作為該節(jié)點的兄弟節(jié)點,如果作為兄弟節(jié)點,其葉子節(jié)點的孩子節(jié)點超過B,則需要對葉子節(jié)點進行分裂,分裂的規(guī)則是選出簇間距離最大的二個孩子,分別作為二個葉子,然后其他的孩子按照就近分配。非葉子節(jié)點的分裂規(guī)則同上。
(3)最終的構造模樣大致如此:
簇中心、簇半徑、簇直徑以及兩簇之間的距離D0到D3都可以由CF來計算:
這里的N,LS和SS是指兩簇合并后大簇的N,LS和SS。所謂兩簇合并只需要兩個對應的CF相加那可
CF1+CF2=(N1+N2,LS1+LS2,SS1+SS2)
每個節(jié)點的CF值就是其所有孩子節(jié)點CF值之和,以每個節(jié)點為根節(jié)點的子樹都可以看成是一個簇。
Nonleaf、Leaf、MinCluster都是有大小限制的,Nonleaf的孩子節(jié)點不能超過B個,Leaf最多只能有L個MinCluster,而一個MinCluster的直徑不能超過T。
(三)算法流程
BIRCH算法流程分為四個階段,如下圖所示:
基于BIRCH算法的證券客戶細分,在我國證券行業(yè)發(fā)展的初期,證券市場一直是個“買方’市場。這意味著客戶主動找證券企業(yè)來尋求投資,而不需要證券企業(yè)去挖掘客戶。這是造成證券企業(yè)不重視客戶服務的原因之一。隨著我國證券市場的發(fā)展,證券企業(yè)不斷涌現(xiàn),導致了證券企業(yè)之間相互競爭客戶資源的現(xiàn)象。而我國證券市場也逐步由一個“買方”市場逐步轉入到了一個“賣方”市場,這意味著證券行業(yè)在與證券市場協(xié)調發(fā)展的同時,隨著證券市場不斷規(guī)范和成熟,逐漸從粗放式管理向精細化、集約化管理轉變。此外,證券企業(yè)間的競爭程度也受市場行情影響。
本文主要討論客戶年度換手率,客戶年度持倉率,客戶年度持股時長,客戶年度資金流動率。
(一)客戶年度換手率的特征提取
客戶年度換手率是指客戶在該年度進行股票投資時交易金額占可支配金額的平均比例。本文用中位數(shù)作為集中趨勢的代表,避免了異常數(shù)據(jù)的干擾。具體算法思路如下:算法:年度換手率輸入:D:(各個對象、數(shù)據(jù)集)。輸出:各個對象的年度換手率。方法:(1)將D按客戶編號排序,將客戶編號一致的對象提取出,并合成子集D;(2)REPEAT;(3)在第i個子集中,將交易日期先后順序排序,在同一日期的對象里,再按交易序號先后排序;(4)根據(jù)交易類型,選出交易類型是買入股票的對象;(5)計算所選出的每個對象換手率=買入金額/(買入股票+后資金額);(6)在所選出的每個對象的換手率中,取換手率的中位數(shù)作為年度換手率。
(二)客戶年度持倉率的特征提取
客戶年度持倉率是指客戶在該年度月末平均持倉率。其中,月末平均持倉率為月末持有股票資產占月末總資產的比例。本文用中位數(shù)作為集中趨勢的代表,避免了異常數(shù)據(jù)的干擾。具體算法思路如下:算法:年度持倉率輸入:D:(各個對象、數(shù)據(jù)集)。輸出:各個對象的年度換手率。方法:(1)將D按客戶編號排序,將客戶編號一致的對象提取出,并合成子集D;(2)REPEAT;(3)在第i個子集中,將交易日期先后順序排序,在同一日期的對象里,再按交易序號先后排序;(4)按交易日期,對象提取出來,并生成第k個子子集;(5)REPEAT;(6)按交易日期,生成第i個子子子集DIKi(i=1,2,…,12);(7)根據(jù)交易類型,選出交易類型是買入的對象;(8)計算交易類型是買入的所有對象的股數(shù)A的∑A。
(三)客戶年度持股時長的特征提取
客戶年度持股時長是指客戶在該年度所賣出的股票的平均持有時間長度。本文用中位數(shù)作為集中趨勢的代表,避免了異常數(shù)據(jù)的干擾。具體算法思路如下:算法:年度持股時長輸入:D:(各個對象、數(shù)據(jù)集)。輸出:各個對象的年度換手率。方法:(1)將D按客戶編號排序,將客戶編號一致的對象提取出,并合成子集d;(2)REPEAT;(3)在第i個子集中,將交易日期先后順序排序,在同一日期的對象里,再按交易序號先后排序;(4)按交易日期,對象提取出來,并生成第j個子子集DIK(j=1,2,…,9);(5)根據(jù)交易類型,選出交易類型是買的對象;(6)客戶的年度持股時長為各證券編號股票上的持股時長的中位數(shù);(7)UNTIL所有年份的子子集計算結束;(8)UNTIL所有客戶子集計算結束。
(四)客戶年度資金流動率的特征提取
客戶年度資金流動率是指客戶在該年度資金流入、流出次數(shù)之和占交易總次數(shù)的比例。具體算法思路如下:算法:年度資金流動率輸入:D:(各個對象、數(shù)據(jù)集)。輸出:各個對象的年度換手率。方法:(1)將D按客戶編號排序,將客戶編號一致的對象提取出,并合成子集D;(2)REPEAT;(3)在第i個子集中,將交易日期先后順序排序,在同一日期的對象里,再按交易序號先后排序;(4)計算對象個數(shù)n1;(5)根據(jù)交易類型,選出交易類型是資金流入的對象;(6)計算交易類型是資金流入的對象個數(shù)n2;(7)IF n2=0,THEN該年度資金流動率直接輸入0;(8)根據(jù)交易類型,選出交易類型是資金流出的對象;(9)計算交易類型是資金流入的對象個數(shù)n3;(10)年度資金流動率=(n2+n3)/n1;(11)REPEAT所有年份子子集計算結束;(12)REPEAT所有客戶子集計算結束。
[1]曾曉迪.一種基于 K-mediods 改進 BIRCH 的大數(shù)據(jù)聚類方法 2015.學位論文
[2]曾曉迪,石磊,李興奇.基于非結構化數(shù)據(jù)的金融大數(shù)據(jù)分析方法介紹[J].泛亞金融.2014 年 11 月(創(chuàng)刊號):91-99.
[3]曾曉迪.基于灰色理論的區(qū)域宜居性模糊綜合評價:以上海市交通便捷和區(qū)域宜居分析為例[J].云南財經大學研究生學刊,2014年第 1 期:91-109.
[4]王園.證券業(yè)客戶細分模型構建及實證研究[J].上海管理科學,2012,34(2):30-35.
[5]劉靜.基于數(shù)據(jù)挖掘的證券公司客戶細分及其應用研究[D].同濟大學,2008.
[6]李君鋒.數(shù)據(jù)挖掘在證券業(yè) CRM 中的應用研究[D].西安電子科技大學,2009.
[7]張效嚴,齊春瑩.基于數(shù)據(jù)挖掘技術的證券客戶分析系統(tǒng)[J].計算機應用,2008,28,369-375.
[8]陳農心,張效嚴.數(shù)據(jù)掘技術在證券分析系統(tǒng)的應用研究[J].計算機仿真,2010,27(10),301-305.
[9]熊淑華.數(shù)據(jù)挖掘技術在證券業(yè) CRM 中的應用研究[D].南昌大學,2008.
[10]王圣明.數(shù)據(jù)挖掘在證券行業(yè)的應用[D].浙江工商大學,2008.
俞楓 男,1969年出生,上海國泰君安信息技術部經理,教授級高級工程師
苑博 男,1982年出生,上海國泰君安信息技術部大數(shù)據(jù)平臺總監(jiān)
趙文瑜 男,1966年出生,上海華東理工大學金融大數(shù)據(jù)聯(lián)合研究中心
馮必成 男,1976年出生,上海華騰軟件系統(tǒng)有限公司技術研發(fā)總監(jiān),高級工程師
侯秦 女,1969年出生,上海華騰軟件系統(tǒng)有限公司市場主管,工程師