陳雪改,王 飛
(河海大學 商學院, 南京 211100)
?
基于P2P互聯(lián)網金融的數(shù)據挖掘技術研究
陳雪改,王 飛
(河海大學 商學院, 南京 211100)
針對P2P網絡金融平臺借貸記錄的歷史數(shù)據量海量存在,卻只是存儲在數(shù)據倉庫中,其蘊含的有效信息并沒有被發(fā)掘的問題,在P2P網絡金融平臺的管理中融入數(shù)據挖掘技術。以Weka為數(shù)據挖掘工具,利用現(xiàn)有存儲數(shù)據信息進行數(shù)據分析。通過平臺算法以及數(shù)據模型的處理,以投標時間T、投標總次數(shù)N、投標借出總金額M三個指標為參考,將P2P網絡金融平臺中的出款人分為8種類型,并給出了這3項指標的整體聚類結果,分別為0.826 3、0.067 2、0.077 7,據此判斷出款人的潛在價值,為平臺管理者提供相應的參考。
互聯(lián)網金融;P2P;Weka;數(shù)據挖掘;借貸分析
隨著互聯(lián)網技術手段在金融行業(yè)部分業(yè)務中的應用,產生了全新的互聯(lián)網金融模式[1],其中各大銀行所推出的手機銀行與網銀就是其重要的組成部分[2],從本質上影響了人類的金融模式。P2P網絡金融,也稱P2P信貸,是網絡金融在借貸方面的發(fā)展方向[3-4]。它以低門檻、低難度的借款方式極大地提高了借貸服務的效率[5],有效地改變了小額貸款困難的現(xiàn)狀。其次,它也是一種低風險高收益的理財方式。隨著P2P網絡金融的發(fā)展,其操作平臺產生的借貸記錄迅速增長,數(shù)據信息海量存在,但對歷史數(shù)據的研究與應用卻很少[6-7]。因此,本文將數(shù)據挖掘技術引入其中,借助Weka數(shù)據庫的真實借貸款交易原始數(shù)據,通過數(shù)據挖掘找出有關借貸交易中相關要素的規(guī)律,一方面可以給P2P網絡金融平臺提供相應的參考意見,適當增加借款的類型、利率以及設置合理的還款期限等,實現(xiàn)平臺的多元化,提高平臺借貸交易成功率;另一方面也可以讓借款人得到相關借款的指導意見。
數(shù)據挖掘(Data Mining)作為一種新興的計算機處理技術,應用時間較短但發(fā)展迅速,它融合了人工智能、機器模擬、數(shù)據庫等現(xiàn)代技術[8]。它以海量不完整、清晰性缺失的并且包含噪聲的隨機數(shù)據為對象,從中提煉出人力無法直接獲取的有價值的信息[9]。
1.1 數(shù)據挖掘的方法
在數(shù)據挖掘的理論研究中,最核心的內容是數(shù)據處理方法及相應技術。目前眾多的算法模型不斷涌現(xiàn)[10-12],主要有:統(tǒng)計學方法(比較有影響力的統(tǒng)計分析軟件有SAS、SPSS、SMDP);關聯(lián)規(guī)則挖掘、決策樹方法、神經網絡方法、可視化技術;粗集方法;遺傳算法。其中粗集是一種從不確定、不完備或不精確數(shù)據中解決問題的新數(shù)學理論,近期在數(shù)據挖掘、模式識別和人工智能中得到了廣泛的應用。
另外信息可能以文本、圖像、視頻以及web網頁等半結構或者非結構化形式存在,因此復雜型數(shù)據挖掘技術也應運而生[13],主要有:研究空間結構數(shù)據的數(shù)據挖掘、分析視聽特征的多媒體數(shù)據挖掘、時序數(shù)據和序列數(shù)據的挖掘、高緯度大容量的文本數(shù)據庫挖掘、以資源查找—數(shù)據預處理—模式發(fā)現(xiàn)與分析為流程的Web數(shù)據挖掘。
1.2 數(shù)據挖掘體系結構
數(shù)據挖掘的步驟一般包括定義問題、準備數(shù)據、瀏覽數(shù)據、生成模型、驗證模型、部署和更新模型6個基本步驟,流程如圖1所示。其中準備數(shù)據環(huán)節(jié)是決定數(shù)據挖掘工作質量的關鍵[14]。數(shù)據挖掘的原始數(shù)據集并不都是理想的數(shù)據集,需要這一步驟從原始數(shù)據庫中提取目標數(shù)據集,隨之加工處理,從而獲取有利于數(shù)據挖掘方法展開的數(shù)據形式。
圖1 數(shù)據信息挖掘體系
1.3 數(shù)據挖掘工具
現(xiàn)在的大多數(shù)BI供應商如IBM Conges、SAP Business Object、Microsoft等在開發(fā)軟件產品時會設計某種程度的數(shù)據挖掘功能,有些也會有較為專業(yè)的數(shù)據挖掘軟件,如SPSS、SAS、StatSoft、Salford(CART、MARS、TreeNet、RandomForest)和Megaputer等[15]。在數(shù)據挖掘研究工作中,Microsoft 的SQL Server成為了最受歡迎的工具軟件,這是因為它可以將數(shù)據和模型存儲于同一關系型數(shù)據庫環(huán)境中。
此外,以C語言和Java語言為語言基礎的Weka系統(tǒng)也是數(shù)據挖掘工作常用的軟件,它融合了豐富的數(shù)據預處理工具和多種先進的機器學習算法[16]。另外,Weka系統(tǒng)具有良好的兼容性,能與Windows、Linux,甚至Personal Digital Assitant操作系統(tǒng)兼容。Weka平臺中所有的學習算法、工具都公用一個接口,可在一個操作界面總共呈現(xiàn),能在最大程度上方便操作者權衡不同的工具和算法,從而找到最符合需求的工具和算法。
P2P(即Person-to-Person)網絡金融是依托互聯(lián)網形成的一種新型的金融服務模式,其借貸快捷、程序簡便的特點極大地方便了借貸人的融資與理財,也是現(xiàn)存銀行體系的補充。目前涌現(xiàn)了多種以P2P網絡金融為主營業(yè)務的平臺,拍拍貸、宜人貸、紅嶺創(chuàng)投等為典型代表。國內外P2P網絡金融平臺運營模式基本相似,主要存在3種模式:① P2P網絡金融平臺采用線上瀏覽、線下交易的模式,平臺以第三方身份介入借貸交易中,使借貸交易的風險轉移第三方,以宜信為典型代表。② P2P網絡金融平臺采用保障本金制度,平臺不僅起中介作用,還要承擔保障出款人資金安全的風險,出款人對于借款人的壞賬風險轉移到平臺自身身上,以拍拍貸為代表。這使得此類平臺要對借款進行嚴格的審核,審核方式多種多樣,如人工審核、實地調研、數(shù)據分析等。③ P2P網絡金融平臺采用不承諾保障本金制度,平臺只負責借款人信息驗證以及借款法律文件的生成,對任何借款不提供任何擔保,平臺僅僅起中介作用。
3.1 借款分析
據相關網站的資料統(tǒng)計顯示,現(xiàn)有的P2P網絡金融平臺的借款期限基本是1~5個月,平均還款時間為4.25個月。P2P網絡金融平臺的借款類型以及出款人較為偏好的出資借款期限導致了上述平臺還款期限較短的現(xiàn)象。由于每個借款人的個人需求以及借款金額的不同,在考慮借貸類型、借貸利率、還款期限時所作的決定也會不同。所以本文借助Weka數(shù)據庫的真實借貸款交易原始數(shù)據,通過數(shù)據挖掘找出借貸交易中相關要素的規(guī)律,完善網絡金融知識體系。
3.2 數(shù)據挖掘應用平臺的模塊結構設計
根據數(shù)據挖掘的流程,數(shù)據挖掘技術在P2P網絡金融平臺中的整體設計包括確定問題、數(shù)據管理、模型設計這3個基本步驟,其中還包括數(shù)據提取等更具體的步驟,詳細的流程如圖2所示。
圖2 平臺整體設計流程
數(shù)據挖掘主要依靠數(shù)據平臺提供的數(shù)據信息來進行,包括用戶行為和個人信息的數(shù)據集合。它根據系統(tǒng)收集到的基本變量采集由用戶的衍生變量信息,反欺詐系統(tǒng)將采集的個人信息整理,通過機器學習模塊訓練用戶行為模型,最后通過工作流引擎完成自動審核。這需要多個模塊的相互配合,各模塊關系如圖3所示。
圖3 平臺系統(tǒng)設計中的模塊關系
3.3 數(shù)據挖掘應用平臺的實現(xiàn)
3.3.1 連接數(shù)據庫
數(shù)據挖掘的研究對象是數(shù)據庫中存儲的大量數(shù)據信息,因此應用平臺運行的基礎就是數(shù)據庫。為了能讓Weka識別中文,在RunWeka.ini文件中將afileEncoding1252重命名為fileEncodingGB2312。然后打開Weka的安裝文件夾中的Weka.jar,找到experiment文件夾中的DatabaseUtils.props文件重命名。打開重命名后的DatabaseUtils.props文件,按照以下方法修改文件內容:
#Database settings for Microsoft SQL Server 2008
#url:http://www.microsoft.com/
#jdbc:#Database settings for Microsoft SQL Server 2008#
#author:Fracpete(fracpete at waikato dot ac dot nz) huzhyi21@163.com
#version:$Revision:543#JDBC driver(comma-separated list)
jdbcDriver=com.microsoft.SQLserver.jdbc.SQLServerDriver
jdbcURL=jdbc:SQLserver://locaniost:133;databaseNanie=test; user=abc;password=123
修改文件路徑之后還需要添加環(huán)境變量。右鍵單擊“我的電腦”,“系統(tǒng)屬性”中,單擊“環(huán)境變量”,在Administrator的用戶變量選項卡中添加Weka-Home環(huán)境變量,同樣地添加Classpath環(huán)境變量。最后啟動Weka程序,在Weka Gui Chooser界面,單擊Explorer選項,隨之在Weka Explorer界面中單擊Open DB按鈕。在SQL Viewer界面中的URL中輸入有效文件地址。單擊connect按鈕就可以進行數(shù)據庫連接。當Info文本框內顯示true,則說明Weka已經連接成功,這時在Query文本框中輸入査詢語句,單擊Execute按鈕就能訪問數(shù)據了[17]。
3.3.2 數(shù)據挖掘應用平臺實現(xiàn)結果
本次應用平臺數(shù)據挖掘功能的實現(xiàn)主要依據Weka數(shù)據庫中存儲的數(shù)據信息。首先利用Weka中的規(guī)范化算法對目標時間內的投標時間T、投標總次數(shù)N、投標借出總金額M進行預處理,以取消不同變量間的不同綱量帶來的影響。然后借助Weka數(shù)據庫中的Simple-K-Means算法對數(shù)據模擬運算,通過更改“seed”參數(shù)值,得到的不同Within cluster sum of squared errors的值,該數(shù)值越小說明同一簇實例之間的距離越小,通過幾次嘗試后最終確定參數(shù)k=8時聚類效果較好。因此把出款人劃分為8類,規(guī)范化后處于中心的出借人投標時間T、投標總次數(shù)N、投標借出總金額M的值如表1所示。
表1 聚類結果
最后再將每一簇中心及每一簇規(guī)范化后的出借人的這3項指標均值與全體規(guī)范化后的出借人的項目指標值作比較,其中“↑”表示大于平均值,“↓”表示小于平均值,這也是對出款人級別判斷的參考標準。
由表2可以發(fā)現(xiàn):利用數(shù)據挖掘技術對Weka采集的數(shù)據進行分析處理能夠合理有效地對平臺所擁有的眾多出款人分類標示,實現(xiàn)P2P網絡金融平臺對不同類型出款人的區(qū)別管理,能夠提高用戶黏性以及優(yōu)化平臺資源的利用。
表2 出款客戶的類別
本文根據我國網絡金融的借貸市場運行規(guī)律,將先進的數(shù)據挖掘技術融入P2P網絡金融平臺的日常管理中,利用該項技術對其存儲數(shù)據進行實證分析,提高平臺管理方對于注冊用戶的認識,對借款進行分析。P2P網絡金融平臺根據數(shù)據分析的結果,對出款人進行價值判斷,在降低網絡金融風險、保障各項參與者切身利益方面起到了不可忽視的作用,也為維持虛擬金融市場秩序提供了一種有效的方法。另外,本文研究的方法對于分析借款人的資產以及償還能力等也有一定的作用。
[1] 陸岷峰,虞鵬飛.互聯(lián)網金融背景下商業(yè)銀行“大數(shù)據”戰(zhàn)略研究——基于互聯(lián)網金融在商業(yè)銀行轉型升級中的運用[J].經濟與管理,2015,29(3):31-38.
[2] 高娜.基于互聯(lián)網金融平臺的大數(shù)據挖掘研究[J].商,2015(48):196-197.
[3] 馮笑,陳翼.基于互聯(lián)網金融平臺的大數(shù)據征信實踐與啟示——以阿里旗下“螞蟻金服”為例[J].中國市場,2015(32):86-87.
[4] 張靜,常若貝.共享金融背景下的P2P互聯(lián)網金融平臺發(fā)展對策研究[J].時代金融旬刊,2016(7):60-61.
[5] 王曙光,孔新雅,徐余江.互聯(lián)網金融的網絡信任:形成機制、評估與改進——以P2P網絡借貸為例[J].金融監(jiān)管研究,2014(5):67-76.
[6] 蔣莉莉.商業(yè)銀行P2P互聯(lián)網投融資系統(tǒng)[J].電子技術與軟件工程,2015(13):35-36.
[7] 周雅慧,張一舟,米晉宏.IDEA:一種基于P2P借貸網絡的投資決策分析算法[J].計算機系統(tǒng)應用,2016,25(9):200-206.
[8] 陳春燕.一種P2P網絡的信息優(yōu)化檢索算法的仿真分析[J].科學技術與工程,2013,13(9):2572-2578.
[9] 儲兵,吳陳,楊習貝.基于RBF神經網絡與粗糙集的數(shù)據挖掘算法[J].計算機技術與發(fā)展,2013,23(7):87-91.
[10]李瑞華,魚斌.基于關聯(lián)規(guī)則的數(shù)據挖掘算法研究[J].榆林學院學報,2010,20(2):62-64.
[11]朱中煒,韓旭,李澤琳.基于XML和SVG的體育數(shù)據可視化的技術研究[J].電子技術與軟件工程,2015(21):198-198.
[12]楊莎,余偉,李石君,等.基于Web大數(shù)據挖掘的證券價格波動實時影響研究[J].計算機科學,2015,42(4):166-171.
[13]李丹,張兆信,宗占國.利用開源的數(shù)據挖掘平臺WEKA進行文本分類仿真實驗[J].煤炭技術,2011,30(5):214-216.
[14]何清,莊福振,曾立,等.PDMiner:基于云計算的并行分布式數(shù)據挖掘工具平臺[J].中國科學:信息科學,2014,44(7):871-885.
[15]范多鋒,徐俊剛.大數(shù)據量下的Apriori改進算法及在weka平臺的實現(xiàn)[J].電子技術,2012(7):1-4.
[16]劉文鳳,卿曉霞.Chameleon聚類算法的Weka實現(xiàn)[J].計算機系統(tǒng)應用,2010,19(12):246-250.
[17]朱宗元,王景裕.P2P網絡借貸平臺效率的綜合評價——基于AHP-DEA方法[J].南方金融,2016(4):31-38.
(責任編輯 林 芳)
Research on Data Mining Technology Based on P2P Internet Finance
CHEN Xuegai, WANG Fei
(Business of School, Hohai University, Nanjing 211100, China)
The historical data volume of the borrowing records of P2P financial platform is huge, but it is only stored in the data warehouse, and the effective information contained in it is not discovered. In the P2P network financial platform management, it introduces into data mining technology,using Weka for data mining tool, and it uses the existing stored data information for data analysis; Finally, trough the platform algorithm and data model processing, the bidding timeT, the total number of times the tenderNand the total amount of tender lendingMare as the reference to the P2P network financial platform which will be divided into eight types of payers, and the overall clustering results of these three indexes are 0.826 3,0.067 2,0.077 7 respectively, and then according to it, we determines the potential value of the money, which provides the appropriate reference for platform managers.
internet banking; P2P; Weka; data mining; borrowing analysis
2017-02-07
國家自然科學基金資助項目(71372166);江蘇高校哲學社會科學研究重點項目(2010ZDIXM004)
陳雪改(1990—),女,碩士研究生,主要從事公司金融研究,E-mail:businesschen1990@sina.com;王飛(1959—),男,碩士生導師,主要從事財務管理和會計金融研究。
陳雪改,王飛.基于P2P互聯(lián)網金融的數(shù)據挖掘技術研究[J].重慶理工大學學報(自然科學),2017(7):151-155.
format:CHEN Xuegai,WANG Fei.Research on Data Mining Technology Based on P2P Internet Finance[J].Journal of Chongqing University of Technology(Natural Science),2017(7):151-155.
10.3969/j.issn.1674-8425(z).2017.07.024
TN02
A
1674-8425(2017)07-0151-05