余洋軍
摘 要: 建立大數據征信系統(tǒng),能消除信息不對稱,提供更快、更精準的信用決策??梢酝ㄟ^對實時交易數據的大數據分析,分析用戶是否有異常貸款、借新還舊、信用惡化等實時評估并進行預警。根據人口屬性、社會交往、行為偏好等信息構建用戶消費畫像。為互金、大數據、支付、銀行、保險、電商等各領域提供決策依據。本文將介紹基于爬蟲技術如何在征信系統(tǒng)中的應用和實現(xiàn)。
關鍵詞: 社會信用體系;信用平臺系統(tǒng);網絡爬蟲
一、征信系統(tǒng)的現(xiàn)狀與發(fā)展
(一)社會信用體系建設的意義
社會信用體系是一個龐大的系統(tǒng),主要涉及三個方面:一是規(guī)范、約束信用行為的法律體系;二是促進企業(yè)自覺履行承諾的誠信體系;三是幫助債權方判別交易對象信用狀況、違約風險、降低信用交易成本的征信體系。建立和完善社會信用體系是我國社會主義市場經濟不斷走向成熟的重要標志之一。信用是市場經濟的通行證?,F(xiàn)代市場經濟是建立在法制基礎上的信用經濟。沒有信用,就沒有秩序,市場經濟就不能健康發(fā)展。在市場經濟尚不完善的我國,雖然實現(xiàn)了經濟的騰飛,但是相應的社會信用體系建設依然滯后。當前,信用狀況差是我國社會主義市場經濟發(fā)展的一個薄弱環(huán)節(jié),已成為影響和制約經濟發(fā)展的突出因素。由于缺乏足夠的信用,直接導致不少企業(yè)陷入危機。面對目前這種情況,建立健全現(xiàn)代市場經濟的社會信用體系尤為迫切。
(二)征信系統(tǒng)現(xiàn)狀
近些年隨著消費金融的不斷深入發(fā)展,征信行業(yè)逐步得到大家的重視。目前國內征信只是初步建立了完整產業(yè)體系,其在各個環(huán)節(jié)尚存在不同問題。相比美國成熟征信市場來說,目前中國仍處于數據源爭奪戰(zhàn)中,各家征信機構仍將數據資源視為核心競爭力。目前國內與“征信服務”相關的公司有2000多家,其中完成備案的企業(yè)征信機構約135家左右。相對于企業(yè)征信較容易獲取牌照,央行尚未完全放開個人征信牌照,目前僅以芝麻信用、前海征信、騰訊征信、拉卡拉征信、中智誠征信、中誠信征信、鵬元征信和華道征信等八家作為個人征信試點機構。除這八家試點之外,還有很多創(chuàng)業(yè)平臺為機構客戶提供個人信用服務,如算話征信、新顏征信、立木征信、探知數據、聚信立等等。這類平臺作為大數據出身,在數據采集、數據處理方面具有豐富經驗,并且并不局限于金融行業(yè),同時在切入征信時,大多會選擇從營銷入手,再向信用延展。例如大數據公司集奧聚合,其數據優(yōu)勢體現(xiàn)在運營商和互聯(lián)網方面,目前其不僅為客戶提供精準營銷等服務,還提供信用評估產品,涉足征信行業(yè)。目前征信機構在整合多維度數據源后,才能建設模型并提供具體征信服務。例如新顏征信結合自身海量互聯(lián)網金融數據,建立起龐大的反欺詐庫,同時通過授權數據和政府公開數據進行有效地交叉驗證。目前不同征信機構在數據源方面,都形成了自己的差異化優(yōu)勢。在場景應用上,目前大多數征信機構還是集中于金融領域,而不少機構已經開始積極拓展金融以外的信用應用場景,比如個人租房,上下游企業(yè)交易,甚至談戀愛等等。征信就像在陌生企業(yè)和陌生人群交易之間的建立起了無形的信用中介,對交易的順利進行和風險控制有很大的幫助。例如芝麻信用近期與OFO單車及蘑菇租房等進行深度跨界合作,將信用產品應用于出行和租房領域。
然而目前國內各家征信機構仍處于數據源爭奪戰(zhàn)中,仍將數據資源視為核心競爭力,同時還存在各種問題,例如:采集場景是互相割裂、數據源不全面、數據質量不高、盈利模式單一、法律保障體系不完善等。
(三)征信系統(tǒng)未來方向
相關數據顯示,我國每年因為誠信缺失造成的經濟損失約為數千億元。所以征信市場空間較大,產業(yè)資本及金融資本出于風控、完善生態(tài)體系目的,加緊布局征信。未來征信一定會采用大數據等技術降低征信成本,而且征信市場最終會形成高集中度等特征。大數征信的技術關鍵在于數據整合、數據挖掘和評級模型。數據整合體現(xiàn)為將出現(xiàn)在多個數據源中個人信息甄別同一個人,并整合成完整的個體信息。伴隨著政策的放開,我國征信市場發(fā)展迅速,初步形成政府背景下信用信息機構、社會征信機構、評級公司等機構的多元化征信市場。征信系統(tǒng)的未來發(fā)展趨勢,預計制度保障層面將更為完善,行業(yè)層面將細分化,數據等基礎資源供給將趨于優(yōu)化,機構在場景方面將更加廣泛。就目前形勢來看征信業(yè)存在極為明顯的規(guī)模經濟,隨著數據庫規(guī)模的擴大和查詢量的增加,業(yè)務成本逐步降低,并且隨著數據數量和質量的提升,在激烈的市場競爭下,會出現(xiàn)一批非常優(yōu)秀的征信公司和產品。
二、爬蟲技術分類及工作原理
爬蟲是一種按照一定的規(guī)則,自動地抓取網頁信息的程序或者腳本,可以自動采集所有其能夠訪問到的頁面內容,以獲取或更新這些網站的內容和檢索方式。其按照系統(tǒng)結構和實現(xiàn)技術,大致可以分為以下幾種類型:通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲。 在實際應用中通常根據實際需要將幾種爬蟲技術相結合來使用。在爬蟲系統(tǒng)框架中,主要過程由采集器,解析器,數據存取三部分組成。采集器的主要工作是負責給多線程中的各個爬蟲線程分配工作任務。解析器的主要工作是對已經采集下來網頁資源,對關心的數據進行解析處理。數據存取是對已經解析好網頁資源,進行數據結構化整理,生成可用的數據資源,最終實現(xiàn)數據落地入庫。
Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。由于每個爬蟲實現(xiàn)機制的不同,需要根據實現(xiàn)情況來關注Robots協(xié)議。
三、征信系統(tǒng)中爬蟲系統(tǒng)設計與實現(xiàn)
(一)征信系統(tǒng)整體設計架構
(二)征信系統(tǒng)(運營商爬蟲)各服務組件
征信系統(tǒng)爬蟲由多個具體模塊組成,現(xiàn)以運營商爬蟲為例介紹具體實現(xiàn)方案。運營商爬蟲模塊由用戶授權(API輸入用戶名、密碼和短信驗證)進行登陸相應運營商網站,來獲取該用戶相關信息。由于國內運營商(中國聯(lián)通是統(tǒng)一的官網除外)是每個省份獨立維護的,其登陸、驗證及數據獲取都是相對獨立的,必須針對中國電信、中國移動的每個省份單獨處理。征信系統(tǒng)爬蟲模塊各服務組成如右:endprint
(三)征信系統(tǒng)(運營商爬蟲)具體實現(xiàn)
運營商爬蟲開發(fā)選取Java語言開發(fā),整個上采用Sping-boot、WebClient、Selenium 等技術。整體流程為主線程循環(huán)請求spider-route服務,通過指定任務類型(ISP)獲取運營商數據攫取任務請求。通過前置條件檢驗后,再根據外部服務(www.ip138.com)網站獲取所需要運營商類型(中國聯(lián)通、移動和電信)和省份,自動分配對應的爬蟲處理器來完成具體工作。一般情況下,分布式的多線程爬蟲處理器被調用后,會根據具體運營商情況來進行登陸前準備工作:將需要的圖片驗證碼發(fā)回給spider-manager,處理任務結束線程,由spider-manager提供驗證碼入口并生成新任務。此時分布式的多線程爬蟲處理器又被調用,并且保證在正確的處理節(jié)點完成登陸工作。由于采用授權方式獲取數據,在獲取用戶相關個人信息時,處理器會調用運營商官網接口發(fā)授權短信,通過同上操作步驟,讓用戶輸入正確的短信驗證碼。在驗證短信授權后,通知spider-manager登陸狀態(tài),同時對用戶的基礎信息、通話、短信、網絡、賬單、繳費等信息爬取后,保存到緩存中后將運營商登出。系統(tǒng)再根據緩存中的運營信結果信息自動尋找相對應的解析器,將緩存中信息解析成JSON格式,并將數據發(fā)送給spider-manager進行存儲并調用spider-data進行數據結構化處理。由于處理器和解析器都為分布式多線程任務,對登陸、爬取、解析通過spider-manager進行統(tǒng)一調度,登陸后采取Cookies傳遞保證訪問的路徑都處于已經授權狀態(tài)。
(四)系統(tǒng)性能要求
1.穩(wěn)定性:整個系統(tǒng)的處理能力在40萬任務/天以上(30臺Worker),峰值處理能力在4萬任務/小時,關鍵服務都是主從配置??赏ㄟ^簡單增加worker數量來進行無限很想擴容。
2.擴展性:可以根據業(yè)務的擴展需求進行動態(tài)、快速的擴展,擴展期間不影響現(xiàn)有系統(tǒng)的正常工作。(硬件資源需提前準備好)
3.安全性:服務間調用都以SSL為加強對數據的安全性保護。用戶賬戶密碼等身份信息都做了加密處理。
4.維護性:Gatewary、Manager、Router、Worker等所有服務都可以全自動部署。部署過程中對系統(tǒng)的穩(wěn)定性不受影像論文什么的都需要公司蓋章,這個找哪位響?!鰁ndprint