王彥博 樊營 高潛
人類社會已經(jīng)進入大數(shù)據(jù)時代,傳統(tǒng)的信息存儲和傳播媒介已逐漸為計算機所替代,并呈現(xiàn)出指數(shù)增長的趨勢,成為21世紀最為重要的經(jīng)濟資源之一。作為掌握大量真實交易數(shù)據(jù)的商業(yè)銀行,面對浩如煙海的信息時,如何實現(xiàn)銀行內(nèi)部與外部信息、結構性與非結構性數(shù)據(jù)的緊密結合,更加準確地識別信息,有效地對信息進行挖掘,將數(shù)據(jù)價值轉(zhuǎn)化為經(jīng)濟價值,已經(jīng)成為當前商業(yè)銀行提升核心競爭力的重要途徑之一。網(wǎng)絡爬蟲技術的快速發(fā)展為商業(yè)銀行提升信息精準獲取和有效整合應用能力提供了全新的策略。
網(wǎng)絡爬蟲技術概述
網(wǎng)絡爬蟲是Spider(或Robots、Crawler)等詞的意譯,是一種高效的信息抓取工具,它集成了搜索引擎技術,并通過技術手段進行優(yōu)化,用以從互聯(lián)網(wǎng)搜索、抓取并保存任何通過HTML(超文本標記語言)進行標準化的網(wǎng)頁信息。其作用機理是:發(fā)送請求給互聯(lián)網(wǎng)特定站點,在建立連接后與該站點交互,獲取HTML格式的信息,隨后轉(zhuǎn)移到下一個站點,并重復以上流程。通過這種自動化的工作機制,將目標數(shù)據(jù)保存在本地數(shù)據(jù)中,以供使用。網(wǎng)絡爬蟲在訪問一個超文本鏈接時,可以從HTML標簽中自動獲取指向其他網(wǎng)頁的地址信息,因而可以自動實現(xiàn)高效、標準化的信息獲取。
隨著互聯(lián)網(wǎng)在人類經(jīng)濟社會中的應用日益廣泛,其所涵蓋的信息規(guī)模呈指數(shù)增長,信息的形式和分布具有多樣化、全球化特征,傳統(tǒng)搜索引擎技術已經(jīng)無法滿足日益精細化、專業(yè)化的信息獲取和加工需求,正面臨著巨大的挑戰(zhàn)。網(wǎng)絡爬蟲自誕生以來,就發(fā)展迅猛,并成為信息技術領域的主要研究熱點。當前,主流的網(wǎng)絡爬蟲搜索策略有如下幾種。
深度優(yōu)先搜索策略
早期的爬蟲開發(fā)采用較多的搜索策略是以深度優(yōu)先的,即在一個HTML文件中,挑選其中一個超鏈接標簽進行深度搜索,直至遍歷這條超鏈接到最底層時,由邏輯運算判斷本層搜索結束,隨后退出本層循環(huán),返回上層循環(huán)并開始搜索其他的超鏈接標簽,直至初始文件內(nèi)的超鏈接被遍歷。深度優(yōu)先搜索策略的優(yōu)點是可以將一個Web站點的所有信息全部搜索,對嵌套較深的文檔集尤其適用;而缺點是在數(shù)據(jù)結構日益復雜的情況下,站點的縱向?qū)蛹墪o限增加且不同層級之間會出現(xiàn)交叉引用,會發(fā)生無限循環(huán)的情況,只有強行關閉程序才能退出遍歷,而得到的信息由于大量的重復和冗余,質(zhì)量很難保證。
寬度優(yōu)先搜索策略
與深度優(yōu)先搜索策略相對應的是寬度優(yōu)先搜索策略,其作用機理是從頂層向底層開始循環(huán),先就一級頁面中的所有超鏈接進行搜索,完成一級頁面遍歷后再開始二級頁面的搜索循環(huán),直到底層為止。當某一層中的所有超鏈接都被選擇過,才會基于該層信息檢索過程中所獲得的下一級超鏈接(并將其作為種子)開始新的一輪檢索,優(yōu)先處理淺層的鏈接。這種模式的一個優(yōu)點是:無論搜索對象的縱向結構層級有多么復雜,都會極大程度上避免死循環(huán);另一個優(yōu)勢則在于,它擁有特定的算法,可以找到兩個HTML文件間最短的路徑。一般來講,我們期望爬蟲所具有的大多數(shù)功能目前均可以采用寬度優(yōu)先搜索策略較容易的實現(xiàn),所以它被認為是最優(yōu)的。但其缺點是:由于大量時間被耗費,寬度優(yōu)先搜索策略則不太適用于要遍歷特定站點和HTML文件深層嵌套的情況。
聚焦搜索策略
與深度優(yōu)先和寬度優(yōu)先不同,聚焦搜索策略是根據(jù)“匹配優(yōu)先原則”對數(shù)據(jù)源進行訪問,基于特定的匹配算法,主動選擇與需求主題相關的數(shù)據(jù)文檔,并限定優(yōu)先級,據(jù)以指導后續(xù)的數(shù)據(jù)抓取。這類聚焦爬蟲針對所訪問任何頁面中的超鏈接都會判定一個優(yōu)先級評分,根據(jù)評分情況將該鏈接插入循環(huán)隊列,此策略能夠幫助爬蟲優(yōu)先跟蹤潛在匹配程度更高的頁面,直至獲取足夠數(shù)量和質(zhì)量的目標信息。不難看出,聚焦爬蟲搜索策略主要在于優(yōu)先級評分模型的設計,亦即如何區(qū)分鏈接的價值,不同的評分模型針對同一鏈接會給出不同的評分,也就直接影響到信息搜集的效率和質(zhì)量。同樣機制下,針對超鏈接標簽的評分模型自然可以擴展到針對HTML頁面的評價中,因為每一個網(wǎng)頁都是由大量超鏈接標簽所構成的,一般看來,鏈接價值越高,其所在頁面的價值也越高,這就為搜索引擎的搜索專業(yè)化和應用廣泛化提供了理論和技術支撐。當前,常見的聚焦搜索策略包括基于“鞏固學習”和“語境圖”兩種。
從應用程度來看,當前國內(nèi)主流搜索平臺主要采用的是寬度優(yōu)先搜索策略,主要是考慮到國內(nèi)網(wǎng)絡系統(tǒng)中信息的縱向價值密度較低,而橫向價值密度較高。但是這樣會明顯地遺漏到一些引用率較小的網(wǎng)絡文檔,并且寬度優(yōu)先搜索策略的橫向價值富集效應,會導致這些鏈接量少的信息源被無限制的忽略下去;而在此基礎上補充采用線性搜索策略則會緩解這種狀況,不斷引入更新的數(shù)據(jù)信息到已有的數(shù)據(jù)倉庫中,通過多輪的價值判斷去決定是否繼續(xù)保存該信息,而不是“簡單粗暴”地遺漏下去,將新的信息阻滯在密閉循環(huán)之外。
網(wǎng)絡爬蟲技術發(fā)展趨勢
近年來,隨著網(wǎng)絡爬蟲技術的持續(xù)發(fā)展,搜索策略也在不斷進行優(yōu)化。從目前來看,未來網(wǎng)絡爬蟲的發(fā)展主要呈現(xiàn)以下趨勢。
網(wǎng)頁數(shù)據(jù)動態(tài)化
傳統(tǒng)的網(wǎng)絡爬蟲技術主要局限于對靜態(tài)頁面信息的抓取,模式相對單一,而近年來,隨著Web2.0/AJAX等技術成為主流,動態(tài)頁面由于具有強大的交互能力,成為網(wǎng)絡信息傳播的主流,并已取代了靜態(tài)頁面成為了主流。AJAX采用了JavaScript驅(qū)動的異步(非同步)請求和響應機制,在不經(jīng)過網(wǎng)頁整體刷新的情況下持續(xù)進行數(shù)據(jù)更新,而傳統(tǒng)爬蟲技術缺乏對JavaScript語義的接口和交互能力,難以觸發(fā)動態(tài)無刷新頁面的異步調(diào)用機制并解析返回的數(shù)據(jù)內(nèi)容,無法保存所需信息。
此外,諸如JQuery等封裝了JavaScript的各類前端框架會對DOM結構進行大量調(diào)整,甚至網(wǎng)頁上的主要動態(tài)內(nèi)容均不必在首次建立請求時就以靜態(tài)標簽的形式從服務器端發(fā)送到客戶端,而是不斷對用戶的操作進行回應并通過異步調(diào)用的機制動態(tài)繪制出來。這種模式一方面極大地優(yōu)化了用戶體驗,另一方面很大程度上減輕了服務器的交互負擔,但卻對習慣了DOM結構(相對不變的靜態(tài)頁面)的爬蟲程序提出了巨大挑戰(zhàn)。傳統(tǒng)爬蟲程序主要基于“協(xié)議驅(qū)動”,而在互聯(lián)網(wǎng)2.0時代,基于AJAX的動態(tài)交互技術環(huán)境下,爬蟲引擎必須依賴“事件驅(qū)動”才有可能獲得數(shù)據(jù)服務器源源不斷的數(shù)據(jù)反饋。而要實現(xiàn)事件驅(qū)動,爬蟲程序必須解決三項技術問題:第一,JavaScript的交互分析和解釋;第二,DOM事件的處理和解釋分發(fā);第三,動態(tài)DOM內(nèi)容語義的抽取。
數(shù)據(jù)采集分布化
分布式爬蟲系統(tǒng)是在計算機集群之上運轉(zhuǎn)的爬蟲系統(tǒng),集群每一個節(jié)點上運行的爬蟲程序與集中式爬蟲系統(tǒng)的工作原理相同,所不同的是分布式需要協(xié)調(diào)不同計算機之間的任務分工、資源分配、信息整合。分布式爬蟲系統(tǒng)的某一臺計算機終端中植入了一個主節(jié)點,并通過它來調(diào)用本地的集中式爬蟲進行工作,在此基礎上,不同節(jié)點之間的信息交互就顯得十分重要,所以決定分布式爬蟲系統(tǒng)成功與否的關鍵在于能否設計和實現(xiàn)任務的協(xié)同,此外,底層的硬件通信網(wǎng)絡也十分重要。由于可以采用多節(jié)點抓取網(wǎng)頁,并能夠?qū)崿F(xiàn)動態(tài)的資源分配,因此就搜索效率而言,分布式爬蟲系統(tǒng)遠高于集中式爬蟲系統(tǒng)。
經(jīng)過不斷的演化,各類分布式爬蟲系統(tǒng)在系統(tǒng)構成上各具特色,工作機制與存儲結構不斷推陳出新,但主流的分布式爬蟲系統(tǒng)普遍運用了“主從結合”的內(nèi)部構成,也就是由一個主節(jié)點通過任務分工、資源分配、信息整合來掌控其他從節(jié)點進行信息抓??;在工作方式上,基于云平臺的廉價和高效特點,分布式爬蟲系統(tǒng)廣泛采用云計算方式來降低成本,大規(guī)模降低軟硬件平臺構建所需要的成本投入;在存儲方式方面,當前比較流行的是分布式信息存儲,即將文件存儲在分布式的網(wǎng)絡系統(tǒng)上,這樣管理多個節(jié)點上的數(shù)據(jù)更加方便。通常情況下使用的分布式文件系統(tǒng)為基于Hadoop的HDFS系統(tǒng)。
網(wǎng)絡爬蟲技術在商業(yè)銀行的應用
對商業(yè)銀行而言,網(wǎng)絡爬蟲技術的應用將助力商業(yè)銀行實現(xiàn)四個“最了解”,即“最了解自身的銀行”、“最了解客戶的銀行”、“最了解競爭對手的銀行”和“最了解經(jīng)營環(huán)境的銀行”,具體應用場景如下。
網(wǎng)絡輿情監(jiān)測
網(wǎng)絡輿情是當前社會主流輿論的表現(xiàn)方式之一,它主要搜集和展示經(jīng)互聯(lián)網(wǎng)傳播后大眾對部分社會焦點和熱點問題的觀點和言論。對于商業(yè)銀行而言,對網(wǎng)絡輿情進行監(jiān)測,是對自身品牌管理和危機公關的重要技術手段,從而以網(wǎng)絡作為一面“鏡子”,構建“最了解自身的銀行”。
網(wǎng)絡輿情作為當前社會的主流信息媒介之一,具有傳播快、影響大的特點,對于商業(yè)銀行而言,創(chuàng)建自動化的網(wǎng)絡輿情監(jiān)控系統(tǒng)十分必要,一方面可以使商業(yè)銀行獲得更加精準的社會需求信息,另一方面可以使商業(yè)銀行在新的輿論平臺上傳播自身的服務理念和服務特色,提升自身的業(yè)務拓展水平。由于網(wǎng)絡爬蟲在網(wǎng)絡輿情監(jiān)控中有著不可替代的作用,其工作質(zhì)量將會很大程度上影響網(wǎng)絡輿情采集的廣度和深度。依據(jù)采集目標的類型,網(wǎng)絡爬蟲可以歸納為“通用型網(wǎng)絡爬蟲”和“主題型網(wǎng)絡爬蟲”兩種。通用型網(wǎng)絡爬蟲側重于采集更大的數(shù)據(jù)規(guī)模和更寬的數(shù)據(jù)范圍,并不考慮網(wǎng)頁采集的順序和目標網(wǎng)頁的主題匹配情況。在當前網(wǎng)絡信息規(guī)模呈現(xiàn)指數(shù)增長的背景下,通用型網(wǎng)絡爬蟲的使用受到信息采集速度、信息價值密度、信息專業(yè)程度的限制。為緩解這種狀況,主題型網(wǎng)絡爬蟲誕生了。不同于通用型網(wǎng)絡爬蟲,主題型網(wǎng)絡爬蟲更專注采集目標與網(wǎng)頁信息的匹配程度,避免無關的冗余信息,這一篩選過程是動態(tài)的,貫穿于主題型網(wǎng)絡爬蟲技術的整個工作流程。
通過運用爬蟲技術對網(wǎng)絡輿情進行監(jiān)測,可以更加全面深入地了解客戶對銀行的態(tài)度與評價,洞察銀行自身經(jīng)營的優(yōu)勢與不足,同時可以起到防御聲譽風險、增強品牌效應的作用。
客戶全景畫像
隨著商業(yè)銀行競爭日趨激烈,利潤空間進一步壓縮,對客戶營銷和風險控制的要求也日趨提升。在當前的銀行經(jīng)營體系中,營銷流程管理和風險流程管理,尤其是對潛在客戶和貸后風險的識別與管理,往往需要耗費大量的人力、物力和時間成本。通過引入網(wǎng)絡爬蟲技術,可以有效構建面向客戶的全景畫像,打造“最了解客戶的銀行”,這是對傳統(tǒng)“客戶關系管理”以及“非現(xiàn)場風控”技術的有益補充,將會極大促進銀行客戶營銷和對風險的管理。
網(wǎng)絡爬蟲程序可以用來構建銀行客戶的全維度信息視圖,即以簡單的個人客戶身份信息或?qū)蛻艟W(wǎng)絡地址為輸入,經(jīng)過爬蟲程序的加工,將符合預設規(guī)則的客戶信息按特定的格式進行輸出。以特定的基礎數(shù)據(jù)作為原料,銀行數(shù)據(jù)人員將關鍵詞輸入爬蟲系統(tǒng),并結合與客戶信息相關的網(wǎng)絡地址信息,封裝成爬蟲種子傳遞給爬蟲程序,隨后,爬蟲程序啟動相應的業(yè)務流程,爬取客戶相關信息的網(wǎng)頁并保存下來。此外,從網(wǎng)絡輿情監(jiān)測層面進一步入手,將監(jiān)測對象從自身延伸至銀行客戶,則能夠通過網(wǎng)絡在第一時間了解銀行客戶的客戶對銀行客戶的評價,及時掌握客戶的輿情動態(tài),指導銀行經(jīng)營決策。
通過采用上述網(wǎng)絡爬蟲系統(tǒng)對客戶相關信息進行實時采集、監(jiān)測、更新,不僅可以更全面地了解客戶實時情況,而且可以對客戶的潛在營銷商機和信用風險進行預判,有效提升客戶營銷和貸后風險管理效率,提升商業(yè)銀行綜合效益,形成銀行與客戶共贏的局面。
競爭對手分析
當前,隨著利率市場化的到來和互聯(lián)網(wǎng)金融的沖擊,商業(yè)銀行間競爭日趨激烈,新的市場參與主體與新的產(chǎn)品層出不窮,業(yè)務競爭加劇。在此背景下,充分了解競爭對手動態(tài),打造“最了解競爭對手的銀行”,并以此對自身進行調(diào)整,及時搶占先機,這對各家商業(yè)銀行而言都具有愈發(fā)重要的意義。
通過構建基于網(wǎng)絡爬蟲技術的全網(wǎng)絡信息分析和展示平臺,可以有效對全網(wǎng)絡實時數(shù)據(jù)進行抓取,及時獲取其他銀行的產(chǎn)品信息與新聞動態(tài),第一時間獲取其他競爭者的狀況,方便整合并用以分析本地行內(nèi)數(shù)據(jù)。網(wǎng)絡爬蟲通過實時采集數(shù)據(jù)構建起動態(tài)數(shù)據(jù)平臺,抓取網(wǎng)絡數(shù)據(jù)并進行本地存儲,便于未來進行深入的數(shù)據(jù)挖掘分析應用。網(wǎng)絡爬蟲技術不僅使得商業(yè)銀行決策層更方便地制定準確的政策,用以支撐公司的運營,而且可以將網(wǎng)絡輿情信息的監(jiān)測對象從自身、客戶延伸至競爭對手,便于實時掌握競爭對手的市場競爭狀況及其優(yōu)劣勢,實現(xiàn)“知己知彼”,真正達到信息對稱。
行業(yè)垂直搜索
垂直搜索是指將搜索范圍細分至某一專業(yè)領域,針對初次獲取到的網(wǎng)頁信息進行更深層次的整合,最終形成“純度”更高的專業(yè)領域信息。銀行數(shù)據(jù)人員采用該種方式,可以極大提高有效信息的獲取效率。通過對金融主題進行抓取分析,商業(yè)銀行可以更加全面地了解監(jiān)管政策發(fā)展動態(tài),了解區(qū)域經(jīng)濟、行業(yè)經(jīng)濟的發(fā)展形勢,以及掌握金融行業(yè)自身經(jīng)營環(huán)境動態(tài),及時校驗并調(diào)整自身策略,緊跟市場趨勢,打造成為“最了解經(jīng)營環(huán)境的銀行”。
對金融領域垂直搜索的應用,可以提高金融主體的信息處理能力。垂直搜索技術上的最大亮點就是能夠?qū)π问蕉鄻印⒁?guī)模巨大的數(shù)據(jù)進行有目標地專業(yè)化的細分操作,減少垃圾信息、聚集有效信息,提高搜索效率,在某些條件下甚至可以提供實時的數(shù)據(jù),最大限度地整合現(xiàn)有大量復雜的網(wǎng)頁數(shù)據(jù),使用戶獲得更便捷、更完整、更高效的信息檢索服務。
結語
隨著互聯(lián)網(wǎng)技術的發(fā)展和數(shù)據(jù)爆炸,網(wǎng)絡爬蟲技術為商業(yè)銀行數(shù)據(jù)采集和信息整合應用提供了全新的技術路徑。站在商業(yè)銀行應用實踐的角度,網(wǎng)絡爬蟲在銀行日常經(jīng)營管理中的發(fā)展?jié)摿薮?。網(wǎng)絡爬蟲技術的應用可以助力銀行轉(zhuǎn)型成為最了解自身、最了解客戶、最了解競爭對手、最了解經(jīng)營環(huán)境的“智慧銀行”??梢灶A見,網(wǎng)絡爬蟲技術將成為商業(yè)銀行提升精細化管理能力、提高決策智能化水平的重要技術手段。
(作者單位:中國民生銀行公司業(yè)務戰(zhàn)略規(guī)劃部, 北京網(wǎng)智天元科技股份有限公司,中國社會科學院金融研究所)