劉華玲,劉雅欣,許珺怡,陳尚輝,喬 梁
上海對外經(jīng)貿(mào)大學(xué) 統(tǒng)計與信息學(xué)院,上海 201620
當(dāng)今,數(shù)字化金融服務(wù)以其非接觸、高效率和服務(wù)場景靈活等優(yōu)勢,極大便利了消費(fèi)者的金融活動,在大數(shù)據(jù)、云計算以及人工智能等新興技術(shù)的驅(qū)動下,以金融科技為主題的金融革命正以燎原之勢席卷全球[1-2],各種創(chuàng)新型數(shù)字化金融服務(wù)場景和渠道不斷涌現(xiàn)。同時,以此為背景的“黑色產(chǎn)業(yè)”肆虐發(fā)展,已經(jīng)滲透到個人信貸、醫(yī)療保險和車險理賠等金融領(lǐng)域。據(jù)統(tǒng)計,相關(guān)“黑色產(chǎn)業(yè)”從業(yè)人員超過500萬,涉及金額損失達(dá)到千億級別[3]。因此,探究新型場景下的金融反欺詐研究方法具有極大的理論價值和現(xiàn)實(shí)意義。
早期的文獻(xiàn)多集中于利用檢測規(guī)則進(jìn)行欺詐識別,前提假設(shè)為欺詐活動存在明顯的規(guī)則模式,可以通過定義一些組合規(guī)則進(jìn)行識別,其具有易操作性和可解釋性,因此在早期的欺詐檢測中廣受歡迎?;谝?guī)則的方法高度依賴人類專家的知識判定,難以發(fā)現(xiàn)復(fù)雜動態(tài)且隱蔽的欺詐模式,同時,極易被欺詐者識別進(jìn)而改變自身的欺詐行為以躲避檢測,這將不斷提升基于規(guī)則的檢測難度。為此,許多學(xué)者提出使用機(jī)器學(xué)習(xí)以挖掘常規(guī)方式難以識別的潛在欺詐模式。該類方法將從不同維度提取用戶的統(tǒng)計特征,如用戶的社會屬性、交易信息和行為信息,用傳統(tǒng)的機(jī)器學(xué)習(xí)模型對用戶數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)[4-5]。然而,此類方法將用戶特征作為獨(dú)立的矢量處理,忽略了實(shí)體之間的關(guān)聯(lián)性。
如今,我國信息化邁入以物聯(lián)網(wǎng)和云計算為代表的新階段,金融機(jī)構(gòu)積累了海量的用戶屬性信息和行為信息,如何從中挖掘用戶間關(guān)聯(lián)成為提高欺詐檢測性能的關(guān)鍵。圖數(shù)據(jù)在表示實(shí)體復(fù)雜交互關(guān)系方面具有得天獨(dú)厚的優(yōu)勢,基于圖挖掘的異常識別技術(shù)(graphbased anomaly detection,GBAD)因其高效、普適和準(zhǔn)確性高等特點(diǎn)受到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。此類方法致力于從“關(guān)系”角度分析問題,基于行業(yè)大數(shù)據(jù)和相關(guān)領(lǐng)域知識構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò),實(shí)體抽象為圖中的節(jié)點(diǎn),實(shí)體間的交互抽象為節(jié)點(diǎn)間的連邊,并運(yùn)用相關(guān)的圖挖掘技術(shù)識別異常模式的節(jié)點(diǎn)、邊或者子圖。相比傳統(tǒng)的欺詐檢測技術(shù),基于圖的異常檢測不僅可以直觀地呈現(xiàn)數(shù)據(jù)中隱含的復(fù)雜拓?fù)浣Y(jié)構(gòu),而且將數(shù)據(jù)對象間的關(guān)聯(lián)融入到欺詐識別任務(wù)中,從網(wǎng)絡(luò)的整體拓?fù)浣Y(jié)構(gòu)出發(fā)更容易識別隱藏極深的欺詐行為。近年來,GBAD技術(shù)在識別網(wǎng)絡(luò)內(nèi)的欺詐活動方面做出了巨大貢獻(xiàn),被欺詐檢測專家認(rèn)為是穩(wěn)健、可靠和有前途的異常檢測技術(shù)[6]。
本文對圖異常檢測在金融反欺詐中的應(yīng)用進(jìn)行系統(tǒng)分類,介紹其中具有代表性的方法,探討現(xiàn)有方法的局限性和面臨的挑戰(zhàn),指明未來的研究方向。具體貢獻(xiàn)如下:
(1)分別從個體反欺詐和群體反欺詐的視角,將圖異常檢測技術(shù)系統(tǒng)分類,并對每種技術(shù)進(jìn)行全面的評述、分析和比較;
(2)拓展了圖異常檢測方法,整理歸納近幾年涌現(xiàn)的基于圖嵌入、深度自編碼器以及圖神經(jīng)網(wǎng)絡(luò)等技術(shù)解決欺詐檢測的新方法;
(3)結(jié)合當(dāng)前反欺詐的前沿任務(wù)展望圖異常檢測技術(shù)的發(fā)展方向。
Hawkins定義傳統(tǒng)的異常檢測是尋找數(shù)據(jù)集中分布或形成機(jī)制顯著區(qū)別于正常模式的數(shù)據(jù)對象[7]。圖異常檢測[8]是利用圖數(shù)據(jù)結(jié)構(gòu)進(jìn)行問題建模,并基于相關(guān)的圖數(shù)據(jù)挖掘技術(shù),在圖中尋找顯著不同于其他圖對象的節(jié)點(diǎn)、邊或子結(jié)構(gòu)。
欺詐檢測問題可以轉(zhuǎn)換為異常檢測任務(wù)(anomaly detection,AD),相比傳統(tǒng)的異常檢測技術(shù),圖異常檢測在反欺詐領(lǐng)域呈現(xiàn)出巨大的優(yōu)勢,主要體現(xiàn)在以下幾個方面:
(1)欺詐領(lǐng)域中數(shù)據(jù)的相互依賴性
傳統(tǒng)的異常檢測技術(shù)將數(shù)據(jù)視為獨(dú)立存在于多維空間中的點(diǎn)。在實(shí)際問題中,尤其是在欺詐場景下,數(shù)據(jù)對象通常相互關(guān)聯(lián)并表現(xiàn)出依賴性。因此在進(jìn)行異常檢測過程時需要考慮相關(guān)性。圖數(shù)據(jù)結(jié)構(gòu)通過在相關(guān)對象之間引入連邊自然地表示相互依賴關(guān)系,為有效捕捉這種長期相關(guān)性提供了強(qiáng)大的范式。例如,在評論者-產(chǎn)品評論的圖數(shù)據(jù)中,評審者的欺詐程度不僅取決于其評論的對象和內(nèi)容,而且取決于其他評審者如何評價同一產(chǎn)品及其評價的可信度,而這又依賴他們評價的其他產(chǎn)品[9]。由于真實(shí)數(shù)據(jù)集中存在的相關(guān)性,在圖數(shù)據(jù)中檢測異常更為合理。
(2)欺詐領(lǐng)域的異常關(guān)系
欺詐現(xiàn)象的本質(zhì)可以表示為異常關(guān)系,通??紤]兩種情況:①基于關(guān)系傳播的機(jī)會主義欺詐(如果一個人存在欺詐行為,那么他的熟人有很大概率會進(jìn)行詐騙);②基于相關(guān)群體密切合作的有組織欺詐[10]。以上這兩種情況都指向異常關(guān)系的檢測。
(3)圖異常檢測模型的健壯性
隨著欺詐的日益專業(yè)化,欺詐者通常改變欺詐手法以逃避檢測,例如更改或偽造登錄時間和IP地址等行為線索。但是欺詐者無法操縱整個關(guān)聯(lián)網(wǎng)絡(luò),因此圖異常檢測被認(rèn)為是更健壯的對抗欺詐的方法。
圖數(shù)據(jù)結(jié)構(gòu)對關(guān)聯(lián)信息強(qiáng)大的表示能力以及圖計算和深度神經(jīng)網(wǎng)絡(luò)等相關(guān)技術(shù)的發(fā)展,使得圖異常檢測技術(shù)逐漸成為國內(nèi)外學(xué)者的研究熱點(diǎn)。Akoglu等人[11]將圖異常檢測技術(shù)分為基于結(jié)構(gòu)、基于社區(qū)、基于分解和基于窗口等類型,系統(tǒng)梳理了每類方法下的關(guān)鍵技術(shù),并討論了圖異常檢測技術(shù)在包括欺詐檢測在內(nèi)的真實(shí)場景下的應(yīng)用。Gupta等人[12]對時序網(wǎng)絡(luò)中的圖異常檢測技術(shù)進(jìn)行了總結(jié)和歸納,包括基于圖相似度、基于特征向量和基于社區(qū)這三類方法。Ranshous等人[13]全面概述了動態(tài)圖中的異常檢測技術(shù),將其劃分為基于社區(qū)、基于壓縮、基于分解、基于距離和基于概率分布五種類型,并對每類方法中的主流算法進(jìn)行對比分析。Savage等人[14]關(guān)注于在線社交網(wǎng)絡(luò)(online social network,OSN)中不同類型異常(如異常節(jié)點(diǎn)、邊緣或子圖)的檢測。他們將OSN中的異常檢測總結(jié)為兩個步驟:(1)網(wǎng)絡(luò)特征的選擇和計算;(2)基于該特征空間對觀測進(jìn)行分類。李忠等人[15]分別基于靜態(tài)圖和動態(tài)圖的視角,根據(jù)異常類型進(jìn)一步將靜態(tài)圖異常檢測劃分為孤立個體異常檢測和群體異常檢測兩類,動態(tài)圖異常檢測分為孤立個體異常檢測、群體異常檢測和事件異常檢測三類,并系統(tǒng)梳理了每類異常檢測的關(guān)鍵性技術(shù)。蘇紅軍等人[16]從技術(shù)層面將靜態(tài)圖異常檢測分為基于結(jié)構(gòu)、基于社區(qū)和基于關(guān)系學(xué)習(xí)三類,按照異常類型將動態(tài)圖異常檢測分為基于節(jié)點(diǎn)、基于邊、基于子圖和基于全圖四類。近年來,基于深度神經(jīng)網(wǎng)絡(luò)進(jìn)行圖異常檢測成為新近研究熱點(diǎn),陳波馮等人[17]從靜態(tài)圖和動態(tài)圖角度出發(fā),全面概括了基于深度神經(jīng)網(wǎng)絡(luò)的圖異常檢測的研究現(xiàn)狀,并總結(jié)了圖異常檢測的實(shí)際應(yīng)用場景和相關(guān)數(shù)據(jù)集。
表1系統(tǒng)梳理了現(xiàn)有的圖異常檢測綜述。盡管已有上述眾多的圖異常檢測綜述,但大多數(shù)文獻(xiàn)都基于技術(shù)角度,目前仍然缺少針對某一應(yīng)用領(lǐng)域的圖異常檢測研究進(jìn)展進(jìn)行系統(tǒng)深入的梳理和總結(jié)。以往的工作或從技術(shù)層面對所有的圖異常檢測算法進(jìn)行分類總結(jié),或集中于某一類型的網(wǎng)絡(luò)進(jìn)行歸納分析。本文聚焦于金融欺詐檢測領(lǐng)域,旨在對此應(yīng)用背景下的圖異常檢測算法研究進(jìn)展進(jìn)行系統(tǒng)的梳理和總結(jié),深入探討應(yīng)用GBAD進(jìn)行欺詐檢測的關(guān)鍵問題、技術(shù)方法和未來挑戰(zhàn)。
表1 圖異常檢測相關(guān)綜述Table 1 Overview of graph anomaly detections
基于圖的個體反欺詐可以抽象為給定網(wǎng)絡(luò)數(shù)據(jù),從中查找異常的節(jié)點(diǎn)或邊。面向個體的欺詐檢測又可以分為基于結(jié)構(gòu)特征的方法、基于鄰近性的方法、基于圖表示學(xué)習(xí)的方法以及基于社團(tuán)劃分的方法。
基于特征的圖異常檢測是指通過提取網(wǎng)絡(luò)結(jié)構(gòu)特征,并結(jié)合附加信息源提取的其他特征,在新構(gòu)造的特征空間中進(jìn)行異常檢測。
金融場景下,節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要程度與欺詐風(fēng)險通常呈現(xiàn)一定的正相關(guān)關(guān)系,如何識別網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)對于欺詐檢測具有重要的現(xiàn)實(shí)意義。常用的節(jié)點(diǎn)重要性評價指標(biāo)有中心性度量、PageRank值[21]和HITS[22]等。中心性度量又分為度中心性、加權(quán)度中心性、介數(shù)中心性[23]、接近中心性和特征向量中心性[24]。2015年,Drezewski等人[25]聚焦銀行金融交易,利用度中心性、介數(shù)中心性和PageRank值等特征表示網(wǎng)絡(luò)結(jié)構(gòu),識別用戶在交易網(wǎng)絡(luò)中的角色,揭示可疑的洗錢參與者。
除了上述節(jié)點(diǎn)重要性評價指標(biāo),基于EgoNet特征進(jìn)行圖異常檢測也是一種經(jīng)典方法。EgoNet[26]又稱自我中心網(wǎng)絡(luò),一個中心節(jié)點(diǎn)與其一跳范圍內(nèi)的鄰居節(jié)點(diǎn)以及所有節(jié)點(diǎn)之間的連邊構(gòu)成一個EgoNet,結(jié)構(gòu)如圖1所示。EgoNet是整體網(wǎng)絡(luò)結(jié)構(gòu)的一部分,給定某節(jié)點(diǎn)時采用廣度優(yōu)先搜索獲得,側(cè)重于研究單個節(jié)點(diǎn)的性質(zhì)。
Akoglu等人[27]于2010年首次提出基于EgoNet特征的異常檢測算法OddBall。通過觀測EgoNet的特征分布規(guī)律,識別不符合規(guī)律的EgoNet結(jié)構(gòu),相應(yīng)的中心節(jié)點(diǎn)視為異常節(jié)點(diǎn)。給定圖G(V,E,W),節(jié)點(diǎn)i∈V(G),節(jié)點(diǎn)i的EgoNet為gi(Vi,Ei,Wi),滿足:(1)Ei∝Ni,1≤α≤2;(2)Wi∝Eiβ,β≥1;(3)λω,i∝Wiγ,0.5≤γ≤1。其中λω,i為加權(quán)鄰接矩陣的主特征值,∝表示服從冪律分布。Wang等人[28]提出基于賬戶EgoNet特征挖掘網(wǎng)上銀行中的異常交易,通過構(gòu)建交易網(wǎng)絡(luò)將賬戶行為表示為圖結(jié)構(gòu)數(shù)據(jù),同時提取符合冪律分布的EgoNet特征,然后根據(jù)賬戶特征與相關(guān)冪律分布的“距離”計算其與特定模式的偏差,并將其定義為網(wǎng)銀用戶的異常分?jǐn)?shù),進(jìn)行欺詐的檢測與排序。算法使用的特征易于計算,可以用于大規(guī)模網(wǎng)絡(luò)欺詐檢測。
基于EgoNet特征的方法僅適用于服從冪律分布的加權(quán)網(wǎng)絡(luò),并且僅考慮節(jié)點(diǎn)的一階鄰域信息,無法捕捉更高階的關(guān)聯(lián)。GBKD-Forest[29]是一種基于網(wǎng)絡(luò)全局結(jié)構(gòu)的無監(jiān)督異常檢測方法。該方法首先從交易網(wǎng)絡(luò)中提取三種類型的結(jié)構(gòu)特征,包括出入度等基本特征、邊連接特征以及EgoNet特征,其中邊連接特征包括PageRank、HITS以及中心性度量;然后基于Bagging方法隨機(jī)抽樣特征建立KD樹森林以分離異常節(jié)點(diǎn)。GBKD-Forest基于機(jī)器學(xué)習(xí)技術(shù)集成多種類型的網(wǎng)絡(luò)結(jié)構(gòu)特征,有效提高了欺詐檢測的準(zhǔn)確性。
以上研究都是針對單個網(wǎng)絡(luò)進(jìn)行,現(xiàn)實(shí)世界中由于業(yè)務(wù)場景的復(fù)雜性,通常需要構(gòu)建多個交互網(wǎng)絡(luò)以提取更全面的信息。Colladon等人[30]認(rèn)為保理公司中洗錢行為的潛在風(fēng)險表現(xiàn)在三方面,即債務(wù)人的地理區(qū)域、經(jīng)濟(jì)部門以及金融交易金額,針對每種風(fēng)險因素的獨(dú)立網(wǎng)絡(luò)進(jìn)行特征表示,綜合評估個體的欺詐風(fēng)險。Mahootiha等人[31]根據(jù)洗錢的三階段模式,即資金放置、資金分層和資金整合,分別構(gòu)建獨(dú)立交易網(wǎng)絡(luò),并通過分析度中心性和中介中心性等網(wǎng)絡(luò)指標(biāo)揭示銀行金融交易中的欺詐行為。
表2系統(tǒng)梳理了圖結(jié)構(gòu)特征在欺詐檢測中的應(yīng)用?;谔卣鞯膱D異常檢測中,圖結(jié)構(gòu)的表征是關(guān)鍵,值得注意的是,不同的金融場景以及欺詐手段下,特征選擇各有差異,必須根據(jù)構(gòu)建網(wǎng)絡(luò)的實(shí)際含義慎重選擇。一方面是以圖結(jié)構(gòu)為中心的特征,包括二元組和EgoNet等;另一方面是以節(jié)點(diǎn)為中心的特征,包括節(jié)點(diǎn)度、中心性度量和邊權(quán)重等。此外,結(jié)合多種特征可以提高檢測準(zhǔn)確率。
表2 基于結(jié)構(gòu)特征的欺詐檢測Table 2 Fraud detection based on structural features
欺詐被認(rèn)為是一種社會現(xiàn)象,即欺詐者之間通常會存在某種關(guān)聯(lián),這在社會科學(xué)中被稱為同質(zhì)性。同質(zhì)性假設(shè)人們傾向于和在某些方面與自己相似的人交往。基于鄰近度的圖異常檢測利用網(wǎng)絡(luò)的結(jié)構(gòu)信息計算節(jié)點(diǎn)間的鄰近度,鄰近度高的節(jié)點(diǎn)被認(rèn)為是同一類(正?;蚱墼p)。
個性化PageRank[38]是節(jié)點(diǎn)鄰近度計算的經(jīng)典方法,是PageRank的擴(kuò)展。PageRank算法于1996年提出,是基于隨機(jī)游走衡量節(jié)點(diǎn)重要性的經(jīng)典算法。在圖上隨機(jī)地從一個節(jié)點(diǎn)跳到另一個節(jié)點(diǎn),即每一步的隨機(jī)游走將從當(dāng)前節(jié)點(diǎn)以相同概率訪問其鄰居節(jié)點(diǎn)。在一定條件下,每個節(jié)點(diǎn)被訪問的概率收斂于平穩(wěn)分布,平穩(wěn)概率即為節(jié)點(diǎn)的PageRank值,計算公式如式(1),概率越高節(jié)點(diǎn)越重要。
式中,d(0≤d≤1)稱為阻尼因子,L(v)表示節(jié)點(diǎn)v的出度。
在PageRank算法中,游走的起始節(jié)點(diǎn)是隨機(jī)選擇的,在個性化的PageRank算法中,從某個特定節(jié)點(diǎn)(種子節(jié)點(diǎn))開始游走,每到一個節(jié)點(diǎn)后,以d的概率繼續(xù)游走,或以1-d的概率返回種子節(jié)點(diǎn)并重新開始。各個節(jié)點(diǎn)的平穩(wěn)概率代表其與種子節(jié)點(diǎn)的相關(guān)程度。
Vlasselaer等人[39]通過改進(jìn)個性化PageRank算法,以適應(yīng)欺詐傳播場景:(1)加入時間衰減權(quán)重矩陣W代替鄰接矩陣M,以降低時間久遠(yuǎn)的欺詐節(jié)點(diǎn)的重要性。即隨著時間的推移,欺詐行為的傳播影響越小。權(quán)重公式為ωi,j=eγh,γ為衰減常數(shù),h為時間;(2)定義重啟向量vj,如果節(jié)點(diǎn)j發(fā)生欺詐行為,則vj=1,反之,vj=0。專家判定的欺詐者標(biāo)示為種子節(jié)點(diǎn),迭代運(yùn)行個性化PageRank算法,算法收斂時與種子節(jié)點(diǎn)相似的節(jié)點(diǎn)具有較高的PageRank值,面臨的欺詐風(fēng)險也更高。
He等人[40]提出的BiRank算法是PageRank算法在二部圖中的擴(kuò)展。óskarsdóttir等人[41]改進(jìn)了BiRank算法并應(yīng)用于車險欺詐檢測中。通過調(diào)整查詢向量,使其包含網(wǎng)絡(luò)中已知的欺詐性索賠知識,與已知欺詐行為聯(lián)系緊密的索賠獲得更高的BiRank值。
上述方法是從節(jié)點(diǎn)層面出發(fā),聚焦個體欺詐,通過度量與已知異常節(jié)點(diǎn)的鄰近性進(jìn)行欺詐檢測。Bershtein等人[42]聚焦反洗錢領(lǐng)域,基于子圖視角提出利用模糊子圖同構(gòu)估計交易子集與目標(biāo)洗錢模式的相似性以檢測洗錢行為。
綜上所述,基于鄰近性的圖異常檢測關(guān)鍵在于鄰近性的度量方法。節(jié)點(diǎn)間相似性度量有個性化PageRank、BiRank以及Jaccard鄰近性等。尋找相似子圖的方法主要包括圖模式匹配和模糊子圖同構(gòu)等,值得注意的是,這類方法只能識別與已知欺詐模式相似的欺詐行為,在識別未知欺詐類型方面存在著局限性。
進(jìn)行欺詐檢測等圖分析任務(wù)的一個關(guān)鍵問題是如何有效地表示圖中的特征信息,揭示隱藏的欺詐線索。圖表示學(xué)習(xí)是將圖數(shù)據(jù)映射到低維向量空間的有效技術(shù),它可以學(xué)習(xí)并表示網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)的屬性信息[43],進(jìn)而應(yīng)用到下游的欺詐檢測任務(wù)。圖表示學(xué)習(xí)方法可以分為三類,即矩陣分解、隨機(jī)游走和深度神經(jīng)網(wǎng)絡(luò)?;诰仃嚪纸獾姆椒ㄒ跃仃嚨男问奖硎竟?jié)點(diǎn)之間的連接,并以此矩陣進(jìn)行分解以獲得節(jié)點(diǎn)的嵌入向量。如LLE(locally linear embedding)算法[44]假設(shè)每個節(jié)點(diǎn)的嵌入表示都是在其嵌入空間中鄰居節(jié)點(diǎn)的嵌入向量的線性組合。LE(Laplacian eigenmaps)算法[45]在LLE算法的基礎(chǔ)上考慮了節(jié)點(diǎn)之間的權(quán)重?;陔S機(jī)游走的圖表示學(xué)習(xí)方法通過圖上的采樣路徑學(xué)習(xí)鄰域結(jié)構(gòu),例如DeepWalk[46]通過隨機(jī)游走獲得節(jié)點(diǎn)序列,Node2vec[47]采用帶有偏向的隨機(jī)游走學(xué)習(xí)圖中節(jié)點(diǎn)的嵌入表示?;谏疃壬窠?jīng)網(wǎng)絡(luò)的圖表示學(xué)習(xí)可以捕捉數(shù)據(jù)間的非線性關(guān)系,以獲得更好的節(jié)點(diǎn)表示。
對于標(biāo)記數(shù)據(jù),基于圖表示學(xué)習(xí)的反欺詐算法大多是基于混合模型,使用DeepWalk、Node2Vec以及LINE(large information network embedding)[48]等圖嵌入模型獲得節(jié)點(diǎn)的嵌入表示,然后在低維度的特征數(shù)據(jù)集中執(zhí)行傳統(tǒng)的分類方法以進(jìn)行欺詐檢測。
DeepWalk通過隨機(jī)游走的方式獲取節(jié)點(diǎn)序列,然后將這些節(jié)點(diǎn)序列作為訓(xùn)練樣本輸入到Skip-gram模型進(jìn)行訓(xùn)練,進(jìn)而得到節(jié)點(diǎn)的嵌入表達(dá)。2016年斯坦福大學(xué)提出的Node2vec改進(jìn)了DeepWalk中節(jié)點(diǎn)序列的生成方式,即通過調(diào)整隨機(jī)游走權(quán)重的方法使圖嵌入的結(jié)果在網(wǎng)絡(luò)的同質(zhì)性和結(jié)構(gòu)性之間平衡,從而提升網(wǎng)絡(luò)嵌入的效果。其中,結(jié)構(gòu)等價性主要用于表征節(jié)點(diǎn)之間結(jié)構(gòu)的相似性,即相同結(jié)構(gòu)的節(jié)點(diǎn)嵌入表達(dá)應(yīng)該是相似的;同質(zhì)等價性則以距離作為節(jié)點(diǎn)相似性的度量,這在異常欺詐檢測中具有重要的現(xiàn)實(shí)意義?;诖?,Zhou等人[49]提出基于Node2vec的互聯(lián)網(wǎng)金融欺詐檢測方法,首先利用Node2vec學(xué)習(xí)金融網(wǎng)絡(luò)中每個節(jié)點(diǎn)的拓?fù)涮卣鞅硎緸榈途S稠密向量,然后將其輸入基于深度神經(jīng)網(wǎng)絡(luò)的分類模型,每個節(jié)點(diǎn)用戶的預(yù)測結(jié)果都是0到1之間的浮點(diǎn)數(shù),它表示數(shù)據(jù)樣本是欺詐性數(shù)據(jù)的概率。該方法使用Spark分布式計算框架以提高海量數(shù)據(jù)的處理能力,它是當(dāng)前很多工業(yè)產(chǎn)品的主流做法。
Node2vec是一種直推式的圖表示學(xué)習(xí)算法,即需要對網(wǎng)絡(luò)中的所有節(jié)點(diǎn)進(jìn)行訓(xùn)練,嵌入不能泛化到尚未出現(xiàn)的節(jié)點(diǎn)。在網(wǎng)絡(luò)中添加或刪除節(jié)點(diǎn)或邊緣,需要重新迭代整個訓(xùn)練過程。而金融交易具有動態(tài)性,為避免對不斷更新的網(wǎng)絡(luò)重復(fù)訓(xùn)練造成的時間損耗,Belle等人[50]提出基于GraphSAGE算法[51]進(jìn)行節(jié)點(diǎn)嵌入表示的欺詐檢測框架。GraphSAGE是一種歸納式的節(jié)點(diǎn)嵌入算法,其核心思想是通過學(xué)習(xí)一個函數(shù)實(shí)現(xiàn)對圖數(shù)據(jù)結(jié)構(gòu)的歸納表示學(xué)習(xí),該函數(shù)通過對節(jié)點(diǎn)局部鄰域的特征進(jìn)行采樣和聚合來生成嵌入,可以泛化到未知節(jié)點(diǎn)。Node2vec等直推式算法直接獲取節(jié)點(diǎn)的嵌入表達(dá),而GraphSAGE算法的輸出結(jié)果是生成節(jié)點(diǎn)嵌入向量的映射,可擴(kuò)展性更強(qiáng)。GraphSAGE為應(yīng)用鄰居節(jié)點(diǎn)屬性的特性聚合提供了一系列可能性,在此欺詐背景下,maxpool和meanpool鄰域特征聚合器提供了最好的結(jié)果。
在金融欺詐檢測中,欺詐樣本的數(shù)量遠(yuǎn)遠(yuǎn)小于正常樣本,存在嚴(yán)重的類不平衡問題,然而基于圖神經(jīng)網(wǎng)絡(luò)的算法在節(jié)點(diǎn)標(biāo)簽分布嚴(yán)重偏斜的情況下往往表現(xiàn)不佳。DR-GCN[52]是解決圖類不平衡問題的先行者。該方法提出了類條件對抗正則化和潛在分布對齊正則化,但不能擴(kuò)展到大型圖。Liu等人[53]提出基于GNN的不平衡監(jiān)督學(xué)習(xí)算法PG-GNN,算法框架如圖2所示。PG-GNN的改進(jìn)體現(xiàn)在兩方面:首先,利用標(biāo)簽平衡采樣器選擇節(jié)點(diǎn)和邊,分配給每個節(jié)點(diǎn)的概率與它的標(biāo)簽頻率成反比,構(gòu)造平衡子圖用于小批量訓(xùn)練;其次,在參數(shù)化的距離函數(shù)下,進(jìn)一步設(shè)計鄰域采樣器,對欺詐樣本的鄰域進(jìn)行過采樣,對正常樣本的鄰域進(jìn)行欠采樣。
以上工作都是采用有監(jiān)督方法,而在金融欺詐檢測場景下,由于標(biāo)簽數(shù)據(jù)難以獲得,通常采用無監(jiān)督學(xué)習(xí)的方法來檢測異常。目前大多方法采用殘差分析的思想,以原始數(shù)據(jù)與估計數(shù)據(jù)的差距(即重構(gòu)誤差)作為衡量實(shí)例異常的指標(biāo),具有較大重構(gòu)誤差的數(shù)據(jù)實(shí)例異常的可能性更高。
Bandyopadhyay等人[54]提出基于矩陣分解重構(gòu)節(jié)點(diǎn),給定圖結(jié)構(gòu)G,每個節(jié)點(diǎn)vi用鄰接矩陣A的第i行表示,即Ai,為保持節(jié)點(diǎn)在低維空間中嵌入的同質(zhì)性,通過最小化得到H作為節(jié)點(diǎn)的嵌入表示,并利用節(jié)點(diǎn)重構(gòu)前后的殘差,為每個節(jié)點(diǎn)引入結(jié)構(gòu)異常分?jǐn)?shù)O1i,殘差值越大表示節(jié)點(diǎn)欺詐的可能性越大。在屬性異常上,采用同樣的方法,每個節(jié)點(diǎn)vi的特征用特征矩陣C的第i行表示,通過最小化得到節(jié)點(diǎn)的嵌入表示,并為每個節(jié)點(diǎn)引入屬性異常分?jǐn)?shù)O2i,結(jié)合O1i和O2i得到節(jié)點(diǎn)的欺詐概率。
Bandyopadhyay等人[55]在文獻(xiàn)[54]的基礎(chǔ)上進(jìn)行改進(jìn),提出DONE和AdONE算法。該模型在節(jié)點(diǎn)嵌入表示部分替換了文獻(xiàn)[54]中的矩陣分解方法,采用深度自編碼器獲取結(jié)構(gòu)和屬性上的重構(gòu)損失,用于捕捉節(jié)點(diǎn)間的非線性關(guān)系,同樣利用損失函數(shù)引入結(jié)構(gòu)上的異常分?jǐn)?shù)O1和屬性上的異常分?jǐn)?shù)O2。
上述兩種方法將節(jié)點(diǎn)的結(jié)構(gòu)和屬性信息分開考慮,忽略了兩者之間的交互信息,圖神經(jīng)網(wǎng)絡(luò)可以同時編碼節(jié)點(diǎn)的結(jié)構(gòu)信息和屬性信息,將兩者結(jié)合起來考慮,可以捕捉到節(jié)點(diǎn)更好的表示。如圖3所示,Dominant[56]利用圖卷積網(wǎng)絡(luò)作為編碼函數(shù),將輸入的屬性網(wǎng)絡(luò)壓縮為簡潔的低維嵌入表示;然后利用相應(yīng)的解碼器函數(shù)重構(gòu)節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)和屬性信息,基于重構(gòu)誤差獲取節(jié)點(diǎn)的欺詐分?jǐn)?shù)。利用GCN可以有效地捕捉節(jié)點(diǎn)結(jié)構(gòu)和屬性間的交互信息,提高了欺詐檢測的性能。
綜上所述,圖嵌入是一種將圖中的節(jié)點(diǎn)從高維稀疏向量映射到低維稠密向量的有效技術(shù),它學(xué)習(xí)并表示網(wǎng)絡(luò)圖中節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)和屬性信息。與傳統(tǒng)的圖數(shù)據(jù)挖掘方法相比,在反欺詐業(yè)務(wù)場景中應(yīng)用圖嵌入算法,可以獲得全局視角,更清晰地洞察不同實(shí)體之間的潛在關(guān)聯(lián)。此外,基于圖嵌入將原始圖轉(zhuǎn)化為稠密向量后運(yùn)算效率顯著提升。
不同社團(tuán)間的橋接節(jié)點(diǎn)或橋接邊可能預(yù)示著某種欺詐行為。在信貸場景下,一個節(jié)點(diǎn)連接多個社團(tuán)且社團(tuán)內(nèi)人群多數(shù)信貸不良,那么這個節(jié)點(diǎn)很大可能是黑產(chǎn)中介。黑中介利用互聯(lián)網(wǎng)金融平臺采用大數(shù)據(jù)線上審核的業(yè)務(wù)特點(diǎn),通過不斷地挖掘平臺風(fēng)控規(guī)則的漏洞或弱點(diǎn),進(jìn)行信息包裝、信息偽造以及遠(yuǎn)程助貸等欺詐操作,具體包括偽造證件信息、提供銀行卡資源以及欺詐手機(jī)號等。例如,貸款客戶通常共享信息或設(shè)備形成社團(tuán),連接這些社團(tuán)的關(guān)鍵節(jié)點(diǎn)則可以視為黑產(chǎn)中介。
基于社團(tuán)劃分的欺詐節(jié)點(diǎn)識別依賴于在圖中找到密集連接的“近”節(jié)點(diǎn)組,并點(diǎn)出跨社團(tuán)連接的節(jié)點(diǎn)或邊。在某些場景下,欺詐可以定義為不直接屬于某個特定社團(tuán)的“橋”節(jié)點(diǎn)或邊。
Sun等人[57]主要解決了兩個問題:(P1)如何找到給定節(jié)點(diǎn)的社團(tuán)/鄰域;(P2)如何找到橋接節(jié)點(diǎn)。針對P1,作者基于Personal PageRank的思路,從目標(biāo)節(jié)點(diǎn)出發(fā)進(jìn)行隨機(jī)游走,計算節(jié)點(diǎn)間的可達(dá)概率,以衡量節(jié)點(diǎn)間的相似性,其中具有高PPR評分的節(jié)點(diǎn)構(gòu)成目標(biāo)節(jié)點(diǎn)的一個鄰域。對于P2,計算目標(biāo)節(jié)點(diǎn)的所有鄰居節(jié)點(diǎn)的成對PPR得分并取平均作為“正?!钡梅?,當(dāng)該分?jǐn)?shù)比較低時說明節(jié)點(diǎn)的鄰居節(jié)點(diǎn)位于不同社團(tuán),可視為欺詐節(jié)點(diǎn)。
上述方法將橋接節(jié)點(diǎn)的識別劃分為兩步,首先基于節(jié)點(diǎn)的相似性進(jìn)行社團(tuán)劃分,然后查找社團(tuán)間的橋接節(jié)點(diǎn)或橋接邊。Xu等人[58]提出一種圖聚類算法SCAN。該算法在進(jìn)行網(wǎng)絡(luò)聚類的同時,挖掘網(wǎng)絡(luò)中的橋接節(jié)點(diǎn)和離群點(diǎn),即橋接節(jié)點(diǎn)是圖聚類的副產(chǎn)品。傳統(tǒng)的圖聚類算法通常以最大化社團(tuán)內(nèi)部邊數(shù)為目標(biāo),而SCAN算法使用節(jié)點(diǎn)的鄰域?yàn)榫垲悩?biāo)準(zhǔn),共享更多鄰居的節(jié)點(diǎn)被劃分到同一集群,從而可以有效區(qū)分網(wǎng)絡(luò)中節(jié)點(diǎn)的角色,如組內(nèi)節(jié)點(diǎn)、橋接節(jié)點(diǎn)和離群節(jié)點(diǎn)。
橋接節(jié)點(diǎn)的識別還可以使用矩陣分解的方法。矩陣分解已被廣泛用于解決從降維[59-60]到圖聚類[61-62]等問題。Tong等人[63]從鄰接矩陣角度出發(fā),提出基于非負(fù)殘差矩陣分解的圖欺詐檢測方法NrMF。對于一個圖G的鄰接矩陣A,若其相似矩陣A~的秩為r,則其對應(yīng)的殘差矩陣為R=A-A~,對A進(jìn)行矩陣分解可表示為A=A~+R=FG+R,其中矩陣F和G是秩為r的分解矩陣,R是殘差矩陣。F和G反映網(wǎng)絡(luò)的群體結(jié)構(gòu)信息,殘差矩陣則對應(yīng)著異常節(jié)點(diǎn),同時對殘差矩陣R施加非負(fù)性約束以增強(qiáng)對異常節(jié)點(diǎn)的可解釋性。實(shí)驗(yàn)表明NrMF算法的準(zhǔn)確率可以達(dá)到0.95左右。
基于圖的個體欺詐檢測方法可以分為基于特征的欺詐檢測、基于鄰近性的欺詐檢測、基于圖表示學(xué)習(xí)的欺詐檢測以及基于社團(tuán)劃分的欺詐檢測。
早期的個體欺詐檢測方法主要從圖的特征提取出發(fā),在新構(gòu)造的特征空間中進(jìn)行異常檢測,包括基于結(jié)構(gòu)特征的方法和基于鄰近性的方法。前者利用提取的圖結(jié)構(gòu)特征表征正常行為模式,顯著偏離正常模式的被視為可疑個體。后者利用網(wǎng)絡(luò)的結(jié)構(gòu)信息量化節(jié)點(diǎn)間的鄰近度,鄰近度高的節(jié)點(diǎn)被認(rèn)為是同一類(正?;蚱墼p)?;谔卣鞯膱D異常檢測中,圖結(jié)構(gòu)的表征是關(guān)鍵,值得注意的是,不同的金融場景以及欺詐手段下,特征選擇各有差異,需要專家根據(jù)業(yè)務(wù)場景和已知的欺詐活動慎重設(shè)計。因此,該方法的性能高度依賴于人類專家的干預(yù),可擴(kuò)展性差;并且圖特征僅考慮網(wǎng)絡(luò)的淺層拓?fù)浣Y(jié)構(gòu),無法捕捉節(jié)點(diǎn)間的非線性關(guān)系。
圖表示學(xué)習(xí)是將圖數(shù)據(jù)映射到低維向量空間的有效技術(shù),它可以捕捉節(jié)點(diǎn)間的非線性關(guān)系以獲得更有效的潛在表示,支持下游的欺詐檢測任務(wù),能夠很好地解決傳統(tǒng)圖特征方法可擴(kuò)展性差的問題?,F(xiàn)有的圖表示學(xué)習(xí)多基于深度學(xué)習(xí),導(dǎo)致該類方法的可解釋性較差,將其運(yùn)用在欺詐檢測上往往使得檢測結(jié)果難以直觀理解。目前,對基于圖表示學(xué)習(xí)方法的可解釋性仍是學(xué)術(shù)界的研究難點(diǎn)和熱點(diǎn)。
基于社團(tuán)劃分的方法旨在挖掘復(fù)雜網(wǎng)絡(luò)中一類特殊的欺詐節(jié)點(diǎn)——橋接節(jié)點(diǎn),橋接節(jié)點(diǎn)不直接屬于某一社團(tuán),在不同社團(tuán)之間起著橋梁作用,例如信貸欺詐中的黑產(chǎn)中介。值得注意的是,這類方法應(yīng)用的前提是網(wǎng)絡(luò)中連接多個社團(tuán)的橋接節(jié)點(diǎn)是欺詐節(jié)點(diǎn),因此在網(wǎng)絡(luò)構(gòu)建時,應(yīng)結(jié)合實(shí)際欺詐場景定義節(jié)點(diǎn)和邊,使其滿足這個前提。
相較于個人欺詐,團(tuán)伙欺詐的波及范圍更廣,社會危害性也更高,呈現(xiàn)“智能化、產(chǎn)業(yè)化、攻擊迅速隱蔽、內(nèi)外勾結(jié)比例上升和移動端高發(fā)”五大特征,例如,在信貸領(lǐng)域,黑中介和黑產(chǎn)出現(xiàn)深度融合的態(tài)勢,開始以團(tuán)伙形式開展線上貸款申請審批業(yè)務(wù),騙取大量資金。檢測這種虛假的用戶社區(qū)(也稱為組或集群)已經(jīng)成為一個關(guān)鍵的焦點(diǎn)。
網(wǎng)絡(luò)中的稠密子圖往往表明異常或欺詐行為。以消費(fèi)金融套現(xiàn)為例,用戶與商戶勾結(jié)采取分期付款的形式進(jìn)行虛假交易,以騙取貸款機(jī)構(gòu)的貸款。這種行為模式致使欺詐用戶節(jié)點(diǎn)和欺詐商戶節(jié)點(diǎn)之間呈現(xiàn)異常的連接分布,在網(wǎng)絡(luò)中呈現(xiàn)出一張致密的雙邊連接子圖。文獻(xiàn)定義這種大量同步的非正常關(guān)聯(lián)行為模式為LockStep[64],即二部圖中的雙邊聚集行為?;诔砻茏訄D進(jìn)行欺詐檢測的一般思路是:首先定義稠密度量指標(biāo),并采用搜索策略進(jìn)行度量指標(biāo)優(yōu)化,從而來檢測大圖中的稠密子圖結(jié)構(gòu),最終識別出欺詐用戶群體。
傳統(tǒng)的稠密子圖挖掘算法一般使用子圖平均度作為稠密度量指標(biāo),Charikar[65]提出使用平均度定義子圖的密度,對于一個無向圖G(V,E),其中S?V,定義E(S)={i,j∈E:i∈S,j∈S},定義子圖的密度為f(S)=||E(S)/|S|,即子圖中邊的個數(shù)與點(diǎn)的個數(shù)的比值,2f(S)是集合S的平均度,稠密子圖的問題則轉(zhuǎn)化為計算f(S)最大值的問題。求解該f(S)的問題是一個線性規(guī)劃問題,Charikar給出了求解問題的精確算法。為了降低算法的復(fù)雜度,Charikar提出了一種近似比為2的近似算法。
在二部圖欺詐中,欺詐用戶往往通過與目標(biāo)節(jié)點(diǎn)(正常)建立聯(lián)系以偽裝自己,上述利用子圖平均度作為可疑度度量存在一定的偏差,使檢測出的結(jié)果包含大量的正常用戶,準(zhǔn)確度降低。針對這一問題,Hooi等人[66]提出Fraudar算法:(1)采用列節(jié)點(diǎn)入度降權(quán)定義邊可疑度cij=1/ln(dj+c),其中dj表示列節(jié)點(diǎn)的入度,以降低用戶與熱門目標(biāo)節(jié)點(diǎn)聯(lián)系產(chǎn)生的邊可疑度,從而對抗偽裝;(2)設(shè)計基于優(yōu)先樹的貪心算法快速定位最大可疑度子圖,算法的時間復(fù)雜度與大圖的邊數(shù)近似地呈線性關(guān)系,具有應(yīng)用于大規(guī)模數(shù)據(jù)分析的能力。
Frauder算法的每次迭代只能輸出一個最大可疑子圖,并且可疑子圖中的所有節(jié)點(diǎn)都被標(biāo)記為欺詐節(jié)點(diǎn),增加了后續(xù)人工排查的任務(wù)量?;诖?,Ren等人提出EnsemFDet算法[67],進(jìn)一步提升算法的精確度和運(yùn)行效率:(1)對二部圖采用單邊節(jié)點(diǎn)采樣將原始圖分解為更小尺寸的子圖,并采用集成框架聚合子問題的輸出,采取多數(shù)投票原則,可以降低次優(yōu)解的總體風(fēng)險,從而提高預(yù)測精度;(2)部署FDET方法來檢測欺詐者,能夠更有效地搜索前k個欺詐子圖;(3)EnsemFDet可以在采樣圖中并行計算欺詐檢測,從而加快檢測過程;(4)在某商城的真實(shí)交易數(shù)據(jù)上進(jìn)行大量的實(shí)驗(yàn),驗(yàn)證了EnsemFDet算法的有效性、實(shí)用性和可擴(kuò)展性。
近年來,有研究者將稠密子圖檢測擴(kuò)展到張量中,可以支持從更高的數(shù)據(jù)維度進(jìn)行問題建模,提升欺詐檢測的準(zhǔn)確性。如圖4所示,在商鋪欺詐評論檢測中,欺詐用戶群體在產(chǎn)生欺詐評論時往往存在時間上的聚集性,在建模時增加時間維度的信息,即構(gòu)建用戶、商鋪和時間三個維度的三階張量,能夠從更高的信息維度辨別真實(shí)的欺詐用戶群體,提升算法的準(zhǔn)確性。
2015年,Jiang等人[68]提出了CrossSpot算法。該算法給出子張量的可疑度度量,并從一個可疑種子塊開始,對每個屬性逐一進(jìn)行迭代優(yōu)化。
以往的算法只基于一種密度度量,導(dǎo)致其只能檢測出特定的欺詐類型?;诖耍琒hin等人[69]提出一種靈活可調(diào)整的稠密子張量檢測框架,支持但不限于算數(shù)平均密度、幾何平均密度以及可疑度等密度度量指標(biāo)。事實(shí)上,M-Zoom支持所有滿足式(2)的密度度量指標(biāo):
其中,M表示稠密度,B、B′表示塊,R表示關(guān)系。如果具有相同關(guān)系的兩個塊對于每個維度屬性具有相同的基數(shù),則具有較高或相等質(zhì)量的塊至少與另一個塊一樣密集。在尋優(yōu)階段,與CrossSpot算法相比,M-Zoom從整個張量出發(fā)采取貪心算法逐個移除屬性值,有效提升了算法的運(yùn)行速度,并給出近似邊界。
現(xiàn)有的稠密子張量檢測方法只適用于存儲在內(nèi)存中的小數(shù)據(jù)集,事實(shí)上,現(xiàn)實(shí)中的大規(guī)模數(shù)據(jù)集,如社交媒體和網(wǎng)絡(luò),通常被存儲在磁盤上?;诖?,Shin等人提出D-Cube[70],一種基于磁盤的稠密子張量檢測算法。該算法以最小化磁盤IO為目標(biāo)進(jìn)行優(yōu)化,并支持Hadoop的MapReduce框架進(jìn)行分布式運(yùn)算。
由第3.2節(jié)可知,欺詐可以視為二部圖中的雙邊聚集行為,相應(yīng)的欺詐檢測可以看作可疑稠密子圖挖掘問題。以往基于結(jié)構(gòu)信息的方法多通過設(shè)計各種密度度量、最大化算術(shù)度或幾何度[71]等方式檢測稠密子圖,但這些方法僅考慮網(wǎng)絡(luò)的淺層拓?fù)浣Y(jié)構(gòu),無法捕捉節(jié)點(diǎn)間的非線性關(guān)系?;诖?,有學(xué)者提出基于深層網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行團(tuán)伙欺詐檢測。該方法的一般思路是首先對網(wǎng)絡(luò)進(jìn)行降維處理,通過深度網(wǎng)絡(luò)嵌入學(xué)習(xí)節(jié)點(diǎn)的潛在表示,將網(wǎng)絡(luò)結(jié)構(gòu)信息編碼在一個連續(xù)的向量空間中,然后利用聚類算法在潛在空間中找到高密度區(qū)域。降維處理與欺詐檢測不是獨(dú)立進(jìn)行的,而是相互結(jié)合使用。
2018年,Wang等人[72]提出深度結(jié)構(gòu)學(xué)習(xí)模型DeepFD,用于挖掘網(wǎng)絡(luò)中的欺詐群體。DeepFD算法通過深度自編碼器將所有的用戶節(jié)點(diǎn)嵌入到一個潛在空間中,目標(biāo)是使同一欺詐塊中可疑用戶的向量表示盡可能接近,而正常用戶的表示則均勻分布在剩余的潛在空間中,從而使基于密度的檢測方法能夠準(zhǔn)確地檢測出欺詐塊。DeepFD的深度結(jié)構(gòu)學(xué)習(xí)框架如圖5所示,該框架主要由兩部分組成:第一個組件的目的是通過用戶節(jié)點(diǎn)的向量表示來重構(gòu)原始圖結(jié)構(gòu);第二個組件捕捉不同用戶節(jié)點(diǎn)之間的行為差異,即如果兩個用戶節(jié)點(diǎn)共享大量的商品節(jié)點(diǎn),那么它們往往具有較大的相似性度量。通過對兩個構(gòu)件進(jìn)行聯(lián)合優(yōu)化,嵌入結(jié)果能夠同時保留全局圖結(jié)構(gòu)信息和用戶行為特征。實(shí)驗(yàn)結(jié)果表明,DeepFD的F分?jǐn)?shù)較M-Zoom和D-Cube等基線模型提升10%左右。
與DeepFD算法僅嵌入用戶節(jié)點(diǎn)不同,F(xiàn)raudNE[73]將用戶和項目兩種類型的節(jié)點(diǎn)編碼到一個共享的潛在空間中,使欺詐用戶和項目盡可能緊密地嵌入到同一個密集塊中,而正常的用戶和項目則均勻地分布在低維潛在空間中。如圖6所示,文獻(xiàn)提出的框架包括兩個自動編碼器,分別處理網(wǎng)絡(luò)中的源節(jié)點(diǎn)和匯聚節(jié)點(diǎn),這兩部分可以具有不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、參數(shù)和非線性激活函數(shù),以解決二部圖的表示問題。
基于圖的團(tuán)伙反欺詐旨在挖掘由異?;顒訉?dǎo)致的具有不尋常結(jié)構(gòu)的特定子圖,這些子結(jié)構(gòu)通常顯著偏離正常模式,如稠密子圖、稠密子張量、頻繁子圖或其他特定的連接模式。不尋常子圖的定義通常與欺詐檢測問題高度相關(guān),包括基于稠密子圖的欺詐檢測、基于稠密子張量的欺詐檢測、基于深層網(wǎng)絡(luò)結(jié)構(gòu)的欺詐檢測以及基于頻繁子圖的欺詐檢測。
網(wǎng)絡(luò)中聯(lián)系緊密的子圖往往表明異?;蚱墼p行為,可以通過稠密子圖或稠密子張量挖掘進(jìn)行有效檢測,兩者的基本思想相似:首先定義稠密度指標(biāo),然后采用搜索策略進(jìn)行度量指標(biāo)優(yōu)化以識別欺詐用戶群體,其關(guān)鍵在于稠密度的定義。前者基于二維網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行研究,往往造成數(shù)據(jù)的缺失。而稠密子張量的方法使用多模數(shù)據(jù)對網(wǎng)絡(luò)進(jìn)行建模,支持從更高的數(shù)據(jù)維度進(jìn)行用戶行為分析,有效提升欺詐檢測的準(zhǔn)確性。不足的是,此類方法通過設(shè)計各種密度度量進(jìn)行稠密子圖(子張量)挖掘,僅考慮網(wǎng)絡(luò)的淺層拓?fù)浣Y(jié)構(gòu),無法捕捉節(jié)點(diǎn)間的非線性關(guān)系。
基于深層網(wǎng)絡(luò)結(jié)構(gòu)的欺詐檢測通過深度網(wǎng)絡(luò)嵌入學(xué)習(xí)節(jié)點(diǎn)的潛在表示,將網(wǎng)絡(luò)結(jié)構(gòu)信息編碼在一個連續(xù)的向量空間中,然后利用聚類算法在潛在空間中找到高密度區(qū)域。此方法通過圖嵌入對原始網(wǎng)絡(luò)進(jìn)行降維處理,可以拓展到大規(guī)模復(fù)雜網(wǎng)絡(luò)的欺詐檢測,有效解決傳統(tǒng)檢測算法帶來的維數(shù)災(zāi)難。
4.1.1 公開數(shù)據(jù)集
關(guān)于欺詐檢測的研究大多使用真實(shí)世界的數(shù)據(jù)作為測試平臺[74-75]。目前金融領(lǐng)域可用于圖異常檢測的常用公開數(shù)據(jù)集如表3所示,涵蓋通信、信貸欺詐、車險欺詐以及醫(yī)療保險欺詐等不同領(lǐng)域。其中,在線社交網(wǎng)絡(luò)(OSN)領(lǐng)域的公開數(shù)據(jù)集較多,而涉及個人隱私信息(如銀行和保險等領(lǐng)域)的數(shù)據(jù)集匱乏。
表3 公開數(shù)據(jù)集Table 3 Public datasets
4.1.2 合成數(shù)據(jù)集
欺詐檢測是一個高度敏感的話題,出于隱私考慮,組織和利益相關(guān)者不愿意分享他們的欺詐檢測信息,阻礙了研究的進(jìn)展以及實(shí)驗(yàn)的可重復(fù)性。一種可能的解決方案是考慮使用合成數(shù)據(jù)集。首先使用圖生成器創(chuàng)建盡可能逼近真實(shí)場景的網(wǎng)絡(luò),如優(yōu)先連接網(wǎng)絡(luò)、隨機(jī)網(wǎng)絡(luò)、冪律網(wǎng)絡(luò)和互聯(lián)網(wǎng)拓?fù)浣Y(jié)構(gòu)等;然后人為地注入異常信息。目前異常注入的方法[75]主要有三種:(1)擾動原有數(shù)據(jù),即對原本正常的網(wǎng)絡(luò)進(jìn)行人為的調(diào)整,使其呈現(xiàn)異常狀態(tài),如隨機(jī)重新連接邊緣或交換節(jié)點(diǎn)屬性;(2)插入欺詐信息,即對原有的圖數(shù)據(jù)進(jìn)行擴(kuò)展,插入異常節(jié)點(diǎn)和連邊等;(3)對于標(biāo)簽數(shù)據(jù),可將對應(yīng)標(biāo)簽數(shù)目出現(xiàn)次數(shù)較少的節(jié)點(diǎn)視為異常。合成數(shù)據(jù)集提供了一個通用的基準(zhǔn),允許多組研究人員在同一數(shù)據(jù)集上評估提出的算法性能。然而,許多在合成網(wǎng)絡(luò)上表現(xiàn)良好的算法在實(shí)際應(yīng)用中可能表現(xiàn)不佳,因?yàn)閷?shí)際數(shù)據(jù)往往很混亂,具有孤立節(jié)點(diǎn)、奇異度分布和不平衡類分布。合成數(shù)據(jù)集在拓?fù)浣Y(jié)構(gòu)、節(jié)點(diǎn)屬性、邊屬性、社區(qū)結(jié)構(gòu)、數(shù)據(jù)分布和相關(guān)性等方面如何設(shè)計,使其盡可能接近欺詐檢測算法實(shí)際處理的網(wǎng)絡(luò)類型仍是未來的一大挑戰(zhàn)。
基于圖的欺詐檢測可視為二分類問題,可利用二分類算法的評估方法說明算法的性能。
在有足夠的標(biāo)記數(shù)據(jù)時,通?;赗OC或PR曲線的經(jīng)典標(biāo)準(zhǔn)評估算法性能。ROC曲線以FPR(false positive rate)為x軸,TPR(true positive rate)為y軸,其中FPR指實(shí)際負(fù)樣本中被錯誤預(yù)測為正樣本的概率,TPR指實(shí)際正樣本中被預(yù)測正確的概率。PR曲線以Recall為x軸,Precision為y軸,Recall與TPR含義相同,而Precision指正確分類的正樣本數(shù)占總正樣本的比例。相比于ROC曲線,PR曲線更加關(guān)注正樣本(欺詐樣本),對欺詐檢測模型有更好的評估效果。
對于無標(biāo)簽數(shù)據(jù)集,Goix[76]提出基于過剩質(zhì)量(EM)和質(zhì)量體積(MV)曲線以評估異常檢測方法的性能,但目前這兩種方法還沒有應(yīng)用到圖欺詐檢測中。
基于圖異常檢測進(jìn)行反欺詐一直是學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。在數(shù)字化金融服務(wù)迅速發(fā)展和網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大的情況下,欺詐檢測算法需要高效率且可擴(kuò)展。近年來,新技術(shù)的發(fā)展為圖欺詐檢測提供了理論基礎(chǔ),如張量分解、網(wǎng)絡(luò)嵌入以及圖神經(jīng)網(wǎng)絡(luò)等。方法的選擇取決于欺詐檢測的實(shí)際需求,最終達(dá)到的效果也各有差異。本文對反欺詐中廣泛應(yīng)用的圖異常檢測技術(shù)進(jìn)行總結(jié),并對未來研究的發(fā)展方向進(jìn)行總結(jié)。
不同的復(fù)雜網(wǎng)絡(luò)的欺詐定義和檢測方法不同,應(yīng)根據(jù)復(fù)雜網(wǎng)絡(luò)的具體應(yīng)用場景以及側(cè)重的特征選擇合適的異常檢測方法。欺詐檢測方法的分類匯總?cè)绫?。
表4 欺詐檢測方法分類匯總Table 4 Classification summary of fraud detection methods
目前,雖然社會網(wǎng)絡(luò)分析方法在反洗錢、醫(yī)療保險欺詐檢測以及車險欺詐檢測等領(lǐng)域已初見成效,但面對不斷發(fā)展的數(shù)據(jù)變化和實(shí)際需求,仍需進(jìn)一步的發(fā)展與創(chuàng)新,主要有以下方向:
(1)海量數(shù)據(jù)的計算及時性
絕大部分的金融欺詐檢測方案是在事務(wù)處理系統(tǒng)中實(shí)施的,這種復(fù)雜系統(tǒng)能夠?qū)崟r處理海量事務(wù)數(shù)據(jù),通常要求毫秒范圍的響應(yīng)時間。以交易系統(tǒng)為例,這種端到端的時間限制包括交易處理本身、欺詐評分、支付網(wǎng)絡(luò)處理以及通信協(xié)議等步驟。由于實(shí)時處理的限制和大型互聯(lián)圖形的使用,社會網(wǎng)絡(luò)分析方案面臨嚴(yán)重的響應(yīng)時間壓力。因此,如何利用社會網(wǎng)絡(luò)分析實(shí)現(xiàn)欺詐檢測的實(shí)時性將是一個重要的研究方向。
(2)異構(gòu)信息網(wǎng)絡(luò)的復(fù)雜交互性
金融交易處理系統(tǒng)通常涉及眾多交易類型和模型來處理欺詐風(fēng)險。在金融支付系統(tǒng)中,欺詐檢測模型感興趣的特征可能來自不同類型的社會網(wǎng)絡(luò),這種復(fù)雜性成為開發(fā)有效圖形解決方案的障礙。同樣,跨渠道欺詐需要在實(shí)時響應(yīng)服務(wù)級別協(xié)議的壓力下,在多個具有不同特征的圖上同時進(jìn)行計算。因此,如何在獨(dú)立的網(wǎng)絡(luò)中執(zhí)行批量計算也是未來的一個挑戰(zhàn)。
(3)多模態(tài)數(shù)據(jù)的建??山忉屝?/p>
數(shù)字化場景下的金融服務(wù)渠道日趨豐富,不同渠道下的數(shù)據(jù)來源囊括了諸如文本、音頻以及圖像等多模態(tài)數(shù)據(jù),多模態(tài)數(shù)據(jù)中所暗含的潛在信息對于分析金融場景中的欺詐行為至關(guān)重要。當(dāng)前針對多模態(tài)數(shù)據(jù)的建模分析多集中于推薦系統(tǒng)和計算機(jī)視覺等人工智能商業(yè)場景,針對數(shù)字化金融科技領(lǐng)域的研究相對較少。因此,探究如何合理解析多模態(tài)數(shù)據(jù)并將其轉(zhuǎn)化為社會網(wǎng)絡(luò)分析法中的實(shí)體表達(dá)或關(guān)系描述是下一階段可突破的學(xué)術(shù)難點(diǎn)。