圖表示學(xué)習(xí)方法在消費(fèi)金融領(lǐng)域團(tuán)伙欺詐檢測(cè)中的研究

2022-11-07 10:12:16傅湘玲閆晨巍趙朋亞宋美琦仵偉強(qiáng)

中文信息學(xué)報(bào) 2022年9期

傅湘玲,閆晨巍,趙朋亞,宋美琦,仵偉強(qiáng)

(1.北京郵電大學(xué) 計(jì)算機(jī)學(xué)院(國家示范性軟件學(xué)院),北京 100876;2.北京郵電大學(xué) 可信分布式與服務(wù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100876;3.渤海銀行股份有限公司,天津 300204;4.北京郵電大學(xué)-渤海銀行智慧銀行聯(lián)合實(shí)驗(yàn)室,天津 300204)

0 引言

隨著消費(fèi)金融的快速發(fā)展,與之而來的消費(fèi)金融欺詐也逐漸引起人們的關(guān)注。據(jù)《數(shù)字金融反欺詐白皮書》統(tǒng)計(jì),2017年金融欺詐相關(guān)從業(yè)者超過了150萬人,涉及金額達(dá)到千億級(jí)別[1]。一般來說,欺詐主要包括個(gè)人欺詐以及團(tuán)伙欺詐,隨著反欺詐手段和技術(shù)的提升,欺詐行為越來越難以由個(gè)體實(shí)施,而是依賴于欺詐團(tuán)伙有組織的進(jìn)行,消費(fèi)金融欺詐逐漸呈現(xiàn)出團(tuán)伙化和專業(yè)化的趨勢(shì)。因此,團(tuán)伙欺詐的檢測(cè)成為了金融反欺詐中的重要問題。

為了應(yīng)對(duì)欺詐行為的復(fù)雜性及多樣性,主流的消費(fèi)金融欺詐檢測(cè)方法從最開始的黑白名單、基于專家系統(tǒng)的規(guī)則引擎,逐漸轉(zhuǎn)變?yōu)橐詸C(jī)器學(xué)習(xí)為主的檢測(cè)手段。以機(jī)器學(xué)習(xí)為主的欺詐檢測(cè)方法的核心是提取用戶的特征,常用的用戶特征包括用戶年齡、職業(yè)、收入等,這些特征屬于用戶的固有屬性,也稱為固有特征。通過對(duì)這些固有特征的學(xué)習(xí)和表示,構(gòu)建出機(jī)器學(xué)習(xí)模型來預(yù)測(cè)用戶的欺詐概率。但是,這些方法在對(duì)欺詐團(tuán)伙進(jìn)行識(shí)別的時(shí)候能力有限,原因在于團(tuán)伙中的部分節(jié)點(diǎn)從用戶的固有特征角度單獨(dú)觀測(cè)時(shí),欺詐的概率很難判斷,這對(duì)消費(fèi)金融行業(yè)的風(fēng)險(xiǎn)防控提出了新的挑戰(zhàn)。

針對(duì)團(tuán)伙欺詐識(shí)別,如何更有效地提取用戶特征,從而捕捉欺詐者或者欺詐團(tuán)伙的根本特征是關(guān)鍵。通過對(duì)欺詐團(tuán)伙的深入分析可以發(fā)現(xiàn),欺詐團(tuán)伙內(nèi)部往往分工明確,合作緊密[1]。如圖1所示,節(jié)點(diǎn)代表用戶,邊代表用戶之間的通話關(guān)系,不難看出,左側(cè)虛線框中存在著高度緊密相連的節(jié)點(diǎn)團(tuán),其中包括一個(gè)中心節(jié)點(diǎn),剩余節(jié)點(diǎn)均與之相連,這是一類典型的欺詐團(tuán)伙結(jié)構(gòu)。如果單從每個(gè)節(jié)點(diǎn)的年齡、性別、學(xué)歷等用戶固有特征進(jìn)行分析時(shí),很難判斷單一節(jié)點(diǎn)的欺詐概率,但是將所有節(jié)點(diǎn)以圖的形式展示出來,結(jié)合該節(jié)點(diǎn)周圍節(jié)點(diǎn)的信息,則可以更準(zhǔn)確地判斷出欺詐團(tuán)伙。

圖1 用戶之間的關(guān)聯(lián)關(guān)系圖

也就是說,每個(gè)節(jié)點(diǎn)是否應(yīng)該被預(yù)測(cè)為欺詐者,不僅由每個(gè)節(jié)點(diǎn)的自身特征決定,還受到其鄰居節(jié)點(diǎn)的特征的影響。用戶的特征不僅包括自身信息,而且用戶與用戶之間的往來關(guān)系也反映出許多有用的信息。例如,在社交網(wǎng)絡(luò)中,用戶之間相互關(guān)注、評(píng)論和轉(zhuǎn)發(fā)形成用戶關(guān)系網(wǎng)絡(luò),這些互動(dòng)關(guān)系在一定程度上可以反映出用戶的親密程度,對(duì)用戶群進(jìn)行社區(qū)發(fā)現(xiàn)分析,可以推理出用戶的共同興趣愛好等。根據(jù)用戶之間的通信數(shù)據(jù)可以生成通話網(wǎng)絡(luò),其中通話頻次、時(shí)長等都是用戶關(guān)系緊密程度的直接反映,對(duì)這些通信數(shù)據(jù)進(jìn)行分析,是風(fēng)控實(shí)踐的重要手段[2]。也就是說,社交網(wǎng)絡(luò)、通話網(wǎng)絡(luò)、IP 地址、Wi-Fi地址等信息可以作為用戶關(guān)聯(lián)網(wǎng)絡(luò)的數(shù)據(jù)基礎(chǔ),這對(duì)團(tuán)伙欺詐檢測(cè)具有重要作用。

因此,本文從用戶之間的關(guān)聯(lián)關(guān)系的角度出發(fā),利用用戶和用戶之間的通話關(guān)系構(gòu)建用戶關(guān)聯(lián)網(wǎng)絡(luò),將用戶信息整合為節(jié)點(diǎn)屬性,然后從圖結(jié)構(gòu)信息、節(jié)點(diǎn)信息等多個(gè)維度對(duì)圖數(shù)據(jù)進(jìn)行分析,通過Deep Walk算法[3]將當(dāng)前節(jié)點(diǎn)與其鄰居節(jié)點(diǎn)信息進(jìn)行編碼,最終獲得豐富的節(jié)點(diǎn)表示,充分地?cái)U(kuò)充用戶特征,更全面地捕捉欺詐者的特征屬性,提高機(jī)器學(xué)習(xí)模型的欺詐檢測(cè)性能,精準(zhǔn)、全面地識(shí)別欺詐者。

1 相關(guān)工作

1.1 欺詐風(fēng)險(xiǎn)檢測(cè)研究

在欺詐風(fēng)險(xiǎn)檢測(cè)領(lǐng)域,最初的研究大多是由經(jīng)驗(yàn)驅(qū)動(dòng)的,即主要依賴于從大量歷史交易中總結(jié)出來的專家經(jīng)驗(yàn)和規(guī)則[4-5],形成多個(gè)規(guī)則構(gòu)成的規(guī)則集,如設(shè)立IP黑名單、電子郵件域等。這種方法仍廣泛應(yīng)用于銀行等金融公司的風(fēng)控系統(tǒng)中,如交通銀行于2010年開始運(yùn)行“反欺詐管理系統(tǒng)”,通過分析以往風(fēng)險(xiǎn)案例形成規(guī)則和模型,對(duì)可疑交易進(jìn)行監(jiān)控。但單純依賴基于規(guī)則的方法,反欺詐能力薄弱,而且容易誤傷無辜的需求[2]。隨著機(jī)器學(xué)習(xí)的發(fā)展,邏輯回歸[6]、支持向量機(jī)[7-8]、決策樹[9-10]、K近鄰[11]、自組織映射[12]等方法被用于預(yù)測(cè)欺詐風(fēng)險(xiǎn)。但這些研究關(guān)注于單一用戶的基本信息、交易信息等用戶自身特征,沒有考慮多個(gè)用戶之間可能存在的關(guān)聯(lián),從而丟失了用戶間關(guān)系所蘊(yùn)含的大量信息。

當(dāng)從用戶關(guān)系的角度來挖掘用戶間的特征時(shí),可以利用通信記錄、交易往來、公用IP地址、公司或家庭地址等數(shù)據(jù)[13]形成用戶關(guān)聯(lián)圖。在反欺詐實(shí)踐中,常常會(huì)把用戶之間的相關(guān)信息連接起來,形成一個(gè)同質(zhì)或異質(zhì)的網(wǎng)絡(luò),或者稱之為圖。圖結(jié)構(gòu)是天然的關(guān)系分析工具,可以反映出欺詐者之間的關(guān)聯(lián)關(guān)系特征,例如以圖中邊的連接關(guān)系和權(quán)重大小來描述節(jié)點(diǎn)間的關(guān)系遠(yuǎn)近。Peng等人[14]通過抽取通話記錄進(jìn)而轉(zhuǎn)化成網(wǎng)絡(luò),根據(jù)用戶特征及用戶間特征的相似度,進(jìn)行欺詐社區(qū)的發(fā)現(xiàn)。趙朋亞等人[15]利用標(biāo)簽傳播算法(Label Propagation Algrithom)在關(guān)聯(lián)網(wǎng)絡(luò)上計(jì)算無標(biāo)簽用戶的欺詐概率。郭琦等人[16]通過用戶關(guān)注關(guān)系對(duì)社交網(wǎng)絡(luò)中的用戶進(jìn)行建模,采用帶權(quán)采樣的GraphSAGE 算法來增強(qiáng)對(duì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息的學(xué)習(xí)。總的來說,基于用戶自身特征的欺詐檢測(cè)方法已經(jīng)難以滿足欺詐團(tuán)伙化的新趨勢(shì),圖特征的引入,有利于捕捉多個(gè)欺詐者之間的關(guān)聯(lián)關(guān)系,給欺詐檢測(cè)提供了新的視角。

1.2 圖特征提取方法

反欺詐模型是否能夠做出正確的預(yù)測(cè),很大程度上取決于輸入的特征。當(dāng)輸入特征蘊(yùn)含了足夠豐富且有區(qū)分度的信息時(shí),模型更容易將欺詐者與正常用戶區(qū)分開來。因此,如何從原始數(shù)據(jù)中提取和創(chuàng)造出對(duì)預(yù)測(cè)欺詐有幫助的特征,是提升模型預(yù)測(cè)能力的關(guān)鍵。

我們將從用戶關(guān)系網(wǎng)絡(luò)中提取出來的特征稱為網(wǎng)絡(luò)特征或者圖特征,其提取方法根據(jù)所提取的圖特征的類型而有所不同。度、度中心性、PageRank值等網(wǎng)絡(luò)統(tǒng)計(jì)指標(biāo)是常用的圖特征之一,也可稱之為圖結(jié)構(gòu)特征。這些指標(biāo)是衡量網(wǎng)絡(luò)中的節(jié)點(diǎn)重要性的一種手段,以度中心性為例,一個(gè)節(jié)點(diǎn)的中心性越高,即與之關(guān)聯(lián)節(jié)點(diǎn)數(shù)目越多,則該節(jié)點(diǎn)在網(wǎng)絡(luò)中越重要,影響力也更大。除此以外,還包括自定義的統(tǒng)計(jì)指標(biāo)等。張寶明等人[17]通過計(jì)算朋友個(gè)數(shù)、是否是小組成員等網(wǎng)絡(luò)統(tǒng)計(jì)指標(biāo)來引入用戶之間的關(guān)系特征,進(jìn)而預(yù)測(cè)欺詐風(fēng)險(xiǎn)。此類圖結(jié)構(gòu)特征能夠?qū)D的拓?fù)浣Y(jié)構(gòu)進(jìn)行很好的描述和表示。

另一類重要的圖特征是通過網(wǎng)絡(luò)表示學(xué)習(xí)得到的圖節(jié)點(diǎn)特征。假設(shè)一個(gè)用戶與欺詐用戶聯(lián)系十分緊密,近朱者赤,近墨者黑,則該用戶的欺詐概率將大大提升。當(dāng)傳統(tǒng)的機(jī)器學(xué)習(xí)模型對(duì)節(jié)點(diǎn)進(jìn)行編碼生成低維的向量表示時(shí),只將用戶自身的特征作為輸入,忽略了用戶周圍的信息對(duì)用戶的影響。而用Deep Walk[3]、Node2vec[18]、Line[19]、SDNE[20]等網(wǎng)絡(luò)表示學(xué)習(xí)算法在對(duì)節(jié)點(diǎn)編碼時(shí),可以在圖上游走,對(duì)該節(jié)點(diǎn)及周圍與之關(guān)聯(lián)強(qiáng)度較高的節(jié)點(diǎn)的信息進(jìn)行采樣,將其與節(jié)點(diǎn)自身信息融合,最終生成的節(jié)點(diǎn)在嵌入空間中的低維表示也近似于原結(jié)構(gòu)中各個(gè)節(jié)點(diǎn)的相似性關(guān)系。目前,這種以網(wǎng)絡(luò)表示學(xué)習(xí)方式提取圖特征的方式逐漸成為了主流。Chen等人[21]在識(shí)別運(yùn)費(fèi)險(xiǎn)欺詐的研究中,通過設(shè)備共享信息、交易信息和朋友關(guān)系建立三類賬戶關(guān)系圖,利用網(wǎng)絡(luò)表示學(xué)習(xí)算法來獲取節(jié)點(diǎn)的嵌入表示,提取用戶特征。Liu等人[22]以圖神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)節(jié)點(diǎn)的表示,在對(duì)不同的鄰居節(jié)點(diǎn)采樣時(shí),進(jìn)行過濾和篩選,減輕有關(guān)聯(lián)的正常用戶和欺詐用戶之間的彼此噪聲干擾。

總的來說,圖特征可以通過網(wǎng)絡(luò)統(tǒng)計(jì)指標(biāo)和網(wǎng)絡(luò)表示學(xué)習(xí)算法進(jìn)行提取。相比于非圖特征,圖特征更好地吸收了當(dāng)前節(jié)點(diǎn)周圍的信息,也可以更好地對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行刻畫。

2 基于圖的團(tuán)伙欺詐風(fēng)險(xiǎn)監(jiān)測(cè)模型

欺詐風(fēng)險(xiǎn)監(jiān)測(cè)模型以用戶關(guān)系圖G作為模型的輸入,該圖以用戶為節(jié)點(diǎn),以用戶固有屬性為節(jié)點(diǎn)屬性,以用戶之間的通話關(guān)系為邊。該圖可形式化地表示為G=(V,E),V為節(jié)點(diǎn)集合,E為邊集合,其中vi表示節(jié)點(diǎn)i,ei,j表示從節(jié)點(diǎn)vi到節(jié)點(diǎn)vj的邊。對(duì)圖G中任意節(jié)點(diǎn)vi∈V,其包含K=(1,2,3,…,k)類固有特征,可將該節(jié)點(diǎn)的固有特征向量表示為{xi1,xi2,xi3,…,xik}。xik為第i個(gè)節(jié)點(diǎn)的第k類特征。然后對(duì)圖中每個(gè)節(jié)點(diǎn)從節(jié)點(diǎn)屬性、圖結(jié)構(gòu)的統(tǒng)計(jì)指標(biāo)和節(jié)點(diǎn)網(wǎng)絡(luò)表示三個(gè)維度進(jìn)行特征提取,得到特征的向量化表示后,輸入到LightGBM 中進(jìn)行訓(xùn)練,得到最終的預(yù)測(cè)結(jié)果。整體過程如圖2所示。

圖2 基于圖的團(tuán)伙欺詐風(fēng)險(xiǎn)檢測(cè)模型

2.1 節(jié)點(diǎn)固有特征

節(jié)點(diǎn)固有特征也稱為用戶固有特征,主要包括年齡、性別、安裝的App等。首先我們對(duì)每類節(jié)點(diǎn)屬性進(jìn)行Multi-Hot編碼。隨著屬性值的種類越來越多,Multi-Hot表示逐漸變得非常稀疏,直接使用不利于后續(xù)的特征存儲(chǔ)以及模型訓(xùn)練。因此我們使用主成分分析(Principal Component Analysis,PCA)、非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)、線性判別分析(Linear Discriminant Analysis,LDA)三種降維方法分別對(duì)節(jié)點(diǎn)屬性的Multi-Hot表示進(jìn)行降維處理,以減少在降維過程中的信息損失,得到d維的低維稠密的向量表示后,將降維后的特征進(jìn)行拼接,最終得到的節(jié)點(diǎn)i的固有特征表示如式(1)所示。

其中,K為固有特征類別數(shù),d為降維之后的向量表示的維度。

圖3給出了以“用戶安裝的App”這一節(jié)點(diǎn)屬性為例的特征提取示意圖,我們首先根據(jù)構(gòu)建的App詞典,將用戶的App 轉(zhuǎn)化為Multi-Hot表示,之后分別使用PCA、NMF、LDA 等降維方法將單個(gè)用戶的App列表轉(zhuǎn)化為32維的低維向量表示,拼接起來共32×3=96維向量作為App數(shù)據(jù)的降維表示特征。

圖3 節(jié)點(diǎn)屬性“用戶安裝的App”的三種降維表示及拼接過程

2.2 節(jié)點(diǎn)統(tǒng)計(jì)指標(biāo)特征

我們利用度、帶權(quán)度、度中心性、Hits值、PageRank值,以及一些自定義的網(wǎng)絡(luò)統(tǒng)計(jì)指標(biāo)來抽取節(jié)點(diǎn)的統(tǒng)計(jì)值特征,這部分特征稱為節(jié)點(diǎn)統(tǒng)計(jì)指標(biāo)特征。

在本文構(gòu)建的通話關(guān)聯(lián)網(wǎng)絡(luò)中,針對(duì)節(jié)點(diǎn)vi0,提取了如表1所示的相關(guān)指標(biāo)。不同規(guī)模的網(wǎng)絡(luò)中有相同度值的節(jié)點(diǎn)有不同的影響力,為了進(jìn)行比較,一般對(duì)度中心性做歸一化處理,定義節(jié)點(diǎn)vi0的歸一化度中心性指標(biāo)如式(2)所示。

表1 度相關(guān)指標(biāo)及計(jì)算方式

其中,di為節(jié)點(diǎn)的度,n為網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量。

我們還使用了HITs值和PageRank值兩個(gè)統(tǒng)計(jì)指標(biāo)。與度中心性類似,這類指標(biāo)可以計(jì)算網(wǎng)絡(luò)中節(jié)點(diǎn)的重要程度和權(quán)威程度。度中心性認(rèn)為,一個(gè)節(jié)點(diǎn)的關(guān)聯(lián)節(jié)點(diǎn)數(shù)目越多,則該節(jié)點(diǎn)在網(wǎng)絡(luò)中越重要,因而是網(wǎng)絡(luò)分析中刻畫節(jié)點(diǎn)中心性的最直接度量指標(biāo)。而HITs值分別利用權(quán)威值(Authority Scores)用來衡量節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)信息中的原創(chuàng)性的貢獻(xiàn),用樞紐值(Hub Scores)衡量了節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)中信息傳遞的貢獻(xiàn)。PageRank則是根據(jù)鏈接到當(dāng)前節(jié)點(diǎn)的其他節(jié)點(diǎn)的質(zhì)量和數(shù)量來衡量當(dāng)前節(jié)點(diǎn)的重要性。

此外,我們還定義了一些自定義的指標(biāo),比如節(jié)點(diǎn)的“朋友圈大小”。由于本文中的原始通話關(guān)系是一個(gè)單向關(guān)系,為了避免某些用戶節(jié)點(diǎn)由于職業(yè)關(guān)系,比如快遞、中介等造成對(duì)上述的評(píng)價(jià)指標(biāo)的干擾,本文添加了節(jié)點(diǎn)“朋友”的定義,即只有當(dāng)用戶A和用戶B之間都有過通話關(guān)系時(shí),才認(rèn)定用戶A 和用戶B之間是朋友關(guān)系。由此,我們統(tǒng)計(jì)了每個(gè)節(jié)點(diǎn)的朋友數(shù)量。

2.3 節(jié)點(diǎn)網(wǎng)絡(luò)表示特征

網(wǎng)絡(luò)中節(jié)點(diǎn)表示的最直觀的方式是通過鄰接矩陣來表示。與自然語言處理中詞向量的獨(dú)熱編碼類似,使用獨(dú)熱編碼表示某一單詞時(shí),詞典共含有多少個(gè)單詞,最后表示該單詞的向量維度就有多少維。對(duì)于一個(gè)包含|V|個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò),其鄰接矩陣中每行的向量代表節(jié)點(diǎn)的向量表示,即每個(gè)節(jié)點(diǎn)可以用一個(gè)N維向量表示。這種表示的缺點(diǎn)是維度過高,而且無法將節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)信息很好地反映在向量表示中。因此考慮網(wǎng)絡(luò)表示學(xué)習(xí)算法來學(xué)習(xí)每個(gè)節(jié)點(diǎn)的分布式表示。

網(wǎng)絡(luò)表示學(xué)習(xí)是學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點(diǎn)的低維度的分布式向量表示,所學(xué)習(xí)到的特征表示可以用作基于圖的各種任務(wù)的特征[23]?？梢詫⑵溥^程形式化地表示為,對(duì)于圖G=(V,E)中的節(jié)點(diǎn)vi,學(xué)習(xí)如式(3)所示的映射關(guān)系。

其中,zi是一個(gè)輸出的多維向量,并且滿足drep?|V|。

該過程將原來鄰接矩陣表示的|V|維向量映射到drep維向量,通常drep的大小遠(yuǎn)小于|V|,以此解決后續(xù)的存儲(chǔ)和計(jì)算問題。映射后的低維向量要保留節(jié)點(diǎn)的網(wǎng)絡(luò)結(jié)構(gòu)信息,原本網(wǎng)絡(luò)結(jié)構(gòu)相似的節(jié)點(diǎn)通常反映到節(jié)點(diǎn)低維向量之間的距離上,而且相比較于傳統(tǒng)特征工程,網(wǎng)絡(luò)表示學(xué)習(xí)采用模型自動(dòng)學(xué)習(xí)數(shù)據(jù)的隱式特征,不依賴于專家經(jīng)驗(yàn),減少人工特征的限制與影響。

因此,我們采用Deepwalk 算法在圖上進(jìn)行隨機(jī)游走,隨機(jī)游走的過程實(shí)際上是對(duì)網(wǎng)絡(luò)進(jìn)行重構(gòu),將以點(diǎn)、邊構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)轉(zhuǎn)化為多個(gè)節(jié)點(diǎn)序列,通過對(duì)節(jié)點(diǎn)vi的前k個(gè)節(jié)點(diǎn)和后k個(gè)節(jié)點(diǎn)采樣,獲取鄰居節(jié)點(diǎn)間的信息。多節(jié)點(diǎn)的多次隨機(jī)游走將產(chǎn)生等價(jià)于NLP中句子語料的節(jié)點(diǎn)語料信息,最后使用Skip-gram 來獲得節(jié)點(diǎn)的向量表示,

這種方法很好地將網(wǎng)絡(luò)鄰居結(jié)構(gòu)存入向量中,原來在網(wǎng)絡(luò)結(jié)構(gòu)中關(guān)聯(lián)緊密的節(jié)點(diǎn),隨機(jī)游走后有更大的概率出現(xiàn)在同一個(gè)隨機(jī)游走節(jié)點(diǎn)序列中,進(jìn)而這些節(jié)點(diǎn)在最后的訓(xùn)練中得到的向量表示越相似。

在獲得上述三類特征后,我們將其拼接起來,共同作為Light GBM 的輸入,預(yù)測(cè)節(jié)點(diǎn)的欺詐概率。其中,我們將節(jié)點(diǎn)統(tǒng)計(jì)指標(biāo)特征和節(jié)點(diǎn)網(wǎng)絡(luò)表示學(xué)習(xí)特征統(tǒng)稱為圖特征。

2.4 評(píng)價(jià)指標(biāo)

在真實(shí)的欺詐檢測(cè)場(chǎng)景下,需要盡可能多地找出欺詐者,同時(shí)保持對(duì)正常用戶的盡可能低的誤殺率,對(duì)應(yīng)到機(jī)器學(xué)習(xí)中的評(píng)價(jià)指標(biāo),期望獲得更高的精確率(Precision)和召回率(Recall)。F1值是這兩個(gè)指標(biāo)的綜合考量,計(jì)算如式(4)所示。

此外,AUC(AOC 曲線下的面積)是另一個(gè)評(píng)價(jià)預(yù)測(cè)結(jié)果區(qū)分度的重要指標(biāo)。因此本文使用F1值和AUC作為評(píng)價(jià)指標(biāo)來衡量模型的性能。

3 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

3.1 數(shù)據(jù)集介紹

本文數(shù)據(jù)集使用真實(shí)的消費(fèi)金融公司數(shù)據(jù)集中的通話數(shù)據(jù),共包含18 959個(gè)有標(biāo)簽的用戶數(shù)據(jù),其中2 882個(gè)是欺詐用戶,16 077 個(gè)是正常用戶。根據(jù)該通話數(shù)據(jù)構(gòu)成關(guān)聯(lián)網(wǎng)絡(luò),其中用戶為節(jié)點(diǎn),用戶之間的通話關(guān)系為邊。網(wǎng)絡(luò)中的邊為有向邊,因?yàn)橥ㄔ挃?shù)據(jù)中的通話關(guān)系是一種有向關(guān)系,即用戶A 打電話給用戶B,和用戶B打電話給用戶A 是以兩條邊的形式存在。結(jié)合無標(biāo)簽的用戶,最終構(gòu)建的關(guān)聯(lián)網(wǎng)絡(luò)共包含33 728 365個(gè)節(jié)點(diǎn)、251 786 211條邊。該關(guān)聯(lián)網(wǎng)絡(luò)的一些統(tǒng)計(jì)指標(biāo)如表2所示。

表2 關(guān)聯(lián)網(wǎng)絡(luò)指標(biāo)

模型采用五折交叉檢驗(yàn)進(jìn)行訓(xùn)練,每次訓(xùn)練的訓(xùn)練集和測(cè)試集比例為8:2,即15 167個(gè)樣本作為訓(xùn)練集,剩余樣本作為測(cè)試集。

3.2 模型參數(shù)

Deepwalk模型需要依賴隨機(jī)游走產(chǎn)生的節(jié)點(diǎn)序列,因此需要指定每個(gè)節(jié)點(diǎn)隨機(jī)游走的次數(shù)以及每次隨機(jī)游走的長度。此外,還要設(shè)置相應(yīng)的Word2vec模型參數(shù),包括生成的向量維度及上下文的窗口大小、學(xué)習(xí)率的設(shè)置。主要的模型參數(shù)如表3所示。

表3 Deep Walk模型參數(shù)

3.3 實(shí)驗(yàn)結(jié)果

為了更好地對(duì)實(shí)驗(yàn)進(jìn)行驗(yàn)證,我們對(duì)節(jié)點(diǎn)網(wǎng)絡(luò)表示特征的抽取算法進(jìn)行了實(shí)驗(yàn)對(duì)比,采用了Node2Vec和Line 兩個(gè)模型作為基線模型,與Deepwalk的抽取效果進(jìn)行了對(duì)比。獲得訓(xùn)練后的特征向量后,使用LightGBM 對(duì)向量訓(xùn)練預(yù)測(cè)。實(shí)驗(yàn)結(jié)果如表4所示。

表4 三種網(wǎng)絡(luò)表示學(xué)習(xí)方法效果

Node2Vec在Deep Walk 的基礎(chǔ)上提供了p和q兩個(gè)參數(shù)來控制隨機(jī)游走的節(jié)點(diǎn)序列生成策略,通過調(diào)整p和q的大小來控制模型偏向于保留局部信息還是是保留廣度信息。本實(shí)驗(yàn)中Node2Vec是采用了p=0.5、q=1參數(shù)的結(jié)果。

Line分別指定了是采用一階相似、二階相似、一階+二階相似,其中一階相似度表示節(jié)點(diǎn)與直接鄰居之間的相似性,二階相似度表示節(jié)點(diǎn)與高階鄰居之間的相似性。從指標(biāo)結(jié)果來看,用Deepwalk表示學(xué)習(xí)算法來提取節(jié)點(diǎn)網(wǎng)絡(luò)表示特征的效果最好,其AUC為0.657。

3.4 不同特征組的消融實(shí)驗(yàn)

在特征部分,我們共選取了3組特征,節(jié)點(diǎn)固有特征、節(jié)點(diǎn)統(tǒng)計(jì)指標(biāo)特征和節(jié)點(diǎn)網(wǎng)絡(luò)表示特征,結(jié)果如圖4所示。下面的消融實(shí)驗(yàn)從特征的角度進(jìn)行實(shí)驗(yàn),每組實(shí)驗(yàn)只保留一組特征,以觀測(cè)每組特征對(duì)最終預(yù)測(cè)結(jié)果的作用。

圖4 不同特征組的預(yù)測(cè)結(jié)果

實(shí)驗(yàn)結(jié)果表明,僅利用節(jié)點(diǎn)固有特征單獨(dú)預(yù)測(cè)的AUC為0.614,而單獨(dú)利用節(jié)點(diǎn)統(tǒng)計(jì)指標(biāo)特征和節(jié)點(diǎn)網(wǎng)絡(luò)表示特征的AUC 分別為0.617和0.657,均優(yōu)于節(jié)點(diǎn)固有特征。將節(jié)點(diǎn)統(tǒng)計(jì)指標(biāo)特征和節(jié)點(diǎn)網(wǎng)絡(luò)表示特征同時(shí)使用,則可以獲得更高的性能提升,僅次于所有特征一起使用。

可以看出,圖特征尤其是基于表示學(xué)習(xí)的節(jié)點(diǎn)網(wǎng)絡(luò)表示特征,相比于單純的節(jié)點(diǎn)固有特征,在進(jìn)行欺詐檢測(cè)時(shí)預(yù)測(cè)能力更強(qiáng),且網(wǎng)絡(luò)表示學(xué)習(xí)對(duì)特征工程的要求更低,將數(shù)據(jù)處理成關(guān)聯(lián)網(wǎng)絡(luò)后,節(jié)點(diǎn)的圖特征容易利用算法獲取,避免了手工特征的大量數(shù)據(jù)分析、特征編碼及降維的煩瑣步驟。

3.5 不同的節(jié)點(diǎn)向量維度對(duì)實(shí)驗(yàn)結(jié)果的影響

在網(wǎng)絡(luò)表示學(xué)習(xí)中,節(jié)點(diǎn)表示所生成的向量的維度大小是一個(gè)重要的參數(shù),維度的大小需要根據(jù)不同的數(shù)據(jù)集具體調(diào)整。針對(duì)較大的數(shù)據(jù)集,如果設(shè)置的維度過小,則向量的長度不足以保留足夠的原始信息,導(dǎo)致表達(dá)能力不足;設(shè)置的維度過小,則導(dǎo)致表示學(xué)習(xí)模型優(yōu)化計(jì)算過程中計(jì)算量過大,也不利于后續(xù)的向量保存。

對(duì)此,本文對(duì)維度大小為64、128、192、256的向量表示進(jìn)行對(duì)比實(shí)驗(yàn),將Deep Walk 模型得到的不同維度的節(jié)點(diǎn)向量表示分別輸入到Light GBM 模型進(jìn)行訓(xùn)練,采用AUC 指標(biāo)進(jìn)行評(píng)價(jià)。具體的實(shí)驗(yàn)結(jié)果如圖5所示。可以看到,在向量維度分別為64、128、192、256 維時(shí),使用192維的向量來預(yù)測(cè)時(shí)的效果最好。

圖5 網(wǎng)絡(luò)表示學(xué)習(xí)的不同特征維度下的預(yù)測(cè)結(jié)果

3.6 不同集成模型對(duì)最終效果的影響

我們進(jìn)一步研究了不同的集成模型對(duì)于模型預(yù)測(cè)能力的影響,因此我們選用了Random Forest[24]、XGBoost[25]、LightGBM[26]和DNN[27]作為對(duì)比模型。其中,RF、XGBoost、LightGBM 都屬于集成學(xué)習(xí)算法,DNN是深度神經(jīng)網(wǎng)絡(luò)算法,又被經(jīng)常稱為多層感知機(jī)(Multi-Layer Perceptron,MLP)。

根據(jù)表5中的結(jié)果可以看到,四種模型中無論是在三部分特征組上單獨(dú)訓(xùn)練,還是在所有特征組上訓(xùn)練預(yù)測(cè),LightGBM 模型表現(xiàn)都是最好,其次是XGBoost。一部分原因在于LightGBM 和XGBoost這類Boosting的模型從原理層面相對(duì)于RF這類Bagging的模型可以降低預(yù)測(cè)模型的誤差,另一方面,由于訓(xùn)練集內(nèi)訓(xùn)練樣本的特征屬性值存在缺失情況,LightGBM 可以對(duì)含有缺失值的樣本在分裂時(shí)計(jì)算如何分裂增益最大,進(jìn)一步降低模型的損失。此外,實(shí)驗(yàn)結(jié)果再次證明了,網(wǎng)絡(luò)表示特征和統(tǒng)計(jì)指標(biāo)特征這兩類圖特征的加入可以提高最終模型的效果。以LightGBM 模型為例,加入的圖特征可以對(duì)最終的模型AUC有0.073的AUC增益。

表5 不同集成模型的各特征組效果

3.7 特征重要度分析

為了更進(jìn)一步分析節(jié)點(diǎn)固有特征、圖特征(包括節(jié)點(diǎn)統(tǒng)計(jì)指標(biāo)特征和節(jié)點(diǎn)網(wǎng)絡(luò)表示特征)這兩部分特征在最終模型預(yù)測(cè)中發(fā)揮的作用,本文通過特征重要性[28](Feature Importance)打分來評(píng)估,特征重要性可以給出當(dāng)前模型在訓(xùn)練過程中特征對(duì)最終模型的預(yù)測(cè)發(fā)揮作用的程度。

Light GBM 作為一種基于樹分裂的集成學(xué)習(xí)模型,本身提供了兩種計(jì)算方式來評(píng)估特征重要性,分別是“Split-分裂次數(shù)”和“Gain-信息增益”,其中前者是通過該特征被用來作為樹模型分裂的次數(shù)來進(jìn)行排序,被選擇分裂的次數(shù)越多,則代表該特征在預(yù)測(cè)過程中起的作用越大。后者是通過該特征在整個(gè)樹模型構(gòu)建的過程中獲得的總的信息增益來排序,信息增益通過樹節(jié)點(diǎn)分裂前后的樣本分布計(jì)算得到,總的信息增益越大,則代表該特征在預(yù)測(cè)過程中起的作用越大。

為了分析圖特征和固有特征在最終模型預(yù)測(cè)中起到的特征作用大小,我們計(jì)算了LightGBM 模型在所有特征組上的特征重要性,分別統(tǒng)計(jì)了Top10、Top30、Top50里的圖特征和固有特征占比,具體如表6所示。

表6 圖特征與固有特征的重要性分析

結(jié)果表明,在Top10、Top30和Top50上,圖特征的占比都要遠(yuǎn)遠(yuǎn)高于固有特征,再次驗(yàn)證了圖特征的重要性,說明加入圖特征可以提高欺詐檢測(cè)的效果。

3.8 與基于圖神經(jīng)網(wǎng)絡(luò)方法的對(duì)比分析

端到端的圖神經(jīng)網(wǎng)絡(luò)在基于圖的應(yīng)用研究中取得了不錯(cuò)的表現(xiàn),因此,我們采用基于GCN[29]的用戶表征學(xué)習(xí)進(jìn)行了對(duì)比實(shí)驗(yàn)。由于本研究的數(shù)據(jù)規(guī)模較大,全圖節(jié)點(diǎn)超過3 000萬個(gè),邊的數(shù)量則超過了2.5億條,難以在全圖上實(shí)現(xiàn)圖神經(jīng)網(wǎng)絡(luò)的計(jì)算。

為此,我們對(duì)數(shù)據(jù)做了抽樣,以18 959個(gè)有標(biāo)簽的用戶節(jié)點(diǎn)為出發(fā)點(diǎn),從所有邊數(shù)據(jù)集中抽取與之一度相連的用戶節(jié)點(diǎn),抽樣生成的子網(wǎng)絡(luò)共計(jì)節(jié)點(diǎn)2 155 286個(gè)、邊2 850 165條?；谠撟泳W(wǎng)絡(luò),我們采用GCN 模型,得到的AUC為0.664。根據(jù)表5所報(bào)告的實(shí)驗(yàn)結(jié)果,Deep Walk 模型僅采用圖特征的AUC 為0.673,而采用全部特征的AUC 為0.687。

由于采用的是抽樣后的數(shù)據(jù)集,所以該結(jié)果與其他模型的結(jié)果已不具有可比性,但我們也不難推斷出,在圖規(guī)模較大,且算力又有限的情況下,使用Deep Walk算法進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí),與其他特征拼接仍不失為一種高效的方式。

4 結(jié)論與展望

本文將用戶的特征分為節(jié)點(diǎn)固有特征、節(jié)點(diǎn)統(tǒng)計(jì)指標(biāo)特征和節(jié)點(diǎn)網(wǎng)絡(luò)表示特征三部分,通過多種方式分別進(jìn)行提取。節(jié)點(diǎn)固有特征中的風(fēng)險(xiǎn)行為數(shù)據(jù)、標(biāo)簽數(shù)據(jù)、App 數(shù)據(jù),采用特征工程的方式,如One-Hot編碼、Multi-Hot編碼、降維表示等方式轉(zhuǎn)化為向量表示。同時(shí),利用通話數(shù)據(jù)構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò),一方面利用網(wǎng)絡(luò)表示學(xué)習(xí)方法,得到關(guān)聯(lián)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的向量表示,作為一部分圖特征。另一部分圖特征則是利用網(wǎng)絡(luò)中常見的節(jié)點(diǎn)統(tǒng)計(jì)指標(biāo)來計(jì)算,對(duì)提取的圖特征和固有特征進(jìn)行融合,使用機(jī)器學(xué)習(xí)模型LightGBM 進(jìn)行訓(xùn)練和預(yù)測(cè)。這兩類方法均充分利用了圖的拓?fù)浣Y(jié)構(gòu)信息和節(jié)點(diǎn)的鄰居節(jié)點(diǎn)信息,彌補(bǔ)了在檢測(cè)團(tuán)伙欺詐過程中固有信息不足的問題。實(shí)驗(yàn)證明,相對(duì)于只使用固有特征,融合圖特征的模型取得了更好的效果。

目前,我們對(duì)關(guān)聯(lián)網(wǎng)絡(luò)的使用仍是有限的,本研究中主要是利用了節(jié)點(diǎn)和邊的基本信息,在接下來的研究工作中,我們將嘗試?yán)藐P(guān)聯(lián)關(guān)系中更豐富的數(shù)據(jù)來進(jìn)行檢測(cè)。另外,考慮到欺詐樣本的數(shù)量較少,我們也會(huì)深入探究基于深度圖卷積神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí),在少量欺詐樣本的情況下更準(zhǔn)確地判斷欺詐風(fēng)險(xiǎn)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放