陳琳娣
[摘要]本文介紹了電信運營商內(nèi)部審計借力大數(shù)據(jù)分析,通過正負樣本的選定、變量的設計、特征工程等方式,直接定位問題,精確審計范圍而進行神經(jīng)網(wǎng)絡建模。
[關(guān)鍵詞]內(nèi)部審計 運營商 大數(shù)據(jù) 神經(jīng)網(wǎng)絡 建模
在“數(shù)據(jù)即資源”已成為社會共識的背景下,擴大數(shù)據(jù)來源,開啟數(shù)據(jù)通道,充分利用大數(shù)據(jù)建模開
展遠程監(jiān)督的審計新模式已成為時代選擇。
一、神經(jīng)網(wǎng)絡模型表達
神經(jīng)網(wǎng)絡是一項重要的機器學習技術(shù),從信息處理角度對人腦神經(jīng)元網(wǎng)絡進行抽象,建立某種簡單模型,按不同的連接方式組成不同的網(wǎng)絡。神經(jīng)網(wǎng)絡算法的基礎(chǔ)結(jié)構(gòu)是神經(jīng)元,是包含權(quán)重和偏置項的函數(shù),它在接收數(shù)據(jù)后執(zhí)行計算,再通過激活函數(shù)將數(shù)據(jù)限制在一個范圍內(nèi),神經(jīng)元的結(jié)構(gòu)見圖1。
神經(jīng)元的函數(shù)表達為:y=f(wx+b),其中x為輸入值,w為權(quán)重,b為偏置項,f(x)即激活函數(shù),常用的激活函數(shù)為sigmiod函數(shù)。
神經(jīng)網(wǎng)絡則是多個神經(jīng)元的組合,由輸入層、隱藏層和輸出層三部分構(gòu)成。輸入層是模型輸入的特征變量;隱藏層是神經(jīng)元的組合,其中的每一個圓圈都是一個神經(jīng)元;輸出層是最終的輸出結(jié)果,含有多個輸出,處理多分類問題,并且每一層的輸出都是下一層的輸入,見圖2。
建立神經(jīng)網(wǎng)絡模型有以下三個步驟:
第一步是確定函數(shù)表達式:y=f(x),它由網(wǎng)絡結(jié)構(gòu)決定,即神經(jīng)網(wǎng)絡有多少隱含層,每一層有多少神經(jīng)元,神經(jīng)元之間是如何連接的等等。不同的網(wǎng)絡結(jié)構(gòu)決定了不同的神經(jīng)網(wǎng)絡模型。本文構(gòu)建的是較為簡單的三層隱含層的全連接神經(jīng)網(wǎng)絡模型。
第二步是確定模型優(yōu)劣的評價標準,即確定損失函數(shù),通常為交叉熵損失函數(shù),表達式如下:
第三步是選擇最優(yōu)的函數(shù),使損失函數(shù)達到最小,也就是求解神經(jīng)元之間連接的權(quán)重w和偏置b。BP神經(jīng)網(wǎng)絡的學習規(guī)則,即權(quán)重和閾值的調(diào)節(jié)規(guī)則采用的是誤差反向傳播算法。網(wǎng)絡的權(quán)值和閾值通常是沿著網(wǎng)絡誤差變化的負梯度方向,依據(jù)設定的步長進行調(diào)節(jié)的,最終使網(wǎng)絡誤差達到極小值或最小值,即在這一點誤差梯度為零。參數(shù)更新時,使用了梯度下降算法,使得權(quán)重向損失函數(shù)對權(quán)重求導的負梯度方向更新。權(quán)重的更新公式為:
其中,η為學習速率,即參數(shù)更新的步長。
限于梯度下降算法的固有缺陷,標準的BP學習算法通常具有收斂速度慢、易陷入局部極小值等特點,因此出現(xiàn)了許多改進算法,增加了算法的可靠性。其中最常用的有動量法和學習率自適應調(diào)整的方法。
二、神經(jīng)網(wǎng)絡模型下的審計實施
在流量紅包專題審計中應用大數(shù)據(jù)神經(jīng)網(wǎng)絡技術(shù),從海量數(shù)據(jù)中識別出購買非常規(guī)途徑流量的用戶,再從購買用戶的來源方篩選出流量轉(zhuǎn)售者,見圖3。
(一)用戶關(guān)系梳理與流程
利用大數(shù)據(jù)技術(shù),從海量數(shù)據(jù)資源中尋求規(guī)律,從上億用戶流量劃轉(zhuǎn)數(shù)據(jù)中,探尋用戶流量流轉(zhuǎn)關(guān)系,梳理流量轉(zhuǎn)售流程。確認流量轉(zhuǎn)售大致流程為移動公司(A端)向違規(guī)企業(yè)(B端)低價出售企業(yè)流量,違規(guī)企業(yè)將流量直充至個人賬戶,經(jīng)過多次流轉(zhuǎn)到達流量轉(zhuǎn)售者賬戶(C端),再通過網(wǎng)絡途徑以低于市價的價格售賣給流量購買者(D端)。
(二)識別流量購買用戶
改變從源端核查的傳統(tǒng)審計模式,從最終購買用戶入手,依靠神經(jīng)網(wǎng)絡模型定位可疑購買用戶,并向上追溯違規(guī)售賣用戶和違規(guī)套利企業(yè)。大數(shù)據(jù)建模技術(shù)框架主要分為正負樣本篩選、特征工程和模型建立三個流程。
第一步,正負樣本篩選。在流程梳理的基礎(chǔ)上,設立簡單規(guī)則,初篩流量劃轉(zhuǎn)行為具有異常表現(xiàn)的用戶。選取少量用戶,外呼驗證,獲取準確正樣本,并推廣至該售賣用戶的所有流量對端用戶,標記為正樣本。借助用戶流量劃轉(zhuǎn)記錄數(shù)據(jù),篩選各項流量劃轉(zhuǎn)行為數(shù)據(jù)值處于正常范圍的用戶,標記為負樣本。
第二步,特征工程。這是數(shù)據(jù)建模的關(guān)鍵步驟,關(guān)系模型結(jié)果的好壞。在項目實施時,結(jié)合業(yè)務知識、調(diào)研結(jié)果和數(shù)據(jù)探索成果,從流量劃轉(zhuǎn)行為特征、流量和通話交往圈流量劃轉(zhuǎn)特征和個人通信屬性特征等角度入手,完成變量的設計工作。運用大數(shù)據(jù)平臺數(shù)據(jù)庫,從數(shù)據(jù)中獲取特征,并利用Python語言進行數(shù)據(jù)預處理,完成缺失值判斷與處理、分類變量啞元化、變量標準版等數(shù)據(jù)預處理工作。神經(jīng)網(wǎng)絡模型對于特征工程的要求較少,網(wǎng)絡結(jié)構(gòu)能夠?qū)Φ碗A的輸入特征進行組合變換生成高階特征。但輸入無關(guān)變量會增加模型的訓練時間,因此本文在項目實施時進行了特征篩選。通過計算各變量的IV值,衡量自變量預測能力的大小,選取IV值較大的變量,實現(xiàn)變量特征的篩選。
第三步,模型建立?;诖髷?shù)據(jù)內(nèi)網(wǎng)挖掘平臺,使用Ppython完成神經(jīng)網(wǎng)絡模型的構(gòu)建工作,識別流量購買用戶。最終建立三層神經(jīng)網(wǎng)絡模型,通過網(wǎng)絡層級的增加,彌補特征數(shù)量不足的問題,在一定程度上減少人工設計特征變量的工作,并提升模型的準確性。通過模型的反復迭代,流量購買用戶的識別準確率由規(guī)則篩選的40%提升至80%。
(三)識別流量售賣用戶
在識別流量購買用戶的基礎(chǔ)上,探索流量購買者與售賣者之間的數(shù)據(jù)聯(lián)系,制定數(shù)據(jù)規(guī)則,從流量購買者的流量劃轉(zhuǎn)來源對端中篩選流量售賣用戶。經(jīng)過這一步驟,剔除了流量購買者流量交往圈中流量劃轉(zhuǎn)總數(shù)和人數(shù)都相對較少的正常用戶,能更加精準地識別流量售賣用戶。
(四)定位集團違規(guī)折扣
基于大數(shù)據(jù)模型識別流量售賣者,追溯售賣者流量來源,結(jié)合傳統(tǒng)審計方法,核查集團違規(guī)套利途徑,并向相關(guān)地市公司部門追責。
三、審計成效及展望
(一)審計成效
通過運用大數(shù)據(jù)分析平臺及科學建模技術(shù),實現(xiàn)了流量轉(zhuǎn)售專題分析項目中流量轉(zhuǎn)售用戶(C端)的自動識別,在保證一定準確率的基礎(chǔ)上,實現(xiàn)大范圍的用戶識別。最終,模型對流量購買用戶(D端)識別的準確率達到82%,核查用戶超過100萬,篩選出流量轉(zhuǎn)售商(C端)超過100個。
典型違規(guī)案例如下:
1.某科技公司將流量和贈送話費拆分轉(zhuǎn)售獲取利益。該公司辦理集團流量紅包統(tǒng)付業(yè)務總計120萬元,獲贈等額饋贈金。一方面通過中間號碼將所購流量進行轉(zhuǎn)售,另一方面將每月的饋贈金通過名下其他賬戶劃出,并通過第三方以95折同步轉(zhuǎn)售,幾乎零成本套回本金并獲利。
2.某科技公司超低折扣轉(zhuǎn)售套利。通過高額饋贈金的獲取,該公司最終獲得流量18000萬M,通過網(wǎng)絡轉(zhuǎn)售,以450萬元的本金獲得630萬元的收入,直接獲利180萬元(按網(wǎng)售價格計算)。
3.某科技公司執(zhí)行漏洞造成的流量收入損失。該公司從某地市以市場售價4.2折的低價購買大量流量業(yè)務,再以低價公開轉(zhuǎn)售。流量轉(zhuǎn)售是利用公司營銷活動或系統(tǒng)功能的漏洞,將原先只有特定目標客戶可以享用的營銷資源,通過人為組合使得非目標客戶也可以使用,弱化了公司的營銷目的,擾亂了特定產(chǎn)品的價格體系。此案例是通過第三方公司開展,正常的公司業(yè)務核查極難發(fā)現(xiàn)異常。而建模的識別先定義到問題所在,在此基礎(chǔ)上核查目的明確、方向清晰,挖掘出隱藏的轉(zhuǎn)售行為,進而找出公司營銷活動或系統(tǒng)功能的漏洞,維護了公司利益。
(二)展望
通過大數(shù)據(jù)分析和建模技術(shù),提高了審計工作效率。流程可復用度高,在相似審計業(yè)務場景中有普遍的適用性,可以提高審計工作的效率和效果。
此外,相關(guān)模型還可拓展應用于一些營銷業(yè)務場景,如計算潛在低價流量需求客戶群概率,也可為用戶轉(zhuǎn)售套利業(yè)務提供一定的判斷依據(jù)。
(作者單位:中國移動通信集團浙江有限公司,郵政編碼:310005,電子郵箱:13605756667@139.com)
主要參考文獻
陳明.神經(jīng)網(wǎng)絡模型[M].大連:大連理工大學出版社, 1995
鄧茗春,李剛.幾種典型神經(jīng)網(wǎng)絡結(jié)構(gòu)的比較與分析[J].信息技術(shù)與信息化, 2008(6):29-31
袁曾任.人工神經(jīng)網(wǎng)絡及其應用(第1版)[M].北京:清華大學出版社, 1999
[加]Simon-Haykin.神經(jīng)網(wǎng)絡與機器學習[M].北京:機械工業(yè)出版社, 2011