在當前大數據環(huán)境下,各類信息化、數字化技術層出不窮并不斷發(fā)展和深度融合,為審計工作思路與工作模式的優(yōu)化、調整、完善提供了有力基礎。隨著近幾年的探索,國內通信企業(yè)基于“云計算”等技術相繼構建了各類審計作業(yè)系統(tǒng),通過審計建模實現了對高風險領域的全覆蓋和準實時。審計工作“原力”的海量業(yè)務數據作為審計證據后,將對審計成果產生幾何倍數的影響。如何將海量的業(yè)務數據變?yōu)闇蚀_的審計數據,已成為大數據環(huán)境下開展審計的重要“痛點”??梢哉f,現階段審計工作的難點是讓海量業(yè)務數據脫離其原始特征轉變?yōu)榫珶挼?、具備高價值審計含義的數據,從而最終生成高質量審計成果。
業(yè)務數據的日益龐雜、審計信息化系統(tǒng)的逐步建立、數據審計體系的逐步完善,為進一步實現內部審計工作價值帶來了機遇和挑戰(zhàn)。
通信企業(yè)信息化水平程度整體較高,各類網絡運維、運營生產、企業(yè)管理均有系統(tǒng)平臺支撐,進而造成數據的維度極其豐富,各數據域的數據間相互影響,但關聯度低。任意用戶或產品背后就有多達數百項的屬性數據。如何將各數據域間的數據加以整合,從豐富多維的數據挖掘有價值的審計線索,存在一定困難。
企業(yè)為應對市場的需求、行業(yè)的監(jiān)管、業(yè)績的考核等都需要不斷優(yōu)化業(yè)務,通信領域的技術日新月異,勢必帶來數據的變化。這些變化,不僅只是數據項的新增和刪除,還存在大量數據屬性、類型等的變化。行業(yè)“戰(zhàn)場”環(huán)境復雜多變,這些重要的作戰(zhàn)數據如何時刻“保鮮”,有效服務于審計,正逐漸提上數據審計支撐工作的日程。
在信息社會,數據可以劃分為兩大類:一類能夠用統(tǒng)一的結構加以表示,稱之為結構化數據,如數字、符號等;一類無法用數字或統(tǒng)一的結構表示,如文本、圖像等,稱為非結構化數據。過去幾年,業(yè)界更多關注的是如何處理海量和異構的數據,從中挖掘審計價值,這其中絕大多數是結構化數據,但這些只是企業(yè)運營數據中的冰山一角。實際上,企業(yè)運營的數據資料中80%都是以文件形式存在的非結構化和半結構化數據,包括紙質文件(合同等)、圖片(現場記錄等)、手工憑證(發(fā)票、臺賬等)等。如果能夠充分利用這些數據,將能大大降低現場審計壓力,全面實現由數據驅動的遠程審計,提升審計效率和質量。
為應對上述機遇與挑戰(zhàn),筆者初步提出構建基于業(yè)務數據審計標簽化的數據審計體系。該體系的核心是對業(yè)務數據的潛在審計價值進行深度挖掘和開發(fā),通過類自然語言構造基礎審計標簽庫,對目標業(yè)務數據輸出審計標簽,并據此打造審計數據集市,輔以相關數據審計作業(yè)流程。實現讓業(yè)務數據直接展現審計含義,使審計人員擺脫對海量元數據的基礎分析,直接應用審計標簽開展工作。進而為企業(yè)提供更具有戰(zhàn)略性、系統(tǒng)性、參謀性和前瞻性的審計建議,促進企業(yè)健康發(fā)展,提升企業(yè)運營管理效率,實現內部審計的高價值轉型。具體模型如圖1。
圖1:基于業(yè)務數據審計標簽化的數據審計體系模型
1.標簽的定義
審計數據標簽化是對某數據集合的一種或多種穩(wěn)定的審計特征進行分析和描述,由多個可定性的屬性條件或特征標識組合而成,從而使該數據集合脫離元數據屬性,形成高度精煉的、具備審計含義的數據子集。
2.標簽的建立
筆者采用類自然語言構造基礎審計標簽庫,通過多種方式建模,對目標審計數據輸出標簽,實現對各系統(tǒng)業(yè)務數據的標簽化,將元數據中具備審計價值的信息剝離出來。
(1)邏輯層次
審計數據標簽化構成邏輯模型如圖2所示。
該模型由元數據層、處理層、標記層及應用層組成,在標記層與配置域進行參數交互。
圖2:審計數據標簽化邏輯模型
元數據層向所有標記過程提供元數據,這里主要是CRM、OA、ERP等結構化業(yè)務運營數據。
處理層從元數據層獲取數據后,按照預先定義的類自然語言審計標簽,通過固有基本屬性分析、基礎信息處理、用戶行為推測分析、數據挖掘4個方法建模,對目標審計數據進行分析處理,向標記層輸出已標簽化的審計數據。
標記層負責對標記后的審計數據進行分類匯總,形成可被審計使用的標簽化數據。
應用層主要是提供給審計人員使用,讓審計人員結合審計項目需要,對標簽化數據進行抽取,采用交叉、組合、時序、關聯等分析,結合訪談、審閱等,最終形成審計發(fā)現。
(2)舉例
①固有基本屬性分析
通過對業(yè)務數據中已定義的結構化數據信息對其進行建模,得出符合審計邏輯的標簽。以主標簽“異常證件地址”為例,對用戶的基本屬性信息“證件地址”進行分析建模:
子標簽為“同址不同號”,口徑為:用戶證件地址完全相同,但證件號不同。
子標簽為“證址不符”,口徑為:用戶證件地址省份與證號前2位歸屬省編號不一致。如:XX省份證件號前2位為34,但證件地址省份為其他?。ㄆ渲幸泊嬖谡5霓D戶籍情況)。
②基礎信息處理
通過對基礎信息進行分析處理,構造模型,得出符合審計邏輯的標簽。以主標簽“集中呼轉”為例,對用戶呼叫轉移業(yè)務操作記錄、通話記錄進行關聯分析建模。
口徑為:首先分析通過后臺工號(如:10086,網廳等)受理呼叫轉移操作,超過N個用戶呼轉至同一號碼;然后分析該批用戶連續(xù)M個月的通話記錄,對其中周期內僅通話A次或通話時長低于B分鐘的定義為“集中呼轉”。
③用戶行為推測分析
通過對用戶行為進行推測分析,建立模型,得出符合審計邏輯的標簽。以主標簽“侵占用戶權益”下的子標簽“套取滯納金”為例,研究用戶繳費行為特征,如存在欠費滯納金用戶來網點繳納欠費時,全額繳納滯納金和欠費后,一般不會返銷操作。設計審計模型口徑:同一網點期間內用戶繳納欠費滯納金后,當日發(fā)生返銷,后減免滯納金,再次按減免后的金額繳納欠費。即:交滯納金及欠費→返銷→減免滯納金→交欠費。
④數據挖掘
通過對各類數據進行全量分析,挖掘其中符合審計邏輯的模型,得出符合審計邏輯的標簽。以主標簽“異常受限解除”下子標簽“違規(guī)解除低消”為例。通過對受限解除操作及后續(xù)受限辦理行為數據統(tǒng)計得出該標簽結論??趶綖椋罕5紫M用戶解除產品(如:最低消費)受限后,未能再次疊加同檔或更高檔次的產品受限。
3.標簽的撤銷
若某類審計標簽整改后已不再存在,則應對該標簽進行撤銷。撤銷時,對審計基礎標簽庫和審計標簽標記均進行撤銷標記。
4.基礎標簽庫的構成
審計基礎標簽庫由標簽名、標簽定義、標簽分類、標簽口徑、標簽狀態(tài)等屬性組成,如圖3。
圖3:基礎標簽庫構成
1.目標
基于對業(yè)務數據的審計標簽化,將標簽化后的數據構造為審計數據集市,為審計單位提供獨立、穩(wěn)定、具備審計含義的專用數據倉庫。
2.建立與維護
我們按G網用戶、寬帶用戶、終端用戶、其他類別這4類構造審計事實表。以用戶標識、終端IMEI等唯一值為主鍵,將各標簽作為事實表的屬性值,按月新增。
將基礎標簽庫和從經營分析系統(tǒng)的數據倉庫同步來的關鍵參數表作為維表。
基于上述內容,筆者根據審計項目各階段要素建立如圖4的新型數據審計作業(yè)流程。
圖4:新型數據審計作業(yè)流程
在審計準備階段,圍繞審計點,提供審計作業(yè)系統(tǒng)已固化的審計模型結果,以及對應審計點相關的全量審計標簽數據,直接形成審計發(fā)現或線索。在現場階段,配合對審計點的數據分析(通進一步過關聯、時序、組合標簽數據)及驗證。在報告階段,提供審計發(fā)現的邏輯、清單等,輔助問題定性。
筆者以2017年某地市主要負責人離任經濟責任審計為例,針對審計框架中的“社會網點套取業(yè)務酬金”審計點進行實踐說明。如圖5。
在審計準備階段,審計人員首先在審計數據集市中獲取被審計單位審計期內全量的審計標簽數據,分析梳理其中標記較多且存在一定重合度的標簽明細數據,重點關注與“渠道酬金”相關的標簽數據。隨后通過審計作業(yè)平臺已有的監(jiān)控模塊,提取審計期內全量與酬金發(fā)放相關的預警和審計發(fā)現內容。
數據審計人員根據該審計點的審計要求,進行趨勢和異常分析。在本項目中,對審計作業(yè)平臺數據進行分析發(fā)現,被審計單位的社會渠道酬金發(fā)放在2016年中部分月有突增,進一步觀察酬金清單發(fā)現,突增的酬金項目均為“4G套餐遷移獎勵酬金”;對審計數據集市中的標簽數據分析發(fā)現,在2016年部分月中存在較多的“高頻次返銷工號”、“異常返銷”標簽數據。將上述兩類異常清單的用戶號碼和業(yè)務月份進行重合度匹配,同時對該批用戶的“疑似養(yǎng)卡”標簽也進行關聯,均發(fā)現重合度極高,其中部分社會渠道集中返銷與獎勵酬金呈正比關系。
數據審計人員抽取渠道酬金突增明顯的社會渠道及其期間內返銷業(yè)務記錄,經日志軌跡審查,發(fā)現社會渠道通過違規(guī)繳費,虛假辦理業(yè)務后返銷,套取激勵酬金的行為。
在該項目的實施階段,數據審計人員將該審計發(fā)現報告給審計組,由審計組遠程與被審計單位溝通,確認了該審計發(fā)現并最終披露在審計報告中。
圖5:最佳實踐舉例示意圖
通過構建數據審計體系,實現了“點、線、面、人、財、物”的三升三降,有效降低審計成本,提高審計質量和效益,提升審計時效,健全數據審計生態(tài),實現審計全覆蓋。
實施業(yè)務數據審計標簽化,還有以下優(yōu)勢。
圖6:成果價值
1.打破了業(yè)務的數據壁壘,實現了對跨域數據的全景分析。傳統(tǒng)審計項目中,由于審計業(yè)務場景的不同,往往需要數據分析人員分別從各域獲取數據,同時受“系統(tǒng)孤島”影響,各數據域的數據關聯關系梳理困難,造成審計口徑持續(xù)應用難、審計數據覆蓋面不夠、審計數據可用性不高、審計效率受數據影響大等問題。通過對各域數據的標簽化,將分散的業(yè)務數據標記為具備審計含義的審計數據,形成可直接被審計人員識別的數據集,打破數據域的壁壘,為實現跨域數據的全景分析奠定了堅實的基礎。
2.推動新型審計模式落地,提升審計價值?;趯徲嫈祿撕灮瑢⒏黝悩I(yè)務數據標記為具有類自然語言標簽的審計數據,從而剔除了元數據中與審計無關的數據,使審計數據輕量化、簡潔化,讓沒有大數據分析能力的審計人員可以在現場利用EXCEL等工具開展數據分析。大數據分析人員可遠程同時支撐多個審計現場的工作,有效提升了審計效率,降低了審計人力的投入,切實提升了審計價值。
3.通過對元數據的透視,圈選審計范圍,實現審計項目的快速推進。傳統(tǒng)審計項目的準備階段,需要對元數據進行清洗和分析,形成審計線索,圈定問題范圍。而基于審計標簽化的數據,準備階段就無需預處理數據,大大縮短了審計項目周期,有效提升了審計項目的效率。經初步測算,平均每個審計項目都至少需要2名數據分析人員使用0.5周時間進行元數據的預處理,體系建立后,同樣的人力投入可以同時為2個審計項目直接提供審計線索數據,某些項目甚至不需要專職的人員進行數據分析。
4、標簽化作為業(yè)務數據審計化的解決方案,為實現大數據智慧審計提供堅實基礎。近年來,業(yè)界積極探索運用人工智能技術推進審計工作開展,相繼提出大數據審計、智慧審計的思路。面對海量業(yè)務數據,元數據審計標簽化,正是實現業(yè)務數據審計化的解決方案之一,它采用類自然語言構造基礎審計標簽庫,通過多種方式建模,對目標審計數據輸出標簽,實現對各系統(tǒng)業(yè)務數據的標簽化,將元數據中具備審計價值的信息剝離,為實現智慧審計提供了數據基礎。
初步構建基于業(yè)務數據審計標簽化的通信企業(yè)數據審計體系,是將審計業(yè)務與信息技術深度融合的突破口。如何將之與人工智能技術結合,發(fā)揮機器學習,語義識別等能力,進一步解決非結構化數據的獲取、清洗和加工,以更加智能化的手段挖掘各類業(yè)務數據中的審計價值,還有很長的路要走。未來通過充分開發(fā)人工智能等信息技術,積探索挖掘審計數據的方式,提升駕馭業(yè)務大數據的能力,讓海量的業(yè)務數據自如地說“審計方言”,能把握住審計創(chuàng)新發(fā)展的主動權,釋放出大數據審計的潛力,迎來審計工作的新發(fā)展。