[摘要]本文針對(duì)企業(yè)審計(jì)畫像存在的數(shù)據(jù)孤島、質(zhì)量參差不齊、標(biāo)準(zhǔn)缺失等數(shù)據(jù)問題,提出了基于人工智能大模型的數(shù)據(jù)治理創(chuàng)新體系,利用知識(shí)圖譜技術(shù)實(shí)現(xiàn)語義對(duì)齊,成功在某能源央企內(nèi)對(duì)16個(gè)異構(gòu)系統(tǒng)進(jìn)行了字段級(jí)的動(dòng)態(tài)映射,結(jié)合強(qiáng)化學(xué)習(xí)構(gòu)建了質(zhì)量持續(xù)改進(jìn)機(jī)制,并集成自然語言處理技術(shù)建立多維規(guī)則智能處理庫(kù),實(shí)現(xiàn)570萬條指標(biāo)數(shù)據(jù)的智能化治理,有效提升了審計(jì)數(shù)據(jù)的可用性與畫像準(zhǔn)確度,為企業(yè)審計(jì)畫像提供高質(zhì)量數(shù)據(jù)基座。
[關(guān)鍵詞]企業(yè)審計(jì)畫像" "數(shù)據(jù)治理" "人工智能" "DeepSeek" "大模型
一、數(shù)字化轉(zhuǎn)型背景下企業(yè)審計(jì)畫像數(shù)據(jù)治理的發(fā)展趨勢(shì)
2019年10月,黨的十九屆四中全會(huì)首次將數(shù)據(jù)確立為生產(chǎn)要素;2022年12月,《中共中央、國(guó)務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(中發(fā)〔2022〕32號(hào))明確提出數(shù)據(jù)要素價(jià)值化實(shí)施路徑;2023年12月,《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》(國(guó)數(shù)政策〔2023〕11號(hào))則進(jìn)一步強(qiáng)調(diào)數(shù)據(jù)要素的報(bào)酬遞增與低成本復(fù)用特性,通過優(yōu)化資源配置推動(dòng)新質(zhì)生產(chǎn)力發(fā)展,引發(fā)生產(chǎn)生活、經(jīng)濟(jì)治理等領(lǐng)域的系統(tǒng)性變革。在人工智能與大模型技術(shù)深度演進(jìn)背景下,數(shù)據(jù)要素正加速驅(qū)動(dòng)實(shí)體經(jīng)濟(jì)范式轉(zhuǎn)型,倒逼企業(yè)構(gòu)建業(yè)務(wù)全鏈條數(shù)字化重構(gòu)能力。在此背景下,審計(jì)方法正逐步從傳統(tǒng)的基于規(guī)則的經(jīng)驗(yàn)判斷,轉(zhuǎn)向以全量數(shù)據(jù)為驅(qū)動(dòng)的智能決策模式,這一轉(zhuǎn)變對(duì)企業(yè)審計(jì)畫像提出更高要求:其一,審計(jì)監(jiān)督范圍需突破財(cái)務(wù)領(lǐng)域局限,向采購(gòu)、生產(chǎn)、銷售等業(yè)務(wù)領(lǐng)域縱深拓展;其二,審計(jì)數(shù)據(jù)維度需融合結(jié)構(gòu)化報(bào)表與非結(jié)構(gòu)化文本等多模態(tài)信息;其三,數(shù)據(jù)治理能力需支撐實(shí)時(shí)化決策需求。然而,數(shù)據(jù)孤島、質(zhì)量參差不齊與標(biāo)準(zhǔn)缺失等問題嚴(yán)重制約審計(jì)畫像的精度,因此,構(gòu)建一套適應(yīng)智能審計(jì)場(chǎng)景的數(shù)據(jù)治理體系顯得尤為迫切。
企業(yè)審計(jì)畫像主要是通過研究分析被審計(jì)單位的內(nèi)外部數(shù)據(jù)信息,從海量業(yè)務(wù)數(shù)據(jù)與財(cái)務(wù)信息中提取審計(jì)關(guān)注的生產(chǎn)經(jīng)營(yíng)管理特征指標(biāo),形成指標(biāo)化、場(chǎng)景化、數(shù)智化的審計(jì)“素描畫像”,以客觀、動(dòng)態(tài)反映企業(yè)真實(shí)經(jīng)營(yíng)管理狀況。其核心價(jià)值體現(xiàn)為兩方面:一是通過多模態(tài)數(shù)據(jù)融合擴(kuò)展監(jiān)督范圍,實(shí)現(xiàn)業(yè)務(wù)全流程精準(zhǔn)監(jiān)督與風(fēng)險(xiǎn)預(yù)警;二是借助數(shù)字化與可視化分析提升監(jiān)管質(zhì)效,增強(qiáng)決策時(shí)效性。聚焦審計(jì)畫像的數(shù)據(jù)治理實(shí)踐,其核心挑戰(zhàn)集中于動(dòng)態(tài)整合與智能優(yōu)化兩大維度:一方面,多源異構(gòu)數(shù)據(jù)的實(shí)時(shí)整合需求與跨系統(tǒng)語義對(duì)齊的復(fù)雜性,要求突破傳統(tǒng)治理的靜態(tài)規(guī)則限制;另一方面,數(shù)據(jù)質(zhì)量的持續(xù)管控則需實(shí)現(xiàn)從被動(dòng)清洗到主動(dòng)優(yōu)化的轉(zhuǎn)變。
針對(duì)上述問題,理論與技術(shù)研究呈現(xiàn)協(xié)同演進(jìn)特征:理論層面,陳雪嵩(2024)提出的“可知—可查—可用”數(shù)據(jù)治理框架,與DAMA-DMBOK2的數(shù)據(jù)管理職能形成理論共振,通過構(gòu)建全域數(shù)據(jù)模型、主數(shù)據(jù)治理體系及全生命周期質(zhì)量管控機(jī)制,系統(tǒng)性解決了審計(jì)畫像場(chǎng)景下數(shù)據(jù)架構(gòu)松散、集成低效與質(zhì)量不可控的難題,為審計(jì)畫像數(shù)據(jù)治理提供了完整的理論范式。技術(shù)層面,基于DBSCAN聚類算法(李西芝等,2019)的異常檢測(cè)模型與改進(jìn)型歸一化方法(蔡光程,2021)的結(jié)合,初步建立了多尺度數(shù)據(jù)清洗技術(shù)體系,有效提升數(shù)據(jù)質(zhì)量基線;在此基礎(chǔ)上,通過引入混合神經(jīng)網(wǎng)絡(luò),捕捉多源數(shù)據(jù)的時(shí)序關(guān)聯(lián)特征,實(shí)現(xiàn)了審計(jì)分析的動(dòng)態(tài)智能化轉(zhuǎn)型。當(dāng)前,人工智能技術(shù)正深度重構(gòu)數(shù)據(jù)治理的范式與路徑,其賦能價(jià)值已從基礎(chǔ)數(shù)據(jù)處理向全鏈路智能化治理演進(jìn),其自然語言處理(NLP)能力、學(xué)習(xí)能力、邏輯推理與因果推斷能力等,能夠應(yīng)用到數(shù)據(jù)治理的不同場(chǎng)景中,解決傳統(tǒng)數(shù)據(jù)治理的問題,進(jìn)一步提升企業(yè)數(shù)據(jù)管理能力和管理效率(如表1所示)。以DeepSeek為代表的人工智能,通過多模態(tài)感知與整合、自然語言處理與知識(shí)圖譜等能力構(gòu)建跨域數(shù)據(jù)實(shí)體關(guān)系網(wǎng)絡(luò),突破傳統(tǒng)ETL工具基于規(guī)則映射的局限性,實(shí)現(xiàn)異構(gòu)系統(tǒng)間字段級(jí)語義一致性。同時(shí),基于強(qiáng)化學(xué)習(xí)與自適應(yīng)、邏輯推理與因果推斷等能力將智能模型嵌入數(shù)據(jù)清洗、轉(zhuǎn)換、加載等環(huán)節(jié),形成“采集—融合—優(yōu)化”動(dòng)態(tài)閉環(huán),顯著提升數(shù)據(jù)處理效率,推動(dòng)數(shù)據(jù)治理從靜態(tài)規(guī)則向認(rèn)知智能轉(zhuǎn)型。
二、企業(yè)審計(jì)畫像數(shù)據(jù)治理體系構(gòu)建
(一)整體建設(shè)思路
數(shù)據(jù)治理作為數(shù)字化轉(zhuǎn)型的核心支撐機(jī)制,通過組織架構(gòu)、政策流程與技術(shù)工具的協(xié)同設(shè)計(jì),實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)全生命周期的標(biāo)準(zhǔn)化、可控化與價(jià)值化。根據(jù)國(guó)家標(biāo)準(zhǔn)《信息技術(shù)大數(shù)據(jù)術(shù)語》(GB/T35295-2017),數(shù)據(jù)治理被定義為對(duì)數(shù)據(jù)進(jìn)行處置、格式化和規(guī)范化的過程,其核心在于建立覆蓋數(shù)據(jù)采集、存儲(chǔ)、處理、應(yīng)用的全生命周期管理體系(門偉莉等,2024)。DAMA-DMBOK2作為數(shù)據(jù)管理領(lǐng)域的權(quán)威指南,提出的11項(xiàng)數(shù)據(jù)管理職能(如數(shù)據(jù)架構(gòu)、數(shù)據(jù)集成、數(shù)據(jù)質(zhì)量)為治理體系構(gòu)建提供了方法論支持,其重點(diǎn)在于構(gòu)建跨職能協(xié)同機(jī)制,確保數(shù)據(jù)在可用性、一致性與安全性層面滿足業(yè)務(wù)需求。
基于上述理論框架,本研究聚焦企業(yè)審計(jì)畫像場(chǎng)景,提出“評(píng)估—整合—優(yōu)化”數(shù)據(jù)治理體系(如圖1所示)。該體系通過構(gòu)建全鏈路數(shù)據(jù)溯源機(jī)制與動(dòng)態(tài)語義對(duì)齊模型,突破異構(gòu)系統(tǒng)整合瓶頸,結(jié)合DeepSeek的多源異構(gòu)數(shù)據(jù)整合、知識(shí)圖譜與強(qiáng)化學(xué)習(xí)能力,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的閉環(huán)優(yōu)化與持續(xù)迭代,旨在為企業(yè)審計(jì)畫像提供高質(zhì)量數(shù)據(jù)基座,推動(dòng)審計(jì)決策從靜態(tài)分析向認(rèn)知智能轉(zhuǎn)型。
(二)企業(yè)審計(jì)畫像數(shù)據(jù)治理的關(guān)鍵步驟
1.數(shù)據(jù)評(píng)估層:構(gòu)建可信數(shù)據(jù)基座。
本層通過數(shù)據(jù)需求梳理、全域數(shù)據(jù)資產(chǎn)清點(diǎn)、字段級(jí)智能溯源與智能驗(yàn)證閉環(huán)機(jī)制,構(gòu)建可量化審計(jì)特征的數(shù)據(jù)實(shí)體關(guān)系網(wǎng)絡(luò),實(shí)現(xiàn)業(yè)務(wù)規(guī)則與數(shù)據(jù)實(shí)體的精準(zhǔn)映射,為審計(jì)畫像提供可信數(shù)據(jù)支撐。
(1)數(shù)據(jù)需求梳理。
數(shù)據(jù)需求梳理是為了明確審計(jì)所需業(yè)務(wù)數(shù)據(jù),通過對(duì)各種審計(jì)數(shù)據(jù)、日志數(shù)據(jù)、審計(jì)問題底稿、審計(jì)案例、業(yè)務(wù)系統(tǒng)監(jiān)督模型等進(jìn)行梳理,根據(jù)各企業(yè)業(yè)務(wù)流程清單,結(jié)合內(nèi)控流程梳理需要關(guān)注的審計(jì)事項(xiàng),形成審計(jì)關(guān)注點(diǎn)和審計(jì)場(chǎng)景,根據(jù)業(yè)務(wù)場(chǎng)景與關(guān)注點(diǎn)進(jìn)行分析,最終形成涉及業(yè)務(wù)系統(tǒng)和業(yè)務(wù)對(duì)象的信息,為后續(xù)數(shù)據(jù)治理奠定基礎(chǔ)。傳統(tǒng)模式下,審計(jì)關(guān)注點(diǎn)的提煉高度依賴人工經(jīng)驗(yàn),存在效率低、覆蓋面窄等局限。借助DeepSeek人工智能的多模態(tài)感知與自然語言處理能力,可實(shí)現(xiàn)對(duì)審計(jì)案例、問題底稿及業(yè)務(wù)系統(tǒng)日志等非結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)化解析,精準(zhǔn)提取業(yè)務(wù)流程中的風(fēng)險(xiǎn)特征。例如,在物資采購(gòu)領(lǐng)域,通過知識(shí)圖譜技術(shù)構(gòu)建采購(gòu)制度文本與業(yè)務(wù)執(zhí)行數(shù)據(jù)的關(guān)聯(lián)網(wǎng)絡(luò),動(dòng)態(tài)識(shí)別“供應(yīng)商資質(zhì)異?!薄昂贤募s偏差”等審計(jì)場(chǎng)景;基于強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的模式挖掘,能夠從歷史審計(jì)問題中自主發(fā)現(xiàn)風(fēng)險(xiǎn)規(guī)律,生成覆蓋招投標(biāo)、合同簽訂、履約驗(yàn)收等全鏈條的《審計(jì)關(guān)注點(diǎn)清單》。
(2)全域數(shù)據(jù)資產(chǎn)清點(diǎn)。
基于系統(tǒng)和業(yè)務(wù)解構(gòu)方法論,建立多維度數(shù)據(jù)資產(chǎn)清點(diǎn)機(jī)制(如圖2所示)。在業(yè)務(wù)流程梳理和分解等過程中,通過DeepSeek的知識(shí)圖譜與自然語言處理能力,可自動(dòng)化解析系統(tǒng)集成關(guān)系圖譜、數(shù)據(jù)字典、底表清單及跨部門業(yè)務(wù)規(guī)則文檔,精準(zhǔn)識(shí)別物資采購(gòu)等領(lǐng)域中ERP、物資供應(yīng)資源管理系統(tǒng)等異構(gòu)系統(tǒng)的輸入輸出依賴關(guān)系。例如,通過強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的語義對(duì)齊模型,能夠從非結(jié)構(gòu)化業(yè)務(wù)規(guī)則中提取觸發(fā)條件與數(shù)據(jù)沉淀節(jié)點(diǎn),動(dòng)態(tài)生成系統(tǒng)集成關(guān)系圖譜;結(jié)合圖神經(jīng)網(wǎng)絡(luò)對(duì)歷史審計(jì)問題庫(kù)的深度挖掘,可自主標(biāo)注高風(fēng)險(xiǎn)數(shù)據(jù)存儲(chǔ)路徑與業(yè)務(wù)規(guī)則沖突點(diǎn),形成面向?qū)徲?jì)場(chǎng)景的動(dòng)態(tài)數(shù)據(jù)資產(chǎn)地圖。
(3)字段級(jí)智能溯源。
基于分布式計(jì)算框架,部署元數(shù)據(jù)智能采集器,通過無侵入式日志解析技術(shù)實(shí)時(shí)捕獲ETL全鏈路操作,通過審計(jì)特征庫(kù)的智能語義解析算法,構(gòu)建字段級(jí)溯源圖譜,實(shí)現(xiàn)跨系統(tǒng)數(shù)據(jù)關(guān)系的可視化呈現(xiàn)(如圖3所示)。相較于傳統(tǒng)血緣分析工具,本方法實(shí)現(xiàn)字段級(jí)粒度的全生命周期溯源,突破傳統(tǒng)ETL工具的元數(shù)據(jù)采集局限,審計(jì)數(shù)據(jù)鏈路發(fā)現(xiàn)效率顯著提高。
(4)智能驗(yàn)證閉環(huán)機(jī)制。
通過DeepSeek人工智能的深度語義理解與動(dòng)態(tài)推理能力構(gòu)建自適應(yīng)治理框架,突破傳統(tǒng)人工驗(yàn)證的滯后性缺陷,快速分析數(shù)據(jù)溯源結(jié)果。首先基于知識(shí)圖譜與多模態(tài)對(duì)齊技術(shù),可自動(dòng)化解析審計(jì)指標(biāo)(如“利潤(rùn)總額”)與底層業(yè)務(wù)字段的語義關(guān)聯(lián)關(guān)系,生成動(dòng)態(tài)語義映射矩陣,替代人工配置規(guī)則的低效模式。其次結(jié)合圖神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的變更影響預(yù)測(cè)模型,能夠從歷史審計(jì)畫像波動(dòng)中挖掘潛在數(shù)據(jù)鏈路依賴,實(shí)現(xiàn)指標(biāo)異動(dòng)對(duì)業(yè)務(wù)風(fēng)險(xiǎn)的量化預(yù)判。最后形成智能決策機(jī)制,通過強(qiáng)化學(xué)習(xí)構(gòu)建多目標(biāo)優(yōu)化策略,在數(shù)據(jù)采集與清洗環(huán)節(jié)實(shí)時(shí)評(píng)估治理成本、風(fēng)險(xiǎn)覆蓋率與審計(jì)時(shí)效性,自主生成最優(yōu)數(shù)據(jù)采集策略。由此,驗(yàn)證機(jī)制從離散的靜態(tài)規(guī)則執(zhí)行升級(jí)為持續(xù)演進(jìn)的智能調(diào)控系統(tǒng),顯著提升數(shù)據(jù)溯源效率與治理策略的自適應(yīng)性。
2.數(shù)據(jù)整合層:實(shí)現(xiàn)跨域智能融合。
本層通過構(gòu)建智能動(dòng)態(tài)接入體系、數(shù)據(jù)資產(chǎn)目錄與標(biāo)準(zhǔn)化輸出框架,形成跨系統(tǒng)數(shù)據(jù)整合機(jī)制,實(shí)現(xiàn)審計(jì)數(shù)據(jù)的統(tǒng)一治理與敏捷應(yīng)用,為審計(jì)畫像多維分析提供高質(zhì)量數(shù)據(jù)支撐。
(1)智能動(dòng)態(tài)接入體系。
基于數(shù)據(jù)中臺(tái)搭建異構(gòu)系統(tǒng)互聯(lián)平臺(tái),支持SAP、Oracle等主流系統(tǒng)的多協(xié)議接入(ODBC/JDBC/API),通過PLT/ODP工具實(shí)現(xiàn)協(xié)議轉(zhuǎn)換與數(shù)據(jù)無損傳輸。一是協(xié)議無損轉(zhuǎn)換,支持ODBC/JDBC/API等協(xié)議接入,通過PLT/ODP工具實(shí)現(xiàn)協(xié)議轉(zhuǎn)換與數(shù)據(jù)無損對(duì)接。二是部署低延遲API網(wǎng)關(guān),建立實(shí)時(shí)/批量雙通道接入機(jī)制,以實(shí)時(shí)數(shù)據(jù)通道保障高風(fēng)險(xiǎn)領(lǐng)域?qū)徲?jì)數(shù)據(jù)的即時(shí)性,以批量數(shù)據(jù)通道滿足歷史數(shù)據(jù)整合分析需求。三是智能治理元數(shù)據(jù),自動(dòng)解析字段類型、計(jì)算口徑等業(yè)務(wù)語義,生成包含技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)及管理元數(shù)據(jù)的三維元數(shù)據(jù)模型,支撐數(shù)據(jù)目錄的版本追溯與動(dòng)態(tài)更新。
(2)數(shù)據(jù)資產(chǎn)目錄。
數(shù)據(jù)資產(chǎn)目錄的構(gòu)建依托DeepSeek多模態(tài)語義理解與動(dòng)態(tài)推理能力,實(shí)現(xiàn)跨域數(shù)據(jù)語義網(wǎng)絡(luò)的智能化重構(gòu)?;谥R(shí)圖譜驅(qū)動(dòng),通過“業(yè)務(wù)域—分類—對(duì)象—實(shí)體—屬性”五層架構(gòu)設(shè)計(jì)動(dòng)態(tài)目錄體系(如圖4所示),以可視化界面映射數(shù)據(jù)資源全貌,賦能生產(chǎn)者、使用者與管理者的精準(zhǔn)檢索與協(xié)同共享。在此基礎(chǔ)上,通過圖神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的實(shí)體解析算法,深度挖掘跨系統(tǒng)業(yè)務(wù)實(shí)體間的隱性關(guān)聯(lián),構(gòu)建“供應(yīng)商資質(zhì)—履約異?!Y金風(fēng)險(xiǎn)”等審計(jì)線索的語義網(wǎng)絡(luò),突破傳統(tǒng)人工規(guī)則配置的關(guān)聯(lián)局限。進(jìn)一步通過強(qiáng)化學(xué)習(xí)框架實(shí)時(shí)分析用戶檢索行為,自主優(yōu)化目錄權(quán)重分布與語義標(biāo)簽庫(kù),形成“數(shù)據(jù)定位—場(chǎng)景適配—策略迭代”的自進(jìn)化閉環(huán)。由此,數(shù)據(jù)資產(chǎn)目錄從靜態(tài)存儲(chǔ)工具升級(jí)為具備認(rèn)知推理能力的智能中樞,顯著提升復(fù)雜業(yè)務(wù)場(chǎng)景下的數(shù)據(jù)檢索效率與隱性風(fēng)險(xiǎn)關(guān)聯(lián)挖掘精度。
(3)標(biāo)準(zhǔn)化輸出框架。
構(gòu)建符合審計(jì)標(biāo)準(zhǔn)的可擴(kuò)展數(shù)據(jù)模型,支持多維數(shù)據(jù)分析與跨系統(tǒng)集成。首先,通過多維數(shù)據(jù)建模技術(shù),以主表存儲(chǔ)核心審計(jì)指標(biāo),維度表關(guān)聯(lián)組織、時(shí)間、字典等多維分析實(shí)體,構(gòu)建支持?jǐn)?shù)據(jù)立方體的動(dòng)態(tài)分析體系,實(shí)現(xiàn)多角度鉆取與復(fù)雜場(chǎng)景下的靈活數(shù)據(jù)透視。其次,定義JSON-LD格式的標(biāo)準(zhǔn)化數(shù)據(jù)交換協(xié)議,確保下游BI工具、風(fēng)險(xiǎn)模型等異構(gòu)系統(tǒng)實(shí)現(xiàn)語義級(jí)無縫對(duì)接,同時(shí)通過動(dòng)態(tài)校驗(yàn)機(jī)制保障數(shù)據(jù)一致性,消除跨系統(tǒng)集成中的數(shù)據(jù)偏差與映射誤差。
3.數(shù)據(jù)優(yōu)化層:質(zhì)量提升與智能修正。
本層通過構(gòu)建缺失值分級(jí)處理、異常值智能監(jiān)測(cè)、多維數(shù)據(jù)標(biāo)準(zhǔn)化與數(shù)據(jù)持續(xù)改進(jìn)四大模塊,系統(tǒng)性解決數(shù)據(jù)稀疏性、噪聲干擾與量綱差異問題,最終輸出滿足審計(jì)建模需求的全域標(biāo)準(zhǔn)化數(shù)據(jù)集,形成可復(fù)用的企業(yè)級(jí)數(shù)據(jù)資產(chǎn)庫(kù)。
(1)缺失值分級(jí)處理。
通過自動(dòng)化策略消除數(shù)據(jù)稀疏性問題,保障數(shù)據(jù)集的完整性。一是動(dòng)態(tài)清洗機(jī)制,部署智能分析引擎,實(shí)時(shí)識(shí)別缺失值分布規(guī)律,自動(dòng)剔除缺失率超過25%的指標(biāo),降低噪聲干擾。二是多源填補(bǔ)策略,對(duì)剩余缺失值,采用同源歷史數(shù)據(jù)均值填補(bǔ);若企業(yè)特定指標(biāo)完全缺失,則基于行業(yè)基準(zhǔn)值替代,最大限度保留數(shù)據(jù)趨勢(shì)特征。
(2)異常值智能監(jiān)測(cè)。
通過構(gòu)建融合統(tǒng)計(jì)學(xué)與深度學(xué)習(xí)的多層級(jí)檢測(cè)體系,實(shí)現(xiàn)異常值的精準(zhǔn)識(shí)別與動(dòng)態(tài)修正。首先,基于3σ原則建立初步篩查機(jī)制,識(shí)別并修正超過2σ閾值的溫和異常值,確保數(shù)據(jù)分布的穩(wěn)定性;其次,采用孤立森林算法深度挖掘極端異常值,并結(jié)合業(yè)務(wù)規(guī)則過濾偶發(fā)性偏差,降低誤判率;最后,基于DeepSeek強(qiáng)化學(xué)習(xí)模型,根據(jù)審計(jì)專家對(duì)異常結(jié)果的反饋數(shù)據(jù),動(dòng)態(tài)優(yōu)化閾值參數(shù)與修復(fù)策略,實(shí)現(xiàn)異常檢測(cè)模型的自適應(yīng)迭代與持續(xù)優(yōu)化。
(3)多維數(shù)據(jù)標(biāo)準(zhǔn)化。
通過歸一化方法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,消除各指標(biāo)數(shù)據(jù)的量綱和數(shù)量級(jí)差異帶來的影響,確保不同量綱和取值范圍的數(shù)據(jù)指標(biāo)之間可以進(jìn)行公平、有意義的比較和綜合評(píng)價(jià)。
第一步,判斷正、負(fù)向指標(biāo)。正向指標(biāo)自變量指標(biāo)值越大,指標(biāo)對(duì)象狀況越好;負(fù)向指標(biāo)相反。
第二步,歸一化,將數(shù)據(jù)歸一到[0,1]區(qū)間。
正向指標(biāo):
負(fù)向指標(biāo):
其中表示指標(biāo)無量綱處理后的值,表示第個(gè)數(shù)據(jù)點(diǎn),分別表示數(shù)據(jù)集合中的最大值和最小值。
第三步,動(dòng)態(tài)范圍校準(zhǔn)。基于DeepSeek的自然語言處理能力構(gòu)建時(shí)序預(yù)測(cè)模型,自動(dòng)識(shí)別指標(biāo)極值偏移(如季節(jié)性波動(dòng)),動(dòng)態(tài)調(diào)整歸一化基準(zhǔn)范圍,確保標(biāo)準(zhǔn)化結(jié)果反映業(yè)務(wù)真實(shí)狀態(tài)。
(4)數(shù)據(jù)持續(xù)改進(jìn)。
通過融合規(guī)則引擎與人工智能技術(shù),構(gòu)建自動(dòng)化質(zhì)量管控體系,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的智能評(píng)估與動(dòng)態(tài)優(yōu)化。首先,基于自然語言處理技術(shù),將業(yè)務(wù)需求自動(dòng)轉(zhuǎn)化為可執(zhí)行的技術(shù)規(guī)則庫(kù),覆蓋基礎(chǔ)校驗(yàn)、動(dòng)態(tài)閾值及復(fù)合邏輯規(guī)則,顯著降低規(guī)則編寫成本,使數(shù)據(jù)治理團(tuán)隊(duì)聚焦于質(zhì)量管理策略與問題解決。其次,采用關(guān)聯(lián)分析算法實(shí)時(shí)識(shí)別空值異常、邏輯沖突等潛在質(zhì)量問題,通過分布式掃描引擎實(shí)現(xiàn)每秒百萬級(jí)字段的高效監(jiān)測(cè),確保數(shù)據(jù)問題的快速定位。最后,結(jié)合歷史問題解決方案庫(kù)與數(shù)據(jù)血緣關(guān)系,提供根因分析與智能修復(fù)建議,形成“問題識(shí)別—原因分析—修復(fù)反饋”的閉環(huán)治理機(jī)制。
三、企業(yè)審計(jì)畫像數(shù)據(jù)治理成效
某能源央企從“畫像概覽、企業(yè)基本信息、審計(jì)畫像分析、審計(jì)應(yīng)用支持”4大框架搭建企業(yè)審計(jì)畫像的功能架構(gòu),其中“企業(yè)基本信息”涵蓋“基本情況、組織信息、法律訴訟、內(nèi)審?fù)獠椤?大類企業(yè)情況類指標(biāo),“審計(jì)畫像分析”涵蓋“國(guó)資監(jiān)管、集團(tuán)考評(píng)、企業(yè)對(duì)標(biāo)、重點(diǎn)業(yè)務(wù)”4大類的考核分析指標(biāo),通過多維度指標(biāo)融合實(shí)現(xiàn)企業(yè)健康全景刻畫。
在構(gòu)建過程中,針對(duì)16個(gè)異構(gòu)系統(tǒng)、48張核心數(shù)據(jù)表及570萬余條業(yè)務(wù)數(shù)據(jù)進(jìn)行實(shí)證分析。經(jīng)系統(tǒng)化治理后,數(shù)據(jù)質(zhì)量在完整性、一致性、可用性三個(gè)維度實(shí)現(xiàn)顯著提升,具體成效如下。
(一)全鏈路溯源效能突破
通過構(gòu)建動(dòng)態(tài)數(shù)據(jù)血緣圖譜與質(zhì)量評(píng)估矩陣,實(shí)現(xiàn)字段級(jí)數(shù)據(jù)關(guān)系可視化標(biāo)注。數(shù)據(jù)溯源效率大幅度提升,數(shù)據(jù)需求分析和數(shù)據(jù)資產(chǎn)盤點(diǎn)工作量顯著降低,溯源周期由8周壓縮至6周,源數(shù)據(jù)標(biāo)注準(zhǔn)確率超過95%,支撐審計(jì)需求與數(shù)據(jù)實(shí)體的精準(zhǔn)匹配。
(二)跨系統(tǒng)整合效率躍升
采用動(dòng)態(tài)數(shù)據(jù)整合技術(shù)建立統(tǒng)一數(shù)據(jù)目錄后,顯著提升跨系統(tǒng)數(shù)據(jù)檢索效率。關(guān)鍵字段檢索準(zhǔn)確率超過90%,數(shù)據(jù)接入周期由10周縮短至8周。非結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)化處理效率顯著提升,輸出指標(biāo)標(biāo)準(zhǔn)表符合要求。
(三)質(zhì)量閉環(huán)優(yōu)化成效顯著
通過系統(tǒng)性數(shù)據(jù)清洗與動(dòng)態(tài)優(yōu)化機(jī)制,顯著提升數(shù)據(jù)質(zhì)量。經(jīng)系統(tǒng)性數(shù)據(jù)清洗(含缺失值填補(bǔ)、異常值修正、數(shù)據(jù)標(biāo)準(zhǔn)化),數(shù)據(jù)缺失率大幅度降低,異常數(shù)據(jù)占比降低至3%,實(shí)現(xiàn)動(dòng)態(tài)優(yōu)化機(jī)制驅(qū)動(dòng)清洗策略迭代和適配業(yè)務(wù)規(guī)則變更,有效支撐審計(jì)畫像建模需求。
(四)賦能審計(jì)畫像決策
高質(zhì)量數(shù)據(jù)基座能夠顯著提升審計(jì)畫像的深度分析與決策支持能力。首先,依托OLAP多維分析與預(yù)測(cè)模型,實(shí)現(xiàn)對(duì)異常經(jīng)營(yíng)指標(biāo)的精準(zhǔn)定位與趨勢(shì)預(yù)測(cè),顯著增強(qiáng)審計(jì)決策的科學(xué)性與時(shí)效性。其次,通過強(qiáng)化學(xué)習(xí)技術(shù)動(dòng)態(tài)優(yōu)化指標(biāo)權(quán)重與模型參數(shù),將畫像迭代周期從季度壓縮至月度,快速響應(yīng)企業(yè)業(yè)務(wù)變化與外部環(huán)境波動(dòng)。最后,基于多源數(shù)據(jù)關(guān)聯(lián)知識(shí)圖譜,構(gòu)建高風(fēng)險(xiǎn)業(yè)務(wù)的智能化預(yù)警機(jī)制,顯著提升風(fēng)險(xiǎn)識(shí)別的準(zhǔn)確率與預(yù)警覆蓋范圍。
四、結(jié)論與展望
企業(yè)審計(jì)畫像作為一種基于大數(shù)據(jù)分析的方法,能夠助力審計(jì)人員全面、系統(tǒng)地掌握企業(yè)的財(cái)務(wù)及業(yè)務(wù)等各類數(shù)據(jù),快速精準(zhǔn)定位問題疑點(diǎn),進(jìn)而拓展審計(jì)內(nèi)容與范圍,達(dá)成審計(jì)全覆蓋的目標(biāo)。而數(shù)據(jù)治理作為企業(yè)審計(jì)畫像構(gòu)建的基礎(chǔ)環(huán)節(jié),直接影響著審計(jì)畫像的準(zhǔn)確性和可靠性。本文以某能源央企數(shù)據(jù)治理成效為例,深入探究了基于人工智能的企業(yè)審計(jì)畫像數(shù)據(jù)治理方法,創(chuàng)新性地構(gòu)建“評(píng)估—整合—優(yōu)化”數(shù)據(jù)治理體系,深化了審計(jì)畫像數(shù)據(jù)治理的理論內(nèi)涵,并有效改善了畫像的數(shù)據(jù)質(zhì)量,顯著提升了畫像的精準(zhǔn)度,更高效地發(fā)揮審計(jì)畫像在輔助企業(yè)審計(jì)立項(xiàng)、支撐審前調(diào)查、明確審計(jì)重點(diǎn)以及優(yōu)化審計(jì)資源配置等方面的積極作用。
未來,隨著DeepSeek等人工智能工具的深度發(fā)展,企業(yè)審計(jì)畫像的數(shù)據(jù)治理方法將迎來三方面革新。一是聯(lián)邦學(xué)習(xí)增強(qiáng),開發(fā)聯(lián)邦學(xué)習(xí)框架,解決跨企業(yè)數(shù)據(jù)聯(lián)合建模中的隱私保護(hù)與模型性能平衡問題,探索基于區(qū)塊鏈的分布式參數(shù)聚合機(jī)制。二是知識(shí)圖譜進(jìn)化,構(gòu)建動(dòng)態(tài)推理優(yōu)化的知識(shí)圖譜生成算法,利用圖神經(jīng)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)語義關(guān)聯(lián)的實(shí)時(shí)更新,開發(fā)基于大語言模型的元數(shù)據(jù)自動(dòng)化標(biāo)注工具。三是智能治理增強(qiáng),探索生成式AI在數(shù)據(jù)修復(fù)中的應(yīng)用,構(gòu)建數(shù)據(jù)質(zhì)量問題的自動(dòng)生成式修復(fù)方案,開發(fā)智能治理助手,支持審計(jì)人員通過自然語言交互完成數(shù)據(jù)質(zhì)量檢查與優(yōu)化。
主要參考文獻(xiàn)
[1]陳雪嵩,張麗.業(yè)審融合視角下企業(yè)審計(jì)畫像應(yīng)用研究[J].中國(guó)內(nèi)部審計(jì), 2024(4):31-36
[2]陳雪嵩.基于“業(yè)審融合”的數(shù)智化審計(jì)實(shí)現(xiàn)路徑探究[J].石油化工管理干部學(xué)院學(xué)報(bào), 2024,26(2):46-49
[3]蔡光程,曹麗霞,劉興,等.知識(shí)挖掘技術(shù)驅(qū)動(dòng)的電網(wǎng)企業(yè)內(nèi)部審計(jì)風(fēng)險(xiǎn)預(yù)警體系研究[J].中國(guó)內(nèi)部審計(jì), 2021(5):31-36
[4]李西芝,胡靖.聚類分析在橋梁監(jiān)測(cè)異常數(shù)據(jù)處理中的應(yīng)用[J].黑龍江交通科技, 2019,42(12):88-90+92
[5]李增偉,冶秀蘭,馬燕,等.基于數(shù)據(jù)中臺(tái)的多源異構(gòu)數(shù)據(jù)指標(biāo)分析方法[J].粘接, 2024,51(12):113-115+119
[6]門偉莉,劉義強(qiáng).國(guó)際數(shù)據(jù)治理研究述評(píng)[J].甘肅科技縱橫, 2024,53(9):1-8
[7]張威.人工智能對(duì)審計(jì)工作的影響研究[J].老字號(hào)品牌營(yíng)銷, 2025(2):52-54