一、審計智能化發(fā)展背景和應(yīng)用思路
(一)審計行業(yè)的數(shù)據(jù)分析發(fā)展背景
自2022年OpenAI推出GPT-3.5以來,生成式AI技術(shù)迎來了爆發(fā)式發(fā)展。近期DeepSeek-R1在模型架構(gòu)、算法工程、訓(xùn)練策略等方面的突破,在實(shí)現(xiàn)計算成本大幅度降低的同時,生成內(nèi)容的邏輯性與表現(xiàn)力顯著提升。在此基礎(chǔ)上,2025年3月阿里云推出QwQ-32B模型,僅有320億參數(shù)的模型在多項基準(zhǔn)測試中展現(xiàn)出與擁有6710億參數(shù)的DeepSeek-R1媲美的性能。在眾多智能技術(shù)涌現(xiàn)的基礎(chǔ)上,內(nèi)部審計需要有效運(yùn)用最新技術(shù)工具,實(shí)現(xiàn)審計能力的快速提升。
審計數(shù)據(jù)分析工具的演進(jìn)軌跡始終與審計對象的技術(shù)架構(gòu)變革深度耦合。早期,證券行業(yè)由于各生產(chǎn)系統(tǒng)數(shù)據(jù)呈現(xiàn)獨(dú)立分散的煙肉式架構(gòu)特征,審計工具主要聚焦于單系統(tǒng)數(shù)據(jù)的垂直分析,審計人員需從不同系統(tǒng)手動導(dǎo)出數(shù)據(jù),再進(jìn)行拼湊整合分析。當(dāng)前,隨著企業(yè)數(shù)字化智能化轉(zhuǎn)型的推進(jìn),數(shù)據(jù)中臺建設(shè)逐漸成為主流趨勢,通過構(gòu)建統(tǒng)一的數(shù)據(jù)湖倉體系實(shí)現(xiàn)跨系統(tǒng)數(shù)據(jù)的集成治理,已經(jīng)推動審計工具向支持大數(shù)據(jù)綜合分析、多源異構(gòu)數(shù)據(jù)整合分析的方向發(fā)展。
(二)應(yīng)用分析思路
審計行業(yè)正處于大模型技術(shù)與審計數(shù)據(jù)分析的融合發(fā)展階段,需要進(jìn)一步明確審計智能化的發(fā)展思路:一是要聚焦于已落地的技術(shù)應(yīng)用框架,以最小的投人實(shí)現(xiàn)審計的快速轉(zhuǎn)型;二是基于現(xiàn)有技術(shù)工具,系統(tǒng)化評估不同參數(shù)規(guī)模的基礎(chǔ)模型在審計場景下的性能表現(xiàn),實(shí)現(xiàn)綜合運(yùn)用;三是充分考量基礎(chǔ)模型的選型標(biāo)準(zhǔn),尋找審計的應(yīng)用場景,提高審計數(shù)據(jù)分析場景的應(yīng)用成果。
1.基礎(chǔ)模型選型是審計運(yùn)用的重要環(huán)節(jié)。
測試大模型的選型需要充分考慮“開源vS閉源”“本地vs云端”“中小規(guī)模vs超大規(guī)模”“指令模型vs推理模型”四個方向的維度。在審計場景下,既考察技術(shù)指標(biāo)也要評估合規(guī)性、部署成本等現(xiàn)實(shí)約束條件,系統(tǒng)性揭示不同技術(shù)路線在審計領(lǐng)域的適用邊界。
為此,國泰海通證券股份有限公司審計部AI技術(shù)應(yīng)用研究團(tuán)隊(以下簡稱研究團(tuán)隊),采用代表當(dāng)前大模型領(lǐng)先水平的技術(shù)產(chǎn)品,并本地化部署了Qwen2.5-32B-instruct(以下簡稱Qwen2.5-32B)、DeepSeek-R1-distill-qwen32B(以下簡稱DeepSeek-qwen32B蒸餾版)、QwQ-32B與互聯(lián)網(wǎng)環(huán)境下的OpenAI的ChatGPT-ol-preview(以下簡 稱o1)、DeepSeek-R1-761B(以下簡稱R1)API接口。這些大模型在架構(gòu)設(shè)計、訓(xùn)練方法、小規(guī)模部署等應(yīng)用場景上各有特色,需要進(jìn)行比較分析,并有效運(yùn)用(見表1)。
2.運(yùn)用場景的運(yùn)用效果測試是核心。
測試場景的選擇,既要具有典型性,更要為今后大規(guī)模運(yùn)用奠定基礎(chǔ)。測試場景的選擇要符合當(dāng)前技術(shù)成熟度,且有效平衡創(chuàng)新風(fēng)險與應(yīng)用價值。綜合評估后,研究團(tuán)隊將審計計劃的制訂作為測試場景,主要基于以下考慮。
從運(yùn)用價值來看,審計計劃是審計工作的起點(diǎn),其質(zhì)量很大程度上影響著審計工作的成敗。而且,審計計劃的制訂具有綜合性和復(fù)雜性特點(diǎn),需整合業(yè)務(wù)、財務(wù)、合規(guī)、風(fēng)險等多維度數(shù)據(jù),涉及復(fù)雜的數(shù)據(jù)清洗、關(guān)聯(lián)驗(yàn)證。傳統(tǒng)模式下,審計計劃制訂需耗費(fèi)審計團(tuán)隊準(zhǔn)備階段 60% 以上的工作量。利用大模型智能化處理這項工作,有利于提高審計資源的利用率。
從技術(shù)成熟度看,大模型具有大數(shù)據(jù)處理、邏輯推理的優(yōu)勢,而審計計劃涉及大量的內(nèi)外部信息、結(jié)構(gòu)化與各類非結(jié)構(gòu)化數(shù)據(jù)等,通過大模型進(jìn)行審計計劃的制訂,能驗(yàn)證大模型在多模態(tài)數(shù)據(jù)理解、邏輯推理的能力邊界,為其他審計場景的擴(kuò)展提供技術(shù)驗(yàn)證基準(zhǔn)。而且,審計計劃輸出更多體現(xiàn)為指導(dǎo)性框架,對大模型的生成結(jié)果具有相對較高的容錯性。
表1 大模型選型與參數(shù)介紹
注:大模型的本地化部署,可以有效規(guī)避企業(yè)內(nèi)部數(shù)據(jù)在大模型處理中可能出現(xiàn)的安全問題
二、審計場景下各大模型的能力對比
為科學(xué)評估大模型的能力,需要充分考慮審計工作的特殊需求,特別是數(shù)據(jù)匯總、異常發(fā)現(xiàn)、趨勢分析等審計分析的核心要素。為科學(xué)評估大模型的能力,本文構(gòu)建了一套覆蓋多維度指標(biāo)的基礎(chǔ)模型效能評估體系,建立起貼合大模型特性與應(yīng)用需求的評估標(biāo)準(zhǔn),為大模型選型提供依據(jù)。
(一)模型評價的指標(biāo)體系構(gòu)建
審計場景下,大模型效能評估體系分為數(shù)據(jù)理解能力、數(shù)據(jù)分析能力、結(jié)果呈現(xiàn)與解釋能力等維度。評估過程中,為保證評估結(jié)果滿足審計的實(shí)際需求,研究團(tuán)隊采用專家分析方法,綜合確定評價標(biāo)準(zhǔn),審計業(yè)務(wù)專家從結(jié)果輸出的有效性進(jìn)行評估,技術(shù)專家對大模型效能實(shí)施評分。具體指標(biāo)設(shè)計見表2。
(二)案例場景的選取
本文根據(jù)審計工作流程中的多個維度,使用仿真數(shù)據(jù)實(shí)施測試,選取的審計場景見表3。
表2 評估標(biāo)準(zhǔn)設(shè)計
表3 審計場景及數(shù)據(jù)分析目標(biāo)
表3 (續(xù)) 審計場景及數(shù)據(jù)分析目標(biāo)
(三)基礎(chǔ)模型對比分析結(jié)果
各基礎(chǔ)模型的能力分值,經(jīng)過審計人員實(shí)際運(yùn)用后的反饋,基本體現(xiàn)了大模型在審計場景的具體狀況,具體結(jié)果見圖1。
各大模型在審計領(lǐng)域運(yùn)用的橫向?qū)Ρ龋哂幸韵碌湫吞卣鳌?/p>
1.多任務(wù)數(shù)據(jù)加工:Qwen2.5-32B和DeepSeek-qwen32B蒸餾版在復(fù)雜任務(wù)條件下的準(zhǔn)確性表現(xiàn)欠佳。但是QwQ-32B大模型以及o1、R1的表現(xiàn)均能夠滿足審計需要。QwQ-32B的數(shù)學(xué)計算能力基本與o1持平,優(yōu)于R1,并且其動態(tài)推理能力表現(xiàn)較佳,通過對推理過程的自我校驗(yàn)?zāi)芗皶r更正偏差。
2.數(shù)據(jù)提煉文字邏輯性:在結(jié)構(gòu)簡單的數(shù)據(jù)條件下,Qwen2.5-32B、DeepSeek-qwen32B蒸餾版、QwQ-32B、R1和o1之間的差距并不顯著。然而在數(shù)據(jù)結(jié)構(gòu)相對復(fù)雜的場景中,尤其在理解復(fù)雜問題需求、處理數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系等方面,QwQ-32B、R1、o1的表現(xiàn)顯著優(yōu)于Qwen2.5-32B及DeepSeek-qwen32B蒸餾版模型,輸出的結(jié)論邏輯更為嚴(yán)謹(jǐn),表述框架更為清晰。
圖1 模型評分匯總
3.數(shù)據(jù)分析中的洞察性:在具有簡單提示詞的分析場景中,指令模型表現(xiàn)不如推理模型,推理模型能夠從多個維度對數(shù)據(jù)進(jìn)行分析比對,表現(xiàn)出較強(qiáng)的發(fā)散思維以及對數(shù)據(jù)異常的洞察能力,QwQ-32B的整體表現(xiàn)強(qiáng)勢,甚至優(yōu)于R1和o1。但是在具有詳細(xì)提示詞的分析場景中,推理模型DeepSeek-qwen32B蒸餾版的穩(wěn)定性表現(xiàn)不如原生Qwen2.5-32B,說明該大模型的模式對提示詞的敏感性高,容易思考鏈路過長,影響了其輸出的穩(wěn)定性。QwQ一32B存在校驗(yàn)機(jī)制來確保最終答案輸出的準(zhǔn)確性,但是其過度思考、推理過程中的反復(fù)論證,導(dǎo)致在時長和token(詞元)上都造成了一定損失。最終在該方面大模型的綜合排序?yàn)镼wQ一32Bgt;o1gt;R1gt;Qwen2.5-32Bgt;DeepSeek- qwen32B蒸餾版。
4.多精度數(shù)據(jù)計算:當(dāng)對數(shù)據(jù)精度要求較高,而基礎(chǔ)數(shù)據(jù)格式卻又存在不同類型、不同精度的情況下,大模型無法做到準(zhǔn)確計算,尤其32B大模型在多精度數(shù)據(jù)處理中表現(xiàn)更為糟糕。因此研究團(tuán)隊建議數(shù)據(jù)精度處理類的工作應(yīng)當(dāng)由規(guī)則模型實(shí)施。
5.性價比:在相同任務(wù)下,01單個任務(wù)的API使用費(fèi)約為R1的70—80倍。然而,在上述審計場景中,最終這兩個大模型的綜合評分偏差僅為 2% 。QwQ-32B模型參數(shù)規(guī)模僅為R1的 1/20 ,具備了AIPC(人工智能電腦)的部署可能性,但其在部分審計場景中的表現(xiàn)甚至優(yōu)于o1(R1綜合評分92.50分,01為94.42分,QwQ-32B為95.95分)。
綜上所述,在輸出標(biāo)準(zhǔn)化要求較高的場景,指令模型憑借其確定性的響應(yīng)機(jī)制,能夠高效匹配此類需求,可作為優(yōu)先考量的方案。在復(fù)雜數(shù)據(jù)分析、發(fā)散性思維場景,用戶對可解釋性、異常發(fā)現(xiàn)、邏輯推理等要求較高,QwQ-32B模型優(yōu)勢明顯,同時更具性價比。在多精度數(shù)據(jù)加工以及多條件求和等任務(wù)場景,應(yīng)當(dāng)厘清規(guī)則模型與大模型數(shù)據(jù)分析的任務(wù)邊界,使用規(guī)則模型預(yù)處理,再使用大模型進(jìn)一步分析。
總體而言,大模型的數(shù)據(jù)分析能力足以勝任審計數(shù)據(jù)分析的工作需求。需要關(guān)注的是在應(yīng)用落地的工程實(shí)現(xiàn)環(huán)節(jié),根據(jù)應(yīng)用場景、算力資源等情況,合理選擇不同的大模型,以實(shí)現(xiàn)需求、性能、成本之間的最佳平衡。
三、審計智能化主要應(yīng)用效果展示
(一)審計數(shù)據(jù)分析技術(shù)與應(yīng)用架構(gòu)
生成式AI發(fā)展迅速,但目前在審計領(lǐng)域應(yīng)用中仍存在諸多挑戰(zhàn)。比如,輸出內(nèi)容可能存在事實(shí)錯誤、輸出結(jié)果波動較大,影響了在審計作業(yè)中的落地效果,亟待通過技術(shù)改進(jìn)與優(yōu)化策略加以解決。研究團(tuán)隊立足企業(yè)內(nèi)部審計場景,力求滿足審計業(yè)務(wù)對數(shù)據(jù)全面性、廣泛性、準(zhǔn)確性和時效性的嚴(yán)格要求,充分整合各類技術(shù)特點(diǎn),構(gòu)建了結(jié)合大模型基座的審計數(shù)據(jù)分析應(yīng)用。
該數(shù)據(jù)分析應(yīng)用以Python3.12為基礎(chǔ)搭建。在規(guī)則模型的開發(fā)中,憑借Python豐富的生態(tài)庫,使用了包括NumPy、Pandas等工具,實(shí)現(xiàn)了多源數(shù)據(jù)庫的連接能力。在機(jī)器學(xué)習(xí)與大模型的開發(fā)中,該應(yīng)用還集成了LangChain、BGEM3-Embedding模型等,滿足百萬級向量數(shù)據(jù)的秒級檢索和RAG外掛知識庫的檢索能力(見圖2)。
該架構(gòu)下研究團(tuán)隊的應(yīng)用有效發(fā)揮大模型基座效能,在整合多元數(shù)據(jù)的基礎(chǔ)上,更高效地服務(wù)于審計業(yè)務(wù)場景。目前已達(dá)成知識共享、審計計劃、報告質(zhì)檢等8個方面的場景落地。
圖2 AI數(shù)據(jù)分析應(yīng)用架構(gòu)
(二)案例運(yùn)用的效果
依托QwQ-32B基礎(chǔ)模型,選擇“審計計劃”場景進(jìn)行能力驗(yàn)證?!皩徲嬘媱潯睉?yīng)用為非對話式、成果交付類工具,輸出結(jié)果為符合公文格式的標(biāo)準(zhǔn)文檔——審計計劃.docx。以下為其中部分分析段落。
1.傭金異常分析。
傭金管理場景中,審計人員需核對傭金調(diào)整的準(zhǔn)確性,檢查異常調(diào)整導(dǎo)致公司或客戶損失的情況。傳統(tǒng)數(shù)據(jù)分析模式采用規(guī)則模型實(shí)施異常檢測,通過預(yù)設(shè)業(yè)務(wù)規(guī)則與風(fēng)險閾值抓取疑似異常數(shù)據(jù)。業(yè)務(wù)人員需基于歷史經(jīng)驗(yàn)與風(fēng)險偏好對初始篩查結(jié)果進(jìn)行二次人工標(biāo)注與特征補(bǔ)充,形成待核查清單后,再與被審計單位開展多輪溝通確認(rèn)。
針對傳統(tǒng)模式中人工標(biāo)注耗時過長的問題,研究團(tuán)隊建立“規(guī)則發(fā)現(xiàn)—機(jī)器初判一人工校驗(yàn)一規(guī)則迭代”智能化識別流程,通過大模型對規(guī)則模型發(fā)現(xiàn)的異常數(shù)據(jù)進(jìn)行語義解析,引導(dǎo)大模型自動生成區(qū)分風(fēng)險等級的線索清單,產(chǎn)生符合公文文檔規(guī)范的報告內(nèi)容(見圖3)。
通過智能化的異常識別處理,可將人工標(biāo)注的工作量降低 50% 1 80% ,本測試中的識別準(zhǔn)確率超過 95% ,業(yè)務(wù)決策時間縮短約 60% 。
(一)營運(yùn)管理
1.傭金設(shè)置
該部審計期間有2名客戶存在傭金上調(diào),1名客戶存在類別組別修改未生效,需核對申請表單了解是否存在設(shè)置錯誤。另有多名客戶存在“傭金低于萬一”、“最低收費(fèi)小于1元或存在附加費(fèi)”及多次傭金調(diào)整的情況,結(jié)合其余審計認(rèn)為值得關(guān)注的情況,梳理出以下客戶:
圖3 傭金異常分析結(jié)果
2.經(jīng)營指標(biāo)數(shù)據(jù)分析結(jié)果。
該場景下,審計人員需對被審計單位各年度的經(jīng)營指標(biāo)及完成情況進(jìn)行分析。經(jīng)營指標(biāo)數(shù)據(jù)存在一定的復(fù)雜性,因考核標(biāo)準(zhǔn)迭代、指標(biāo)名稱變更、統(tǒng)計口徑調(diào)整及區(qū)域差異化指標(biāo)設(shè)置等原因,規(guī)則模型在應(yīng)對此類數(shù)據(jù)時面臨的挑戰(zhàn)較大,影響了審計人員的效率與分析結(jié)論的準(zhǔn)確性、全面性。仿真數(shù)據(jù)見表4。
大模型通過語義對齊的方式實(shí)現(xiàn)了跨期或跨區(qū)域數(shù)據(jù)的口徑統(tǒng)一。在數(shù)據(jù)清洗環(huán)節(jié),大模型根據(jù)異常數(shù)據(jù)總結(jié)性描述的提示詞,實(shí)現(xiàn)不合理數(shù)據(jù)排除;在數(shù)據(jù)篩查環(huán)節(jié),通過預(yù)設(shè)閾值紅線對未達(dá)標(biāo)指標(biāo)加粗高亮警示,顯著提高了數(shù)據(jù)處理效率與結(jié)果可讀性;在深度分析環(huán)節(jié),構(gòu)建了“指標(biāo)解讀—交叉分析—經(jīng)營診斷”的智能分析流程,根據(jù)數(shù)據(jù)疑點(diǎn)生成分析性結(jié)論。結(jié)果見圖4。
3.報銷統(tǒng)計數(shù)據(jù)分析結(jié)果。
表4 經(jīng)營指標(biāo)數(shù)據(jù)
該場景下,審計人員需系統(tǒng)檢查費(fèi)用支出結(jié)構(gòu)、趨勢及異常波動,解析被審計單位的經(jīng)營效率、成本控制等管理情況。在審計實(shí)踐中,費(fèi)用情況分析需人工整合多張業(yè)務(wù)數(shù)據(jù)表進(jìn)行交叉驗(yàn)證,面對復(fù)雜業(yè)務(wù)場景時,審計人員往往需要花費(fèi)大量時間梳理數(shù)據(jù)關(guān)聯(lián)關(guān)系。
通過大模型構(gòu)建的智能分析程序,替代人工實(shí)現(xiàn)多表數(shù)據(jù)的關(guān)聯(lián)分析,可自動識別費(fèi)用異常波動、人員異常行為等審計線索。針對基礎(chǔ)模型存在的數(shù)據(jù)規(guī)模處理上限問題,研究團(tuán)隊采用“規(guī)則模型處理 + 大模型分析”的混合架構(gòu),保證系統(tǒng)處理效率,提升分析結(jié)果的準(zhǔn)確性與可解釋性。需要注意的是,因混合架構(gòu)下原始數(shù)據(jù)未全部輸人大模型,所以最終生成結(jié)論的完整性以及保證性的描述,需要審計人員結(jié)合原始數(shù)據(jù)實(shí)施交叉驗(yàn)證后使用。結(jié)果見圖5。
綜合來看,大模型技術(shù)在審計計劃場景下的應(yīng)用已展現(xiàn)出顯著的增效價值,其核心優(yōu)勢體現(xiàn)在以下三個方面:首先,基于自然語言處理與審計知識庫構(gòu)建的風(fēng)險評估模型,能夠動態(tài)生成聚焦高風(fēng)險領(lǐng)域的審計計劃,使審計資源配置精準(zhǔn)度有效提升;其次,依托多模態(tài)數(shù)據(jù)處理能力,大模型可自動化完成數(shù)據(jù)清洗、異常值檢測及多表關(guān)聯(lián)驗(yàn)證,將傳統(tǒng)需要3—5天的基礎(chǔ)數(shù)據(jù)分析工作壓縮到4小時內(nèi)。同時通過智能算法發(fā)現(xiàn)潛在數(shù)據(jù)質(zhì)量問題,降低人工核查成本;最后,通過整合審計對象的財務(wù)、業(yè)務(wù)、人員管理等多維度數(shù)據(jù),構(gòu)建畫像體系,輔助審計人員快速形成被審計單位經(jīng)營情況、合規(guī)管理情況等的全景認(rèn)知,為審計策略制定提供依據(jù)。該技術(shù)應(yīng)用革新了傳統(tǒng)審計計劃制訂流程,推動經(jīng)驗(yàn)型審計向數(shù)據(jù)驅(qū)動型審計轉(zhuǎn)型,為提升審計效能與組織風(fēng)險防控能力提供了新的范式。
四、結(jié)論與展望
本文依托已落地的技術(shù)應(yīng)用框架,對基礎(chǔ)模型在審計場景中的性能邊界開展了系統(tǒng)性驗(yàn)證,構(gòu)建了契合審計需求的多維評價體系,并為行業(yè)提供了可復(fù)用的模型選型方法論。通過在審計數(shù)據(jù)分析場景中應(yīng)用先進(jìn)大模型技術(shù),總結(jié)可借鑒的內(nèi)容如下。
1.大模型本地化部署的重要性。
采用本地化部署的QwQ-32B模型,在保證有效達(dá)成數(shù)據(jù)分析目標(biāo)的同時,兼顧數(shù)據(jù)隱私與性價比的平衡,確保了審計敏感數(shù)據(jù)全流程的安全可控,是審計數(shù)據(jù)分析應(yīng)用的推薦模型。
2.打造適配審計工作流的結(jié)果交付物。
與傳統(tǒng)對話式大模型應(yīng)用不同,研究團(tuán)隊將大模型的能力轉(zhuǎn)化為數(shù)據(jù)加工能力、邏輯推理能力、觀點(diǎn)輸出能力,以結(jié)果交付模式直接生成審計所需的標(biāo)準(zhǔn)化產(chǎn)品,實(shí)現(xiàn)了從需求收集、數(shù)據(jù)處理到成果交付的一站式支持,更加精準(zhǔn)匹配審計人員的工作流程。
3.數(shù)據(jù)分析上下游多技術(shù)協(xié)同模式。
將審計數(shù)據(jù)分析任務(wù)拆解為“規(guī)則模型的結(jié)構(gòu)化處理、機(jī)器學(xué)習(xí)特征工程、指令類模型的標(biāo)準(zhǔn)化輸出、推理類模型的風(fēng)險深度挖掘”等多個環(huán)節(jié),實(shí)現(xiàn)上下游協(xié)同,最終達(dá)成智能審計應(yīng)用效果最大化目標(biāo)。
4.大模型技術(shù)的應(yīng)用局限。
受限于基礎(chǔ)模型的上下文長度,大模型并不擅長處理海量原始數(shù)據(jù),且大模型技術(shù)也有著幻覺這類固有缺陷。因此對于模型生成的結(jié)果,尤其在面對定性類、觀點(diǎn)類結(jié)論時,審計人員需實(shí)施交叉印證,保證輸出結(jié)論的可靠性。
在智能化進(jìn)程中,大模型與審計領(lǐng)域的深度融合仍然面臨諸多挑戰(zhàn),如行業(yè)規(guī)范不完善、專業(yè)領(lǐng)域智能化團(tuán)隊人員定位不清晰、基礎(chǔ)模型更新迭代造成應(yīng)用穩(wěn)定性不足等。希望通過持續(xù)的政策、技術(shù)、方法論的創(chuàng)新與優(yōu)化,內(nèi)部審計行業(yè)能夠在大模型的輔助下,實(shí)現(xiàn)審計效率與質(zhì)量的雙重提升,為組織穩(wěn)健發(fā)展筑牢堅實(shí)防線。
(作者單位:國泰海通證券股份有限公司,郵政編碼:200011,電子郵箱:wangxipan@gtht.com)