基于大模型的審計(jì)知識(shí)智能問答系統(tǒng)構(gòu)建研究

2025-05-11 00:00:00黃佳佳周立云徐超

會(huì)計(jì)之友 2025年9期

【摘要】大語(yǔ)言模型在重塑知識(shí)檢索與問答系統(tǒng)上取得重要進(jìn)展。在審計(jì)數(shù)智化轉(zhuǎn)型背景下，構(gòu)建基于大模型的審計(jì)知識(shí)問答系統(tǒng)是提升審計(jì)效率的關(guān)鍵途徑。文章提出一種基于大模型“智能驅(qū)動(dòng)”的審計(jì)知識(shí)問答系統(tǒng)構(gòu)建范式，核心思想是利用大模型的世界知識(shí)和審計(jì)領(lǐng)域高質(zhì)量數(shù)據(jù)源，使大模型適應(yīng)具體業(yè)務(wù)需求，實(shí)現(xiàn)細(xì)粒度審計(jì)知識(shí)的理解，并通過人機(jī)協(xié)作方式輔助審計(jì)人員高效決策這一范式將通用人工智能與審計(jì)人員的實(shí)踐經(jīng)驗(yàn)相結(jié)合，共同推動(dòng)智能決策過程的實(shí)現(xiàn)。基于該研究方案構(gòu)建的審計(jì)知識(shí)問答系統(tǒng)將智慧審計(jì)理念付諸實(shí)踐，賦能審計(jì)高質(zhì)量發(fā)展。

【關(guān)鍵詞】智能驅(qū)動(dòng)；審計(jì)大模型；審計(jì)問答系統(tǒng)；數(shù)智化審計(jì)

【中圖分類號(hào)】 F239.45" 【文獻(xiàn)標(biāo)識(shí)碼】 A" 【文章編號(hào)】 1004-5937（2025）09-0024-07

一、引言

大語(yǔ)言模型（Large Language Model，LLM）（簡(jiǎn)稱“大模型”）作為新一代人工智能（Artificial Intelligence Generated Content，AIGC）技術(shù)的典型代表，正在深刻影響著審計(jì)行業(yè)的發(fā)展[1]。大模型豐富的世界知識(shí)、流暢的人機(jī)對(duì)話能力和強(qiáng)大的語(yǔ)言理解能力使其成為構(gòu)建審計(jì)知識(shí)問答系統(tǒng)的最佳模型。問答系統(tǒng)以用戶提問和系統(tǒng)回復(fù)的方式實(shí)現(xiàn)人機(jī)交互，可將形式多樣的審計(jì)應(yīng)用場(chǎng)景整合到一個(gè)系統(tǒng)中，既極大降低了審計(jì)人員利用人工智能技術(shù)的難度，也增加了人機(jī)交互的靈活性，實(shí)現(xiàn)了對(duì)審計(jì)專家經(jīng)驗(yàn)的充分利用。

然而，由于審計(jì)領(lǐng)域知識(shí)專業(yè)性以及對(duì)答案精準(zhǔn)性要求，直接應(yīng)用通用大模型構(gòu)建問答系統(tǒng)難以滿足審計(jì)實(shí)踐需求，因此，探索構(gòu)建適用于審計(jì)領(lǐng)域的知識(shí)問答系統(tǒng)具有重要研究意義和實(shí)踐價(jià)值。本文提出一種基于大模型“智能驅(qū)動(dòng)”的審計(jì)知識(shí)問答系統(tǒng)構(gòu)建范式，并設(shè)計(jì)了該系統(tǒng)架構(gòu)方案，以期為AIGC技術(shù)在審計(jì)領(lǐng)域的實(shí)踐應(yīng)用提供新思路。

二、文獻(xiàn)回顧

在信息化背景下，我國(guó)審計(jì)已經(jīng)經(jīng)歷了計(jì)算機(jī)輔助審計(jì)、聯(lián)網(wǎng)審計(jì)和大數(shù)據(jù)審計(jì)三個(gè)階段[2]，正在積極探索和實(shí)踐智慧審計(jì)[3]，以提高審計(jì)效率和質(zhì)量。自知識(shí)圖譜概念被提出以來，信息系統(tǒng)的構(gòu)建逐漸轉(zhuǎn)向以“知識(shí)”為核心，而非傳統(tǒng)的“數(shù)據(jù)”驅(qū)動(dòng)模式，輔以人工智能和知識(shí)圖譜的智能問答系統(tǒng)實(shí)現(xiàn)了從“數(shù)據(jù)”到“數(shù)智”的躍遷[4]，審計(jì)方法也從大數(shù)據(jù)審計(jì)階段過渡到智慧審計(jì)階段[3]。

審計(jì)數(shù)智化轉(zhuǎn)型時(shí)代[5]，大數(shù)據(jù)[6]是實(shí)現(xiàn)智慧審計(jì)的抓手，為智慧審計(jì)提供海量的電子數(shù)據(jù)；而人工智能開始在智慧審計(jì)中發(fā)揮大腦作用。在智慧審計(jì)實(shí)踐方面，陳雪嵩[7]探討了大模型在企業(yè)內(nèi)部審計(jì)中的應(yīng)用思路及技術(shù)細(xì)節(jié)；劉錦[8]討論了AIGC技術(shù)在審計(jì)全過程的應(yīng)用場(chǎng)景，并探索“開源大模型+檢索增強(qiáng)生成技術(shù)（Retrieval-Augmented Generation，RAG）”在審計(jì)領(lǐng)域的應(yīng)用原型與實(shí)踐效果；萬(wàn)鈞[9]從審計(jì)知識(shí)管理視角設(shè)計(jì)了基于大模型的審計(jì)知識(shí)應(yīng)用框架，即通過構(gòu)建審計(jì)知識(shí)倉(cāng)、審計(jì)知識(shí)管理系統(tǒng)和審計(jì)知識(shí)應(yīng)用場(chǎng)景，形成一套高效的審計(jì)知識(shí)管理應(yīng)用體系。然而，大數(shù)據(jù)到人工智能不僅是從數(shù)據(jù)到知識(shí)的躍遷，更是從傳統(tǒng)范式到融合范式的探索[4]。因此，本文在劉錦[8]研究基礎(chǔ)上，從系統(tǒng)構(gòu)建視角進(jìn)一步探究AIGC技術(shù)與審計(jì)領(lǐng)域深度結(jié)合的理論框架，從理論上創(chuàng)新審計(jì)大模型構(gòu)建新范式，即“智能驅(qū)動(dòng)”范式，進(jìn)而設(shè)計(jì)基于大模型的知識(shí)問答系統(tǒng)架構(gòu)方案，讓AIGC技術(shù)賦能審計(jì)高質(zhì)量發(fā)展。

三、審計(jì)問答系統(tǒng)應(yīng)用場(chǎng)景探討

（一）當(dāng)前審計(jì)信息檢索面臨的困境

目前審計(jì)機(jī)關(guān)利用信息檢索技術(shù)強(qiáng)化審計(jì)知識(shí)支撐時(shí)，主要面臨以下三類矛盾：

一是豐富的審計(jì)知識(shí)與低效的檢索方法之間的矛盾。隨著信息技術(shù)在審計(jì)行業(yè)的深入應(yīng)用，審計(jì)領(lǐng)域積累了大量的專業(yè)知識(shí)和歷史數(shù)據(jù)，包括法律法規(guī)、政策文件、審計(jì)報(bào)告、財(cái)務(wù)報(bào)表等，它們構(gòu)成了審計(jì)知識(shí)的基礎(chǔ)[9]。盡管審計(jì)知識(shí)量巨大，但審計(jì)人員在檢索知識(shí)時(shí)往往依賴于傳統(tǒng)的搜索引擎技術(shù)，這些技術(shù)在處理非結(jié)構(gòu)化文本、多表格數(shù)據(jù)時(shí)難以快速準(zhǔn)確地找到所需信息。

二是相關(guān)性低的原始檢索結(jié)果與生成式答案之間的矛盾?；跈z索系統(tǒng)獲得的反饋信息往往包含若干個(gè)相關(guān)網(wǎng)頁(yè)，這些網(wǎng)頁(yè)的內(nèi)容信息分散、“雜質(zhì)”較多，并非用戶想要的答案形式。審計(jì)人員期望系統(tǒng)可以將這些分散的信息整合起來，根據(jù)用戶輸入需求，形成一個(gè)連貫、有邏輯、按照指定格式輸出的結(jié)果。

三是簡(jiǎn)單信息檢索結(jié)果與復(fù)雜問題推理之間的矛盾。信息檢索系統(tǒng)?；陉P(guān)鍵詞匹配，能夠快速反饋與查詢相關(guān)的信息，但缺乏對(duì)信息背后復(fù)雜邏輯的理解和分析。此外，此類檢索方式只能觸及信息表面，無(wú)法深入分析信息的深層次含義及上下文聯(lián)系；而審計(jì)人員期望得到一個(gè)準(zhǔn)確、精煉的答案。因而信息檢索無(wú)法滿足需要進(jìn)行深入分析的復(fù)雜問題和多跳推理問題的應(yīng)用需求。

（二）審計(jì)知識(shí)智能問答應(yīng)用場(chǎng)景設(shè)計(jì)

基于大模型的審計(jì)問答系統(tǒng)應(yīng)立足于審計(jì)行業(yè)，以滿足審計(jì)人員業(yè)務(wù)需求為核心，以互動(dòng)式問答為使用模式，旨在清晰、準(zhǔn)確地回答審計(jì)相關(guān)問題，輔助撰寫審計(jì)相關(guān)文檔?；诖?，本文將該系統(tǒng)命名為審計(jì)知識(shí)智能問答大模型系統(tǒng)（簡(jiǎn)稱“審計(jì)問答系統(tǒng)”）。具體來說，本文認(rèn)為該系統(tǒng)需要滿足以下三類應(yīng)用場(chǎng)景。

1.審計(jì)知識(shí)的理解與智能問答

審計(jì)問答系統(tǒng)的第一個(gè)任務(wù)是與審計(jì)知識(shí)相關(guān)的交互式問答。審計(jì)人員向問答系統(tǒng)輸入問題，并期望獲得準(zhǔn)確答案。該場(chǎng)景對(duì)應(yīng)的系統(tǒng)設(shè)計(jì)難點(diǎn)在于：（1）問答系統(tǒng)能夠準(zhǔn)確理解審計(jì)人員輸入的各種類型、各種表達(dá)方式的問題；（2）問答系統(tǒng)能夠準(zhǔn)確回答這些問題，這里既需要考慮答案準(zhǔn)確性，也需要考慮答案多樣性。這就要求問答系統(tǒng)在模型構(gòu)建時(shí)既具備充足且廣泛的知識(shí)儲(chǔ)備和自然流暢的語(yǔ)言表達(dá)能力，也需要學(xué)習(xí)和掌握審計(jì)領(lǐng)域相關(guān)知識(shí)，如審計(jì)法規(guī)制度文件、審計(jì)案例等，還需要在問答系統(tǒng)中輔以企業(yè)內(nèi)部資料的知識(shí)庫(kù)支持，實(shí)現(xiàn)對(duì)隱私信息或精準(zhǔn)度要求極高問題的答案溯源。

2.審計(jì)問題定性與法規(guī)推薦

第二個(gè)任務(wù)是檢查審計(jì)項(xiàng)目是否存在違規(guī)違法問題，并判斷哪些法規(guī)制度可以作為該問題的審計(jì)依據(jù)。這一應(yīng)用場(chǎng)景要求問答系統(tǒng)能夠從輸入的審計(jì)底稿中總結(jié)審計(jì)問題，并“檢索”而非“生成”恰當(dāng)?shù)姆ㄒ?guī)制度作為該審計(jì)問題的定性依據(jù)和處罰依據(jù)。該場(chǎng)景對(duì)應(yīng)的問答系統(tǒng)設(shè)計(jì)難點(diǎn)是基于審計(jì)底稿的問題總結(jié)能否抓住本質(zhì)，進(jìn)而在定性問題上能否引用恰當(dāng)且準(zhǔn)確的法規(guī)制度。這要求問答系統(tǒng)的答案具有零幻覺能力和盡可能高的準(zhǔn)確率，并依據(jù)已有的法規(guī)制度等知識(shí)檢索出原始文件作為解釋和佐證。

3.指定格式/內(nèi)容的審計(jì)文檔生成

審計(jì)問答系統(tǒng)不僅需要回答審計(jì)相關(guān)問題，還能夠根據(jù)審計(jì)人員需求總結(jié)、改寫、擴(kuò)寫、撰寫各類審計(jì)文檔。這些需求要求系統(tǒng)可以分步執(zhí)行審計(jì)人員的命令，并具有較強(qiáng)的上下文記憶能力。此外，在這一過程中，系統(tǒng)可能需要與審計(jì)人員進(jìn)行多輪交互，并在審計(jì)人員提供的知識(shí)和提示下實(shí)現(xiàn)最終文檔生成。

四、“智能驅(qū)動(dòng)”的審計(jì)問答系統(tǒng)構(gòu)建范式

在審計(jì)領(lǐng)域，審計(jì)問答系統(tǒng)主要是指針對(duì)企業(yè)或?qū)徲?jì)機(jī)關(guān)的各類審計(jì)知識(shí)及圍繞這類知識(shí)所衍生的各類問答場(chǎng)景，構(gòu)建一個(gè)基于大模型的智能問答系統(tǒng)。該系統(tǒng)以企業(yè)知識(shí)體系為知識(shí)源，以大模型為引擎，結(jié)合檢索增強(qiáng)生成技術(shù)和智能代理技術(shù)，構(gòu)建一個(gè)既滿足開放性也滿足精準(zhǔn)性需求的審計(jì)知識(shí)智能問答系統(tǒng)。為此，本文提出一種“智能驅(qū)動(dòng)”的審計(jì)問答系統(tǒng)構(gòu)建新范式，在“數(shù)據(jù)驅(qū)動(dòng)+模型驅(qū)動(dòng)”融合范式[3]基礎(chǔ)上，強(qiáng)調(diào)以大模型為基座，以高質(zhì)量領(lǐng)域數(shù)據(jù)為素材，構(gòu)建“智能驅(qū)動(dòng)”新范式，體現(xiàn)世界知識(shí)與領(lǐng)域知識(shí)協(xié)同決策的訴求。

（一）傳統(tǒng)范式下問答系統(tǒng)面臨的挑戰(zhàn)

傳統(tǒng)檢索/問答系統(tǒng)構(gòu)建時(shí)根據(jù)所需要關(guān)注的領(lǐng)域視野、問題類型和數(shù)據(jù)資源Dsmall，構(gòu)建滿足功用的系統(tǒng)，即構(gòu)建映射函數(shù)y=f（x）。對(duì)輸入問題x，問答系統(tǒng)反饋答案，其中函數(shù)f由領(lǐng)域數(shù)據(jù)資源Dsmall將問題映射為答案，該映射過程可以是基于字符串匹配的記錄查詢、基于關(guān)鍵詞檢索的搜索引擎、基于知識(shí)圖譜的答案推理。然而，數(shù)據(jù)驅(qū)動(dòng)或模型驅(qū)動(dòng)的研究范式在實(shí)際應(yīng)用中面臨嚴(yán)峻挑戰(zhàn)。一是模型針對(duì)性較強(qiáng)，即模型是為特定類型的任務(wù)而設(shè)計(jì)的（如分類模型、推薦模型、檢索模型等），不具備任務(wù)遷移能力；二是數(shù)據(jù)來源較窄，即針對(duì)特定應(yīng)用領(lǐng)域構(gòu)建數(shù)據(jù)資源，面向領(lǐng)域外的問題數(shù)據(jù)覆蓋面不足；三是系統(tǒng)使能有限，即模型是基于特定領(lǐng)域的有限數(shù)據(jù)量構(gòu)建而成，其具有“從零構(gòu)建”“一類問題一個(gè)模型”的特點(diǎn)，進(jìn)而使得應(yīng)用企業(yè)需要構(gòu)建多個(gè)功能類似的系統(tǒng)，增加了企業(yè)建設(shè)成本；四是無(wú)交互問答，即系統(tǒng)只能根據(jù)用戶輸入問題給出一個(gè)答案，無(wú)多輪的人機(jī)交互能力。

（二）“智能驅(qū)動(dòng)”范式下的模型闡釋

如圖1所示，本文提出的“智能驅(qū)動(dòng)”問答系統(tǒng)構(gòu)建范式可有效應(yīng)對(duì)上述挑戰(zhàn)。該系統(tǒng)構(gòu)建范式具有如下三個(gè)特征。

首先，該范式以大模型為內(nèi)核，已包含了廣泛的世界知識(shí)。世界知識(shí)是指大模型以海量的、包含各種場(chǎng)景的世界知識(shí)語(yǔ)料庫(kù)數(shù)據(jù)Dbig為基礎(chǔ)，以包含數(shù)百億甚至千億參數(shù)規(guī)模的深度神經(jīng)網(wǎng)絡(luò)模型為框架，在模型預(yù)訓(xùn)練過程中編碼了從基本事實(shí)信息到復(fù)雜社會(huì)規(guī)范和邏輯結(jié)構(gòu)的廣泛世界知識(shí)，并以自然文本的形式存在。因此，大模型具有通用人工智能的特點(diǎn)，不僅能回答有明確答案的問題，還具有較強(qiáng)的邏輯推理和求解不確定性問題的能力。因而模型映射函數(shù)f（·）=F（Dbig）使能較強(qiáng)，即針對(duì)用戶輸入x，問答系統(tǒng)依據(jù)大模型輸出相應(yīng)結(jié)果y=f（x）。該交互形式廣泛適用于各類型問答任務(wù)，包括領(lǐng)域知識(shí)和世界知識(shí)問題。

其次，“智能驅(qū)動(dòng)”范式具有較強(qiáng)的領(lǐng)域適應(yīng)能力。領(lǐng)域適應(yīng)是指問答系統(tǒng)能夠理解審計(jì)領(lǐng)域的具體需求和細(xì)粒度知識(shí)和提問，進(jìn)而滿足知識(shí)問答和智能決策的需求。這里需要通過知識(shí)對(duì)齊和檢索增強(qiáng)生成兩種方式實(shí)現(xiàn)領(lǐng)域適應(yīng)。在知識(shí)對(duì)齊階段，使用較小規(guī)模的領(lǐng)域數(shù)據(jù)Dsmall使原有大模型對(duì)齊領(lǐng)域數(shù)據(jù)，即f-gt;f’，f’（·）=F（Dsmall），其中F（Dsmall）即為大模型的知識(shí)對(duì)齊函數(shù)，一般采用可微調(diào)算法f'（·）=F（Dsmall）使得模型的映射函數(shù)由f調(diào)整為f'。知識(shí)增強(qiáng)是指通過整合企業(yè)或?qū)徲?jì)機(jī)關(guān)內(nèi)部知識(shí)和資料以提高問答結(jié)果的精準(zhǔn)性，即構(gòu)建審計(jì)知識(shí)倉(cāng)[9]。在檢索增強(qiáng)生成階段中，針對(duì)用戶輸入x，從審計(jì)知識(shí)倉(cāng)中檢索與之相關(guān)的知識(shí)源k，并將其交由大模型根據(jù)問題進(jìn)行答案整合。需要說明的是，在領(lǐng)域適應(yīng)訓(xùn)練與應(yīng)用時(shí)，可將開放的通用大模型下載到本地并利用小規(guī)模領(lǐng)域數(shù)據(jù)中進(jìn)一步訓(xùn)練和在局域網(wǎng)內(nèi)部署應(yīng)用。

最后，“智能驅(qū)動(dòng)”范式具有靈活的人機(jī)協(xié)同能力。在人機(jī)協(xié)同決策過程中，可將人類決策過程抽象為智能代理可完成的業(yè)務(wù)流程。智能代理通過對(duì)用戶提問的深入分析，并通過知識(shí)庫(kù)檢索、大模型答案生成、信息組織和規(guī)劃等一系列過程實(shí)現(xiàn)最終決策。這一過程利用大模型內(nèi)嵌的廣泛知識(shí)、領(lǐng)域知識(shí)倉(cāng)的精準(zhǔn)知識(shí)以及智能代理的業(yè)務(wù)流程智能化編排答案推理過程，最終完成智能決策。

簡(jiǎn)而言之，“智能驅(qū)動(dòng)”范式的審計(jì)知識(shí)智能問答系統(tǒng)具有開發(fā)成本低、脫機(jī)/局域網(wǎng)使用、領(lǐng)域適應(yīng)性強(qiáng)、使能創(chuàng)新能力更強(qiáng)的優(yōu)勢(shì)。

五、基于大模型的審計(jì)問答系統(tǒng)架構(gòu)設(shè)計(jì)

當(dāng)前通用大模型直接應(yīng)用于現(xiàn)實(shí)業(yè)務(wù)場(chǎng)景時(shí)容易產(chǎn)生幻覺問題，這會(huì)降低系統(tǒng)性能，無(wú)法滿足用戶的期望[10]。審計(jì)大模型應(yīng)著眼于人與模型的協(xié)同合作，共同高效、準(zhǔn)確地完成審計(jì)任務(wù)[7]。這一需求不僅要求審計(jì)大模型能夠掌握審計(jì)領(lǐng)域概念、術(shù)語(yǔ)、知識(shí)等，還需要大模型能夠理解審計(jì)工作基本流程，以其較強(qiáng)的上下文記憶能力、知識(shí)檢索與復(fù)雜問題推理能力、流暢的文本生成能力等輔助審計(jì)人員高效、高質(zhì)量地完成審計(jì)工作。因此，本文從領(lǐng)域適應(yīng)角度設(shè)計(jì)基于大模型的審計(jì)知識(shí)問答系統(tǒng)架構(gòu)方案，使其能夠?qū)徲?jì)領(lǐng)域的術(shù)語(yǔ)、概念和規(guī)則有更深入的理解，從而提供更準(zhǔn)確和可靠的結(jié)果。系統(tǒng)架構(gòu)如圖2所示，包括五層結(jié)構(gòu)：數(shù)據(jù)倉(cāng)庫(kù)層、數(shù)據(jù)工程層、模型倉(cāng)庫(kù)層、模型任務(wù)層和系統(tǒng)應(yīng)用層。

（一）數(shù)據(jù)倉(cāng)庫(kù)層

數(shù)據(jù)倉(cāng)庫(kù)層的主要功能是為大模型知識(shí)對(duì)齊和推理應(yīng)用提供領(lǐng)域?qū)Ｓ袛?shù)據(jù)?；趯?duì)審計(jì)大模型應(yīng)用場(chǎng)景的抽象與凝練，并結(jié)合審計(jì)大模型構(gòu)建實(shí)踐經(jīng)驗(yàn)，本文認(rèn)為與審計(jì)問答系統(tǒng)密切相關(guān)的領(lǐng)域知識(shí)包括所在企業(yè)或機(jī)關(guān)所使用的審計(jì)法規(guī)制度、審計(jì)案例、審計(jì)問題定性與法規(guī)推薦、審計(jì)報(bào)告文檔等信息。這些領(lǐng)域數(shù)據(jù)涉及審計(jì)業(yè)務(wù)的方方面面，具有質(zhì)量高、專業(yè)性強(qiáng)、文檔較長(zhǎng)等特點(diǎn)，既可為審計(jì)大模型知識(shí)對(duì)齊提供高質(zhì)量的訓(xùn)練數(shù)據(jù)源，也可為審計(jì)大模型推理應(yīng)用提供可溯源的審計(jì)知識(shí)倉(cāng)，提高了問答系統(tǒng)的可解釋性和忠誠(chéng)度。此外，數(shù)據(jù)倉(cāng)庫(kù)層需要確保領(lǐng)域數(shù)據(jù)覆蓋全面、實(shí)時(shí)。

（二）數(shù)據(jù)工程層

數(shù)據(jù)工程層的主要功能是為問答系統(tǒng)提供各類數(shù)據(jù)處理與轉(zhuǎn)化組件，包括：

1.數(shù)據(jù)清洗，即將原始非結(jié)構(gòu)化文檔分塊、切片轉(zhuǎn)化為細(xì)粒度文本片，如將電子書《審計(jì)常用定性表述及適用法規(guī)導(dǎo)向——固定資產(chǎn)投資審計(jì)》按章節(jié)內(nèi)容分成若干文本片，每個(gè)片段涉及一個(gè)審計(jì)問題的【表現(xiàn)形式】【定性依據(jù)】【處理處罰依據(jù)】等字段。

2.數(shù)據(jù)標(biāo)注，即對(duì)審計(jì)數(shù)據(jù)標(biāo)注類別信息，如對(duì)上述電子書中的審計(jì)問題“未按規(guī)定繳納印花稅”標(biāo)注所屬類別為“固定資產(chǎn)投資審計(jì)”。

3.特征抽取，即針對(duì)較長(zhǎng)文本從中抽取出所涉及的審計(jì)疑點(diǎn)、法規(guī)名稱等自定義特征，以便對(duì)該數(shù)據(jù)進(jìn)一步構(gòu)建大模型微調(diào)任務(wù)和提高檢索召回的準(zhǔn)確率。

4.問答對(duì)構(gòu)建，即對(duì)結(jié)構(gòu)化文本數(shù)據(jù)通過大模型轉(zhuǎn)換為問答對(duì)形式，其作用在于將法規(guī)制度等條款型文本轉(zhuǎn)化為自然問答對(duì)形式，便于構(gòu)建大模型知識(shí)對(duì)齊的指令數(shù)據(jù)集。

5.指令構(gòu)建，即通過提示工程將問答對(duì)根據(jù)不同任務(wù)需求進(jìn)一步轉(zhuǎn)換為指令數(shù)據(jù)，通常包括一個(gè)問題、任務(wù)描述或預(yù)定義的文本片段，用于指導(dǎo)模型生成合適的文本結(jié)果。指令能夠幫助語(yǔ)言模型更好地理解特定任務(wù)。

6.數(shù)據(jù)向量化，即將文本片和問答對(duì)等非結(jié)構(gòu)化數(shù)據(jù)通過向量模型轉(zhuǎn)換為數(shù)值向量并存儲(chǔ)到向量數(shù)據(jù)庫(kù)中。此外，在審計(jì)業(yè)務(wù)場(chǎng)景中經(jīng)常面臨審計(jì)人員對(duì)提交的臨時(shí)/局部/私有知識(shí)文檔進(jìn)行檢索的場(chǎng)景，而這些知識(shí)在審計(jì)大模型知識(shí)對(duì)齊階段并未涉及，需要在推理階段額外提供給大模型。為解決這類知識(shí)更新問題，可采用數(shù)據(jù)向量化方式將臨時(shí)輸入文檔切片并轉(zhuǎn)換為數(shù)值向量為審計(jì)大模型回答用戶提問提供新的獨(dú)有數(shù)據(jù)。

最后將整理好的數(shù)據(jù)分別存入指令數(shù)據(jù)庫(kù)和向量數(shù)據(jù)庫(kù)中供領(lǐng)域大模型知識(shí)對(duì)齊和推理應(yīng)用使用，數(shù)據(jù)工程的整體處理流程如圖3所示，通過對(duì)數(shù)據(jù)倉(cāng)庫(kù)中各類型數(shù)據(jù)進(jìn)行處理與轉(zhuǎn)化，可將繁雜無(wú)組織的領(lǐng)域原始數(shù)據(jù)轉(zhuǎn)化為精簡(jiǎn)無(wú)冗余、高質(zhì)量、具有強(qiáng)特征表達(dá)能力的大模型數(shù)據(jù)。

（三）模型倉(cāng)庫(kù)層

模型倉(cāng)庫(kù)層主要為問答系統(tǒng)提供關(guān)鍵算法模型，包括：（1）提示工程，即設(shè)計(jì)和優(yōu)化輸入提示以有效引導(dǎo)大模型生成所需輸出的過程。提示工程的目標(biāo)是通過精心設(shè)計(jì)的提示詞，結(jié)合用戶輸入使系統(tǒng)的回復(fù)更加準(zhǔn)確、相關(guān)。（2）通用大模型，主要指當(dāng)前主流開源大模型，如LLaM、QWen、ChatGLM等。由于大模型是在數(shù)萬(wàn)億字符集上通過復(fù)雜的深度學(xué)習(xí)算法訓(xùn)練而得，已具備了廣泛的世界知識(shí)與流暢的人機(jī)對(duì)話能力，是問答系統(tǒng)走向通用人工智能的重要橋梁。使用已有的開源大模型作為審計(jì)智能問答系統(tǒng)的基礎(chǔ)模型可有效節(jié)約開發(fā)成本和開發(fā)時(shí)間。（3）嵌入模型，即將文本、圖像等轉(zhuǎn)換為數(shù)值向量的模型，如Text-embeddings、M3E等。嵌入模型選擇的關(guān)鍵在于該模型能否將領(lǐng)域文本映射到一個(gè)恰當(dāng)?shù)恼Z(yǔ)義空間，使得文本之間相似度度量更加準(zhǔn)確。嵌入模型對(duì)大模型能否從大規(guī)模知識(shí)庫(kù)中檢索到恰當(dāng)?shù)拇鸢钢陵P(guān)重要。（4）微調(diào)算法，指在通用大模型（如QWen）基礎(chǔ)上，通過在特定任務(wù)或領(lǐng)域數(shù)據(jù)集上進(jìn)行知識(shí)對(duì)齊，以優(yōu)化模型在特定應(yīng)用場(chǎng)景中的表現(xiàn)。在領(lǐng)域大模型建設(shè)中，基于指令數(shù)據(jù)集通過微調(diào)算法（如LoRA）構(gòu)建一個(gè)領(lǐng)域適應(yīng)性好、知識(shí)與任務(wù)理解能力強(qiáng)的領(lǐng)域大模型是一種常見建設(shè)思路。（5）智能代理是使用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)技術(shù)來創(chuàng)建能夠自主感知、決策和行動(dòng)的系統(tǒng)。利用大模型的自身能力，智能代理可以不斷學(xué)習(xí)和適應(yīng)新的任務(wù)和環(huán)境，因而可用于知識(shí)檢索與歸納、審計(jì)定性法規(guī)推薦、審計(jì)報(bào)告生成、財(cái)務(wù)報(bào)表分析等復(fù)雜任務(wù)。

（四）模型任務(wù)層

模型任務(wù)層的主要功能是根據(jù)審計(jì)知識(shí)智能問答系統(tǒng)建設(shè)要求抽取和設(shè)計(jì)大模型建設(shè)任務(wù)，主要包括：

1.知識(shí)對(duì)齊

基于大模型知識(shí)對(duì)齊的本質(zhì)特征，結(jié)合提示工程抽象出各類大模型微調(diào)任務(wù)。一般可以將知識(shí)對(duì)齊任務(wù)分為3個(gè)層次，包括句子級(jí)、段落級(jí)和文檔級(jí)，并構(gòu)建不同任務(wù)的微調(diào)指令數(shù)據(jù)集。句子級(jí)任務(wù)側(cè)重于信息抽取與短語(yǔ)分類，如從審計(jì)文本中抽取審計(jì)問題、法規(guī)名稱等實(shí)體，構(gòu)建實(shí)體關(guān)系分類等。段落級(jí)任務(wù)側(cè)重于根據(jù)提供的信息自動(dòng)回答各類審計(jì)問題，如審計(jì)知識(shí)的概念與定義、法律制度相關(guān)問答、審計(jì)問題定性與法規(guī)推薦等。文檔級(jí)任務(wù)側(cè)重于綜合文件的分析和生成，包括審計(jì)風(fēng)險(xiǎn)/問題分析、審計(jì)案例/報(bào)告生成等，該答案在滿足準(zhǔn)確性要求下，還具有較強(qiáng)的開放性和多樣性。

2.檢索增強(qiáng)生成

檢索增強(qiáng)生成的目的是從審計(jì)知識(shí)倉(cāng)中準(zhǔn)確無(wú)誤地找到與用戶查詢最相關(guān)的知識(shí)片，這對(duì)降低大模型幻覺問題至關(guān)重要。受限于訓(xùn)練數(shù)據(jù)的時(shí)效性和領(lǐng)域局限性，當(dāng)涉及實(shí)時(shí)數(shù)據(jù)或?qū)I(yè)領(lǐng)域知識(shí)時(shí)，大模型的生成結(jié)果可能不夠準(zhǔn)確，這時(shí)需要引入額外的知識(shí)庫(kù)輔助大模型生成準(zhǔn)確答案。例如，審計(jì)大模型在回答法規(guī)制度類問題時(shí)需要準(zhǔn)確生成法規(guī)原文內(nèi)容，這時(shí)可從向量數(shù)據(jù)庫(kù)中檢索出相關(guān)文本片段并按相關(guān)性排序作為問答系統(tǒng)的答案輸出。

基于RAG的審計(jì)大模型推理流程如圖4所示。首先對(duì)審計(jì)知識(shí)倉(cāng)中的文本切片并通過索引優(yōu)化構(gòu)建與向量數(shù)據(jù)庫(kù)之間的索引關(guān)系；其次，在大模型推理階段，根據(jù)用戶輸入問題從向量數(shù)據(jù)庫(kù)中通過相似度計(jì)算及檢索重排獲得一組與問題相關(guān)的文本片作為召回信息反饋給審計(jì)大模型；最后，在大模型答案生成階段，對(duì)輸入的用戶問題結(jié)合召回信息重寫問題，并按用戶輸入要求生成相應(yīng)答案。這一過程既利用了大模型對(duì)輸入問題的解析和重構(gòu)能力，也利用檢索召回技術(shù)為大模型生成答案提供相關(guān)素材，有效降低了大模型的幻覺問題。

3.模型評(píng)估

模型評(píng)估的目的在于評(píng)測(cè)所構(gòu)建的審計(jì)知識(shí)問答系統(tǒng)能否滿足審計(jì)人員的實(shí)際應(yīng)用需求。在審計(jì)大模型系統(tǒng)評(píng)估中，除了常規(guī)的系統(tǒng)功能性、兼容性、并發(fā)性、可用性等評(píng)估指標(biāo)外，還需評(píng)估大模型的通用人工智能水平，一般可通過測(cè)試生成答案的準(zhǔn)確性、相關(guān)性、忠實(shí)性等評(píng)估大模型語(yǔ)言理解能力、語(yǔ)言生成能力和任務(wù)完成能力，通過對(duì)噪聲和敏感數(shù)據(jù)的測(cè)試評(píng)估大模型的魯棒性和確保內(nèi)容安全能力。

（五）系統(tǒng)應(yīng)用層

系統(tǒng)應(yīng)用層的主要功能是實(shí)現(xiàn)產(chǎn)品部署與應(yīng)用，進(jìn)而獲得一組審計(jì)大模型生態(tài)系統(tǒng)，即為審計(jì)人員設(shè)計(jì)一個(gè)或多個(gè)方便易用的審計(jì)知識(shí)問答系統(tǒng)前端。從審計(jì)實(shí)踐調(diào)研中發(fā)現(xiàn)，審計(jì)大模型的主要應(yīng)用場(chǎng)景包括審計(jì)問題定性與法規(guī)推薦、審計(jì)智能問答、審計(jì)文檔生成等。面向上述場(chǎng)景，適宜的審計(jì)大模型信息系統(tǒng)形態(tài)包括：（1）微信小程序：該產(chǎn)品形態(tài)簡(jiǎn)單易用、便于推廣，適用于非敏感審計(jì)信息查詢檢索，如查詢審計(jì)準(zhǔn)則與法律法規(guī)、審計(jì)問題表現(xiàn)與相似案例等。（2）Web瀏覽器方式是常用的問答系統(tǒng)呈現(xiàn)方式，該方式可在企業(yè)局域網(wǎng)內(nèi)部署，產(chǎn)品功能較為豐富，可實(shí)現(xiàn)多輪問答、基于自定義文檔的問答與內(nèi)容生成、數(shù)值計(jì)算、審計(jì)報(bào)告生成等各類任務(wù)。（3）系統(tǒng)插件，即將大模型嵌入到企業(yè)的其他內(nèi)部信息系統(tǒng)（如審計(jì)業(yè)務(wù)系統(tǒng)）中，輔助提升其智能化水平，如實(shí)現(xiàn)從審計(jì)底稿中自動(dòng)總結(jié)審計(jì)問題、對(duì)審計(jì)問題自動(dòng)生成問題分類與推薦定性依據(jù)等功能。（4）OpenAPI，即將審計(jì)大模型的各類功能以標(biāo)準(zhǔn)化接口形式封裝起來，使得這些功能能夠被關(guān)聯(lián)企業(yè)或下游機(jī)關(guān)單位方便地集成和調(diào)用，從而大大擴(kuò)展了智能問答系統(tǒng)的應(yīng)用范圍和推廣價(jià)值。

六、審計(jì)大模型問答系統(tǒng)構(gòu)建實(shí)踐——以中石化審計(jì)智能問答系統(tǒng)為例

大型國(guó)有企業(yè)內(nèi)部審計(jì)由于審計(jì)數(shù)據(jù)量龐大且審計(jì)流程復(fù)雜，其工作既依賴于人工操作，也需要輔以大量的電子文檔（如法規(guī)制度、審計(jì)案例等），因而整個(gè)審計(jì)過程耗時(shí)冗長(zhǎng)、效率不高且效果不彰[6]。為提高審計(jì)工作效率、準(zhǔn)確率和覆蓋率，基于本文提出的“智能驅(qū)動(dòng)”范式設(shè)計(jì)審計(jì)問答系統(tǒng)架構(gòu)方案，以中石化內(nèi)部審計(jì)為應(yīng)用需求，探討基于大模型的審計(jì)知識(shí)問答系統(tǒng)示范應(yīng)用。

（一）審計(jì)知識(shí)智能問答系統(tǒng)需求分析

通過對(duì)中石化審計(jì)部實(shí)際應(yīng)用場(chǎng)景深入解析與探討，歸納出中石化審計(jì)知識(shí)問答系統(tǒng)的開發(fā)需求。

1.準(zhǔn)確性。系統(tǒng)首先需要保證能夠精確理解用戶的查詢意圖，并提供準(zhǔn)確無(wú)誤的答案或信息，真實(shí)反映中石化內(nèi)部審計(jì)相關(guān)的知識(shí)和法規(guī)。

2.時(shí)效性。系統(tǒng)應(yīng)能夠識(shí)別并糾正錯(cuò)誤或過時(shí)信息，保持知識(shí)的時(shí)效性和準(zhǔn)確性，如《中華人民共和國(guó)會(huì)計(jì)法》2024年7月已施行新版本，需要及時(shí)將該知識(shí)更新到系統(tǒng)中。

3.唯一性。系統(tǒng)提供的答案或解決方案具有排他性，即在特定情境下是最適用和最合適的，特別是針對(duì)企業(yè)內(nèi)部信息和有確定答案的問題，要求系統(tǒng)能夠給出唯一準(zhǔn)確的答案。

4.開放性。針對(duì)審計(jì)文檔生成、審計(jì)底稿總結(jié)、審計(jì)意見撰寫等具有一定開放性和發(fā)散性的任務(wù)，系統(tǒng)在確保準(zhǔn)確性的前提下，能夠變換語(yǔ)言組織，給出更加開放多樣的答案。

5.隱私性。問答系統(tǒng)應(yīng)實(shí)施嚴(yán)格的訪問控制措施，確保只有授權(quán)用戶才能訪問相應(yīng)等級(jí)的知識(shí)庫(kù)信息。

6.安全性。確?；诖竽Ｐ偷膯柎鹣到y(tǒng)在所有階段都受到保護(hù)，這包括數(shù)據(jù)安全、模型安全、系統(tǒng)安全、內(nèi)容安全、認(rèn)知安全和倫理安全等。

（二）中石化審計(jì)知識(shí)智能問答系統(tǒng)構(gòu)建

1.模型選擇。在審計(jì)實(shí)踐調(diào)研基礎(chǔ)上凝練和抽象出三個(gè)關(guān)鍵業(yè)務(wù)場(chǎng)景，即審計(jì)知識(shí)的理解、審計(jì)問題定性與法規(guī)推薦和審計(jì)文檔生成?；谏鲜鰬?yīng)用場(chǎng)景抽象出審計(jì)大模型知識(shí)對(duì)齊任務(wù)，進(jìn)而實(shí)現(xiàn)領(lǐng)域任務(wù)個(gè)性化定制，并構(gòu)建一份包含多個(gè)任務(wù)的審計(jì)大模型評(píng)測(cè)數(shù)據(jù)集用于評(píng)估現(xiàn)有大模型（如Baichuan、Qwen、ChatGLM3）對(duì)審計(jì)領(lǐng)域知識(shí)的掌握和運(yùn)用能力，最終選擇國(guó)產(chǎn)大模型通義千問（Qwen-14B）為問答系統(tǒng)提供通用世界知識(shí)。

2.領(lǐng)域適應(yīng)。參考已有大模型訓(xùn)練思路[11]，構(gòu)建面向中石化內(nèi)部審計(jì)的大規(guī)模、高質(zhì)量、有監(jiān)督指令數(shù)據(jù)集并通過指令微調(diào)獲得中石化審計(jì)大模型。該模型以中石化審計(jì)關(guān)鍵業(yè)務(wù)場(chǎng)景為基礎(chǔ)，通過審計(jì)領(lǐng)域數(shù)據(jù)微調(diào)讓通用大模型掌握更豐富、更細(xì)粒度的審計(jì)領(lǐng)域知識(shí)、概念及其關(guān)系，并理解中石化內(nèi)部審計(jì)中的常見問題。此外，在模型評(píng)估階段，從多個(gè)維度、不同指標(biāo)對(duì)比評(píng)估了中石化審計(jì)大模型與通用大模型在審計(jì)任務(wù)上的完成能力。表1對(duì)比展示了該模型與Qwen-14B在中石化審計(jì)中一系列任務(wù)上的性能。評(píng)估結(jié)果表明中石化審計(jì)大模型具備更強(qiáng)的中石化審計(jì)領(lǐng)域任務(wù)完成能力，任務(wù)理解與答案質(zhì)量均優(yōu)于通用大模型，領(lǐng)域適應(yīng)性良好。

3.人機(jī)協(xié)同。以檢索增強(qiáng)技術(shù)為大模型提供細(xì)粒度的中石化內(nèi)部審計(jì)知識(shí)，以智能代理封裝審計(jì)問答系統(tǒng)業(yè)務(wù)流程，并以Web瀏覽器方式作為問答系統(tǒng)呈現(xiàn)方式。在該模式下，基于中石化審計(jì)大模型的問答系統(tǒng)已預(yù)先載入大量審計(jì)相關(guān)文檔、高質(zhì)量問答對(duì)等審計(jì)知識(shí)倉(cāng)。智能代理判斷用戶提問意圖并選擇恰當(dāng)?shù)臉I(yè)務(wù)流程實(shí)現(xiàn)對(duì)輸入問題的解析與優(yōu)化、對(duì)相關(guān)知識(shí)的檢索與召回、調(diào)用大模型進(jìn)行答案組織與生成輸出等。圖5展示了基于智能代理的問答結(jié)果及答案溯源信息?？梢钥闯?，基于領(lǐng)域大模型的審計(jì)知識(shí)問答系統(tǒng)不僅能更準(zhǔn)確地理解各類審計(jì)任務(wù)，還能給出更加準(zhǔn)確、可解釋的答案來源。此外，審計(jì)人員可通過與大模型進(jìn)行多輪對(duì)話、向系統(tǒng)提交文檔等方式實(shí)現(xiàn)人機(jī)協(xié)同，使得該系統(tǒng)能更好地理解不同審計(jì)人員的提問意圖，也能實(shí)時(shí)接收審計(jì)人員經(jīng)驗(yàn)知識(shí)實(shí)現(xiàn)更高效的人機(jī)交互，共同完成審計(jì)作業(yè)。

七、結(jié)語(yǔ)

隨著以大模型為代表的通用人工智能的快速發(fā)展與廣泛應(yīng)用，人工智能驅(qū)動(dòng)的審計(jì)知識(shí)智能問答系統(tǒng)成為實(shí)施智能化審計(jì)流程的有力助手。相關(guān)監(jiān)管及研究機(jī)構(gòu)已經(jīng)開始探索大模型審計(jì)相關(guān)研究與實(shí)踐，從數(shù)據(jù)、模型、應(yīng)用場(chǎng)景等開展前瞻性的探索。各級(jí)審計(jì)機(jī)關(guān)和國(guó)有企業(yè)內(nèi)部審計(jì)部門也應(yīng)結(jié)合自身發(fā)展現(xiàn)狀，有步驟、有計(jì)劃地開發(fā)基于大模型的審計(jì)知識(shí)問答系統(tǒng)。借助大模型所內(nèi)嵌的豐富世界知識(shí)與較高智能水平，輔以高質(zhì)量審計(jì)領(lǐng)域知識(shí)與審計(jì)人員的專業(yè)經(jīng)驗(yàn)，相信基于大模型的審計(jì)問答系統(tǒng)能夠提高審計(jì)工作效率、提升審計(jì)工作質(zhì)量。

為充分發(fā)掘大模型潛力，審計(jì)部門可根據(jù)自身業(yè)務(wù)需求的迫切性，凝練大模型應(yīng)用場(chǎng)景、構(gòu)建大模型運(yùn)用數(shù)據(jù)源進(jìn)而定制部門私有化大模型系統(tǒng)，讓通用人工智能真正助力審計(jì)工作，也希望本文的研究框架能為大模型落地審計(jì)領(lǐng)域提供一定的指導(dǎo)和借鑒，也為行業(yè)大模型健康有序發(fā)展提供支撐。

【參考文獻(xiàn)】

［1］ LIBBY R，WITZ P.Can artificial intelligence reduce the effect of independence conflicts on audit firm liability？［J］.Contemporary Accounting Research，2024，

41（2）：1346-1375.

［2］徐超，陳勇，葛紅美，等.基于大數(shù)據(jù)的審計(jì)技術(shù)研究［J］.電子學(xué)報(bào)，2020（5）：1003-1017.

［3］黃佳佳，李鵬偉，徐超.面向智慧審計(jì)的思維變革與審計(jì)平臺(tái)構(gòu)建研究［J］.審計(jì)研究，2023（5）：11-20.

［4］陳國(guó)青，任明，衛(wèi)強(qiáng)，等.數(shù)智賦能：信息系統(tǒng)研究的新躍遷［J］.管理世界，2022，38（1）：180-196.

［5］楊柔堅(jiān).數(shù)智化轉(zhuǎn)型背景下審計(jì)工作高質(zhì)量發(fā)展研究［J］.審計(jì)研究，2024（1）：18-27.

［6］劉國(guó)城，馬欣萌，徐志.審計(jì)全覆蓋驅(qū)動(dòng)下大數(shù)據(jù)審計(jì)平臺(tái)構(gòu)建研究［J］.會(huì)計(jì)之友，2021（11）：125-132.

［7］陳雪嵩.大語(yǔ)言模型在企業(yè)內(nèi)部審計(jì)中的應(yīng)用研究［J］.會(huì)計(jì)之友，2024（11）：23-29.

［8］劉錦.AIGC技術(shù)在國(guó)家審計(jì)中的應(yīng)用［J］.審計(jì)研究，2024（4）：18-29.

［9］萬(wàn)鈞.基于大語(yǔ)言模型的審計(jì)知識(shí)應(yīng)用研究［J］.審計(jì)研究，2024（5）：38-44.

［10］ ZIWEI JI，NAYEON LEE，RITA FRIESKE，et al.Survey of hallucination in natural language generation［J］.ACM Computing Surveys，2023（55）：1-38.

［11］ JIAJIA HUANG，HAORAN ZHU，CHAO XU，et al.Auditwen：an open-source large language model for audit［C］.Chinese Computational Linguistics （CCL），Lecture Notes in Computer Science，2024（14761）：505-521.Springer.

會(huì)計(jì)之友2025年9期

會(huì)計(jì)之友的其它文章: 中國(guó)自主會(huì)計(jì)知識(shí)體系之原理變革的必然性; 新質(zhì)生產(chǎn)力下產(chǎn)教協(xié)同的智能會(huì)計(jì)人才培育; 新質(zhì)生產(chǎn)力對(duì)共同富裕的影響與實(shí)證檢驗(yàn); 利率市場(chǎng)化改革的收入分配效應(yīng)研究; 企業(yè)金融化、融資約束與制造企業(yè)財(cái)務(wù)績(jī)效; 金融生態(tài)環(huán)境：理論演進(jìn)與內(nèi)在邏輯

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大模型的審計(jì)知識(shí)智能問答系統(tǒng)構(gòu)建研究