金源(正高級(jí)會(huì)計(jì)師),魏振,李成智
2022年,科技部等六部門印發(fā)《關(guān)于加快場(chǎng)景創(chuàng)新以人工智能高水平應(yīng)用促進(jìn)經(jīng)濟(jì)高質(zhì)量發(fā)展的指導(dǎo)意見(jiàn)》,指出要以需求為牽引謀劃人工智能技術(shù)應(yīng)用場(chǎng)景,融合人工智能模型算法和領(lǐng)域數(shù)據(jù)知識(shí),推動(dòng)人工智能場(chǎng)景創(chuàng)新。2023年7月,國(guó)家網(wǎng)信辦等七部門聯(lián)合公布的《生成式人工智能服務(wù)管理暫行辦法》也指出,國(guó)家鼓勵(lì)探索優(yōu)化生成式人工智能技術(shù)應(yīng)用場(chǎng)景,構(gòu)建應(yīng)用生態(tài)體系。
2022 年11 月底,OpenAI 發(fā)布基于GPT(Generative Pre-Training,生成式預(yù)訓(xùn)練)語(yǔ)言模型GPT-3.5 Turbo構(gòu)建的智能聊天機(jī)器人ChatGPT。ChatGPT 是繼數(shù)據(jù)庫(kù)和搜索引擎之后的全新一代“知識(shí)存儲(chǔ)和調(diào)用方式”,是當(dāng)前AIGC(AI-Generated Content,人工智能內(nèi)容生成)領(lǐng)域的代表性技術(shù)。ChatGPT 憑借精準(zhǔn)的語(yǔ)義理解能力、強(qiáng)大的語(yǔ)言表達(dá)能力、嚴(yán)謹(jǐn)?shù)倪壿嬎季S能力,對(duì)新聞媒體、教育培訓(xùn)、客戶服務(wù)與支持、法律服務(wù)、會(huì)計(jì)審計(jì)等行業(yè)均造成一定程度的沖擊,引發(fā)全社會(huì)熱議。
為積極應(yīng)對(duì)ChatGPT 對(duì)會(huì)計(jì)領(lǐng)域的沖擊,已有多位學(xué)者思考并探討了ChatGPT對(duì)會(huì)計(jì)科技(金源和李成智,2023a)、會(huì)計(jì)行業(yè)變革(劉勤,2023)、智能財(cái)務(wù)(金源和李成智,2023b)等方面的影響,并且積極探索其在財(cái)務(wù)咨詢、審計(jì)、稅務(wù)管理等具體財(cái)務(wù)場(chǎng)景的應(yīng)用可行性。然而,現(xiàn)有研究多集中在理論框架構(gòu)建和實(shí)踐構(gòu)想層面,對(duì)ChatGPT在財(cái)務(wù)場(chǎng)景中落地實(shí)踐的研究尚存在空白。
在數(shù)字經(jīng)濟(jì)蓬勃發(fā)展的時(shí)代背景下,財(cái)務(wù)RPA、數(shù)電發(fā)票、智能財(cái)務(wù)、ESG等新概念層出不窮,會(huì)計(jì)行業(yè)對(duì)于知識(shí)更新迭代的要求也越來(lái)越高。財(cái)務(wù)人員需要及時(shí)、精準(zhǔn)地獲取前沿的財(cái)務(wù)知識(shí)以更好地完成本職工作,賦能企業(yè)管理決策。然而,當(dāng)前財(cái)務(wù)人員基于搜索引擎和內(nèi)部知識(shí)庫(kù)的知識(shí)檢索模式存在著信息過(guò)載、檢索質(zhì)量參差不齊、信息更新滯后、難以滿足個(gè)性化需求等諸多痛點(diǎn),這些痛點(diǎn)嚴(yán)重制約了財(cái)務(wù)人員獲取和使用財(cái)務(wù)知識(shí)的效率?;谝陨媳尘?,本文提出基于ChatGPT 構(gòu)建問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)的可行框架,并以H 公司的問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)ChatDoc 作為案例,具體呈現(xiàn)了問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)在財(cái)務(wù)部門的落地路徑及其在賦能財(cái)務(wù)知識(shí)管理過(guò)程中的應(yīng)用價(jià)值。本研究為AIGC 時(shí)代企業(yè)財(cái)務(wù)知識(shí)庫(kù)的構(gòu)建提供了新視角。此外,本文的研究方法和思路,也為其他垂直領(lǐng)域知識(shí)庫(kù)的建設(shè)提供了參考與借鑒。
DIKW(Data-Information-Knowledge-Wisdom)模型是被廣泛應(yīng)用于知識(shí)管理領(lǐng)域的模型,它指出人類決策智慧的形成經(jīng)歷了從噪聲中分揀出數(shù)據(jù),再將數(shù)據(jù)轉(zhuǎn)化為信息,升級(jí)為知識(shí),最終升華為智慧的過(guò)程。在這一過(guò)程中,數(shù)據(jù)的“清楚、簡(jiǎn)明、完整、正確”程度在不斷提升,對(duì)于數(shù)據(jù)理解的深度也在逐層增加。金源和李成智(2023c)研究指出,數(shù)據(jù)驅(qū)動(dòng)下的財(cái)務(wù)決策支持工作本質(zhì)上也是從業(yè)財(cái)數(shù)據(jù)到?jīng)Q策有用的信息和知識(shí),最終再到?jīng)Q策智慧的加工收斂過(guò)程。在該過(guò)程中,數(shù)據(jù)沿著財(cái)務(wù)金字塔(財(cái)務(wù)核算、業(yè)務(wù)財(cái)務(wù)、戰(zhàn)略財(cái)務(wù))由下至上被逐層傳遞,傳遞內(nèi)容的數(shù)量不斷下降、質(zhì)量不斷提升(如圖1所示)。
圖1 數(shù)據(jù)沿著財(cái)務(wù)金字塔被逐層加工
在上述過(guò)程中,財(cái)務(wù)相關(guān)工作也經(jīng)歷著從數(shù)據(jù)管理、信息管理再到知識(shí)管理以及智慧管理的演變。數(shù)據(jù)管理主要關(guān)注數(shù)據(jù)收集、存儲(chǔ)和處理。信息管理則更進(jìn)一步,關(guān)注如何從海量數(shù)據(jù)中提取決策有用信息并進(jìn)行有效管理。知識(shí)管理的關(guān)注重點(diǎn)是將信息轉(zhuǎn)化為可復(fù)用、可傳播的知識(shí),以持續(xù)支持組織的決策和創(chuàng)新。智慧管理是知識(shí)管理的下一階段,包括對(duì)決策智慧、高級(jí)財(cái)務(wù)管理人員經(jīng)驗(yàn)等的管理。在財(cái)務(wù)領(lǐng)域,上述四階段體現(xiàn)如下:
第一階段:數(shù)據(jù)管理。財(cái)務(wù)領(lǐng)域最初的數(shù)據(jù)管理體現(xiàn)為對(duì)紙質(zhì)憑證、文檔的保存和歸檔。自1979 年開(kāi)始,我國(guó)財(cái)務(wù)管理進(jìn)入電算化階段,數(shù)據(jù)開(kāi)始被存儲(chǔ)在電子表格或小型數(shù)據(jù)庫(kù)中,使得數(shù)據(jù)的存儲(chǔ)、檢索和分析更加方便,同時(shí)也保障了數(shù)據(jù)的安全性和完整性。
第二階段:信息管理。20世紀(jì)90年代,隨著ERP(Enterprise Resourse Planning,企業(yè)資源管理計(jì)劃)的普及,我國(guó)財(cái)務(wù)管理進(jìn)入信息化階段,業(yè)財(cái)數(shù)據(jù)實(shí)現(xiàn)初步整合,ERP系統(tǒng)在財(cái)務(wù)管理中的應(yīng)用使得企業(yè)的各項(xiàng)資源配置更加合理,管理者可以依照多方有效信息來(lái)進(jìn)行更為科學(xué)合理的決策。2005年財(cái)務(wù)共享模式的興起以及2008年XBRL(可擴(kuò)展商業(yè)報(bào)告語(yǔ)言)中國(guó)地區(qū)組織的成立,使得財(cái)務(wù)信息管理的標(biāo)準(zhǔn)化程度進(jìn)一步提高。
第三階段:知識(shí)管理。2016 年,德勤和Kira Systems宣布將人工智能引入財(cái)會(huì)領(lǐng)域,標(biāo)志著我國(guó)財(cái)務(wù)管理進(jìn)入智能化階段(劉勤和楊寅,2019)。劉勤(2021)指出,由于存儲(chǔ)在人類財(cái)務(wù)專家頭腦中的財(cái)經(jīng)知識(shí)大多具有隱性特點(diǎn),因此如何借助有效的知識(shí)表示方式,將人類專家的知識(shí)轉(zhuǎn)化為計(jì)算機(jī)可以自動(dòng)處理的顯性知識(shí)并使之得到有效應(yīng)用,就成為財(cái)務(wù)智能化建設(shè)中的關(guān)鍵問(wèn)題。為解決上述問(wèn)題,部分企業(yè)的財(cái)務(wù)部門開(kāi)始將財(cái)務(wù)知識(shí)庫(kù)、專家系統(tǒng)和知識(shí)圖譜等技術(shù)引入財(cái)務(wù)領(lǐng)域以實(shí)現(xiàn)財(cái)務(wù)知識(shí)管理的集中化、顯性化。
第四階段:智慧管理。在DIKW 模型中,智慧是對(duì)知識(shí)的深入理解和應(yīng)用,是對(duì)復(fù)雜問(wèn)題的洞見(jiàn)和創(chuàng)新性解決。在財(cái)務(wù)管理領(lǐng)域,智慧管理表現(xiàn)為將決策者的個(gè)人智慧與財(cái)務(wù)預(yù)測(cè)模型、異常告警與歸因模型的機(jī)器智慧進(jìn)行人機(jī)協(xié)同,以發(fā)現(xiàn)問(wèn)題背后的隱藏模式,預(yù)測(cè)未來(lái)發(fā)展趨勢(shì),提出業(yè)務(wù)優(yōu)化建議。
以上從DIKW 視角對(duì)財(cái)務(wù)領(lǐng)域的知識(shí)管理模式演變進(jìn)行了梳理,而ChatGPT的問(wèn)世為財(cái)務(wù)工作拓展了更大的想象空間,使得財(cái)務(wù)知識(shí)管理模式從單向管理向雙向智慧問(wèn)答演變。例如:在數(shù)據(jù)管理方面,微軟的Microsoft 365 Copilot(微軟365 智能副駕),可以對(duì)Word、Excel、PowerPoint、Outlook、Teams 等應(yīng)用中的數(shù)據(jù)和文檔以對(duì)話的形式進(jìn)行增刪改查;在信息管理方面,微軟的Dynamics 365 Copilot可嵌入ERP系統(tǒng)中實(shí)現(xiàn)對(duì)于庫(kù)存信息、供應(yīng)商信息的交互式查詢;在知識(shí)管理方面,可將ChatGPT 與財(cái)務(wù)知識(shí)庫(kù)結(jié)合構(gòu)建起問(wèn)答式財(cái)務(wù)知識(shí)庫(kù);在智慧管理方面,GPT-4 的Code Interpreter(代碼解釋器)插件通過(guò)雙向?qū)υ捄土愦a的形式極大地降低了財(cái)務(wù)人員進(jìn)行海量數(shù)據(jù)處理的門檻。如表1所示。
表1 ChatGPT推動(dòng)財(cái)務(wù)知識(shí)管理模式演變
ChatGPT 的出現(xiàn)為財(cái)務(wù)人員提供了一種通過(guò)自然語(yǔ)言與大模型交互進(jìn)行知識(shí)檢索的模式,但ChatGPT 直接用于財(cái)務(wù)知識(shí)檢索仍存在著以下問(wèn)題:①對(duì)于財(cái)務(wù)專業(yè)縱深領(lǐng)域知識(shí)的理解不足。ChatGPT 在不利用財(cái)務(wù)知識(shí)進(jìn)一步微調(diào)(Fine Tuning)的情況下,僅基于其預(yù)訓(xùn)練(Pre-training)所習(xí)得的知識(shí)可能無(wú)法準(zhǔn)確理解財(cái)務(wù)工作中一些復(fù)雜的術(shù)語(yǔ)、流程和實(shí)踐。②受限于過(guò)高的算力成本,企業(yè)利用財(cái)務(wù)領(lǐng)域數(shù)據(jù)對(duì)大模型進(jìn)行微調(diào)或訓(xùn)練財(cái)務(wù)垂直領(lǐng)域的大模型在當(dāng)前可行性較低。③ChatGPT在中文語(yǔ)境下訓(xùn)練不充分,該缺陷會(huì)進(jìn)一步加劇對(duì)財(cái)務(wù)術(shù)語(yǔ)的誤解。④對(duì)會(huì)計(jì)準(zhǔn)則和稅務(wù)法規(guī)溯源不準(zhǔn)確,該缺陷將影響相關(guān)法規(guī)查詢結(jié)果的可靠性。
由于以上缺陷的存在,無(wú)論是單獨(dú)基于搜索引擎、內(nèi)部知識(shí)庫(kù)還是ChatGPT,均無(wú)法較為完善地實(shí)現(xiàn)財(cái)務(wù)知識(shí)庫(kù)功能(如表2所示)。但單獨(dú)看來(lái),三者又各有所長(zhǎng):ChatGPT 相較于傳統(tǒng)搜索引擎和聊天機(jī)器人,具有深度學(xué)習(xí)、多模態(tài)理解、長(zhǎng)文本生成、上下文感知、自我學(xué)習(xí)和良性價(jià)值觀等突出特點(diǎn);內(nèi)部知識(shí)庫(kù)具有知識(shí)精準(zhǔn)度高、“實(shí)務(wù)經(jīng)驗(yàn)類”知識(shí)豐富、準(zhǔn)則和法規(guī)溯源準(zhǔn)確等突出特點(diǎn);搜索引擎具有實(shí)時(shí)更新、覆蓋范圍廣等突出特點(diǎn)。因此,本文認(rèn)為可將三者的核心優(yōu)勢(shì)相結(jié)合,構(gòu)建基于ChatGPT的問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)。
表2 三種知識(shí)管理方式對(duì)比
問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)的構(gòu)建目的是提供一個(gè)自助、便捷、精準(zhǔn)的個(gè)性化財(cái)務(wù)知識(shí)查詢平臺(tái),使得財(cái)務(wù)人員可以通過(guò)多輪對(duì)話,就日常工作、管理決策和技能學(xué)習(xí)過(guò)程中遇到的各類問(wèn)題,依據(jù)個(gè)人需求和偏好實(shí)現(xiàn)個(gè)性化檢索。
本文認(rèn)為,基于ChatGPT 的問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)系統(tǒng)至少需由文檔庫(kù)、組件庫(kù)、向量數(shù)據(jù)庫(kù)、OpenAI的API接口、日志系統(tǒng)和用戶界面六大模塊組成,如圖2所示。文檔庫(kù)是財(cái)務(wù)知識(shí)庫(kù)的核心模塊,用于存儲(chǔ)財(cái)務(wù)領(lǐng)域的相關(guān)知識(shí),如會(huì)計(jì)準(zhǔn)則、稅法以及財(cái)務(wù)理論知識(shí)等。組件庫(kù)(包含文檔分割、數(shù)據(jù)連接、索引構(gòu)建、查詢接口等相關(guān)組件)用于對(duì)文檔庫(kù)中的文檔進(jìn)行一系列操作,將其切分、加工為計(jì)算機(jī)易于處理的向量格式。向量數(shù)據(jù)庫(kù)則用于存儲(chǔ)經(jīng)組件加工而生成的特征向量,以便后續(xù)高效地依據(jù)文檔相似度進(jìn)行匹配和檢索。OpenAI的API接口是財(cái)務(wù)知識(shí)庫(kù)用于調(diào)用ChatGPT 等其他服務(wù)的通道,從而可以基于ChatGPT 的自然語(yǔ)言處理能力,實(shí)現(xiàn)對(duì)用戶問(wèn)題的解析并給出自然語(yǔ)言形式的回答。日志系統(tǒng)用于記錄用戶的查詢行為和系統(tǒng)的運(yùn)行情況,以便開(kāi)展后續(xù)的數(shù)據(jù)分析、性能優(yōu)化和可追溯審計(jì)。用戶界面是用戶獲得財(cái)務(wù)知識(shí)庫(kù)服務(wù)的系統(tǒng)入口和人機(jī)交互界面。
圖2 基于ChatGPT的問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)系統(tǒng)架構(gòu)
接下來(lái),本文將對(duì)上述系統(tǒng)架構(gòu)中最為核心的文檔庫(kù)、組件庫(kù)中文檔分割組件、向量數(shù)據(jù)庫(kù)展開(kāi)進(jìn)一步解釋。
1.文檔庫(kù)。文檔庫(kù)是問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)最為核心的部分。通常文檔庫(kù)至少需包含以下方面的知識(shí):一是外部的規(guī)章制度,包括國(guó)家和地方政府頒布的各種規(guī)章制度和政策,以及通行的企業(yè)會(huì)計(jì)準(zhǔn)則、稅法、會(huì)計(jì)人員職業(yè)道德規(guī)范等。二是通用型的財(cái)務(wù)知識(shí),例如財(cái)務(wù)經(jīng)典理論知識(shí)(會(huì)計(jì)恒等式、杜邦分析法、投資組合理論、成本性態(tài)分析法等)和財(cái)務(wù)前沿知識(shí)(數(shù)電發(fā)票、財(cái)務(wù)RPA、智能財(cái)務(wù)等)。三是公司財(cái)務(wù)部門內(nèi)部總結(jié)的經(jīng)驗(yàn)和知識(shí),包括財(cái)務(wù)人員在日常工作中逐步積累、總結(jié)和提煉出來(lái)的各種財(cái)務(wù)管理的技巧、方法和經(jīng)驗(yàn),以及財(cái)務(wù)管理中一些常見(jiàn)問(wèn)題和解決方法。
2.文檔分割組件。受到模型結(jié)構(gòu)、算力等因素的影響,ChatGPT具有一定的輸入輸出長(zhǎng)度限制,例如GPT-3.5 的提問(wèn)加回答的總長(zhǎng)度限制為4096 個(gè)token,GPT-4擴(kuò)展為32768 個(gè)token(token 是GPT 處理文本的基本單位,指一個(gè)句子中的最小詞元,它可以是一個(gè)字、一個(gè)詞或是一個(gè)特殊符號(hào))。由于上述限制的存在,用戶無(wú)法將大型文檔一次性發(fā)送給ChatGPT,文檔分割組件的主要作用是將文檔庫(kù)中的大型文檔按照段落、句子或關(guān)鍵詞等方式進(jìn)行分割,以便于后續(xù)的向量化操作和問(wèn)答匹配。
3.向量數(shù)據(jù)庫(kù)。在計(jì)算機(jī)科學(xué)中,向量數(shù)據(jù)庫(kù)是區(qū)別于常規(guī)數(shù)據(jù)庫(kù)的一種特殊數(shù)據(jù)庫(kù)。常規(guī)數(shù)據(jù)庫(kù)以數(shù)據(jù)作為存儲(chǔ)和檢索的對(duì)象,而向量數(shù)據(jù)庫(kù)存儲(chǔ)和檢索的對(duì)象是計(jì)算機(jī)更容易處理的向量,并可高效地依據(jù)向量間的相似性進(jìn)行檢索。如果將文檔庫(kù)視為一個(gè)儲(chǔ)存著海量商品的倉(cāng)庫(kù),向量數(shù)據(jù)庫(kù)存儲(chǔ)的就是這些商品的“標(biāo)簽”,“標(biāo)簽”與商品間存在著索引關(guān)系,可以通過(guò)“標(biāo)簽”快速地檢索到對(duì)應(yīng)商品。
當(dāng)用戶向問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)提問(wèn)時(shí),系統(tǒng)會(huì)首先將提問(wèn)轉(zhuǎn)化為向量表示形式,并在向量數(shù)據(jù)庫(kù)中匹配與該向量最相似的文檔向量,再根據(jù)索引關(guān)系從文檔庫(kù)中提取相應(yīng)的文本段落,將該段落作為背景知識(shí),與用戶的提問(wèn)共同拼裝為提示詞(Prompt)發(fā)送給ChatGPT,讓Chat-GPT基于提示詞里的用戶原始提問(wèn)以及依據(jù)提問(wèn)從文檔庫(kù)中匹配到的背景知識(shí)給出回復(fù)。該方法在提高ChatGPT回答精準(zhǔn)度的同時(shí),也妥善解除了輸入上限的限制。
本文認(rèn)為,問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)的運(yùn)行過(guò)程可以分為文檔準(zhǔn)備和用戶問(wèn)答兩個(gè)階段。在文檔準(zhǔn)備階段,財(cái)務(wù)知識(shí)庫(kù)將各類財(cái)務(wù)文獻(xiàn)和報(bào)告等信息資源導(dǎo)入文檔庫(kù)中,并通過(guò)文檔分割組件和調(diào)用OpenAI 的詞句轉(zhuǎn)向量(Word to Vector,Word2vec)API接口,提取其中的關(guān)鍵信息和特征,形成文檔的特征向量,存入向量數(shù)據(jù)庫(kù)。在用戶問(wèn)答階段,用戶可以通過(guò)輸入文本的方式向系統(tǒng)提出問(wèn)題,系統(tǒng)將解析用戶的問(wèn)題并返回最佳答案。在此過(guò)程中,系統(tǒng)會(huì)利用向量數(shù)據(jù)庫(kù)中存儲(chǔ)的特征向量進(jìn)行相似度匹配和檢索,以確保返回的答案盡可能準(zhǔn)確和全面。兩階段的具體流程如圖3所示。
圖3 問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)兩階段運(yùn)行過(guò)程
1.第一階段:文檔準(zhǔn)備階段。文檔準(zhǔn)備階段主要是對(duì)文檔庫(kù)里的文本進(jìn)行預(yù)處理,包括轉(zhuǎn)換格式、分割、使用OpenAI 的Word2vec 功能把文本轉(zhuǎn)換成向量。各環(huán)節(jié)的具體操作如下:
(1)轉(zhuǎn)換文檔格式。由于ChatGPT 是一個(gè)基于NLP(Natural Language Processing,自然語(yǔ)言處理)的大語(yǔ)言模型,比較擅長(zhǎng)理解文本語(yǔ)言,所以如果文檔庫(kù)里存在PDF格式的文檔或電子表格數(shù)據(jù),則需轉(zhuǎn)換為純文本格式以便ChatGPT理解。以轉(zhuǎn)換Excel電子表格為例,可以把電子表格另存為csv格式,這樣電子表格的表頭和每一行的數(shù)據(jù)信息就被轉(zhuǎn)化為一串以逗號(hào)隔開(kāi)的文本。
(2)分割文檔。如前文所述,ChatGPT一次對(duì)話可處理的token數(shù)量存在上限,對(duì)于大文檔就需要使用文檔分割組件將其分割成小塊(chunk)。此外,為了滿足每個(gè)小塊都有完整語(yǔ)義的要求,在分割過(guò)程中要使用技術(shù)手段保證塊與塊之間存在一些重合。
(3)使用OpenAI 的Word2vec 功能把小塊(chunk)的文本轉(zhuǎn)換成向量,用以表達(dá)該段文本的語(yǔ)義,處理完成后再將計(jì)算出來(lái)的向量存入向量數(shù)據(jù)庫(kù)。
2.第二階段:用戶問(wèn)答階段。從用戶向財(cái)務(wù)知識(shí)庫(kù)發(fā)起提問(wèn)到最后系統(tǒng)將回答呈現(xiàn)在用戶界面的全過(guò)程中,系統(tǒng)內(nèi)部經(jīng)歷了如下流程:①尋找最相關(guān)文本。系統(tǒng)調(diào)用OpenAI 的Word2vec 功能把用戶提問(wèn)文本轉(zhuǎn)換成向量,通過(guò)相似度計(jì)算,從向量數(shù)據(jù)庫(kù)中匹配最相關(guān)的文本向量。②依據(jù)向量數(shù)據(jù)庫(kù)和文檔庫(kù)間的索引,查詢相應(yīng)的背景知識(shí)。③將背景知識(shí)和提問(wèn)組合成提示詞(Prompt),通過(guò)接口傳輸至ChatGPT。④系統(tǒng)把提示詞發(fā)給Chat-GPT,在獲得ChatGPT的回答后,將回答呈現(xiàn)至用戶界面。
問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)構(gòu)建后,后續(xù)還可能面臨外部會(huì)計(jì)準(zhǔn)則和稅務(wù)法規(guī)更新、新文檔入庫(kù)以及舊文檔廢棄等情況,此時(shí)就需要建立知識(shí)庫(kù)的維護(hù)規(guī)范,持續(xù)對(duì)文檔庫(kù)進(jìn)行更新。
首先,在知識(shí)入庫(kù)時(shí)需要對(duì)文檔進(jìn)行分類管理,制定標(biāo)準(zhǔn)化的入庫(kù)流程,以確保知識(shí)能夠被高效地記錄和管理。為了保證高頻更新文檔的入庫(kù)效率,可以采用RPA技術(shù),通過(guò)批量下載法規(guī)文檔或者對(duì)文檔進(jìn)行預(yù)處理的方法,將知識(shí)快速地錄入文檔庫(kù)中。以RPA 輔助稅務(wù)法規(guī)入庫(kù)為例,RPA 可以定期訪問(wèn)指定網(wǎng)站,先瀏覽并抓取法規(guī)清單內(nèi)容(包括法規(guī)的標(biāo)題、正文、發(fā)布日期等),再將抓取到的法規(guī)清單與在庫(kù)法規(guī)清單對(duì)比以形成一張新增法規(guī)清單,之后依據(jù)新增法規(guī)清單逐個(gè)瀏覽法規(guī)頁(yè)面、抓取法規(guī)內(nèi)容并寫入一個(gè)文本文檔,再通過(guò)RPA 把本次下載的法規(guī)文本文檔上傳到財(cái)務(wù)知識(shí)庫(kù)的文檔庫(kù)里,最后RPA更新在庫(kù)法規(guī)清單以便用于下次比對(duì)。
其次,知識(shí)更新和棄用也是財(cái)務(wù)知識(shí)庫(kù)維護(hù)的重要方面。在知識(shí)更新方面,可以利用RPA技術(shù)定期檢查法規(guī)的有效狀態(tài),確保知識(shí)庫(kù)中的信息始終保持最新、準(zhǔn)確和可靠。而在知識(shí)棄用方面,需要確保知識(shí)庫(kù)中的信息經(jīng)過(guò)充分的篩選和審核,將不再適用或不準(zhǔn)確的信息標(biāo)記為棄用,以避免給用戶帶來(lái)誤導(dǎo)或困擾。
H 公司是我國(guó)領(lǐng)先的科技公司,聚焦于為各行各業(yè)客戶提供數(shù)字化解決方案,助力客戶數(shù)字化轉(zhuǎn)型,為客戶持續(xù)創(chuàng)造價(jià)值,多年來(lái)在數(shù)字化方面積累了大量經(jīng)驗(yàn)。作為財(cái)務(wù)數(shù)字化轉(zhuǎn)型的持續(xù)探索者,H 公司目前已應(yīng)用多種數(shù)字化技術(shù)構(gòu)建起一套先進(jìn)的財(cái)務(wù)管理體系。隨著ChatGPT 的推出,H 公司同時(shí)成立了多個(gè)項(xiàng)目組對(duì)其應(yīng)用積極地展開(kāi)探索,問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)ChatDoc 是其中的一個(gè)項(xiàng)目。通過(guò)該項(xiàng)目,H 公司旨在提升財(cái)務(wù)人員檢索知識(shí)的精度和效率。
H公司搭建的問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)架構(gòu)圖如圖4所示。
圖4 ChatDoc的系統(tǒng)架構(gòu)
ChatDoc 的系統(tǒng)組件包括:OpenAI 的Embedding 模型(用于實(shí)現(xiàn)前文所述的詞句轉(zhuǎn)向量功能)、ChatGPT 模型(負(fù)責(zé)基于問(wèn)題和背景知識(shí)給出回復(fù))、LlamaIndex 組件(負(fù)責(zé)讀取并切割文檔資料,構(gòu)建索引,檢索并匹配向量相似度,查詢并轉(zhuǎn)接信息)、文檔庫(kù)(負(fù)責(zé)存儲(chǔ)文檔資料)、向量數(shù)據(jù)庫(kù)(負(fù)責(zé)存儲(chǔ)文本信息的向量)。
1.知識(shí)庫(kù)的運(yùn)行過(guò)程。H 公司ChatDoc 系統(tǒng)的運(yùn)作過(guò)程如下:①文檔庫(kù)管理員通過(guò)財(cái)務(wù)知識(shí)庫(kù)用戶交互界面上傳文檔到文檔庫(kù)。②LlamaIndex 讀取文檔資料,把長(zhǎng)文檔切割成小塊文本信息,并建立索引。③LlamaIndex把小塊文本信息發(fā)給OpenAI 的Embedding 模型,并接收被Embedding 模型轉(zhuǎn)換好的文本向量。④LlamaIndex 把文本向量按照之前建立的索引存入向量數(shù)據(jù)庫(kù),以備用戶提問(wèn)時(shí)查詢使用。⑤用戶通過(guò)用戶交互界面提出問(wèn)題。⑥LlamaIndex 把用戶問(wèn)題發(fā)給OpenAI 的Embedding模型,并接收被Embedding 模型轉(zhuǎn)換好的用戶問(wèn)題文本向量。⑦LlamaIndex 根據(jù)問(wèn)題文本向量,從向量數(shù)據(jù)庫(kù)中找到相似度高的文本向量。⑧LlamaIndex 把用戶問(wèn)題文本與文檔文本組合成提示詞發(fā)給ChatGPT 模型,并接收ChatGPT的回復(fù)。⑨用戶在用戶交互界面接收到問(wèn)題的答案。
從以上運(yùn)行過(guò)程中可以發(fā)現(xiàn),最終發(fā)給ChatGPT 的提示詞(Prompt)不僅包含用戶最初輸入的提問(wèn)文本,還包括從文檔庫(kù)中檢索出的背景知識(shí)。此外,為了盡可能規(guī)范ChatGPT 的回答,保證輸出結(jié)果的穩(wěn)定性,H 公司還在知識(shí)庫(kù)中內(nèi)置了固定的Prompt 模板,該模板規(guī)定了ChatGPT 回答的格式、依據(jù)和方式。在此基礎(chǔ)上,將用戶原提問(wèn)、從文檔庫(kù)中檢索出的背景知識(shí)、固定的Prompt模板三者組合成最終的組合提示詞。組合提示詞的實(shí)例如下:
(固定的Prompt 模板)你是一個(gè)提供財(cái)務(wù)咨詢的專家。你會(huì)拿到下面的一段背景知識(shí)和一個(gè)問(wèn)題。請(qǐng)基于這些上下文提供一個(gè)對(duì)話形式的回復(fù)。如果你在這些上下文中找不到答案,就說(shuō)“對(duì)不起,我不知道答案?!辈灰幵齑鸢浮H绻@個(gè)問(wèn)題與上下文的內(nèi)容無(wú)關(guān),那么就禮貌地回復(fù)你被訓(xùn)練的能力是只能回復(fù)與上下文有關(guān)的問(wèn)題。請(qǐng)用中文回復(fù)。背景知識(shí)和提問(wèn)信息如下所示:
上述組合提示詞里第一段為固定模板,背景知識(shí)文本和用戶問(wèn)題文本是LlamaIndex 在每次用戶提問(wèn)后插入進(jìn)去的文本,其中背景知識(shí)文本是借助向量相似度運(yùn)算從文檔庫(kù)里匹配出來(lái)的。如此一來(lái),就可以讓ChatGPT基于本地文檔庫(kù)進(jìn)行回答,從而使得ChatGPT 在回復(fù)用戶提問(wèn)時(shí)給出一個(gè)更加理想的答案。
2.用戶交互界面的設(shè)計(jì)。ChatDoc 的用戶交互界面被設(shè)計(jì)成文檔列表區(qū)、文檔內(nèi)容展示區(qū)和問(wèn)答區(qū)三個(gè)部分。在文檔列表區(qū),用戶可以上傳文檔,并可查看文檔索引的狀態(tài),在系統(tǒng)完成對(duì)文檔的索引后,用戶就可以選擇多個(gè)文檔,并且基于這些文檔進(jìn)行提問(wèn)。在文檔內(nèi)容展示區(qū),用戶可以查看文檔內(nèi)容預(yù)覽。在問(wèn)答區(qū),用戶可以提出問(wèn)題,問(wèn)題會(huì)被實(shí)時(shí)展示在對(duì)話框里,在短時(shí)間的延遲后,用戶就能獲得回復(fù)。
1.實(shí)現(xiàn)公司財(cái)務(wù)制度查詢。ChatDoc 可作為智能財(cái)務(wù)客服,幫助員工便捷、迅速地查詢和理解公司的財(cái)務(wù)政策,常用場(chǎng)景包括:①報(bào)銷查詢:?jiǎn)T工經(jīng)常需要報(bào)銷工作相關(guān)的餐費(fèi)、差旅費(fèi)等費(fèi)用,用戶可通過(guò)ChatDoc查詢公司報(bào)銷政策涉及的細(xì)節(jié),如可供報(bào)銷的費(fèi)用類別、差標(biāo)額度、出差天數(shù)計(jì)算方式、所需提供證明等。②薪資政策查詢:?jiǎn)T工可以向ChatDoc 提問(wèn)薪資的計(jì)算方式、發(fā)放日期、稅務(wù)處理等薪資政策相關(guān)問(wèn)題。
2.實(shí)現(xiàn)會(huì)計(jì)準(zhǔn)則、稅法精準(zhǔn)溯源。目前直接使用
ChatGPT 進(jìn)行會(huì)計(jì)準(zhǔn)則、稅法查詢時(shí),由于其本身訓(xùn)練數(shù)據(jù)的限制,會(huì)導(dǎo)致ChatGPT 回答我國(guó)企業(yè)會(huì)計(jì)準(zhǔn)則和稅法相關(guān)問(wèn)題時(shí)出現(xiàn)憑空捏造準(zhǔn)則、法規(guī)的情況,該問(wèn)題嚴(yán)重影響了ChatGPT 在應(yīng)用于財(cái)務(wù)實(shí)務(wù)工作時(shí)的可信度。H 公司的ChatDoc 在回答準(zhǔn)則和稅法相關(guān)問(wèn)題時(shí)可精準(zhǔn)溯源回答所參考的準(zhǔn)則或法規(guī),包括它是在哪個(gè)文件中提及的,是由哪個(gè)機(jī)構(gòu)發(fā)布的,以及發(fā)布和修改的日期等信息。
3.實(shí)現(xiàn)跨文檔查詢。跨文檔查詢是指用戶可在Chat-Doc文檔列表區(qū)同時(shí)勾選多個(gè)文件,讓ChatDoc綜合參考多個(gè)文件給出回答。例如,在進(jìn)行投資決策時(shí),財(cái)務(wù)人員需要對(duì)多份公司財(cái)報(bào)、行業(yè)報(bào)告等進(jìn)行對(duì)比分析。通過(guò)跨文檔查詢,財(cái)務(wù)人員可以更全面地理解信息,從而做出更明智的投資決策。又如,在進(jìn)行會(huì)計(jì)分錄編制時(shí),會(huì)計(jì)人員需綜合考慮準(zhǔn)則要求、適用稅率、業(yè)務(wù)背景等相關(guān)文檔,通過(guò)跨文檔查詢,ChatDoc可在綜合考慮以上信息的情況下給出編制某一業(yè)務(wù)相關(guān)會(huì)計(jì)分錄的參考建議。有研究表明,目前ChatGPT 受限于邏輯能力,在中文語(yǔ)境下,其分錄編制能力大約在中級(jí)會(huì)計(jì)師水平,因此在上述場(chǎng)景中ChatGPT難以勝任較為復(fù)雜的分錄編制場(chǎng)景。
4.實(shí)現(xiàn)財(cái)務(wù)專業(yè)理論查詢。ChatDoc 可用于專業(yè)財(cái)務(wù)理論的查詢,如財(cái)務(wù)理論(有效市場(chǎng)假說(shuō)、莫迪格利亞尼—米勒定理等)、投資理論(現(xiàn)代投資組合理論、CAPM模型等)、財(cái)務(wù)模型(貝塔系數(shù)、DCF 模型等)。ChatDoc還可在此基礎(chǔ)上提供實(shí)例對(duì)理論給出進(jìn)一步闡釋,以便于財(cái)務(wù)人員理解。
5.對(duì)公開(kāi)財(cái)報(bào)進(jìn)行分析。目前,ChatDoc支持用戶上傳pdf、xlsx、csv格式的報(bào)表文件,并可進(jìn)行初步的財(cái)務(wù)報(bào)表比率分析(營(yíng)利性分析、流動(dòng)性分析、償債能力分析、杜邦分析等)和趨勢(shì)分析。
H 公司通過(guò)將ChatDoc 小范圍投入測(cè)試并搜集反饋后發(fā)現(xiàn),基于ChatGPT 的問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)彌補(bǔ)了原有基于搜索引擎和內(nèi)部知識(shí)庫(kù)的知識(shí)檢索模式存在的不足,能為用戶提供更精準(zhǔn)的答案,使用戶獲得更佳的使用體驗(yàn)。具體表現(xiàn)在如下方面:
首先,ChatDoc 可以更精確地理解用戶的問(wèn)題和意圖,提供更為精準(zhǔn)的答案。傳統(tǒng)的知識(shí)庫(kù)系統(tǒng)往往只能匹配用戶輸入的關(guān)鍵詞,無(wú)法理解用戶的意圖和上下文,用戶往往需要多次嘗試才能得到滿意的答案。而Chat-Doc 則可以憑借ChatGPT 的自然語(yǔ)言理解能力,更好地理解用戶意圖。這不僅有利于提高用戶的滿意度,還能節(jié)省用戶的時(shí)間和精力。
其次,ChatDoc能夠提供更加個(gè)性化的答案。傳統(tǒng)的知識(shí)庫(kù)系統(tǒng)往往只能列出相關(guān)的規(guī)則和條款,而無(wú)法根據(jù)用戶輸入的問(wèn)題給出符合實(shí)務(wù)場(chǎng)景的答案。ChatDoc不僅可以提供個(gè)性化的答案,還可以根據(jù)規(guī)則庫(kù)中的知識(shí),給出一個(gè)詳細(xì)的邏輯推理過(guò)程,用戶可以通過(guò)查看推理過(guò)程來(lái)判斷答案的可靠性。
最后,ChatDoc減輕了財(cái)務(wù)人員的工作壓力。在財(cái)務(wù)日常工作中,H公司財(cái)務(wù)人員除了需承擔(dān)本職工作,還要為公司員工提供有關(guān)報(bào)銷政策、報(bào)銷進(jìn)度等方面的咨詢服務(wù)。通過(guò)ChatDoc,員工可以便捷地咨詢報(bào)銷制度等內(nèi)容,這種自助查詢服務(wù)將減輕財(cái)務(wù)人員的工作壓力。例如,員工可以在知識(shí)庫(kù)中查詢報(bào)銷規(guī)則和計(jì)算出差天數(shù)的方法,無(wú)須等待人工客服的回復(fù)。這種自助服務(wù)不僅可以提高效率,也可以提高員工對(duì)公司財(cái)務(wù)規(guī)則的理解和遵守程度。同時(shí),H 公司還將ChatDoc 集成到辦公軟件中,用戶可隨時(shí)隨地通過(guò)手機(jī)、電腦接入ChatDoc自助獲取服務(wù)。
在研究中,H 公司還注意到,當(dāng)前ChatGPT 本身能力的不足也在一定程度上限制了ChatDoc 的價(jià)值發(fā)揮,具體體現(xiàn)在如下方面:①ChatGPT 對(duì)文本以外的資料理解并不好,比如在處理復(fù)雜表格數(shù)據(jù)時(shí)存在取數(shù)不準(zhǔn)的問(wèn)題,在編制復(fù)雜會(huì)計(jì)分錄時(shí)會(huì)存在邏輯錯(cuò)誤,這會(huì)影響財(cái)務(wù)報(bào)表編制和財(cái)務(wù)分析相關(guān)知識(shí)問(wèn)答的效果。②H 公司也注意到用戶提問(wèn)的提示詞(Prompt)對(duì)于答案的可靠性至關(guān)重要。用戶就同一個(gè)問(wèn)題使用不同的提示詞,從財(cái)務(wù)知識(shí)庫(kù)中獲得的答案有時(shí)是對(duì)的,有時(shí)是錯(cuò)的。甚至在使用相同提示詞時(shí)也會(huì)出現(xiàn)答案不一致的情況,這種情況被學(xué)界稱為“大模型幻覺(jué)”。對(duì)此,H 公司通過(guò)加入要求ChatGPT給出推理過(guò)程和嚴(yán)格依據(jù)背景知識(shí)的提示詞,以便用戶核實(shí)所獲得答案的可靠性。
本文創(chuàng)新性地將ChatGPT 應(yīng)用于問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)的構(gòu)建,并通過(guò)理論框架搭建和案例研究驗(yàn)證了該方法的有效性和實(shí)用性。通過(guò)研究得到以下結(jié)論:①設(shè)計(jì)基于文檔庫(kù)、組件庫(kù)、向量數(shù)據(jù)庫(kù)、OpenAI 接口、日志系統(tǒng)、用戶界面的體系框架是當(dāng)前階段構(gòu)建基于ChatGPT的問(wèn)答式財(cái)務(wù)知識(shí)庫(kù)行之有效的一種方式。②基于Chat-GPT構(gòu)建財(cái)務(wù)知識(shí)庫(kù)可以提高財(cái)務(wù)知識(shí)的管理效率和問(wèn)答的可靠性,還可以實(shí)現(xiàn)動(dòng)態(tài)知識(shí)更新,從而保證知識(shí)庫(kù)的時(shí)效性和全面性,為財(cái)務(wù)人員和其他領(lǐng)域的從業(yè)者提供更加高效和準(zhǔn)確的知識(shí)管理和智能問(wèn)答服務(wù)。
財(cái)務(wù)部門作為連接企業(yè)采購(gòu)、生產(chǎn)、運(yùn)營(yíng)、銷售等經(jīng)營(yíng)行為的關(guān)鍵樞紐,匯集并管理著企業(yè)從業(yè)務(wù)前端到財(cái)務(wù)管理后端的海量核心機(jī)密數(shù)據(jù),因此在基于ChatGPT構(gòu)建財(cái)務(wù)知識(shí)庫(kù)的過(guò)程中,數(shù)據(jù)安全必須引起高度重視。盡管文檔庫(kù)和向量數(shù)據(jù)庫(kù)可以儲(chǔ)存在企業(yè)本地,但是在問(wèn)答過(guò)程中系統(tǒng)會(huì)把提取的文本發(fā)給ChatGPT,雖然OpenAI承諾不會(huì)使用這些數(shù)據(jù)用于訓(xùn)練,但不能保證數(shù)據(jù)在傳輸過(guò)程中不會(huì)發(fā)生泄露。本文認(rèn)為,解決該問(wèn)題的第一種可行方案是嚴(yán)格限制可納入文檔庫(kù)的資料范圍,對(duì)機(jī)密資料進(jìn)行脫敏處理后再納入文檔庫(kù)。第二種可行方案是將ChatGPT替換成其他可以本地化部署的大模型,從而使得所有的文檔和傳輸均在企業(yè)本地,然而,企業(yè)本地化部署大模型的硬件成本、軟件成本疊加服務(wù)成本通常在千萬(wàn)元級(jí)別,企業(yè)需要權(quán)衡成本收益后審慎決定。數(shù)據(jù)安全是財(cái)務(wù)系統(tǒng)建設(shè)的紅線和底線,未來(lái)企業(yè)知識(shí)庫(kù)的建設(shè)要注意守住底線、提升上限、優(yōu)化體驗(yàn),朝著助力財(cái)務(wù)人員轉(zhuǎn)型升級(jí)、賦能財(cái)務(wù)管理的大方向穩(wěn)步探索。
【 主要參考文獻(xiàn)】
陳虎,郭奕.數(shù)據(jù)價(jià)值體系推動(dòng)財(cái)務(wù)數(shù)字化轉(zhuǎn)型[J].財(cái)會(huì)月刊,2022(8):37~42.
金源,李成智.ChatGPT+Acctech:ChatGPT對(duì)會(huì)計(jì)科技的影響研究[J].商業(yè)會(huì)計(jì),2023a(7):4~10.
金源,李成智.ChatGPT 對(duì)智能財(cái)務(wù)體系的影響:場(chǎng)景優(yōu)化、技術(shù)革新與人員轉(zhuǎn)型[J].財(cái)會(huì)月刊,2023b(15):23~30.
金源,李成智.數(shù)據(jù)驅(qū)動(dòng)下的財(cái)務(wù)決策支持研究[J].財(cái)會(huì)通訊,2023c(3):140~147.
劉勤,楊寅.改革開(kāi)放40年的中國(guó)會(huì)計(jì)信息化:回顧與展望[J].會(huì)計(jì)研究,2019(2):26~34.
劉勤.ChatGPT 及其對(duì)會(huì)計(jì)工作的影響探討[J].會(huì)計(jì)之友,2023(6):158~161.
劉勤.智能財(cái)務(wù)中的知識(shí)管理與人機(jī)協(xié)同[J].財(cái)會(huì)月刊,2021(24):15~19.