大模型憑借其強大的自然語言理解與生成、復(fù)雜信息處理與邏輯推理能力,為破解傳統(tǒng)稅收管理中的難點痛點、驅(qū)動稅收治理數(shù)字化轉(zhuǎn)型提供了嶄新的技術(shù)支撐和極大的想象空間。本文旨在探討在稅務(wù)系統(tǒng)建設(shè)應(yīng)用大模型的策略,以期為推動智慧稅務(wù)建設(shè)提供參考。
大模型的發(fā)展狀況
近年來,國內(nèi)外大模型技術(shù)持續(xù)高速迭代,展現(xiàn)出強大的潛能。國外以ChatGPT為開創(chuàng)者,升級出GPT-4、Sora、GPT-4o、o1等大模型,不斷創(chuàng)新強化學習和思維鏈推理等技術(shù),涌現(xiàn)出自然語言理解、圖像識別與圖文理解、視頻生成轉(zhuǎn)化等能力,實現(xiàn)了從“記憶答案”向“解決問題\"的模式轉(zhuǎn)變。
國內(nèi)技術(shù)發(fā)展同樣迅猛,“盤古”“文心一言”“通義千問”“豆包”、DeepSeek等大模型在多模態(tài)技術(shù)突破、垂直領(lǐng)域深度應(yīng)用等方面展現(xiàn)出諸多優(yōu)勢。大模型的強大能力正迅速轉(zhuǎn)化為實際生產(chǎn)力,已在眾多領(lǐng)域落地生根。如在醫(yī)療領(lǐng)域用于輔助醫(yī)生分析病歷和研發(fā)藥物,在教育領(lǐng)域提供個性化語言學習服務(wù),在工業(yè)生產(chǎn)領(lǐng)域幫助進行產(chǎn)品外觀設(shè)計和檢測故障,大幅提升了工作效率和質(zhì)量。
大模型在稅收管理中的應(yīng)用場景
大模型強大的通用賦能潛力,為提升稅收治理現(xiàn)代化水平帶來了前所未有的機遇,歸納起來,其應(yīng)用于稅收管理的場景可以分為三類:
(一)優(yōu)化人機交互,促進征納互信與遵從
傳統(tǒng)稅收征管模式在數(shù)字化轉(zhuǎn)型浪潮中,其固有的格式化服務(wù)、無差別化處理、流程復(fù)雜化等弊端可能被放大,容易導致納稅人繳費人產(chǎn)生理解偏差甚至抵觸情緒,不利于提升稅法遵從度和滿意度。大模型展現(xiàn)出的卓越語言理解和表達能力,使其能夠精準解析復(fù)雜的稅收政策法規(guī),并轉(zhuǎn)化為納稅人易于理解的、自然的,甚至擬人化的情景式語言。更重要的是,它已初步具備理解用戶情感和價值偏好的潛力。將大模型引入稅務(wù)服務(wù)體系,能夠顯著增強稅務(wù)機關(guān)與納稅人繳費人之間溝通的智能性、交互和諧性和信息對稱性。
(二)強化人機協(xié)同,提升征管效能與治理水平
大模型憑借其信息收集、數(shù)據(jù)分析以及語言重塑的出色能力,可以通過信息分類、信息提取以及信息協(xié)同機制有效整合稅收數(shù)據(jù)資源,有助于打破納稅人繳費人眼中過于“專業(yè)化、碎片化”的舊有看法,在幫助納稅人繳費人全面準確獲取稅收政策、提高業(yè)務(wù)處理效率、提升稅收風險識別能力上發(fā)揮重要作用,亦有助于改善稅收治理結(jié)構(gòu),實現(xiàn)跨部門、跨層級的協(xié)同治理,使得稅收治理效能出現(xiàn)質(zhì)的突破。
(三)深化人機融合,驅(qū)動智慧稅務(wù)建設(shè)與升級
當前,信息驅(qū)動能力不足是制約智慧稅務(wù)向縱深發(fā)展的一大瓶頸。運用大模型強大的自動信息抓取、精確語義識別、智能分類歸集和高度情境模擬能力,能夠?qū)Χ悇?wù)領(lǐng)域產(chǎn)生的海量結(jié)構(gòu)化與非結(jié)構(gòu)化信息進行高效歸類和深度理解,為基于大數(shù)據(jù)的智能決策支持奠定基礎(chǔ)。通過將大模型技術(shù)深度嵌人核心征管業(yè)務(wù)流程,構(gòu)建智慧化的“稅收神經(jīng)網(wǎng)絡(luò)”,可以使稅收征管的方式、步驟、時限和程序更加清晰、規(guī)范、可追溯。同時,大模型在規(guī)范稅務(wù)征管行為方面潛力巨大,可輔助提升行政審批、行政處罰裁量基準、政策公開解讀、自由裁量權(quán)行使等敏感環(huán)節(jié)的標準化、規(guī)范化和透明度。
大模型應(yīng)用于稅務(wù)系統(tǒng)面臨的挑戰(zhàn)
(一)應(yīng)用場景的特殊性要求,基礎(chǔ)模型難堪重任。稅務(wù)工作的本質(zhì)具有雙重剛性約束。對外,核心是依法實施執(zhí)法監(jiān)管并提供具有高度確定性的政策服務(wù);對內(nèi),核心是支撐科學決策與有效監(jiān)督。這意味著,將基于公開互聯(lián)網(wǎng)數(shù)據(jù)訓練的基礎(chǔ)大模型的輸出結(jié)果,直接應(yīng)用于涉及執(zhí)法依據(jù)、監(jiān)管判斷、決策參考的稅務(wù)場景,對其結(jié)果的準確性(無錯誤)、確定性(無歧義)實效性(即時可用)的要求,遠高于社會通用場景?;A(chǔ)模型缺乏專業(yè)稅務(wù)知識,在訓練中可能存在數(shù)據(jù)污染,從而導致“幻覺”問題突出,使大模型缺乏確定性保障,無法滿足稅務(wù)系統(tǒng)的需求。
(二)超大規(guī)模應(yīng)用場景帶來前所未有的建設(shè)難度。稅務(wù)系統(tǒng)用戶規(guī)模龐大,需服務(wù)近10億級的納稅人繳費人群體,覆蓋近百萬稅務(wù)工作人員。同時,業(yè)務(wù)領(lǐng)域及場景極其豐富,性能要求高準確性、高確定性、高實效性(低延遲)。這種“超大規(guī)模 + 超高性能要求”的組合給大模型應(yīng)用帶來高復(fù)雜難度。
(三)技術(shù)快速演進引發(fā)持續(xù)的成本與適配壓力。大模型基礎(chǔ)技術(shù)(如算法、架構(gòu))及其支撐的算力設(shè)備均處于高速迭代期。基礎(chǔ)模型快速升級,底層技術(shù)頻繁更新,知識繼承與版本管理成為關(guān)鍵挑戰(zhàn)。同時,算力資源緊張,建設(shè)成本高企,硬件設(shè)施的投人不易規(guī)劃掌控,產(chǎn)出價值不易預(yù)測。
(四)潛在風險亟須頂層統(tǒng)籌與管控。大模型在稅務(wù)系統(tǒng)的深度應(yīng)用是一項投入巨大、技術(shù)門檻高、工程復(fù)雜度高、涉及面廣的系統(tǒng)性工程,絕非簡單的技術(shù)采購或部署。要有科學的頂層設(shè)計,合理的實施步驟和強有力的風險管控,以防資源浪費、安全漏洞(如敏感數(shù)據(jù)泄露)和模型失控(如輸出有害或錯誤內(nèi)容)。
稅務(wù)系統(tǒng)建設(shè)與應(yīng)用大模型的策略建議
(一)立足通用模型,聚焦稅務(wù)數(shù)據(jù)二次訓練
從頭訓練一個參數(shù)量達千億級別的通用大模型需要消耗十萬級顯卡算力,成本與資源消耗巨大。更優(yōu)策略是選用成熟的開源或商用基礎(chǔ)大模型作為基座,利用高質(zhì)量、大規(guī)模的稅務(wù)行業(yè)專有數(shù)據(jù)對其進行領(lǐng)域適應(yīng)訓練(即二次訓練或微調(diào))。可采取兩種方式,一是\"基礎(chǔ)模型 + 外部稅務(wù)知識庫增強檢索(RAG)”。直接部署基礎(chǔ)模型,同時構(gòu)建結(jié)構(gòu)化的、覆蓋全面的稅務(wù)知識庫(包含法規(guī)條文、政策解讀、口徑、典型案例庫、高頻問答對等)。利用檢索增強生成(Retrieval-Augmented Generation,RAG)技術(shù),當用戶提問時,系統(tǒng)先從知識庫中精準檢索相關(guān)信息,再提供給大模型結(jié)合上下文生成最終回答。這種模式相對容易實現(xiàn),知識庫更新相對獨立于模型,但模型本身能力有限,主要依賴檢索到的片段信息進行\(zhòng)"拼接式\"回答,深度推理能力弱。支撐的場景較簡單,難以勝任復(fù)雜業(yè)務(wù)場景。輸出結(jié)果的針對性、準確性、穩(wěn)定性高度依賴知識庫質(zhì)量和檢索精度,“幻覺\"問題仍可能發(fā)生;二是訓練垂直領(lǐng)域大模型?;谶x定的基礎(chǔ)模型,使用海量、高質(zhì)量、深度標注的稅務(wù)專有語料(涵蓋稅費服務(wù)、執(zhí)法監(jiān)管、決策支持、行政辦公等全領(lǐng)域文本、數(shù)據(jù)、案例),進行深入的領(lǐng)域適應(yīng)訓練,打造真正理解稅務(wù)語言和業(yè)務(wù)的專用模型。這種方式過程復(fù)雜且耗時較長,需要大規(guī)模、高質(zhì)量、精細標注的稅務(wù)數(shù)據(jù)集,訓練成本高昂,對技術(shù)和數(shù)據(jù)治理能力要求極高。模型深度內(nèi)化稅務(wù)知識,具備更強的專業(yè)語境理解能力、復(fù)雜邏輯推理能力和業(yè)務(wù)語義生成能力,能支撐復(fù)雜的核心業(yè)務(wù)場景,輸出結(jié)果專業(yè)性、準確性、確定性更高,“幻覺”問題顯著減少。
(二)強化統(tǒng)籌管理,構(gòu)建上下貫通管理體系
確保大模型應(yīng)用安全、可控、可持續(xù)發(fā)展,必須建立強大的統(tǒng)籌管理體系。一是構(gòu)建統(tǒng)一知識治理體系。由國家稅務(wù)總局牽頭,統(tǒng)一規(guī)劃、收集、清洗、標注、更新和維護覆蓋全業(yè)務(wù)條線的核心稅務(wù)知識庫。制定嚴格的知識數(shù)據(jù)標準和審核流程。各?。▍^(qū))市局負責收集、整理具有地方特色的知識(如地方性法規(guī)執(zhí)行口徑、區(qū)域經(jīng)濟特點相關(guān)的政策應(yīng)用),并匯聚至總局知識總庫。建立多層級的審核校驗機制,確保入庫知識的準確性、權(quán)威性、時效性、合規(guī)性,最大限度降低數(shù)據(jù)污染風險,嚴防意識形態(tài)安全風險;二是實施模型全生命周期管理。根據(jù)業(yè)務(wù)知識更新頻率、應(yīng)用場景時效性要求、模型性能(如準確率)衰減情況、算力資源負載等關(guān)鍵因素,科學制定模型(包括基礎(chǔ)模型和垂直模型)的更新、微調(diào)、再訓練的策略和周期。總局負責核心基礎(chǔ)稅務(wù)大模型(基準版)的研發(fā)、訓練、評估和發(fā)布,控制其主線的知識演進。各?。▍^(qū))市局可在總局發(fā)布的基準版基礎(chǔ)上,結(jié)合本地特色需求(如方言口音識別、地方社保政策差異),進行參數(shù)高效微調(diào)(如LoRA),形成地方定制版本,解決“最后一公里\"的適配問題。構(gòu)建清晰的模型血緣關(guān)系圖譜,明確記錄從總局稅務(wù)基礎(chǔ)大模型、各業(yè)務(wù)領(lǐng)域模型(如服務(wù)模型、風控模型)、地方模型的衍生關(guān)系和版本依賴。形成上游驅(qū)動下游、層級清晰、有序更新的工作機制,確保模型生態(tài)的一致性和可控性;三是完善風險管控體系。建立覆蓋數(shù)據(jù)安全、隱私保護、算法透明公平、模型穩(wěn)定及安全性測試、應(yīng)用合規(guī)性審查等環(huán)節(jié)的全方位風險管控框架和應(yīng)急預(yù)案。
(三)場景由易到難,分步推進大模型應(yīng)用
首先,可聚焦大模型能提供的基礎(chǔ)服務(wù),優(yōu)先選擇通用性強、價值明顯、技術(shù)實現(xiàn)相對成熟的場景作為突破口,如智能稅費政策咨詢助手、辦稅指南問答、稅收知識庫檢索、基礎(chǔ)公文輔助起草等。這類場景一般不強調(diào)完全的精準性,更關(guān)注快捷和便利,能在處理咨詢類業(yè)務(wù)時為稅務(wù)人員提供高質(zhì)量的輔助回答,有助于大幅提升響應(yīng)速度和滿意度??刹扇 盎A(chǔ)模型 + 外部稅務(wù)知識庫增強檢索(RAG)\"快速部署實施,大模型不直接面對納稅人,而是稅務(wù)人員的助手。
其次,可以將應(yīng)用拓展至更具業(yè)務(wù)深度和價值的場景,比如,可在納稅人申報完成之后,自動基于風險指標觸發(fā)對納稅人申報錯誤或疑點的提示提醒,由納稅人開展自查后反饋自查結(jié)果,大模型對納稅人的自查結(jié)果進行判定,認為風險未消除的,納入風險池由稅務(wù)機關(guān)開展后續(xù)評估或稽查,認為風險消除的,可不再介人管理或納入后續(xù)抽查。通過大模型的能力,可以實現(xiàn)對全部納稅人無差別的全量全覆蓋自動篩查,稅務(wù)機關(guān)只用聚焦管理自查結(jié)果存疑或未完成自查的納稅人,有針對性地開展納稅評估、稅務(wù)稽查,實現(xiàn)管理質(zhì)效的大幅提升。從原理上來說,大模型是基于概率的文本生成,在語義理解、推理判斷、歸類劃分方面具有優(yōu)勢,在計算方面優(yōu)勢并不明顯。因此,這類場景的選擇應(yīng)與能設(shè)立明確指標規(guī)則的業(yè)務(wù)場景區(qū)分開,有條件的情況下,使用“稅務(wù)垂直領(lǐng)域大模型”;不具備條件的情況下,也可使用\"基礎(chǔ)模型 + 外部稅務(wù)知識庫增強檢索(RAG)”,采取人工 ?+ 大模型的方式實施。
最后,可以將應(yīng)用提升到自動化、智能化的高效數(shù)字化場景。比如,在政策服務(wù)方面,由大模型自行根據(jù)納稅人的遵從情況探索規(guī)律,發(fā)現(xiàn)政策制定中的不足或容易引發(fā)納稅人錯誤理解的內(nèi)容,向稅務(wù)機關(guān)提出完善建議。這類場景只能基于“稅務(wù)垂直領(lǐng)域大模型”實現(xiàn),需要大模型在理解和加工海量稅務(wù)系統(tǒng)數(shù)據(jù)后,形成自己的智能判斷和分析。
作者單位:
國家稅務(wù)總局武漢市稅務(wù)局