許子建 喬勇 房芳 賀爾華 魯勇 陳偉(教授/博士)
(1 中央軍委審計(jì)署信息中心 北京 100036 2 南京審計(jì)大學(xué) 江蘇南京 211815)
人工智能概念最早由計(jì)算機(jī)專家約翰·麥卡錫于1956年在美國(guó)達(dá)特茅斯大學(xué)舉辦的會(huì)議上提出[1],現(xiàn)已發(fā)展成為計(jì)算機(jī)科學(xué)的一個(gè)獨(dú)立分支。人工智能技術(shù)試圖生產(chǎn)出一種新的能以接近人類的思維和處理方式完成相應(yīng)工作的智能機(jī)器。人工智能技術(shù)經(jīng)過(guò)60 多年的發(fā)展,研究和應(yīng)用范圍不斷擴(kuò)大,涉及機(jī)器人技術(shù)、語(yǔ)音識(shí)別、圖像處理、自然語(yǔ)言處理、專家系統(tǒng)等諸多技術(shù)領(lǐng)域。尤其是深度學(xué)習(xí)出現(xiàn)以后,與互聯(lián)網(wǎng)、大數(shù)據(jù)、區(qū)塊鏈、云計(jì)算等現(xiàn)代技術(shù)相結(jié)合,利用大量的數(shù)據(jù)訓(xùn)練智能模型應(yīng)用于社會(huì)的方方面面,對(duì)政務(wù)、金融、教育、醫(yī)療、商業(yè)、制造業(yè)等行業(yè)都帶來(lái)了深刻變革。
人工智能的發(fā)展在審計(jì)工作中的應(yīng)用及影響也已經(jīng)成為審計(jì)界熱議的焦點(diǎn),一些大型事務(wù)所開(kāi)始嘗試將人工智能技術(shù)引入財(cái)務(wù)和審計(jì)工作流程中,如德勤推出了財(cái)務(wù)機(jī)器人“小勤人”等,其工作原理就是通過(guò)對(duì)審計(jì)流程環(huán)節(jié)的人工智能技術(shù)優(yōu)化,將審計(jì)師從證據(jù)自動(dòng)化、持續(xù)采集,審計(jì)底稿初步填寫,審計(jì)項(xiàng)目管理,文檔初步審閱等重復(fù)性工作中解脫出來(lái),大大提高了審計(jì)工作的效率。但是,現(xiàn)階段人工智能技術(shù)在審計(jì)工作中的應(yīng)用還很初步,涉及領(lǐng)域還不夠全面,特別是在審計(jì)計(jì)劃擬制、審計(jì)力量安排、審計(jì)證據(jù)真實(shí)性驗(yàn)證、審計(jì)問(wèn)題挖掘和審計(jì)問(wèn)題審核等需要對(duì)海量異構(gòu)數(shù)據(jù)進(jìn)行綜合加工處理的工作方面,相關(guān)進(jìn)展還乏善可陳。
一般性審計(jì)管理流程如圖1 所示。全流程智能審計(jì)是以人工智能技術(shù)為基礎(chǔ),通過(guò)細(xì)粒度拆解分析審計(jì)工作流程,建立全流程貫通的數(shù)據(jù)治理標(biāo)準(zhǔn),將人工智能技術(shù)貫穿應(yīng)用于全流程審計(jì)工作環(huán)節(jié),進(jìn)而大幅度提升審計(jì)自動(dòng)化、信息化和智能化程度。概括來(lái)說(shuō),全流程智能審計(jì)引擎的基礎(chǔ)架構(gòu)示例如下頁(yè)圖2 所示。
圖1 一般性審計(jì)管理流程
圖 2 面向?qū)徲?jì)全流程的智能審計(jì)引擎框架
全流程智能審計(jì)引擎面向?qū)徲?jì)活動(dòng)全流程,結(jié)合各階段審計(jì)活動(dòng)特點(diǎn),融入自動(dòng)化、智能化技術(shù)特征,通過(guò)智能技術(shù)賦能,降低手工操作復(fù)雜度,提升作業(yè)精度和效率,從實(shí)施階段來(lái)看,主要包括以下8 個(gè)功能組件:
(一)基于整數(shù)規(guī)劃的審計(jì)計(jì)劃編制和審計(jì)力量分配組件。該功能組件屬于審計(jì)計(jì)劃階段。審計(jì)計(jì)劃編制和審計(jì)力量安排是審計(jì)管理的重要環(huán)節(jié),如何科學(xué)合理地安排審計(jì)計(jì)劃和審計(jì)力量是擺在審計(jì)機(jī)關(guān)面前的重要問(wèn)題。該組件基于整數(shù)規(guī)劃算法,通過(guò)定義目標(biāo)函數(shù)和約束條件將審計(jì)計(jì)劃和審計(jì)力量安排量化為求解最優(yōu)解的問(wèn)題,即在審計(jì)資源有限的條件下,如何合理分配審計(jì)力量和審計(jì)對(duì)象,滿足最大化審計(jì)目標(biāo)和最小化的審計(jì)風(fēng)險(xiǎn)。按照整數(shù)規(guī)劃得出的審計(jì)計(jì)劃,可根據(jù)年度審計(jì)特殊要求,增加約束條件或者調(diào)整審計(jì)目標(biāo)權(quán)重,通過(guò)科學(xué)規(guī)劃,避免同一單位被不合理重復(fù)審計(jì)、重點(diǎn)單位難以納入審計(jì)范圍、審計(jì)動(dòng)用力量過(guò)大或者偏低的問(wèn)題等。
(二)基于文本相似度的文件甄別組件。該功能組件屬于審計(jì)實(shí)施階段。在進(jìn)行審計(jì)調(diào)查分析時(shí),如何發(fā)現(xiàn)類同合同、如何發(fā)現(xiàn)圍標(biāo)串標(biāo)、如何發(fā)現(xiàn)一稿多用,是困擾審計(jì)人員的常見(jiàn)問(wèn)題。傳統(tǒng)的人工手動(dòng)作業(yè)方式顯然已經(jīng)無(wú)法滿足海量審計(jì)資料快速檢索的需求,而構(gòu)建索引庫(kù)雖然也能夠提高審計(jì)資料的檢索效率,但是,它依賴于人工設(shè)計(jì)的特征詞表,只能找出包含相同關(guān)鍵詞的文本資料,卻無(wú)法根據(jù)其語(yǔ)義的相似度進(jìn)行篩選?;谖谋鞠嗨贫鹊奈募鐒e組件所采用的文本相似度分析技術(shù)是自然語(yǔ)言處理領(lǐng)域中的一項(xiàng)關(guān)鍵技術(shù),主要用于解決兩個(gè)文本,如句子或者短語(yǔ)之間相似度的度量問(wèn)題。利用這項(xiàng)技術(shù),可以根據(jù)已知文檔在海量文本庫(kù)中發(fā)現(xiàn)與之相似的文本文件,并根據(jù)分析目標(biāo)來(lái)設(shè)定閾值,進(jìn)而判斷問(wèn)題性質(zhì)。該組件的實(shí)踐應(yīng)用將極大地縮小審計(jì)人員的分析時(shí)間,提高其工作效率。
(三)基于命名實(shí)體識(shí)別的數(shù)據(jù)治理組件。該功能組件屬于審計(jì)實(shí)施階段。當(dāng)前經(jīng)濟(jì)與財(cái)務(wù)活動(dòng)數(shù)據(jù)包含了大量的文本資料,如各種項(xiàng)目信息、會(huì)議記錄、采購(gòu)合同、租賃協(xié)議、財(cái)務(wù)報(bào)表等,通過(guò)對(duì)這些資料的分析可以提取大量的審計(jì)工作要素,如人員、時(shí)間、事件、金額等,它們對(duì)于審計(jì)工作具有重要的指標(biāo)意義。該組件所采用的命名實(shí)體識(shí)別(Named Entity Recognition,NER)技術(shù),支持從自然語(yǔ)言的語(yǔ)句中分離出具有特定意義的實(shí)體概念,主要包括人名、地名、機(jī)構(gòu)名以及審計(jì)關(guān)注的特定專有名詞等。利用該技術(shù),我們可以在處理審計(jì)文本資料的過(guò)程中自動(dòng)化地、快速準(zhǔn)確地抽取各種審計(jì)工作要素,然后將它們分類存儲(chǔ)到數(shù)據(jù)采集系統(tǒng)中,構(gòu)建針對(duì)各類審計(jì)文本資料的索引庫(kù),方便審計(jì)人員檢索和統(tǒng)計(jì),方便進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)治理。
(四)基于OCR 的票據(jù)驗(yàn)證組件。該功能組件屬于審計(jì)實(shí)施階段。經(jīng)濟(jì)與財(cái)務(wù)工作存留了大量的原始票據(jù),除了原物之外,這些票據(jù)往往也會(huì)被掃描成圖片進(jìn)行存儲(chǔ)管理。這些票據(jù)圖像包含了大量的審計(jì)工作要素,如電子發(fā)票就有發(fā)票代碼、發(fā)票號(hào)碼、開(kāi)票日期、機(jī)器編號(hào)、銷售方名稱、購(gòu)買方名稱、購(gòu)買方納稅人識(shí)別號(hào)、商品名稱、項(xiàng)目、單價(jià)、數(shù)量、金額、稅額、合計(jì)金額等。但是由于它們都分散在不同的圖片上,不利于審計(jì)人員發(fā)現(xiàn)其中的關(guān)聯(lián)性。該組件所采用的光學(xué)字符識(shí)別[1](Optical Character Recognition,OCR)技術(shù),可以實(shí)現(xiàn)對(duì)票據(jù)圖片中的審計(jì)工作要素的自動(dòng)識(shí)別和抽取,然后統(tǒng)一保存到數(shù)據(jù)庫(kù)中,方便審計(jì)人員的快速檢索和統(tǒng)計(jì)分析。
(五)基于智能審計(jì)合約的審計(jì)證據(jù)定向采集與自動(dòng)驗(yàn)證組件。該功能組件屬于審計(jì)實(shí)施階段。審計(jì)證據(jù)的采集和真實(shí)性驗(yàn)證是審計(jì)人員實(shí)施審計(jì)活動(dòng)中的最重要工作之一。如何確保審計(jì)證據(jù)的合規(guī)性、如何驗(yàn)證審計(jì)證據(jù)的真實(shí)性,經(jīng)常需要投入大量的人力、物力,并難以可持續(xù)、自動(dòng)化操作。該組件基于智能合約技術(shù),可設(shè)定前置數(shù)據(jù)采集規(guī)則和算法,一旦觸發(fā)算法中的內(nèi)置條件,將自動(dòng)執(zhí)行審計(jì)證據(jù)共享和傳輸業(yè)務(wù)。智能合約技術(shù)在區(qū)塊鏈環(huán)境運(yùn)行,區(qū)塊鏈的分布式記賬、共識(shí)機(jī)制和時(shí)間戳技術(shù)可以確保被審計(jì)單位數(shù)據(jù)的完整性、真實(shí)性和可靠性。將該技術(shù)應(yīng)用于關(guān)鍵數(shù)據(jù)定向采集,將顯著提升審計(jì)證據(jù)的采集效率和真實(shí)性保障,并降低審計(jì)風(fēng)險(xiǎn)和成本。
(六)基于知識(shí)推理的深度問(wèn)題挖掘組件。該功能組件屬于審計(jì)實(shí)施階段。審計(jì)資料中有大量的經(jīng)濟(jì)人、聯(lián)系人、聯(lián)系方式、銀行賬戶等信息,他們通過(guò)各種經(jīng)濟(jì)活動(dòng)彼此聯(lián)系在一起,其中隱含著復(fù)雜的人際關(guān)系。對(duì)這些隱含關(guān)系的檢視,是發(fā)現(xiàn)潛在違法違規(guī)現(xiàn)象的重要途徑之一。但是,由于這些信息非常分散,其關(guān)聯(lián)關(guān)系難以被觀察,因此,此類線索往往非常隱蔽,很難被發(fā)現(xiàn)。該組件基于知識(shí)圖譜技術(shù),可以以語(yǔ)義網(wǎng)絡(luò)的形式將各種形式上分離的實(shí)體利用它們之間潛在的關(guān)系關(guān)聯(lián)起來(lái)。首先要對(duì)各種審計(jì)文件資料中的半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)提取實(shí)體、關(guān)系、屬性等知識(shí)要素;然后,通過(guò)消除抽取的實(shí)體、關(guān)系、屬性等指稱項(xiàng)與事實(shí)對(duì)象之間的歧義,實(shí)現(xiàn)知識(shí)融合,形成高質(zhì)量的知識(shí)庫(kù)。知識(shí)庫(kù)中的知識(shí)可以通過(guò)知識(shí)推理進(jìn)一步挖掘出隱含的知識(shí)項(xiàng),從而不斷豐富和擴(kuò)展知識(shí)庫(kù)。這些新推演出來(lái)的知識(shí)并非是原始審計(jì)資料中存在的,它可以是隱含在不同實(shí)體之間的特殊關(guān)系,而這將可以作為審計(jì)人員工作的新思路和新線索。
(七)基于NoSQL 的審計(jì)檔案高效檢索組件。該功能組件屬于審計(jì)終結(jié)階段。伴隨審計(jì)活動(dòng)終結(jié)而產(chǎn)生的海量審計(jì)檔案,可能涉及音頻、視頻、圖片、文字等各式各樣的數(shù)據(jù)類型,且可能分布式部署在不同機(jī)構(gòu)、不同地點(diǎn)。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)在管理此類海量數(shù)據(jù)時(shí)成本較高且難以支撐高效檢索。該引擎中的高效審計(jì)檔案檢索組件基于NoSQL技術(shù),支持高并發(fā)讀寫各類非結(jié)構(gòu)化數(shù)據(jù),支持海量存儲(chǔ)和高效拓展,在年度檔案歸集時(shí),可以簡(jiǎn)單通過(guò)添加新的節(jié)點(diǎn)擴(kuò)展集群,且由于基于開(kāi)源數(shù)據(jù)庫(kù)實(shí)現(xiàn),成本低廉,可以有效滿足審計(jì)檔案管理的高效檢索需求。
(八)基于深度學(xué)習(xí)的審計(jì)知識(shí)推薦組件。該功能組件屬于審計(jì)終結(jié)階段。歷年審計(jì)累計(jì)的審計(jì)報(bào)告、指南和檔案等都是審計(jì)人員工作經(jīng)驗(yàn)的結(jié)晶,如何將各類報(bào)告、檔案與審計(jì)人員正在開(kāi)展的項(xiàng)目進(jìn)行有機(jī)集合,在審計(jì)人員開(kāi)展項(xiàng)目時(shí)進(jìn)行智能知識(shí)推薦,面臨較大技術(shù)挑戰(zhàn)。該引擎所包含的基于深度學(xué)習(xí)的審計(jì)知識(shí)推薦組件,基于典型深度學(xué)習(xí)推薦算法,如協(xié)同過(guò)濾算法(CF)[2]和概率潛在語(yǔ)義分析(PLSA)[3]算法等,對(duì)審計(jì)報(bào)告、指南和檔案進(jìn)行自動(dòng)歸類和標(biāo)注標(biāo)簽,并根據(jù)用戶當(dāng)前執(zhí)行項(xiàng)目的類型和特性進(jìn)行針對(duì)性知識(shí)推薦。其中,基于協(xié)同過(guò)濾的推薦方法支持根據(jù)用戶的歷史行為數(shù)據(jù)的挖掘發(fā)現(xiàn)用戶的興趣,但仍需要人工標(biāo)注協(xié)助。基于概率潛在語(yǔ)義分析的審計(jì)報(bào)告推薦方法模擬了審計(jì)項(xiàng)目與審計(jì)報(bào)告之間和審計(jì)報(bào)告與標(biāo)簽之間的共現(xiàn)關(guān)系,該方法假設(shè)這兩種類型的共現(xiàn)關(guān)系共享同一組隱藏的主題,根據(jù)給予審計(jì)項(xiàng)目的報(bào)告的概率向?qū)徲?jì)項(xiàng)目推薦報(bào)告。
全流程智能審計(jì)引擎在前端提供統(tǒng)一的Web 門戶,支持用戶面向不同審計(jì)階段的數(shù)據(jù)處理需求選擇對(duì)應(yīng)功能組件,并導(dǎo)入或者錄入數(shù)據(jù)。后端根據(jù)各類組件的實(shí)現(xiàn)方式不同,通過(guò)WebServices API 接口的形式鏈接不同的組件后端服務(wù)。
基于整數(shù)規(guī)劃的審計(jì)計(jì)劃編制和審計(jì)力量分配組件通過(guò)Python 語(yǔ)言結(jié)合Matlab 算法庫(kù)實(shí)現(xiàn),其中審計(jì)計(jì)劃目標(biāo)和審計(jì)力量等基礎(chǔ)數(shù)據(jù)通過(guò)定義標(biāo)準(zhǔn)Excel 模板導(dǎo)入。在具體使用過(guò)程中,將該組件納入審計(jì)計(jì)劃管理軟件,有力支撐了年度審計(jì)計(jì)劃產(chǎn)生,在年度審計(jì)任務(wù)約束條件下(如審計(jì)力量動(dòng)用比例以及覆蓋率要求),所產(chǎn)生的審計(jì)計(jì)劃與真實(shí)下達(dá)計(jì)劃達(dá)到了76%的重合度,較好地支撐了實(shí)際工作。
基于文本相似度的文件甄別組件和基于命名實(shí)體識(shí)別的數(shù)據(jù)治理組件主要基于Python 語(yǔ)言的自然語(yǔ)言處理庫(kù)NLTK 結(jié)合數(shù)據(jù)處理庫(kù)Pandas 實(shí)現(xiàn),其中較大的難點(diǎn)在于如何定義典型審計(jì)實(shí)體要素、相似度度量閾值和標(biāo)準(zhǔn)化數(shù)據(jù)治理模板,方便用戶數(shù)據(jù)一鍵導(dǎo)入,快速匹配。具體實(shí)踐中,對(duì)涉及審計(jì)活動(dòng)的1 500 余份文檔分析中,發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)文檔140 余份,經(jīng)人工核對(duì)約有70%的文檔相關(guān)項(xiàng)目涉嫌文件重復(fù)使用或圍標(biāo)串標(biāo)。
基于OCR 的票據(jù)驗(yàn)證組件實(shí)現(xiàn)是在開(kāi)源OCR 引擎Tesseract 和EasyOCR 的基礎(chǔ)上,通過(guò)改造算法,對(duì)涉及經(jīng)濟(jì)活動(dòng)的敏感文字?jǐn)?shù)據(jù)設(shè)計(jì)不同的識(shí)別敏感度,如發(fā)票代碼、發(fā)票號(hào)碼、銷售方名稱、購(gòu)買方名稱、購(gòu)買方納稅人識(shí)別號(hào)、商品名稱等,從而針對(duì)性提升識(shí)別精度,完成重要文字信息的自動(dòng)識(shí)別和快速抽取。具體實(shí)踐效果顯著,在實(shí)踐應(yīng)用的1 萬(wàn)余張票據(jù)中,機(jī)打發(fā)票有效識(shí)別率達(dá)到95%以上,人工票據(jù)識(shí)別率達(dá)到70%以上。
基于智能審計(jì)合約的審計(jì)證據(jù)定向采集與自動(dòng)驗(yàn)證組件實(shí)現(xiàn)較為復(fù)雜,需要依賴審計(jì)雙方認(rèn)可的區(qū)塊鏈系統(tǒng),并支持圖靈完備的智能合約編寫語(yǔ)言??紤]到區(qū)塊鏈平臺(tái)應(yīng)用還沒(méi)有全面普及,當(dāng)前該組件主要用于演示訓(xùn)練,尚沒(méi)有在真實(shí)審計(jì)環(huán)境實(shí)踐應(yīng)用。
基于知識(shí)推理的深度問(wèn)題挖掘組件在內(nèi)部知識(shí)圖譜平臺(tái)的基礎(chǔ)上,通過(guò)建立結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)和非結(jié)構(gòu)化數(shù)據(jù)采樣標(biāo)準(zhǔn),梳理審計(jì)關(guān)注的重要經(jīng)濟(jì)活動(dòng)的“實(shí)體-關(guān)系-實(shí)體”三元組,進(jìn)而開(kāi)展實(shí)體識(shí)別、關(guān)系抽取和屬性抽取,實(shí)現(xiàn)審計(jì)活動(dòng)的知識(shí)推理和問(wèn)題挖掘。該組件在實(shí)踐應(yīng)用中,對(duì)12 類600 余萬(wàn)條業(yè)務(wù)數(shù)據(jù)進(jìn)行推理分析,抽取異常行為3 000 余個(gè),經(jīng)人工核查,涉及真實(shí)問(wèn)題200 余個(gè),成效明顯。
基于NoSQL 的審計(jì)檔案高效檢索組件主要依托MongoDB 數(shù)據(jù)庫(kù)和Python 數(shù)據(jù)處理框架實(shí)現(xiàn)。具體實(shí)踐中按照季度為審計(jì)檔案數(shù)據(jù)設(shè)定節(jié)點(diǎn)擴(kuò)展集群,存儲(chǔ)音頻、視頻、圖片和文檔等多種非結(jié)構(gòu)化數(shù)據(jù)200 余T,可實(shí)現(xiàn)5秒內(nèi)高效檢索,較之傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)提升效率約300%。
基于深度學(xué)習(xí)的審計(jì)知識(shí)推薦組件基于百度開(kāi)源深度學(xué)習(xí)平臺(tái)實(shí)現(xiàn),具體實(shí)踐中對(duì)5 萬(wàn)余份審計(jì)報(bào)告、審計(jì)指南和審計(jì)檔案進(jìn)行語(yǔ)義分析和分類標(biāo)注,支持在審計(jì)作業(yè)平臺(tái)中為獲得項(xiàng)目權(quán)限的用戶推薦相似參考文檔,通過(guò)評(píng)價(jià)系統(tǒng)反饋,86%的推薦文檔得到了用戶的點(diǎn)贊和認(rèn)可。
本文面向從審計(jì)計(jì)劃到審計(jì)終結(jié)的全流程審計(jì)活動(dòng),研究設(shè)計(jì)了包含8 個(gè)功能組件的智能審計(jì)引擎,并介紹了不同組件的實(shí)現(xiàn)技術(shù)、運(yùn)行平臺(tái)和實(shí)踐成效。實(shí)踐應(yīng)用顯示智能審計(jì)引擎的多個(gè)組件實(shí)用性強(qiáng),能夠顯著提升不同審計(jì)流程的自動(dòng)化程度和工作效率,但部分組件受限于審計(jì)對(duì)象信息化建設(shè)程度,還不能完全投入實(shí)戰(zhàn)。下一步,我們將進(jìn)一步完善各類組件的支撐數(shù)據(jù)范圍和算法精度,進(jìn)一步提升智能審計(jì)引擎的使用效率和工作范圍。