摘要:隨著信息化技術(shù)的發(fā)展,高校審計(jì)面臨著海量文本數(shù)據(jù)資料的挑戰(zhàn),而傳統(tǒng)的數(shù)據(jù)處理方法和工具對(duì)文本信息的適用性不足。本文立足高校審計(jì)應(yīng)用,以Python語(yǔ)言為例,以合同審計(jì)為應(yīng)用場(chǎng)景,探討文本處理技術(shù)實(shí)現(xiàn)路徑,助力提升高校審計(jì)工作質(zhì)效。
關(guān)鍵詞:文本處理技術(shù);高校審計(jì);應(yīng)用探索
中圖分類號(hào):G4文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.16723198.2024.16.087
0引言
隨著高校經(jīng)濟(jì)和業(yè)務(wù)活動(dòng)的發(fā)展,高校審計(jì)領(lǐng)域面臨著海量文本數(shù)據(jù)的挑戰(zhàn)。根據(jù)相關(guān)文獻(xiàn)數(shù)據(jù),高校超過80%的數(shù)據(jù)是以非結(jié)構(gòu)化、半結(jié)構(gòu)化的文本形式存在的,如合同文本、科研報(bào)告、會(huì)議紀(jì)要、工作總結(jié)以及信息系統(tǒng)中的日志、OA流轉(zhuǎn)文件、網(wǎng)站新聞等紙質(zhì)或電子文檔。這些數(shù)據(jù)都是審計(jì)資料的一部分,其中蘊(yùn)含的信息價(jià)值能夠轉(zhuǎn)化為審計(jì)線索和證據(jù)。近年來(lái),基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法逐漸受到關(guān)注,通過信息抽取方法從非結(jié)構(gòu)化文檔中提取關(guān)鍵信息,進(jìn)行結(jié)構(gòu)化存儲(chǔ)和程序化稽核,能極大提升審計(jì)效率,有效降低審計(jì)風(fēng)險(xiǎn)。
1文本信息處理在審計(jì)中面臨的難點(diǎn)
(1)缺乏標(biāo)準(zhǔn)化審計(jì)方法。面對(duì)文本數(shù)據(jù),傳統(tǒng)審計(jì)更多的是實(shí)行人工分析方法,采用瀏覽識(shí)別、輔助觀察以及審核等審計(jì)手段,高度依賴審計(jì)人員的差異化個(gè)體能力、經(jīng)驗(yàn)和工作耐心,缺乏完善的數(shù)據(jù)采集、存儲(chǔ)、處理、分析、校驗(yàn)等審計(jì)流程和統(tǒng)一標(biāo)準(zhǔn)的審計(jì)方法,審計(jì)人員在海量數(shù)據(jù)中獲得有價(jià)值的信息、搜尋風(fēng)險(xiǎn)線索變得較為困難,數(shù)據(jù)利用難度較高,影響審計(jì)目標(biāo)的實(shí)現(xiàn)。
(2)常用數(shù)據(jù)審計(jì)模型適用性不足。文本信息種類繁多,存儲(chǔ)空間大,數(shù)據(jù)結(jié)構(gòu)隨機(jī),信息價(jià)值和密度遠(yuǎn)遠(yuǎn)低于以財(cái)務(wù)報(bào)表為代表的結(jié)構(gòu)化數(shù)據(jù),現(xiàn)行廣泛使用的數(shù)據(jù)處理工具SYSBASE、ORACLE、SQL等很難兼容非結(jié)構(gòu)化數(shù)據(jù),無(wú)法使用常規(guī)數(shù)據(jù)軟件工具進(jìn)行處理,傳統(tǒng)的數(shù)據(jù)建模、抽樣統(tǒng)計(jì)、數(shù)據(jù)透視等方法已不再適用,審計(jì)手段滯后于數(shù)據(jù)信息的生成速度。
(3)面臨資源約束和風(fēng)險(xiǎn)暴露。高?,F(xiàn)行審計(jì)項(xiàng)目類型龐雜,基本采用“非現(xiàn)場(chǎng)+現(xiàn)場(chǎng)”組織模式,項(xiàng)目周期在20-60天,能投入的審計(jì)資源較為有限。通過人工翻閱大量的非結(jié)構(gòu)化文本資料,在人力和時(shí)間資源約束下,一般按比例抽取一定的數(shù)據(jù)進(jìn)行檢查,無(wú)法保證資料完全覆蓋,發(fā)現(xiàn)問題缺乏代表性,更難揭示整體風(fēng)險(xiǎn)。
2文本處理技術(shù)在審計(jì)中的應(yīng)用案例
文本處理技術(shù)是指利用計(jì)算機(jī)及程序語(yǔ)言對(duì)文本信息資料進(jìn)行處理和分析的技術(shù),主要包括文本識(shí)別、文本挖掘、自然語(yǔ)言處理、信息抽取、知識(shí)圖譜等較為成熟的技術(shù),這些技術(shù)可以覆蓋資料處理、疑點(diǎn)篩選、證據(jù)生成、報(bào)告生成等審計(jì)業(yè)務(wù)全過程,高效解決審計(jì)難題,提高審計(jì)效率。
Python是一種廣泛使用的高級(jí)編程語(yǔ)言,具有面向?qū)ο蟆⒑?jiǎn)潔易學(xué)、跨平臺(tái)等特點(diǎn),同時(shí)具有豐富的工具庫(kù)和框架資源,在文本處理中具有廣泛的應(yīng)用。下面以高校合同審計(jì)為應(yīng)用場(chǎng)景,探討Python文本處理工具在高校審計(jì)中的應(yīng)用。
2.1文件收集轉(zhuǎn)化與對(duì)象庫(kù)建立
廣泛收集高校業(yè)務(wù)管理部門存儲(chǔ)的科研項(xiàng)目、物資采購(gòu)、工程招標(biāo)、后勤服務(wù)、信息咨詢等各類合同文本文件、合同審批文件以及與重大項(xiàng)目相關(guān)的投標(biāo)文件、合同執(zhí)行報(bào)告等紙質(zhì)和電子文本文件;掃描紙質(zhì)文本,進(jìn)行圖像預(yù)處理和必要的修正,使用OCR(光學(xué)字符識(shí)別)系統(tǒng)提取文本數(shù)據(jù),將圖像批量轉(zhuǎn)換為文本文件;校核文本數(shù)據(jù)邏輯性、準(zhǔn)確性,并整理為格式統(tǒng)一、規(guī)范的電子文檔,建立相應(yīng)的文本對(duì)象庫(kù)及存儲(chǔ)目錄。
2.2文本提取與關(guān)鍵信息識(shí)別
用Python工具庫(kù)(如Pdfplumber、Pypdf2、Python-docx等)工具,對(duì)各文本對(duì)象庫(kù)中的PDF、Word等文檔進(jìn)行文本提?。皇褂谜齽t表達(dá)式(RegularExpression)匹配特定的模式,提取合同文本、合同審批流程文件、投標(biāo)文件中的關(guān)鍵信息,如合同乙方、合同金額、交易數(shù)量、簽訂日期、合同期限、罰則賠償、合同簽章及審批時(shí)間、承辦單位、審批人等條款內(nèi)容和信息。
2.3數(shù)據(jù)整理與結(jié)構(gòu)化數(shù)據(jù)建庫(kù)
將提取的合同關(guān)鍵信息數(shù)據(jù)整理到數(shù)據(jù)庫(kù)中,利用Python的數(shù)據(jù)分析工具(如Pandas、TextBlob等)進(jìn)行數(shù)據(jù)加載、清洗、轉(zhuǎn)換和處理,如統(tǒng)一大小寫、統(tǒng)一文本格式、檢測(cè)缺失值、拆分字符串、替換字符串等,實(shí)現(xiàn)數(shù)據(jù)格式的標(biāo)準(zhǔn)化與規(guī)范化;對(duì)數(shù)據(jù)進(jìn)行初步的篩選、排序和分組等探索性分析,將整理后的結(jié)構(gòu)化數(shù)據(jù)生成合同分析數(shù)據(jù)庫(kù)。
2.4內(nèi)容異常檢測(cè)與合規(guī)性檢查
使用Python工具識(shí)別和分析異常合同業(yè)務(wù),查找合同審計(jì)疑點(diǎn)線索。一是使用閾值法、四分位距(IQR)等來(lái)標(biāo)記和識(shí)別超出一定范圍的異常值,如合同乙方累計(jì)金額較高、合同單價(jià)相對(duì)同類業(yè)務(wù)畸高等;二是使用合規(guī)性檢查工具(如MiitRuleChecker)設(shè)定一定條件篩選分析合同程序及內(nèi)容的合規(guī)性,如有合同文本但未發(fā)現(xiàn)審批流程、有合同文本但未發(fā)現(xiàn)招標(biāo)信息、合同簽訂日期與審批時(shí)間倒置、合同乙方與合同簽章信息不一致、交付日期等關(guān)鍵信息缺失等情況,檢查合同業(yè)務(wù)執(zhí)行是否符合高校的管理流程、規(guī)章制度和法律法規(guī)。
2.5外部信息抓取與關(guān)聯(lián)分析
使用python工具(如requests、BeautifulSoup等)發(fā)送網(wǎng)絡(luò)請(qǐng)求并獲取網(wǎng)頁(yè)內(nèi)容,對(duì)合同中的乙方單位和同類項(xiàng)目成交記錄等進(jìn)行網(wǎng)絡(luò)信息挖掘,獲取乙方單位工商注冊(cè)信息、股東高管信息、經(jīng)營(yíng)狀況、訴訟仲裁記錄,以及同類項(xiàng)目歷史成交記錄等信息,分析乙方單位合同履約能力,判斷合同風(fēng)險(xiǎn),并通過成交價(jià)格比對(duì),識(shí)別合同單價(jià)畸高等可能存在的舞弊疑點(diǎn)。
2.6報(bào)告生成與界面優(yōu)化
Python的報(bào)告庫(kù)(如ReportLab等)功能能助力審計(jì)人員生成直接的、詳細(xì)的分析報(bào)告。ReportLab提供豐富的功能來(lái)創(chuàng)建、編輯和修改PDF文件,支持多種PDF元素,如表格、圖形、文本框等,并且可以通過編程方式自定義這些元素的樣式和布局,進(jìn)行界面優(yōu)化以符合特定的表述習(xí)慣和匯報(bào)場(chǎng)景。
3結(jié)語(yǔ)
隨著深度學(xué)習(xí)等計(jì)算機(jī)技術(shù)的發(fā)展,文本處理技術(shù)日新月異,使用場(chǎng)景更加豐富,將極大地助力審計(jì)工作的開展。但在實(shí)踐中也要處理好技術(shù)手段與專業(yè)能力的配合、數(shù)據(jù)安全和隱私保護(hù)兼顧等關(guān)系。作為審計(jì)能力建設(shè)的重要內(nèi)容,審計(jì)人員加強(qiáng)技術(shù)方法學(xué)習(xí)、探索審計(jì)工具利用將成為未來(lái)的必修課。
參考文獻(xiàn)
[1]楊兆群,蔡潤(rùn)柱,郭嘉玲,等.基于關(guān)鍵詞檢索的非結(jié)構(gòu)化數(shù)據(jù)審計(jì)應(yīng)用研究[J].中國(guó)內(nèi)部審計(jì),2020,(04):3642.
[2]陳偉,勾東升,徐發(fā)亮,等.基于文本數(shù)據(jù)分析的大數(shù)據(jù)審計(jì)方法研究[J].中國(guó)注冊(cè)會(huì)計(jì)師,2018,No.234(11):8084+3.
[3]孫建勇,張杰,張勇剛,等.非結(jié)構(gòu)化數(shù)據(jù)在商業(yè)銀行內(nèi)部審計(jì)中的應(yīng)用探索[J].中國(guó)內(nèi)部審計(jì),2020,(08):2731.
[4]張薇,伍之昂.非結(jié)構(gòu)化文本數(shù)據(jù)的自然語(yǔ)言分析在政策跟蹤審計(jì)中的應(yīng)用[J].審計(jì)觀察,2022,(04):7075.