亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)驅(qū)動的審計知識庫建設(shè)與應(yīng)用

        2022-02-14 09:28:54黃佳佳博士李鵬偉博士教授
        財會月刊 2022年3期
        關(guān)鍵詞:三元組知識庫語料

        黃佳佳(博士),李鵬偉(博士),徐 超(教授)

        一、引言

        在信息爆炸的時代背景下,審計對象所產(chǎn)生的數(shù)據(jù)量日益龐大,進而對現(xiàn)有審計數(shù)據(jù)基礎(chǔ)和審計分析方法提出了新要求。國家審計署相關(guān)領(lǐng)導(dǎo)也指出,應(yīng)推進以大數(shù)據(jù)為核心的審計信息化建設(shè),構(gòu)建大數(shù)據(jù)審計工作模式,積極開展審計大數(shù)據(jù)的綜合利用[1]。討論和運用大數(shù)據(jù)思想與技術(shù)創(chuàng)新當(dāng)前審計工作模式就不可避免地涉及對審計文本大數(shù)據(jù)的處理?,F(xiàn)有關(guān)于大規(guī)模文本數(shù)據(jù)的研究和應(yīng)用大多是采用互聯(lián)網(wǎng)文本,如微博、新聞、網(wǎng)絡(luò)評論等,而采用審計領(lǐng)域相關(guān)文本的研究相對較少。人工智能領(lǐng)域?qū)<艺J為,有效利用大數(shù)據(jù)價值的主要任務(wù)不是獲取越來越多的數(shù)據(jù),而是從數(shù)據(jù)中挖掘知識,對知識進行有效的組織關(guān)聯(lián),并用其解決實際問題[2]。從大數(shù)據(jù)技術(shù)與不同領(lǐng)域結(jié)合應(yīng)用的效果來看,大數(shù)據(jù)技術(shù)的應(yīng)用效果也與領(lǐng)域高度相關(guān),即當(dāng)擁有領(lǐng)域相關(guān)知識支撐時,往往文本挖掘技術(shù)的應(yīng)用效果更佳。本文總結(jié)分析了審計文本數(shù)據(jù)的來源及特點,認為審計文本具有領(lǐng)域特殊性,因此有必要構(gòu)建審計領(lǐng)域知識庫,使得采用大數(shù)據(jù)分析方法和人工智能文本分析方法分析審計文本時準(zhǔn)確性更高、可理解性更強。

        在大數(shù)據(jù)時代,知識圖譜不僅改變了搜索模式,也改變了文本分析技術(shù)。知識圖譜與語義分析相結(jié)合可使得語義搜索更加準(zhǔn)確、智能推薦更稱心如意,也可以實現(xiàn)自動問答、人機對話等新智能體驗。審計作為一項具有較多專家經(jīng)驗參與其中的工作,基于大數(shù)據(jù)構(gòu)建的審計知識圖譜可以幫助審計人員快速排查審計風(fēng)險點、有效提升審計工作效率、降低審計風(fēng)險,進而實現(xiàn)審計智能化?;诖?,本文提出了一種大數(shù)據(jù)驅(qū)動的審計領(lǐng)域知識庫構(gòu)建方法(該審計知識庫可對外開放共享),并探討了其在審計業(yè)務(wù)中的應(yīng)用方式。

        二、文獻綜述

        學(xué)者們普遍認為審計所用的數(shù)據(jù)早已超越了統(tǒng)計和抽樣調(diào)查,審計數(shù)據(jù)具備海量、異構(gòu)、多樣等大數(shù)據(jù)特性[1,3]。秦榮生[4]認為大數(shù)據(jù)有助于實現(xiàn)審計監(jiān)督全覆蓋,而數(shù)據(jù)綜合分析可幫助提升解釋審計問題和風(fēng)險的深度與廣度。在審計技術(shù)方面,有學(xué)者開始考慮文本挖掘在審計領(lǐng)域的應(yīng)用。張志恒等[5]構(gòu)建了審計領(lǐng)域的文本挖掘框架,并探討了若干種文本挖掘方法在審計領(lǐng)域的應(yīng)用,為文本數(shù)據(jù)審計提供了新方向和新思路。此外,也有學(xué)者將文本挖掘方法應(yīng)用到審計實務(wù)中,主要包括文本關(guān)鍵詞抽取與標(biāo)簽云展示、文本相似度計算、文本情感分析、關(guān)聯(lián)規(guī)則挖掘等[3,6],采用這些技術(shù)的目的是從被審計單位的相關(guān)文件中發(fā)現(xiàn)審計疑點、總結(jié)投訴人員特點、評估被審計單位政策執(zhí)行情況、評估銀行信貸申請報告的情感傾向、挖掘上市公司的交易網(wǎng)絡(luò)和審計費用與盈余質(zhì)量的關(guān)系等[3,6,7]。

        當(dāng)前審計文本數(shù)據(jù)挖掘主要是直接利用現(xiàn)有文本挖掘算法,鮮有研究深入考慮審計領(lǐng)域?qū)I(yè)性對文本挖掘方法的挑戰(zhàn)。顧圣杰等[8]探討了知識圖譜在審計風(fēng)險識別方面的應(yīng)用價值,認為基于專家先驗知識的知識圖譜能夠提升審計效率、實現(xiàn)審計智能化和審計風(fēng)險點全覆蓋。在通用領(lǐng)域,國內(nèi)外學(xué)者已構(gòu)建的代表性知識庫包括Freebase[9]、Word-Net[10]等。但這些知識庫并非為審計領(lǐng)域?qū)iT構(gòu)建的,因而其可能沒有包含審計領(lǐng)域?qū)I(yè)詞匯,以及這些詞匯/概念的語義信息及相互之間的關(guān)系。

        三、審計大數(shù)據(jù)與文本數(shù)據(jù)審計

        大數(shù)據(jù)時代的到來給政府和企業(yè)的財務(wù)管理和審計工作都帶來了巨大變化。這種變化不僅意味著審計數(shù)據(jù)規(guī)模越來越大,而且意味著審計技術(shù)與方法具有大數(shù)據(jù)特征。

        1.審計大數(shù)據(jù)。多數(shù)學(xué)者認為,進入大數(shù)據(jù)時代后,審計環(huán)境、審計數(shù)據(jù)與審計技術(shù)等都需要或者正在發(fā)生較大變革,審計正在進入審計大數(shù)據(jù)時代[1]。那么,什么是審計大數(shù)據(jù)?呂天陽等[1]認為,審計大數(shù)據(jù)是“在大數(shù)據(jù)時代開展審計監(jiān)督所需的審計對象自身或與其相關(guān)對象的各類數(shù)據(jù)及其分析手段的統(tǒng)稱”。

        由于審計對象自身提供的財務(wù)數(shù)據(jù)可能存在造假等問題,因而無法滿足審計需求。當(dāng)前的合規(guī)性審計所需數(shù)據(jù)越來越多樣化、多源化。此外,國家審計也在關(guān)注績效審計、政策落實跟蹤審計等。這些審計內(nèi)容涉及的數(shù)據(jù)來源范圍廣、覆蓋面大,使得國家審計需要在原有審計數(shù)據(jù)基礎(chǔ)上進一步擴大數(shù)據(jù)來源,綜合使用不同部門提供的數(shù)據(jù),如財政部、商務(wù)部、國家統(tǒng)計局等。

        可以說審計大數(shù)據(jù)的數(shù)據(jù)來源是以領(lǐng)域政務(wù)大數(shù)據(jù)為基礎(chǔ),并包括與各審計對象相關(guān)的社會大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)。這些數(shù)據(jù)來源不同、類型各異,整合和有效利用大規(guī)模的審計數(shù)據(jù)變得更加困難,進而對審計技術(shù)提出了更高的要求,即以關(guān)系數(shù)據(jù)為基礎(chǔ)的傳統(tǒng)SQL查詢分析手段已顯得捉襟見肘。趙琛[11]認為,面向非結(jié)構(gòu)化文本、面向?qū)ο箝g網(wǎng)狀關(guān)系的智能分析方式是未來審計技術(shù)創(chuàng)新的重要方向。

        2.文本數(shù)據(jù)審計。在審計大數(shù)據(jù)時代,海量的多源異構(gòu)數(shù)據(jù)極大地拓展了審計數(shù)據(jù)的范圍。例如,在企業(yè)內(nèi)部審計中,審計對象已不再局限于與被審計單位財務(wù)相關(guān)的數(shù)據(jù),被審計單位內(nèi)部的規(guī)章制度、會議記錄、合同通知等文本數(shù)據(jù)也是重點審計對象;此外,與被審計單位相關(guān)的互聯(lián)網(wǎng)文本,如單位新聞、股票評論等也具有重要的輔助價值[5]。通過對非結(jié)構(gòu)化文本的分析挖掘,可以更加全面地評估被審計單位的內(nèi)部控制情況、違法違規(guī)問題等。

        在面向文本數(shù)據(jù)的審計工作中,常用的文本挖掘技術(shù)包括文本檢索、關(guān)聯(lián)特征挖掘、分類、聚類、提取關(guān)鍵詞、構(gòu)建文本摘要、結(jié)果可視化等。例如:通過文本檢索技術(shù)可使審計人員快速找到相關(guān)法律法規(guī),也可快速檢索到被審計對象的相關(guān)文檔,如通知公告、政策文件等;通過文本相似性分析(如聚類、分類)技術(shù)分析銀行信貸客戶的調(diào)查報告可迅速評估報告編寫員工的履職情況,進而有效降低內(nèi)部控制合規(guī)風(fēng)險[6]。

        四、審計知識庫建設(shè)

        審計知識庫構(gòu)建框架如圖1所示,其構(gòu)建過程包含如下幾個步驟:①審計領(lǐng)域?qū)I(yè)詞典收集與標(biāo)注:基于專家指定的小規(guī)模種子詞匯迭代式獲取百科文本超鏈接詞匯,最后人工標(biāo)注出專業(yè)詞匯。②審計專業(yè)詞典的語義向量訓(xùn)練:基于審計領(lǐng)域詞典的大規(guī)模百科文本及領(lǐng)域的其他文本資料,利用深度學(xué)習(xí)算法訓(xùn)練審計專業(yè)詞匯的詞向量。③審計領(lǐng)域知識圖譜構(gòu)建:邀請審計領(lǐng)域?qū)<覙?gòu)建審計領(lǐng)域本體知識框架,利用百科文本的infobox信息抽取審計三元組構(gòu)建審計知識圖譜。

        圖1 審計知識庫構(gòu)建框架

        1.審計領(lǐng)域詞匯表構(gòu)建。在文本挖掘中,一般首先需要對文本進行分詞,然后才能實施關(guān)鍵詞檢索、分類、聚類等。分詞就是將連續(xù)的句子單元分割成若干個詞匯。例如,對“切實加強領(lǐng)導(dǎo)干部經(jīng)濟責(zé)任審計工作,對規(guī)范權(quán)力運行、促進依法行政、推進國家治理體系和治理能力現(xiàn)代化具有重要意義”這一文本,需分割成“切實 加強 領(lǐng)導(dǎo)干部經(jīng)濟責(zé)任審計工作規(guī)范權(quán)力運行促進依法行政推進國家治理體系 治理能力現(xiàn)代化 具有重要意義”。由于審計文本具有較強的領(lǐng)域?qū)I(yè)性,即存在較多專業(yè)詞匯,如“領(lǐng)導(dǎo)干部經(jīng)濟責(zé)任審計”“國家治理體系”等,直接使用當(dāng)前的通用文本挖掘軟件(如HanLP、Jieba等)往往無法識別這些詞匯。例如:使用HanLP對上述句子進行分詞時,會將“領(lǐng)導(dǎo)干部經(jīng)濟責(zé)任審計”這一專業(yè)名詞分割成“領(lǐng)導(dǎo)”“干部”“經(jīng)濟”“責(zé)任”“審計”5個詞匯。這些零散的詞匯難以表達原來專業(yè)術(shù)語的語義內(nèi)涵,進而降低了后續(xù)文本挖掘方法的準(zhǔn)確性。

        因此,本文認為,提高文本挖掘技術(shù)在審計領(lǐng)域應(yīng)用效果的首要工作即為構(gòu)建審計領(lǐng)域?qū)I(yè)詞典。為此,本文通過一種貪心式爬蟲技術(shù)從百度百科詞條中自動獲取審計領(lǐng)域相關(guān)詞匯,具體而言包括如下步驟:①請審計領(lǐng)域?qū)I(yè)人員人工構(gòu)建一個較小規(guī)模的審計領(lǐng)域核心種子詞匯(共500個詞匯),包括“中華人民共和國審計署”“政府審計”“三公經(jīng)費”等詞匯。②利用網(wǎng)絡(luò)爬蟲技術(shù)從百度百科中爬取這些詞匯的超鏈接詞匯,如從“中華人民共和國審計署”的百度百科信息中可獲得超鏈接詞匯“審計署”“中國審計報社”“審計署外交外事審計局”“侯凱”“中華人民共和國審計法”等詞條。③將上述超鏈接詞匯加入到種子詞匯集中,繼續(xù)爬取這些詞匯的超鏈接詞匯。④經(jīng)過3輪爬蟲,即可獲得數(shù)十萬條候選審計領(lǐng)域?qū)I(yè)詞匯及其百度百科文本。此外,我們也從互聯(lián)網(wǎng)上搜索到審計專業(yè)詞匯的中英文對照表,進而獲得擴展候選詞表。⑤針對上述候選詞匯,邀請3位審計領(lǐng)域?qū)<疫M行人工標(biāo)注并剔除不相干詞匯。若2位以上專家認為該詞匯非領(lǐng)域相關(guān)詞匯,則剔除該詞匯。最后,共獲得28792個審計領(lǐng)域相關(guān)詞匯。此外,在人工標(biāo)注過程中,我們還對相關(guān)詞匯進行了分類,類別包括領(lǐng)域?qū)S忻~、領(lǐng)域核心詞匯、人名、機構(gòu)名和相關(guān)詞匯,匯總信息如表1所示。

        表1 審計領(lǐng)域詞匯表統(tǒng)計匯總

        表1中,領(lǐng)域核心詞匯僅指審計領(lǐng)域常用的核心詞,而領(lǐng)域?qū)S忻~主要包含審計領(lǐng)域各類法律法規(guī)及準(zhǔn)則名稱,人名主要包括審計、會計、經(jīng)濟管理領(lǐng)域著名的人物姓名,機構(gòu)名包括我國各審計機關(guān)、國內(nèi)外銀行、國內(nèi)外知名企業(yè)及大學(xué)等,相關(guān)詞匯主要包括審計、會計、經(jīng)濟管理領(lǐng)域常用的詞匯。

        2.審計領(lǐng)域詞向量訓(xùn)練。在當(dāng)前基于深度學(xué)習(xí)的文本挖掘技術(shù)中,使用詞向量(Word embedding)作為詞匯的語義表達形式已成為一種共識?;贖arris[12]提出的分布假說,詞向量即上下文相似的詞匯,其語義也相似。基于神經(jīng)網(wǎng)絡(luò)語言模型,如CBOW和Sikp-gram模型[13],在大規(guī)模文本上訓(xùn)練出的詞向量可有效表達詞匯之間的語義相似性,進而更加有效地度量文本之間的相似性,從而提高文本分類、文本聚類等任務(wù)的準(zhǔn)確性。

        詞向量所表達的語義與訓(xùn)練該向量的文本語料密切相關(guān)。例如,與通用語料(維基百科語料)相比,利用本文構(gòu)建的審計領(lǐng)域語料訓(xùn)練出的詞向量模型與審計專業(yè)詞匯最相似的詞匯集合并不一致(這里對兩種語料進行分詞時,均導(dǎo)入了本文構(gòu)建的審計領(lǐng)域詞表)。表2展示了在兩種語料下分別訓(xùn)練出的詞向量中,部分審計領(lǐng)域詞匯中排名前五的最相似詞匯的差異。

        從表2可以看出,對于一些在通用領(lǐng)域和審計領(lǐng)域共用但語義差距較大的詞匯,使用審計領(lǐng)域文本語料訓(xùn)練出的詞向量更能表達這些詞匯在審計領(lǐng)域的語義概念,這些詞匯的相似詞匯也均為審計領(lǐng)域詞匯,而通用語料訓(xùn)練出的詞向量無法準(zhǔn)確度量這些領(lǐng)域詞匯之間的語義相似性;對于審計和會計領(lǐng)域詞匯,通用語料訓(xùn)練出的詞向量更能表達審計領(lǐng)域經(jīng)常共同出現(xiàn)的詞匯,這對提高審計領(lǐng)域文本搜索準(zhǔn)確性而言意義重大。

        表2 不同語料訓(xùn)練出的語義相似詞匯對比

        因此,有必要收集審計領(lǐng)域?qū)I(yè)文本來訓(xùn)練審計領(lǐng)域?qū)I(yè)詞匯的詞向量。本文在標(biāo)注審計專業(yè)詞匯后,將這些專業(yè)詞匯對應(yīng)的百度百科文本也保留下來作為部分訓(xùn)練語料,共包括2403條百科詞條。此外,本文還收集了審計領(lǐng)域的其他文本數(shù)據(jù)來構(gòu)建訓(xùn)練語料庫,包括審計和會計電子教材、各審計機關(guān)網(wǎng)站的新聞和公告等、審計/會計等法律準(zhǔn)則。語料統(tǒng)計信息如表3所示。

        對上述收集到的原始文本語料進行文本清洗等預(yù)處理,共獲得53695條審計領(lǐng)域文本語料。將上文構(gòu)建的審計領(lǐng)域?qū)I(yè)詞匯表導(dǎo)入分詞軟件jieba中,對上述語料進行分詞、剔除停用詞處理。將處理完成后的語料投入到詞向量模型CBOW中,即可訓(xùn)練出包含審計專業(yè)詞匯的詞向量模型。將該模型訓(xùn)練出的詞向量應(yīng)用于審計文本挖掘任務(wù),如關(guān)鍵詞檢索、相似文本搜索等任務(wù),可提高這些挖掘任務(wù)的精準(zhǔn)度。

        3.審計領(lǐng)域知識圖譜構(gòu)建。以知識圖譜為代表的知識庫是將人類知識組織成結(jié)構(gòu)化的知識系統(tǒng),其是推動人工智能學(xué)科發(fā)展和應(yīng)用(如智能檢索、智能推薦、智能問答等)的重要基礎(chǔ)技術(shù)[14]。知識圖譜使用三元組描述客觀世界中概念、實體及它們之間的關(guān)系。三元組中的概念/實體表示為圖譜中的邊,概念/實體之間的關(guān)系表達為圖譜中點之間的連邊。例如,表4所示的三元組可構(gòu)建成圖2所示的圖譜。

        表4 審計三元組示例

        圖2 審計三元組知識圖譜示例

        構(gòu)建知識圖譜的代價較大,且并非一氣呵成,需要循序漸進地從零到有、從小到大不斷擴充,以保證知識的準(zhǔn)確性和有效性。此外,完全依賴自動化方法構(gòu)建的知識圖譜往往準(zhǔn)確性難以保證,一般需要人工構(gòu)建基礎(chǔ)本體知識,然后在此基礎(chǔ)上自動化擴建圖譜。

        (1)本體建設(shè)。本體即“一種概念化的精確的規(guī)格說明”[15],用于描述某個領(lǐng)域內(nèi)概念與概念之間的關(guān)系。一般情況下,構(gòu)建本體需要本領(lǐng)域相關(guān)專家的指導(dǎo)[16]。針對審計知識圖譜的構(gòu)建,我們首先邀請審計領(lǐng)域?qū)<覙?gòu)建了審計概念框架,如圖3所示。然后在該框架的基礎(chǔ)上,進一步構(gòu)建和擴充相關(guān)概念的子概念。例如:在“資源環(huán)境審計”概念下構(gòu)建關(guān)系“審計內(nèi)容”,包括實體“財務(wù)審計”“合規(guī)審計”等;在“審計客體”概念下擴充子概念“農(nóng)業(yè)審計”“社會保障審計”等。

        圖3 審計知識圖譜本體框架

        通過上述人工構(gòu)建本體的方法,共構(gòu)建本體三元組878個。該本體庫主要描述審計領(lǐng)域重要概念與概念之間的隸屬關(guān)系,是整個知識圖譜的“骨架”。其他抽取出的實體均屬于該“骨架”的下級概念或?qū)嶓w。

        (2)結(jié)構(gòu)化信息抽取。利用百科infobox中的結(jié)構(gòu)化信息從零到有構(gòu)建知識圖譜是常用手段。例如,從圖4的“中華人民共和國審計署”百度詞條的infobox信息中可抽取(“中華人民共和國審計署”,“成立時間”,“1983年9月15日”)、(“中華人民共和國審計署”,“機關(guān)隸屬”,“中華人民共和國國務(wù)院”)等三元組。

        圖4 “中華人民共和國審計署”百度詞條infobox信息

        通過上述自動化抽取方式,共抽取出74802條三元組。這些三元組來自審計領(lǐng)域中專業(yè)詞匯的百度詞條infobox,因而信息來源可靠、準(zhǔn)確性較高,可填充到本體庫中,構(gòu)建出審計知識圖譜的基礎(chǔ)版本。此外,根據(jù)這些詞條與本體庫的對應(yīng)關(guān)系,可將抽取出的三元組映射到本體網(wǎng)絡(luò)的子節(jié)點上。例如:從“資源環(huán)境審計”詞條中抽取的相關(guān)三元組可歸并到“資源環(huán)境審計”概念下;根據(jù)關(guān)鍵詞“準(zhǔn)則”可將“中國注冊會計師執(zhí)業(yè)準(zhǔn)則”相關(guān)三元組映射到“準(zhǔn)則”概念下。

        除了從infobox中抽取的信息,本文還從其他渠道收集審計領(lǐng)域結(jié)構(gòu)化信息,如會計科目編號、會計/審計專業(yè)名詞中英文對照表、審計法律法規(guī)準(zhǔn)則列表、審計機構(gòu)列表、審計人物、審計機關(guān)領(lǐng)導(dǎo)信息等,將其填充入基礎(chǔ)知識圖譜中,這部分結(jié)構(gòu)化數(shù)據(jù)約包含2萬條三元組。

        基于上述構(gòu)建的本體框架和從結(jié)構(gòu)化信息中抽取出的三元組,本文共構(gòu)建了包含約10萬條三元組的審計領(lǐng)域知識圖譜,并使用圖形數(shù)據(jù)庫neo4j框架為該知識圖譜設(shè)計了一款具有可視化界面的審計知識圖譜系統(tǒng)。該系統(tǒng)包括圖譜本體目錄索引和圖譜實體查詢功能,分別如圖5和圖6所示。

        圖5 “審計知識圖譜系統(tǒng)”本體結(jié)構(gòu)樹狀索引

        圖6 “審計知識圖譜系統(tǒng)”實體查詢結(jié)果可視化

        該審計知識圖譜并非一次建成、永久不變。由于被審計單位千差萬別,被審計單位的各項信息也在實時更新,因此構(gòu)建出的基礎(chǔ)版知識圖譜應(yīng)具有動態(tài)更新、手動/自動添加三元組等功能。具體而言:使用者可在該圖譜基礎(chǔ)上動態(tài)更新圖譜中節(jié)點/邊的信息;可將從其他文本/結(jié)構(gòu)化數(shù)據(jù)中獲得的審計三元組加入到本圖譜中;可在該圖譜框架下導(dǎo)入其他領(lǐng)域知識圖譜,如地理信息圖譜、企業(yè)投資圖譜等,以便應(yīng)用于具體審計業(yè)務(wù)。

        五、審計知識庫應(yīng)用探討

        在當(dāng)前數(shù)字化審計方式中,常采用“總體分析、發(fā)現(xiàn)疑點、分散核查、系統(tǒng)研究”的審計思路。下文將以陳偉等[3]討論的扶貧審計為例,探討如何將審計知識庫與上述審計思路相結(jié)合,進一步提升審計線索挖掘的準(zhǔn)確性和可解釋性。

        1.審計領(lǐng)域詞典在標(biāo)簽云分析中的應(yīng)用。審計領(lǐng)域詞典是提高審計文本挖掘準(zhǔn)確性的重要基石。在對審計文本進行分詞和剔除停用詞時,導(dǎo)入該領(lǐng)域詞典可提高審計領(lǐng)域詞匯分割的準(zhǔn)確性,為特征抽取與展示、文本分類/聚類、關(guān)聯(lián)規(guī)則挖掘等任務(wù)提供基礎(chǔ)保障。

        以扶貧審計為例,當(dāng)獲得某地扶貧審計相關(guān)數(shù)據(jù)后,為快速了解被審計單位對扶貧政策的總體執(zhí)行情況,可對該單位相關(guān)扶貧項目文本文件進行關(guān)鍵詞抽取,并使用標(biāo)簽云方式展示[3]。在關(guān)鍵詞抽取之前,需要對文本進行分詞,若分詞結(jié)構(gòu)不合理,即不能將審計領(lǐng)域?qū)S妹~識別出來,則展示出的詞標(biāo)簽往往具有一定的迷惑性。例如,“道路硬化”→(“道路”“硬化”)、“危房改造”→(“危房”“改造”)。因此,一個可行思路是對審計文本進行分詞時導(dǎo)入本文建設(shè)的審計領(lǐng)域詞匯表作為分詞軟件的自定義詞表,從而提高分詞結(jié)果的準(zhǔn)確性和可解釋性。

        2.詞向量在審計關(guān)鍵詞/文本相似性分析中的應(yīng)用。相似詞匯可能使用不同的字符表達,這在傳統(tǒng)的詞袋子模型下被認為是不同的特征,進而增加了特征維度,使得基于特征的文本分析算法準(zhǔn)確性降低。使用詞向量度量詞匯之間的相似性可將表達相似或含義相同的詞匯歸并為一個特征,進而提高特征詞抽取和文本相似度度量的準(zhǔn)確性。以扶貧審計標(biāo)簽云為例,原始標(biāo)簽中出現(xiàn)的相似詞匯,如“活動室”和“活動場所”、“幫扶”和“扶持”可分別歸并為一個詞匯,以進一步提高標(biāo)簽云可視化結(jié)果的可解釋性和信息量。

        在文本相似度度量方面,引入詞向量可將每個文本表達成特征空間中詞向量的拼接或者在詞向量基礎(chǔ)上使用深度學(xué)習(xí)技術(shù),如循環(huán)神經(jīng)網(wǎng)絡(luò)、fasttext[17]等,構(gòu)建文本向量,再計算文本相似度,將會提高相似度度量的準(zhǔn)確性。

        以了解被審計單位對扶貧政策的執(zhí)行情況為例,對每一年的扶貧項目文件進行相似度分析,以檢測扶貧項目的變化情況[3]。在計算文本相似度時,一般以整個文本集的重要詞語作為特征空間,并以詞匯的TF-IDF作為其在空間中的權(quán)重。這樣每個文本即表達成特征空間中的向量,文本之間的相似性即為兩個向量之間的歐氏距離或余弦相似度。這種做法存在兩個問題:一是特征空間高維稀疏,即一個文本只在若干個特征維度上有非零值,而在其他維度上值為零;二是特征相互獨立,某些相似的詞匯依舊被認為具有兩個不相干的特征。這兩個問題都會導(dǎo)致對文本相似度的計算不夠準(zhǔn)確,使用詞向量構(gòu)建的句子向量來度量句子相似度將會提高其計算的準(zhǔn)確性。

        3.審計知識圖譜在審計實務(wù)中的應(yīng)用。知識圖譜通過三元組這一簡潔的知識表示形式,既能提高數(shù)據(jù)表達效率,又能通過圖譜可視化提高數(shù)據(jù)表現(xiàn)能力。使用審計知識圖譜可輔助審計人員快速發(fā)現(xiàn)審計疑點以及這些疑點之間的關(guān)聯(lián)關(guān)系;此外,基于審計知識圖譜可構(gòu)建更加精準(zhǔn)的審計領(lǐng)域搜索引擎,以便在審計工作中快速準(zhǔn)確地搜索到與搜索詞相關(guān)的審計/會計準(zhǔn)則/法規(guī)、審計方法、審計底稿模板等信息。

        以扶貧資金使用情況審計為例,在通過關(guān)鍵詞提取和標(biāo)簽云可視化分析后,發(fā)現(xiàn)了相關(guān)疑點,如扶貧資金使用方面包含“餐費”“高爾夫”“中介費”“煙酒”等支出。那么,如何從這些線索中快速找到審計證據(jù)?一個思路是在已有的審計知識圖譜的基礎(chǔ)上,從被審計單位的相關(guān)扶貧資金支出數(shù)據(jù)中抽取出包含上述線索詞的三元組并整合到圖譜中,構(gòu)建出當(dāng)前被審計單位的臨時知識圖譜,即可分析出這些費用的使用金額、報銷人、收款單位/人、支出項目等情況。

        以扶貧內(nèi)容合理性審計為例,在通過關(guān)鍵詞獲得扶貧項目內(nèi)容中存在“制革”“有色”“冶煉”等關(guān)鍵詞,那么怎樣快速判斷被審計單位是否投資了高污染、高能耗等國家禁止的行業(yè)項目呢?一個思路是利用詞向量從被審計單位的相關(guān)投資文件中抽取出包含上述關(guān)鍵詞或與上述關(guān)鍵詞相似的命名實體,以進一步確認被審計單位投資項目的具體名稱。若投資項目中確實包含國家禁止的項目,則可在當(dāng)前知識圖譜的基礎(chǔ)上接入企業(yè)投資關(guān)系知識圖譜,進一步確認這些投資項目的法定代表人、注冊資本等信息。

        六、結(jié)束語

        本文討論了如何構(gòu)建審計知識庫,探究了該知識庫在審計實務(wù)工作中的示范應(yīng)用。本文所構(gòu)建的審計知識庫包括三部分內(nèi)容,分別是審計領(lǐng)域詞典、審計領(lǐng)域詞匯的詞向量及訓(xùn)練詞向量的領(lǐng)域文本語料、審計領(lǐng)域知識圖譜。該知識庫的運用將有助于提升面向?qū)徲嬑谋緮?shù)據(jù)挖掘的準(zhǔn)確性和可理解性。未來可使用深度學(xué)習(xí)方法從非結(jié)構(gòu)化文本中深入挖掘包含審計領(lǐng)域詞匯的三元組信息,以進一步擴充該知識圖譜。此外,還應(yīng)進一步將該知識庫與審計應(yīng)用實務(wù)有機結(jié)合,例如在知識庫基礎(chǔ)上構(gòu)建審計準(zhǔn)則、審計方法等智能檢索功能,為審計業(yè)務(wù)查詢提供便利。

        猜你喜歡
        三元組知識庫語料
        基于語義增強雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
        關(guān)于余撓三元組的periodic-模
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
        国产一区曰韩二区欧美三区| 国产公开免费人成视频| 痉挛高潮喷水av无码免费 | 手机在线观看亚洲av| 国产一区二区精品亚洲| 国产午夜精品一区二区| 国产草草视频| 久久久亚洲日本精品一区| 国产一区亚洲二区三区极品 | 无码精品国产va在线观看| 亚洲精品美女自拍偷拍| 国产在线视频一区二区三区不卡| 久久精品丝袜高跟鞋| 伊人久久五月丁香综合中文亚洲| 亚洲精品中文字幕不卡在线| 国产激情小视频在线观看| 很黄很色很污18禁免费| 18无码粉嫩小泬无套在线观看| 久久精品无码一区二区三区不卡| 久久久大少妇免费高潮特黄| 日产精品久久久一区二区| av大片在线无码免费| 中文字幕乱码av在线| 日韩不卡的av二三四区| 国精品无码一区二区三区在线蜜臀| 97人妻视频妓女网| 中文字幕亚洲中文第一| 国产三级在线观看完整版| 国产精品乱码在线观看| 中文字幕乱码av在线| 国产成人精品一区二区20p| 亚洲av无码潮喷在线观看| 亚洲精品成人av一区二区| 亚洲一区二区蜜桃视频| 美女高潮黄又色高清视频免费| 亚洲国产精品一区二区第四页 | 国产亚洲欧美日韩综合一区在线观看| 一区二区三区在线日本| 亚洲中字幕日产av片在线| 色欲aⅴ亚洲情无码av蜜桃| 久久综合一本中文字幕|