【摘 要】 政府審計結(jié)果的數(shù)據(jù)挖掘不僅有助于探查政府審計的作用效果及影響因素,探究被審計對象的共性問題,也有助于盤活政府審計的歷史沉淀數(shù)據(jù),發(fā)揮審計數(shù)據(jù)資產(chǎn)的價值。政府審計結(jié)果的文本分析是政府審計結(jié)果數(shù)據(jù)挖掘的基礎(chǔ)環(huán)節(jié),也是政府審計結(jié)果數(shù)據(jù)利用的前提。文章從政府審計結(jié)果數(shù)據(jù)挖掘視角分析了政府審計結(jié)果文本分析的內(nèi)容、啟示與局限。研究認(rèn)為,信息抽取、分類聚類和文本情感分析是政府審計結(jié)果文本分析的主要內(nèi)容,由此可以形成研究中政府審計的不同量化衡量指標(biāo)。研究還認(rèn)為,政府審計語調(diào)作為政府審計文本情感分析的結(jié)果,應(yīng)該進一步細(xì)化為實際凈語調(diào)和名義凈語調(diào),并給出了它們的不同計算公式和適用情況。
【關(guān)鍵詞】 政府審計; 政府審計語調(diào); 審計量化; 文本分析
【中圖分類號】 F239.1? 【文獻標(biāo)識碼】 A? 【文章編號】 1004-5937(2023)04-0009-06
一、引言
政府審計的監(jiān)督作用既體現(xiàn)在審計機關(guān)通過對被審計對象實施審計形成的、對被審計對象本身的直接治理,也體現(xiàn)在審計機關(guān)對被審計對象的審計行為和結(jié)果經(jīng)由組織人事、紀(jì)檢監(jiān)察、司法、其他相關(guān)主管單位、市場主體、公眾等組織和人員在黨內(nèi)監(jiān)督、監(jiān)察監(jiān)督、司法監(jiān)督、行政監(jiān)督、市場監(jiān)督、輿論監(jiān)督和群眾監(jiān)督中運用①產(chǎn)生的[1-2]延展作用。換句話說,要實現(xiàn)政府審計“對經(jīng)濟運行進行全方位監(jiān)督檢查,保障經(jīng)濟社會平穩(wěn)健康運行”的目標(biāo)②,除了審計機關(guān)對被審計對象實施審計外,全面準(zhǔn)確評價政府審計效果也是政府審計不可忽視的內(nèi)容。除了針對某些具體問題、具體研究對象可以采用案例分析法來了解審計效果、分析政府審計作用機理外,要想全面分析和掌握政府審計的作用效果,需要對政府審計進行量化處理。應(yīng)該說,政府審計的量化是評價政府審計質(zhì)量,進行政府審計定量研究的基礎(chǔ)。
政府審計結(jié)果包括審計結(jié)果公告、審計報告、審計決定書、審計移送處理書、專題報告、報告解讀、公告解讀、新聞發(fā)布等文本類文件。利用文本分析法將政府審計結(jié)果數(shù)字化即量化,有助于更全面、深入地分析政府審計的作用效果,探究影響政府審計效應(yīng)的原因,也有利于總結(jié)被審計對象的共性問題并尋找治理之策,因而會對完善政府審計監(jiān)督和國家治理體系具有積極意義。
二、政府審計量化衡量的現(xiàn)狀
梳理現(xiàn)有文獻可以發(fā)現(xiàn),目前研究中我國政府審計的衡量主要采用以下指標(biāo)。
第一,政府審計具有揭示、抵御和預(yù)防的功能。多數(shù)文獻利用《中國審計年鑒》中披露的審計查出違規(guī)金額、審計處理處罰金額、被審計單位實際糾正金額、審計提出的建議數(shù)、審計提交的報告數(shù)、一個地區(qū)被審計單位數(shù)量、被采納的審計建議數(shù)、移送處理人數(shù)、處理落實的案件數(shù)、上繳財政金額、減少財政撥款或補貼的金額、調(diào)賬處理金額及歸還原渠道資金等省級審計數(shù)據(jù)分別量化政府審計的上述功能,通過設(shè)計單項指標(biāo)或者構(gòu)建多指標(biāo)評價體系來衡量地方層面的政府審計[3-6]。主要量化指標(biāo)如表1所示。
第二,審計投入和審計執(zhí)行力度是政府審計效果的決定性因素。因此可以從審計力量、審計任務(wù)強度、審計執(zhí)行力度、審計處罰力度、審計信息披露力度、審計獨立性與經(jīng)濟發(fā)展水平等方面設(shè)計指標(biāo)評價政府審計[7]。基于此,部分文獻利用《中國審計年鑒》中的省級審計機關(guān)人員數(shù),被審計的領(lǐng)導(dǎo)干部人數(shù),被審計單位數(shù)量,審計過程中發(fā)現(xiàn)的違規(guī)違法、管理不規(guī)范和損失浪費金額,提交的審計報告和專題報告數(shù)量等數(shù)據(jù)構(gòu)建指標(biāo)來衡量政府審計[8-9]。
第三,審計結(jié)果公告是審計機關(guān)實施審計后依法將審計調(diào)查結(jié)果向社會公開披露的信息部分。公告中既披露了審計評價意見、審計發(fā)現(xiàn)的主要問題、審計處理處罰決定和建議,也載明了被審計單位的基本情況及審計整改情況。審計結(jié)果公告具有很強的權(quán)威性、客觀性且規(guī)范化程度高。通過量化審計結(jié)果公告研究政府審計效應(yīng)具有一定合理性和較強的可行性。因此,部分文獻以國有企業(yè)和中央部門的審計結(jié)果公告為研究對象,通過統(tǒng)計公告中披露的違規(guī)違法違紀(jì)財政資金項目數(shù)量及其金額[10-11]、被審計中央部門的違規(guī)金額[12-13]、被審計企業(yè)的內(nèi)部控制缺陷數(shù)量[14]、審計查出的問題數(shù)量和處理處罰金額[15],或者利用文本分析技術(shù)提取公告中的情感詞構(gòu)建審計語調(diào)[16-17],提取并計算公告中關(guān)鍵審計詞數(shù)量、公告字?jǐn)?shù)、涉及的地域數(shù)量和消極情感程度[18],或者統(tǒng)計公告中的問題篇幅、問題個數(shù)、問題金額、被審計的項目、單位和部門數(shù)量等[19]達到量化衡量政府審計的目的。
此外,絕大多數(shù)研究央企政府審計效應(yīng)的文獻是以央企“是否被審計”“是否公告審計結(jié)果”,或者實施或公告審計時間的前后作為政府審計量化衡量的指標(biāo),也有文獻嘗試從閱讀數(shù)、活躍度和應(yīng)用開發(fā)度等方面構(gòu)建指數(shù)衡量審計署微信公眾號的影響力[20]。
上述分析表明,現(xiàn)有涉及到政府審計量化衡量的研究中,除了采用“是否被審計”“是否公告審計結(jié)果”等二分類變量作為政府審計的替代以外,主要有三類量化衡量指標(biāo)。第一類是基于政府審計的功能,分別設(shè)計反映政府審計揭示、抵御和預(yù)防作用的指標(biāo)。第二類是基于影響政府審計效果的因素構(gòu)建反映政府審計投入和審計執(zhí)行力度的指標(biāo)。還有一類文獻關(guān)注到了審計結(jié)果公告在政府審計量化中的獨特作用,利用文本分析技術(shù)從不同角度對審計公告進行文本處理,設(shè)計出不同的量化指標(biāo)。本文以數(shù)據(jù)挖掘為視角,從更高層次對基于審計公告文本的衡量方法進行歸納,并將其所有量化方法進行統(tǒng)一,解決了現(xiàn)有指標(biāo)為什么可以這么用的問題。實際上也是從方法論視角為這些指標(biāo)用于政府審計的衡量提供了合理性依據(jù)。
三、政府審計結(jié)果的文本分析內(nèi)容
從內(nèi)容上,政府審計結(jié)果數(shù)據(jù)包括審計結(jié)果公告、審計報告、審計決定書、審計移送處理書、專題報告、會議紀(jì)要等直接記錄和反映政府審計結(jié)果的數(shù)據(jù),以及政策解讀、報告解讀、公告解讀、新聞發(fā)布等間接反映政府審計信息的數(shù)據(jù)。從形式上,政府審計結(jié)果數(shù)據(jù)包括數(shù)據(jù)文件、文本、視頻、音頻等類型。除審計機關(guān)和被審計單位能夠獲得數(shù)據(jù)文件之外,其他主體只能夠獲取到后三類數(shù)據(jù),這些數(shù)據(jù)均屬非結(jié)構(gòu)化數(shù)據(jù)。對于其中的視頻和音頻文件,由于關(guān)注的是其內(nèi)容而不是圖像或聲音本身,因此視頻和音頻等數(shù)據(jù)類型一般應(yīng)先轉(zhuǎn)換成以語言文字為主要內(nèi)容的文本后再進行分析。于是,文本是政府審計結(jié)果分析的主要數(shù)據(jù)類型。其中,政府審計結(jié)果公告是審計機關(guān)實施審計后依法將審計結(jié)果向社會公開披露的信息部分,是可以公開獲取的、進行政府審計效果評價的重要依據(jù)。因此,本文主要基于審計結(jié)果公告闡述政府審計結(jié)果的文本分析。
政府審計的文本分析是抽取審計文本的特征來量化表示采用自然語言撰寫的審計文本信息的過程,包括數(shù)據(jù)采集、文本內(nèi)容識別、文本解析和結(jié)果表示等環(huán)節(jié),其本質(zhì)上屬于政府審計數(shù)據(jù)挖掘的范疇。按照所分析文本的顆粒度進行分類,政府審計的文本分析對象可以為篇、段、句、詞和屬性。按照分析的內(nèi)容和方法,政府審計的文本分析主要包括文本信息抽取、文本分類和聚類、文本情感分析三類。如圖1所示。
(一)審計文本的信息抽取
信息抽取是從非結(jié)構(gòu)化的文本數(shù)據(jù)中抽取出實體、實體的屬性、實體之間的關(guān)系和事件,將其轉(zhuǎn)換形成結(jié)構(gòu)化數(shù)據(jù),并進一步利用統(tǒng)計等方法進行的分析處理[21]。政府審計文本分析中可以利用信息抽取工具提取反映某個事件、組織、個體等實體及其屬性的信息并進行分析。比如對銀行的審計結(jié)果公告進行分析,抽取“貸款資金被挪用”這個事件發(fā)生的頻率、金額、涉及的主體等屬性,可以獲得該銀行貸款資金被挪用事件發(fā)生的頻繁程度、被挪用資金規(guī)模大小、涉及的主體數(shù)量、主體類別等,這不僅可以用于衡量該銀行此類違規(guī)經(jīng)營的嚴(yán)重程度,還有助于進一步量化分析該項違規(guī)后果的溢出影響?,F(xiàn)有研究中提取政府審計文本中各類違規(guī)金額、問題數(shù)量、地域數(shù)量、被審計項目數(shù)量、被審計單位和部門數(shù)量等采集政府審計指標(biāo)數(shù)據(jù)的做法可以歸屬此類分析。
(二)審計文本分類和聚類
政府審計的文本分析中可以將被審計對象、審計實施組織及其人員等看成一個個事物。按照事物具有的共同特征進行歸類,或者按照事先制定的評價指標(biāo)和標(biāo)準(zhǔn)來尋找確定不同事物的類,可以實現(xiàn)“物以類聚”,進而通過分析各個“類”及其影響因素達到發(fā)現(xiàn)普遍性問題和規(guī)律的目的。比如對不同被審計對象或者一個被審計對象不同時間的審計報告或公告進行文本相似度分析,可以發(fā)現(xiàn)某類被審計對象存在的某些普遍性問題或者某個單位存在問題的規(guī)律性特征。因此,審計文本分類和聚類也是實現(xiàn)政府審計文本內(nèi)容量化的一種方法。
(三)審計文本的情感分析
政府審計結(jié)果的文本包括報告公告類和解讀類兩種類型。審計報告公告等直接反映政府審計行為和結(jié)果的文本不僅是審計情況和結(jié)果的介紹和總結(jié),也體現(xiàn)了審計監(jiān)督者對被審計對象狀況和行為的總體認(rèn)識、評價和態(tài)度,而審計機關(guān)發(fā)布的報告解讀類文本也是為了更準(zhǔn)確全面?zhèn)鬟_這種認(rèn)識和態(tài)度。因此提取上述審計文本的情感特征,對文本所含觀點的情感傾向進行分析可以成為相關(guān)文本內(nèi)容量化的一種途徑,并作為政府審計量化的一種方法。
1.文本情感分析方法
政府審計文本情感分析可以整篇文本為對象,也可以按照文本中所含的段、句、詞進行分析。從審計結(jié)果公告來看,由于政府審計立足于監(jiān)督,以發(fā)現(xiàn)和揭示問題為導(dǎo)向,因此一篇審計公告的整體情感傾向總體應(yīng)為負(fù)面,于是研究中可以將是否經(jīng)政府審計(或者發(fā)布結(jié)果公告)作為一個二分變量。如果經(jīng)過政府審計,則將此變量設(shè)為1,否則該變量設(shè)為0。從數(shù)據(jù)角度看,因為政府審計從審計介入到發(fā)布審計結(jié)果公告一般跨越兩個年度,而發(fā)布結(jié)果公告是政府審計不可分割的部分,因此相比介入年度,到發(fā)布年度被審計對象受到的審計作用才更完整。于是要全面反映政府審計效用,實證研究中用二分變量時政府審計事件沖擊的時點選擇公告年度更為合理。
從漢語表達的語言特點看,單獨的漢字無法完整傳遞文本情感,因此不能簡單采用文本中字的個數(shù)進行文本情感量化。漢語的語句是由多個詞連接組成,語句的情感由其中的情感詞語決定,不取決于語句整體的長短及復(fù)雜性。也就是說句子越長只代表句子里所含的字越多,并不意味著句子的情感傳達越完整越清晰。文本的一個自然段至少包括一個語句,如果直接以段作為情感分析的對象,那么人工憑借經(jīng)驗等可以給出一個段的情感傾向判斷。但是由于很難建立清晰的段的情感傾向判斷標(biāo)準(zhǔn),采用機器學(xué)習(xí)來準(zhǔn)確識別各個段的情感傾向就非常困難。因此數(shù)據(jù)分析的文本情感分析一般會選擇以情感表達的最小單位——“詞(含短語)”作為分析的對象。
政府審計文本分析以政府審計出具或發(fā)布的文本中的詞(含短語)作為情感分析對象時,可以利用信息技術(shù)的分詞工具,比如目前常用的Python的“jieba”,首先,將文本分解成一個個詞;其次,根據(jù)事先定義的情感詞詞典,提取文本中包含的情感詞并將它們按照一定的標(biāo)準(zhǔn)進行情感傾向歸類;再次,利用專門的統(tǒng)計等數(shù)學(xué)方法進行處理和分析,比如分別統(tǒng)計審計結(jié)果公告文本中正面情感詞和負(fù)面情感詞的數(shù)量;最后,構(gòu)建政府審計語調(diào)指標(biāo),就能夠一定程度揭示出審計文本出具或發(fā)布者的態(tài)度和情感傾向強度,并達到量化政府審計文本內(nèi)容的目的。
2.政府審計文本情感分析結(jié)果:政府審計語調(diào)
政府審計語調(diào)是政府審計文本情感分析的結(jié)果指標(biāo)。如果用w、c1、c2、x1、x2分別表示一個審計文本對象中的全部詞、全部情感詞、全部非情感詞、負(fù)面情感詞和正面情感詞的數(shù)量,用Ntone、Ptone、Netone、Retone分別表示該文本的負(fù)面情感強度、正面情感強度、實際凈情感強度(實際凈語調(diào))和名義凈情感強度(名義凈語調(diào)),則變量之間存在如下關(guān)系:
因為文本的情感傾向取決于從文本中提取的情感詞,文本中的非情感詞屬于影響情感分析的干擾因素,因此,可以將其看成是情感判斷的一種“環(huán)境噪聲”。文本凈語調(diào)可以進一步細(xì)分為實際凈語調(diào)(Netone)和名義凈語調(diào)(Retone)。上述公式表明,文本實際凈語調(diào)一定時,隨著文本中非情感詞比重的增加,文本的名義凈語調(diào)會下降。這也意味著,當(dāng)采用審計文本語調(diào)衡量政府審計時,如果強調(diào)政府審計行為的影響,由于審計行為的情感傾向體現(xiàn)在文本中,此時適于采用實際凈語調(diào)(Netone)衡量政府審計;如果只關(guān)注政府審計結(jié)果公告(即審計文本)產(chǎn)生的作用,由于用戶接收的是一個包含干擾的完整文本,此時更適于采用名義凈語調(diào)(Retone)來量化政府審計。
由上,審計文本情感分析可以作為政府審計文本內(nèi)容量化的一種可行和有效方法。其中,是否經(jīng)政府審計啞變量可以看成是政府審計文本凈語調(diào)的特例,即c1=x1=1,c2=x2=0時的文本凈語調(diào)。
四、政府審計結(jié)果文本分析的啟示與局限
(一)啟示
1.按照文字是否直接表現(xiàn)情感傾向進行分類,可以將文本體現(xiàn)的態(tài)度劃分為顯性觀點和隱含觀點兩類,顯性觀點的文本文字直接表達了文本觀點持有者的情感傾向。比如“近年來某企業(yè)認(rèn)真貫徹落實國家有關(guān)經(jīng)濟金融工作的方針政策”這句公告文字直接給出了肯定的正面評價,而“企業(yè)違規(guī)發(fā)放貸款55.14億元”給出了顯性的負(fù)面評價。隱含觀點的文本文字只是陳述事實,觀點持有者的態(tài)度隱含在文字背后。比如“某年某月某分行向‘四證不全、自有資金比例不足30%的某公司發(fā)放項目貸款1.5億元”的公告文字僅僅描述了事實,文本隱含反映了對這個事實的負(fù)面態(tài)度。受立場、經(jīng)驗、認(rèn)知等多重因素影響,不同的人對同一個文本的隱含觀點可能會得出不同的判斷。而數(shù)據(jù)挖掘技術(shù)可以幫助人們實現(xiàn)對大量數(shù)據(jù)、按照同一標(biāo)準(zhǔn)進行識別的目的,這會降低人工判斷產(chǎn)生的偏差和歧義,更有助于找出現(xiàn)象背后的因素和規(guī)律。
2.就像自然人想要了解和領(lǐng)會一份文件的內(nèi)容和精神,需要對文件進行反復(fù)閱讀、思考、討論一樣,利用機器進行文本分析也要經(jīng)過反復(fù)訓(xùn)練的過程。這個過程中需要根據(jù)文本的特點不斷進行調(diào)整來糾偏。比如要根據(jù)所研究文本的專業(yè)特征不斷細(xì)化補充詞典,在研究的文本樣本中選擇足夠數(shù)量的、內(nèi)容最全的、最具代表性的文本進行識別訓(xùn)練等,從而盡量降低識別結(jié)果的誤差率。
3.政府審計專業(yè)化詞典是政府審計文本情感分析的關(guān)鍵。要提高機器自動化分詞和識別的準(zhǔn)確率,必須根據(jù)政府審計各類文本的行文特點建立相應(yīng)的專業(yè)化詞典。以某審計公告的文本內(nèi)容為例,“從審計情況看,有關(guān)部門和單位能夠認(rèn)真執(zhí)行黨和國家政策法規(guī),醫(yī)保業(yè)務(wù)經(jīng)辦和基金管理總體規(guī)范,但也發(fā)現(xiàn)一些管理不規(guī)范問題,以及15億元違法違規(guī)問題”這句文本從含義上判斷情感傾向應(yīng)該屬于弱正面。如果提取情感詞時不考慮公告行文特點,違法違規(guī)問題等都作為單獨詞匯處理,則該句話正面情感詞為“能夠、認(rèn)真、規(guī)范”3個,負(fù)面情感詞為“不規(guī)范、問題、違法、違規(guī)、問題”5個,該句話會被識別為較強的負(fù)面。如果根據(jù)審計公告行文特點細(xì)化詞典,則不規(guī)范問題、違法違規(guī)問題應(yīng)該分別作為一個詞來處理,于是該句話提取的正面情感詞仍然是3個,負(fù)面情感詞為2個,整體為弱正面。事實上,本句話到底應(yīng)該歸屬正面、負(fù)面抑或中性,不同的人可能也會給出不同的判斷結(jié)果。因此對這種存在語義歧義的文本,再完善的詞典也無法百分百消除識別的誤差,機器自動識別也只能一定程度降低誤差率。
4.當(dāng)采用機器學(xué)習(xí)進行系統(tǒng)自動識別時,建立各種判斷和識別的標(biāo)準(zhǔn)變得非常重要。比如文本分詞時如何劃分詞、詞典里要包含哪些詞、什么樣的詞是情感詞、情感詞的情感傾向方向如何判斷、情感詞的情感傾向程度如何確定等,這些判斷和識別標(biāo)準(zhǔn)是影響分析結(jié)果準(zhǔn)確度的決定性因素。如何建立更為科學(xué)、合理、客觀且操作性強的識別標(biāo)準(zhǔn)既是政府審計結(jié)果分析的關(guān)鍵任務(wù),也是需要不斷探索和完善的難點。
通過優(yōu)化完善上述各類判斷和識別標(biāo)準(zhǔn),政府審計文本分析中各個環(huán)節(jié)的人工判斷程度會隨著分析技術(shù)和工具智能化程度的提高而下降,政府審計量化結(jié)果的模糊性、不可驗證性才會不斷優(yōu)化改善,政府審計結(jié)果的處理和利用效率才會進一步提高。
5.政府審計結(jié)果公告中既有負(fù)面評價也有正面肯定,每個公告中由于被審計企業(yè)的情況不同,審計結(jié)果公告中的負(fù)向和正向詞匯都有差異。而一個公告是一個整體,公告語調(diào)的作用體現(xiàn)在這個公告總體所反映出的凈語調(diào),任何一個審計結(jié)果文本用戶都不可能在閱讀文本時單獨挑負(fù)面詞匯或者正面詞匯做出反應(yīng)。因此,研究中采用實際凈語調(diào)或名義凈語調(diào)在內(nèi)的凈語調(diào)衡量更合理,而政府審計結(jié)果公告的負(fù)面情感強度或正面情感強度只能是輔助,否則可能影響研究結(jié)果的準(zhǔn)確性。
6.政府審計結(jié)果公告意在反映審計中發(fā)現(xiàn)的被審計單位的問題和情況,結(jié)果公告文本的用詞具有鮮明的專業(yè)性、規(guī)范性、一致性和穩(wěn)定性特征。因此,在政府審計影響因素或者作用效應(yīng)的研究中,可以根據(jù)研究的主題,抽取那些直接代表或者反映研究主題的詞匯形成專屬語調(diào)來衡量政府審計的某個特定方面。比如,審計結(jié)果公告中反映會計核算不真實的詞語,如多計、少繳、調(diào)減、虛增、賬實不符、重復(fù)計提等;反映經(jīng)營活動不真實的詞語,如編造、虛報、虛構(gòu)業(yè)務(wù)、虛假材料、虛開發(fā)票、無真實交易背景等。這些詞匯反映了被審計企業(yè)在會計和經(jīng)營活動中可能存在違規(guī)違法等問題,因此,在進行政府審計對公司盈余管理影響的研究中,可以提取直接描述公司會計核算和經(jīng)營活動中產(chǎn)生盈余不真實問題行為的詞語形成非真性警示語調(diào)(Unretonei,t=■)[16],以此作為政府審計專屬語調(diào)進行輔助研究,從而達到更全面衡量政府審計對企業(yè)盈余管理作用效應(yīng)的目的。
(二)局限
1.文本語義隱蔽性產(chǎn)生的歧義問題。自然語言的文本語義隱含在文字背后,其情感傾向存在一定的模糊性。比如審計結(jié)果公告中“某會計師事務(wù)所對該企業(yè)2019年度合并財務(wù)報表出具了帶強調(diào)事項段的無保留意見審計報告”這句話的情感傾向?qū)僬?、?fù)面還是中性,不同的人經(jīng)專業(yè)判斷可能會給出不同結(jié)果。一種觀點會認(rèn)為既然是“帶強調(diào)事項段”,就應(yīng)該屬負(fù)面;也有觀點認(rèn)為總體上既然是“無保留意見”,應(yīng)該是正面;也會有人認(rèn)為是中性。從目前自然語言處理技術(shù)的應(yīng)用來看,采用機器學(xué)習(xí)進行自動識別并不能避免此類問題,但是與人工判斷出現(xiàn)歧義不同的是,機器識別可以采用同一個標(biāo)準(zhǔn)給出判斷結(jié)果。
2.文本分析中的“噪聲”問題?!霸肼暋睍?shù)據(jù)分析造成干擾,也是影響文本分析結(jié)果準(zhǔn)確性的重要因素。信息處理中遵循著“垃圾進垃圾出”的定律,由于文本數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)的模糊性和二義性強等特點,如何提高數(shù)據(jù)質(zhì)量始終是文本分析中需要解決的難題。那些存在錯誤或異常的噪聲數(shù)據(jù)是影響數(shù)據(jù)質(zhì)量的重要因素。而且噪聲數(shù)據(jù)還會造成政府審計文本量化中實際凈語調(diào)和名義凈語調(diào)不準(zhǔn)確、二者之間的差異增大,進而導(dǎo)致利用其作為衡量指標(biāo)的相關(guān)研究結(jié)果不準(zhǔn)確,甚至產(chǎn)生錯誤的研究結(jié)論。為此,需要對文本解析后獲得的數(shù)據(jù)進行預(yù)處理,即通過數(shù)據(jù)清理、集成、歸約和變換等一系列方法對不完整、不準(zhǔn)確、不一致、可信性低、難以解釋和離群的數(shù)據(jù)進行處理以提高數(shù)據(jù)質(zhì)量,進而提高最終分析結(jié)果的準(zhǔn)確程度,降低誤差率。
五、結(jié)語
政府審計結(jié)果的挖掘分析可以盤活政府審計的大量歷史沉淀數(shù)據(jù),發(fā)揮數(shù)據(jù)這種新型資產(chǎn)在政府審計治理,乃至國家治理中的價值。審計機關(guān)出具的報告、發(fā)布的公告等文本格式規(guī)范且相對固定,這為政府審計結(jié)果的分析利用提供了獲得高質(zhì)量數(shù)據(jù)的可能,也便于采用機器自動化處理,使分析結(jié)果更準(zhǔn)確、可靠和可信。而且研究中還可以利用各類政府審計結(jié)果文本的分析結(jié)果定義相關(guān)指標(biāo)來實現(xiàn)政府審計的量化衡量。因此,從數(shù)據(jù)利用的角度看,文本分析是實現(xiàn)政府審計結(jié)果數(shù)據(jù)利用的重要基礎(chǔ)。
【參考文獻】
[1] 董大勝.論國家審計產(chǎn)生的基礎(chǔ)[J].審計研究,2020(2):3-6.
[2] 董大勝.以國家治理理論為基礎(chǔ)深化審計理論研究[J].審計研究,2015(4):3-5.
[3] 黃溶冰,王躍堂.我國省級審計機關(guān)審計質(zhì)量的實證分析(2002—2006)[J].會計研究,2010(6):70-76.
[4] 黨夏寧,佟一欣.國家審計促進我國醫(yī)療衛(wèi)生支出效率提升研究——基于省級面板數(shù)據(jù)的測算與實證[J].會計之友,2021(23):94-101.
[5] 唐雪松,羅莎,王海燕.市場化進程與政府審計作用的發(fā)揮[J].審計研究,2012(3):25-31.
[6] 王光遠,鄭曉宇.政府審計移送對司法效率的影響[J].審計研究,2019(4):11-19.
[7] 蔡春,李江濤.經(jīng)濟權(quán)力審計監(jiān)控研究——審計理論研究的一個新領(lǐng)域[J].審計與經(jīng)濟研究,2009,24(5):3-8.
[8] 李江濤,苗連琦,梁耀輝.經(jīng)濟責(zé)任審計運行效果實證研究[J].審計研究,2011(3):24-30.
[9] 謝柳芳,孫鵬閣.空氣污染、政府審計與地方治理——基于社會調(diào)和性與經(jīng)濟改革度雙重維度的分析[J].會計之友,2021(9):10-18.
[10] 歐陽華生.我國國家審計公告信息分析:2003—2006[J].審計研究,2007(3):8-15.
[11] 李小波,吳溪.國家審計公告的市場反應(yīng)[J].審計研究,2013(4):85-92.
[12] 宋達,鄭石橋.政府審計對預(yù)算違規(guī)的作用:抑制還是誘導(dǎo)?——基于中央部門預(yù)算執(zhí)行審計數(shù)據(jù)的實證研究[J].審計與經(jīng)濟研究,2014,29(6):14-22.
[13] 王春飛,郭云南.中央預(yù)算執(zhí)行審計與媒體關(guān)注度——基于國家治理的視角[J].中南財經(jīng)政法大學(xué)學(xué)報,2015(6):3-9.
[14] 唐大鵬,從■勻.國家審計結(jié)果公告能“精準(zhǔn)”提升內(nèi)部控制質(zhì)量嗎?——基于央企控股上市公司的證據(jù)[J].審計與經(jīng)濟研究,2020,35(3):1-11.
[15] 吳秋生,郭檬楠.國家審計“監(jiān)”與“督”對國有企業(yè)資產(chǎn)保值增值的影響[J].財經(jīng)理論與實踐,2018,39(5):95-101.
[16] 王海林,張丁.國家審計對企業(yè)真實盈余管理的治理效應(yīng)——基于審計公告語調(diào)的分析[J].審計研究,2019(5):6-14.
[17] 王海林,張丁.國家審計對國有企業(yè)風(fēng)險承擔(dān)的治理效應(yīng):促進還是抑制?——基于審計公告語調(diào)的分析[J].會計研究,2021(10):152-165.
[18] 陳宋生,李睿,劉青青.中央預(yù)算執(zhí)行審計效果分析[J].審計研究,2020(1):33-42.
[19] 鄭小榮,何瑞鏵,曹源.基于熵權(quán)法的中國政府審計結(jié)果公告信息含量研究[J].當(dāng)代財經(jīng),2018(12):123-132.
[20] 鄭小榮,朱泓春.審計微信傳播影響力及其影響因素研究——基于審計署微信公眾號推文的實證分析[J].會計之友,2020(13):130-138.
[21] 宗成慶,夏睿,張家俊.文本數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2019:4.