黃佳佳 呂捷 李鵬偉
【關(guān)鍵詞】 審計署官網(wǎng); 新聞文本; 計量分析; 主題分析; 主題河流; 審計工作重點
【中圖分類號】 F239.44? 【文獻標識碼】 A? 【文章編號】 1004-5937(2021)13-0119-06
一、引言
隨著信息技術(shù)的發(fā)展,人們想要獲取與政府工作相關(guān)的最新、最權(quán)威信息,瀏覽政府網(wǎng)站或其微信公眾號新聞是其中最有效的渠道。國家審計在國家治理過程中越來越重要,“中華人民共和國審計署”網(wǎng)站(以下簡稱“審計署官網(wǎng)”)作為傳播政府審計信息的重要平臺,其公開信息不僅保障了公民對各類審計結(jié)果公告的知情權(quán),還可以為審計工作者帶來最新動態(tài)訊息,幫助審計工作者明確工作發(fā)展方向,找準審計工作重心。人們只需打開“審計署官網(wǎng)”的頁面,即可按需瀏覽網(wǎng)站公布的時政新聞、審計要聞、審計動態(tài)以及審計結(jié)果公告等板塊信息,甚至可以將獲取的信息通過網(wǎng)絡(luò)共享給他人。在網(wǎng)站的公眾互動模塊中,人們還能夠與政府機關(guān)的領(lǐng)導展開交流??梢哉f,審計署官網(wǎng)的新聞報道有助于引導人們理解我國審計制度和審計結(jié)果,也提高了政府審計信息的透明度及其在人民群眾心中的形象。
與其他政府網(wǎng)站相類似,審計署官網(wǎng)的信息使用效率并不高[1]。這是由于該類網(wǎng)站具有新聞量大、更新速度快等特點,僅依靠人工閱讀難以在有限時間內(nèi)捕捉到重點信息;同時,網(wǎng)站中的新聞存量大、跨度時間長,人們很難在短時間內(nèi)從中理清相關(guān)政策的發(fā)展脈絡(luò)。因此,若能對網(wǎng)站平臺上的所有新聞數(shù)據(jù)信息加以自動收集與智能分析,進一步挖掘其蘊含的內(nèi)在價值,將能更好地發(fā)揮官方網(wǎng)站的信息宣傳引導作用[2]。
為此,本文利用文本挖掘及可視化技術(shù)對審計署官網(wǎng)的所有新聞文本進行智能分析,以期總結(jié)歸納出政府審計在近年的審計工作重點及其變化趨勢。具體來說,本文首先對審計署官網(wǎng)2015—2018年審計公開新聞信息進行統(tǒng)計,對比分析其在各時間段和涉及各省的發(fā)文量;其次運用LDA模型對新聞信息進行主題挖掘,總結(jié)歸納出審計工作的熱點領(lǐng)域;最后利用Themeriver可視化技術(shù)[3]展示審計工作主題近三年來的演變,并對未來的政府審計工作重心進行預估。
二、文獻綜述
政府信息公開對提升政府溝通效率,保障人民群眾參與權(quán)、知情權(quán)與監(jiān)督權(quán)意義重大。在政府審計信息傳遞過程中,審計署官網(wǎng)發(fā)布的審計新聞能夠降低信息的不對稱性,提高審計工作透明度,有助于審計更好地發(fā)揮“免疫系統(tǒng)”功能[4]。
(一)關(guān)于政府審計公開信息的研究
我國學者對政府審計公開信息的研究開始較早。馮梅笑[5]收集了2000—2007年度審計公告并對其披露的審計實施情況進行了分析。肖瑞利[6]探討了我國政府審計在信息公開的內(nèi)容、質(zhì)量和監(jiān)督方面存在的問題。此外,李■帆[7]和李劍鋒[8]分別對政府審計公告和云南省審計廳公開信息進行理論分析并指出當前審計信息公開存在的問題,如公開觀念落后、公開效果不夠理想、審計建議針對性不強以及相關(guān)法律制度亟待完善等。在上述文獻中,均對政府審計的發(fā)展提出了政策建議,如加大審計宣傳力度、完善法律法規(guī)和公開機制等。
(二)關(guān)于文獻計量法的研究
內(nèi)容分析法[9]即將文本內(nèi)容轉(zhuǎn)化為定量表示,是研究政府政策、公開文獻的重要研究方法。為充分利用已有信息,更好把握某一領(lǐng)域的發(fā)展方向和未來趨勢,文獻計量法被廣泛運用在公開文本分析工作中,如學術(shù)文獻、新聞報道等。文獻計量法主要使用統(tǒng)計學和文本分析法對研究文獻的文本量、詞匯表達、主題內(nèi)容、情感態(tài)度等特征進行計量分析。以審計文獻研究為例,多數(shù)專家學者以CSSCI數(shù)據(jù)庫中的政府審計論文為樣本,利用CiteSpace技術(shù)對其進行文本挖掘,最后以知識圖譜等可視化形式展現(xiàn)政府審計研究熱點領(lǐng)域和變化趨勢[10-11]。文獻計量法還被運用在醫(yī)學[12]、電子政務[13-14]、農(nóng)業(yè)[15]等領(lǐng)域,主要通過收集相關(guān)文獻,從論文作者、關(guān)鍵詞、研究角度等方面總結(jié)該領(lǐng)域的研究熱點和發(fā)展趨勢。
盡管文獻計量法已廣泛運用于文獻研究中,但很少運用在政府審計的公開信息中。當前對政府審計公開信息的研究主要以人工閱讀和歸納為主,涉及的研究樣本量較少,難以深入分析大規(guī)模長篇文本的語義信息及其之間的關(guān)聯(lián)關(guān)系。本文以文獻計量法中常用的統(tǒng)計技術(shù)和文本分析為手段,對較大規(guī)模的政府公開信息進行系統(tǒng)性分析,以期揭示我國政府審計網(wǎng)站在一個時期內(nèi)公開發(fā)布的新聞報道在發(fā)文量、地理分布、報道內(nèi)容等方面的現(xiàn)狀以及在新聞內(nèi)容的上關(guān)聯(lián)性與時間上的延續(xù)性。
三、數(shù)據(jù)來源與領(lǐng)域詞典構(gòu)建
(一)新聞數(shù)據(jù)來源
審計署官網(wǎng)作為政府審計信息公開的重要門戶網(wǎng)站,發(fā)布實時訊息,共享審計信息資源是其重要職責。本研究數(shù)據(jù)來源于審計署官網(wǎng)2015年1月至2018年10月公開的審計新聞信息,信息類別主要包括審計署新聞和審計公告結(jié)果及解讀等。本文選取審計署官網(wǎng)而不是其他網(wǎng)站的新聞數(shù)據(jù)主要是基于以下考慮:(1)審計署官網(wǎng)新聞數(shù)據(jù)在政府審計領(lǐng)域權(quán)威性高、覆蓋面廣、影響力大、時間跨度長。該網(wǎng)站信息很大程度上代表了我國政府審計可公開的最重要信息和國家審計署的基本態(tài)度。(2)審計署官網(wǎng)新聞數(shù)據(jù)同時也匯聚了全國各地方政府的重要審計新聞動態(tài)和審計結(jié)果公告,這對全面了解全國各地的審計現(xiàn)狀具有重要意義。
審計署官網(wǎng)包含“新聞頻道”“公告報告”“審計之窗”“公共服務”“公眾互動”等板塊,其中“新聞頻道”中的審計要聞和審計動態(tài)這兩個子板塊發(fā)布了該網(wǎng)站最主要的審計新聞實時訊息;“公告報告”中展示了中央和各地方的審計公告結(jié)果及解讀。其他模塊發(fā)布的訊息新聞價值較低或者與國家審計相關(guān)性較低,因而未納入本文的數(shù)據(jù)采集范圍。通過網(wǎng)絡(luò)爬蟲和網(wǎng)頁自動化抽取技術(shù),共收集了9 141條長度超過10個字符的審計新聞文本,約30MB大小,其中各類別所包含的新聞文本量如表1所示。
從表1中可以看到,審計動態(tài)子版塊發(fā)布的新聞量最多,約占總新聞量的71.4%;其次是審計要聞,占比約為25.1%;而審計公告報告數(shù)量最少。另一方面,從新聞文本長度來看,審計公告報告文本較長、內(nèi)容詳實豐富,而審計要聞和審計動態(tài)的新聞文本相對短小。此外,本文還使用變異系數(shù)(即為標準差與平均文本長度的比值)來反映新聞文本長度的離散程度??梢钥吹?,審計公告和審計要聞的文本變異系數(shù)較小,說明這類新聞文本的篇幅比較集中;而審計動態(tài)子板塊中的新聞篇幅差距較大。
(二)領(lǐng)域詞典構(gòu)建
本文嘗試利用自然語言處理技術(shù)來對審計新聞進行文本挖掘與主題演化分析,因而不可避免地涉及到文本預處理程序——分詞與剔除停用詞,即將原本語義連貫的句子分割成若干詞匯(如“一直以來,審計在推進黨風廉政建設(shè)和反腐敗斗爭中都發(fā)揮了重要的作用”分割成詞匯“一直以來”“審計”“在”“推進”“黨風廉政建設(shè)”“和”“反腐敗”“斗爭”“中”“都”“發(fā)揮”“了”“重要的”“作用”),并剔除其中不重要的詞匯(如“在”“和”“中”“都”“了”等)。然而,由于審計文本具有領(lǐng)域特殊性,存在較多的專業(yè)詞匯,如“黨風廉政建設(shè)”“審計全覆蓋”“保障性安居工程跟蹤審計”等。當前常用的分詞軟件(如Jieba和Hanlp)往往無法識別出這些專業(yè)詞匯,而是將其切割成若干個詞匯,如“黨風廉政建設(shè)”分割成“黨風”“廉政”“建設(shè)”三個詞。在文本分析過程中,這些零散詞匯難以表達出原來專業(yè)術(shù)語的語義內(nèi)涵,進而降低了后續(xù)文本分析的準確性。
為此,本文通過一種自動+人工的方法來構(gòu)建審計領(lǐng)域詞典。具體來說,首先從互聯(lián)網(wǎng)中下載一批審計領(lǐng)域常用詞匯并人工篩選,共獲得約500個核心詞匯,如“審計信息化”“政府審計”等;其次利用自動爬蟲技術(shù)將這些詞匯作為百度詞條從百度百科中搜索該詞條相關(guān)的超鏈接詞匯來擴充領(lǐng)域詞匯,如此進行3輪爬蟲即可獲得較大規(guī)模的領(lǐng)域詞匯;再次通過審計領(lǐng)域?qū)<胰斯g覽一遍剔除不相干詞匯;最后共獲得28 792個審計領(lǐng)域相關(guān)詞匯。這批領(lǐng)域詞匯將導入到分詞軟件的詞典庫中,使得審計文本可以按審計領(lǐng)域詞匯進行分詞。
四、研究結(jié)果與分析
本文主要從文獻計量學角度利用統(tǒng)計分析和文本分析方法對收集到的審計新聞從如下3個角度進行分析:(1)這些審計新聞都涉及全國哪些省級行政區(qū)?不同省份涉及的新聞數(shù)量是否存在差異?(2)這些新聞都討論了哪些審計工作主題?(3)這些審計主題各年所占新聞量之間是否存在差異?若存在差異,其是否代表了政府審計工作重點正在發(fā)生變化?
(一)全國審計新聞分布分析
審計署官網(wǎng)的新聞數(shù)量在一定程度上能夠反映審計署信息資源的公開化程度,統(tǒng)計分析每月公開新聞數(shù)量能夠讓我們對審計署官網(wǎng)發(fā)布的新聞數(shù)據(jù)量建立直觀認識。
從圖1可以看出,從2015年1月至2018年10月,審計署官網(wǎng)每月平均公開的審計新聞數(shù)量為193條。審計新聞量整體呈平穩(wěn)態(tài)勢,沒有呈現(xiàn)顯著的直線上升或下降趨勢。依照這一趨勢來看,未來審計署官網(wǎng)公開信息數(shù)據(jù)量不會出現(xiàn)大幅度的增長。值得注意的是,由于審計工作的特殊性質(zhì),每年6月和12月是發(fā)布審計工作報告和審計結(jié)果報告的重要時間節(jié)點。因此6月和12月的審計新聞數(shù)量一般多于一年里的其他月份。
審計署官網(wǎng)發(fā)布的審計新聞涉及多個層級,其中涉及全國的新聞一般反映的是全國審計工作進展情況,而地方審計新聞反映各地的審計工作進展與成果。此外,受經(jīng)濟、政治等因素影響,審計署官網(wǎng)發(fā)布的各地方審計動態(tài)新聞數(shù)量在不同省份之間存在較大差異。為研究審計署官網(wǎng)所有新聞所涉及的省份分布,本文將所有新聞進行文本分詞,并按標題和文本中所提及的省份或該省地區(qū)名稱劃分到各個省份中;最后利用SPSS數(shù)據(jù)分析軟件,統(tǒng)計審計署官網(wǎng)新聞文本各省份的分布情況,如圖2所示。
除了涉及全國的2 155條新聞及臺灣省外,三年累計發(fā)布審計新聞數(shù)量最多的是湖北省,共計834條,發(fā)布數(shù)量最少的是澳門,三年共計5條。從圖2中可以直觀看出,經(jīng)濟發(fā)展水平較高的省份往往涉及較多的審計新聞。為進一步量化審計新聞數(shù)量與各省份GDP之間的關(guān)系,本文從國家統(tǒng)計局網(wǎng)站獲取了2015—2018年各省份GDP數(shù)據(jù)并求均值,然后計算各省份GDP的4年均值與其審計新聞數(shù)量之間的Pearson相關(guān)系數(shù)。統(tǒng)計結(jié)果顯示,在95%的置信度下,兩者之間的相關(guān)系數(shù)為0.574,這說明各省份的經(jīng)濟水平與審計署官網(wǎng)上涉及該省份的新聞量呈現(xiàn)中等程度的正相關(guān),經(jīng)濟發(fā)展水平越高的省份審計工作發(fā)展也處于領(lǐng)先位置。
(二)政府審計工作主題分析
為自動歸納政府審計在2015—2018年的工作重點,本文利用LDA(Latent Dirichlet Allocation)模型[16]對審計新聞文本進行主題聚類分析。LDA模型是文本分類/聚類中最常用的主題模型,該模型可將文本集中每個文本所表達的主題以概率分布形式給出,并將每個主題表示成一組詞匯的概率分布形式。
針對本文收集到的審計新聞文本來說,先對所有文本進行分詞和剔除停用詞,然后實施LDA算法進行文本聚類。這里將聚類個數(shù)設(shè)置為50個,即認為所有新聞共包含50個主題。在多輪迭代計算后獲得50個主題的詞匯分布概率。由于這50個主題可能存在重復主題或無意義主題,因此根據(jù)主題詞匯對其進行人工篩選,即合并表達類似含義的主題、剔除含義模糊的主題,最終一共得到13個主題類別。同時依據(jù)每個主題詞的出現(xiàn)概率,選取出現(xiàn)概率最大的5個詞匯作為每個主題的主題詞并列示在表2中。在參考了國家審計署、審計數(shù)字在線等網(wǎng)站的各板塊標簽詞匯后,本文根據(jù)每組主題詞的含義為每個主題構(gòu)建一個標簽。
從表2可以看出,在所有審計工作主題中,黨建廉政所占新聞報道的比例最高(26.09%),已成為了近年來政府審計工作的重點宣傳內(nèi)容。在該主題下,學習黨章黨規(guī)、領(lǐng)會會議精神是黨建工作的重要內(nèi)容。此外,審計管理改革相關(guān)新聞的占比位列第二(19.82%),這說明近年來政府審計重視審計內(nèi)部管理體制改革,對“人財物”管理方面展開重組調(diào)整。而在審計業(yè)務方面,政府審計重點關(guān)注的類型有民生政策落實審計、自然資源資產(chǎn)離任審計、投資審計、經(jīng)濟責任審計以及精準扶貧審計。此外,政府審計在近年也注重科技創(chuàng)新驅(qū)動和審計信息化建設(shè),利用先進信息技術(shù)提升數(shù)據(jù)分析能力。在實施審計過程中,收集分析數(shù)據(jù)是關(guān)鍵步驟,掌握數(shù)據(jù)分析技術(shù)有利于提高審計質(zhì)量和效率。
為分析對比各主題在每個年份中新聞數(shù)量上的差異,圖3展示了13類審計工作主題從2015—2018年每一年的新聞文本數(shù)量分布情況。總體來說,雖然各主題相關(guān)新聞文本量之間存在差異,但其各年分布較為平穩(wěn),只有黨建廉政主題在2017年出現(xiàn)較大報道量。這是由于2017年為迎接黨的十九大召開,包含審計署在內(nèi)的各部門均重點強調(diào)了黨風廉政建設(shè)。此外,精準扶貧審計和自然資源資產(chǎn)離任審計相關(guān)新聞量每一年都在小幅攀升,由此說明政府審計對這兩種類型的審計業(yè)務關(guān)注度在不斷上升。
(三)政府審計工作重點變化趨勢分析
為進一步細致探究不同主題在各月份被討論的數(shù)量,以期找出政府審計在2015—2018年間工作重點的變化趨勢,本文利用主題河流(Themeriver)模型對政府審計工作主題進行可視化分析。Themeriver圖主要利用“河流”寬度來表示文本數(shù)量,“河流”越寬,文本數(shù)量越大。不同的“河流”顏色代表了不同類型的主題。在圖4中,用不同顏色區(qū)分各類政府審計工作主題,在某一時間點,某主題“河流”越寬,說明該時段政府審計越關(guān)注該主題的審計工作。
從圖4中可以看出,審計創(chuàng)新、審計整改和審計全覆蓋一直是這幾年的審計工作重點,盡管該主題在不同時間段“河流”寬度會有所不同,但這兩項審計工作內(nèi)容貫穿于這四年的始終。與其他主題相比,這兩個主題河流的平均寬度更寬,說明其受重視程度更高;此外,從“河流”的連續(xù)性來看,未出現(xiàn)“斷流”現(xiàn)象,說明政府審計對審計創(chuàng)新和審計整改的關(guān)注保持了持續(xù)性。審計管理改革雖然出現(xiàn)了一小段時間的“斷流”,但總體保持了穩(wěn)定性。由此可見,審計系統(tǒng)內(nèi)部體制改革并不是一蹴而就,而是要根據(jù)實際情況,不斷摸索,找到適合審計自身的管理體制。自然資源資產(chǎn)離任審計是政府審計自2016年以來的一項全新工作,并逐步發(fā)展成為政府審計開展的重點業(yè)務之一。自然資源資產(chǎn)離任審計在“河流圖”中出現(xiàn)的時間點與中央發(fā)布關(guān)于該項審計的試點實施方案的時間基本接近。精準扶貧審計是政府審計重點開展的另一項審計業(yè)務類型,從2016年下半年開始,逐漸成為政府審計關(guān)注的熱點領(lǐng)域。雖然每月與其相關(guān)的信息量不大,說明該項工作進展比較緩慢,但是到了2018年8月以后,圖4中顯示的“河流”寬度逐漸變寬,呈現(xiàn)出加速發(fā)展的態(tài)勢。
五、總結(jié)與展望
本文以2015—2018年審計署官網(wǎng)公開的審計新聞為研究對象,試圖從中窺探近年來政府審計的基本政策方針及未來走勢。為此,本文基于文獻計量學理論,從文本內(nèi)容分類、文本聚類分析與主題演化分析等角度進行定量研究,總結(jié)我國政府審計的工作重點和發(fā)展脈絡(luò),同時實現(xiàn)學科之間的交叉融合。在計量分析過程中,以自然語言處理為分析手段,涉及的研究樣本體量較大、時間跨度較長,內(nèi)容分析細致精準,使得對該類研究的深度和廣度均有進一步提升。
對于政府審計未來工作重點發(fā)展方向,本文認為主要是在堅持審計機關(guān)自身廉政建設(shè)的前提下,重點開展自然資源資產(chǎn)離任審計以及民生政策落實審計;審計機關(guān)還需要加強審計技術(shù)、方式創(chuàng)新,實現(xiàn)審計信息化與智能化;在審計管理體制改革方面,仍然要結(jié)合自身實際情況,穩(wěn)中求進,有所突破。
【參考文獻】
[1] 張會平,梁鑫.政府網(wǎng)站信息提供與公眾獲取的演化博弈分析[J].現(xiàn)代情報,2014(34):6-9,24.
[2] 王兆豐.淺析大數(shù)據(jù)環(huán)境下政務信息公開的利弊[J].才智,2018(26):202-205.
[3] 張龍飛,姚中華,宋漢辰,等.基于Themeriver的可視化技術(shù)發(fā)展綜述[J].系統(tǒng)仿真學報,2013(25):2091-2103.
[4] 鄭小榮,周琦.中國政府審計網(wǎng)絡(luò)媒體報道實證研究[J].會計之友,2018(15):146-152.
[5] 馮梅笑.政府審計信息公開現(xiàn)狀探析[J].科技信息,2009(20):337-338.
[6] 肖瑞利.政府審計信息公開存在的問題與完善路徑[J].會計之友,2014(25):88-90.
[7] 李■帆.省級政府審計信息公開問題研究——以云南省審計廳為例[D].昆明:云南大學碩士學位論文,2018.
[8] 李劍鋒.國家審計結(jié)果公告現(xiàn)狀及存在問題研究——基于2003—2015年審計結(jié)果公告的內(nèi)容分析[D].廈門:廈門大學碩士學位論文,2017.
[9] 段堯清,尚婷,周密.我國政府信息公開政策十年演化分析[J].情報科學,2019(8):3-7,36.
[10] 陶夢玲.我國政府審計文獻計量研究——基于1998—2018年CSSCI檢索論文分析[J].江蘇商論,2019(2):100-102.
[11]張莉.國家審計研究前沿熱點演進的知識圖譜分析 [J].財會月刊,2018(17):119-128.
[12] 傅建剛,羅海霞.2012—2017年P(guān)ubMed收錄包頭地區(qū)醫(yī)學文獻計量分析[J].中國中醫(yī)藥圖書情報雜志,2019(2):27-33.
[13] 胡承立,張韋.基于CSSCI的中國政府網(wǎng)站研究現(xiàn)狀文獻計量分析[J].中國中醫(yī)藥圖書情報雜志,2011(12):159-165.
[14] 李永忠,蔡佳.基于LDA的國內(nèi)電子政務研究主題演化及可視化分析[J].現(xiàn)代情報,2017(37):158-164.
[15] 樊改麗.基于CSSCI的中國政府網(wǎng)站研究現(xiàn)狀文獻計量分析[J].植物檢疫,2018(4):18-25.
[16] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.