劉洋 田富軍
摘 要:習(xí)近平總書記在中央審計(jì)委員會(huì)第一次會(huì)議上指出:要堅(jiān)持科技強(qiáng)審,加強(qiáng)審計(jì)信息化建設(shè)。為探索實(shí)現(xiàn)審計(jì)方法由“數(shù)據(jù)驗(yàn)證型”向“數(shù)據(jù)挖掘型”轉(zhuǎn)變,審計(jì)目標(biāo)從“查糾錯(cuò)弊”向“風(fēng)險(xiǎn)控制”轉(zhuǎn)變,文章以主題網(wǎng)絡(luò)爬蟲和數(shù)據(jù)可視化分析技術(shù)為基礎(chǔ),設(shè)計(jì)了審計(jì)大數(shù)據(jù)采集分析框架,而后以軍隊(duì)采購網(wǎng)為對(duì)象進(jìn)行實(shí)例分析,挖掘軍隊(duì)招標(biāo)采購中易發(fā)、頻發(fā)問題的規(guī)律,為今后審計(jì)工作實(shí)現(xiàn)“精確制導(dǎo)”提供有力支撐,充分展示大數(shù)據(jù)信息技術(shù)在提升審計(jì)效率,助力審計(jì)高質(zhì)量創(chuàng)新發(fā)展具有重要意義。
關(guān)鍵詞:大數(shù)據(jù)審計(jì) 網(wǎng)絡(luò)爬蟲 數(shù)據(jù)可視化 審計(jì)規(guī)律
中圖分類號(hào):F239.1
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1004-4914(2022)01-115-02
大數(shù)據(jù)審計(jì)的總體思路是“總體分析、系統(tǒng)研究、發(fā)現(xiàn)疑點(diǎn)、分散核實(shí)、精確打擊”,目前,利用大數(shù)據(jù)技術(shù)搜尋審計(jì)證據(jù)、確定審計(jì)事實(shí)的“分散核實(shí)”研究較多,但是利用大數(shù)據(jù)技術(shù)發(fā)掘?qū)徲?jì)問題規(guī)律,提供方向指引的“總體分析、系統(tǒng)研究”卻很少,實(shí)例應(yīng)用研究更是少見。因此,研究運(yùn)用大數(shù)據(jù)信息技術(shù)打破“信息孤島、數(shù)據(jù)繭房”桎梏,推動(dòng)大數(shù)據(jù)審計(jì)由“數(shù)據(jù)驗(yàn)證型”向“數(shù)據(jù)挖掘型”轉(zhuǎn)變具有重要研究意義和現(xiàn)實(shí)意義。
一、技術(shù)背景
1.主題網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲技術(shù)是一種面向萬維網(wǎng),通過運(yùn)行預(yù)設(shè)的程序或腳本,實(shí)現(xiàn)客戶端(瀏覽器)和服務(wù)端(服務(wù)器)之間自動(dòng)交互,完成對(duì)萬維網(wǎng)特定網(wǎng)頁特定內(nèi)容自動(dòng)、精準(zhǔn)、大范圍抓取的一種技術(shù)。網(wǎng)絡(luò)爬蟲主要有通用型、主題(聚集)型、優(yōu)先型、增量型、深層型等不同類型。有別于通用網(wǎng)絡(luò)爬蟲,主題網(wǎng)絡(luò)爬蟲不是漫無目的地在網(wǎng)絡(luò)上爬取足夠多的頁面,而是根據(jù)設(shè)定目標(biāo),根據(jù)網(wǎng)頁中標(biāo)題、關(guān)鍵詞、文本內(nèi)容等具有代表性的信息,結(jié)合適當(dāng)?shù)木W(wǎng)頁篩選策略,過濾掉與主題無關(guān)的網(wǎng)頁,將與主題相關(guān)的鏈接存入待爬取的URL隊(duì)列進(jìn)行爬取。運(yùn)用PageRank、HillTop等搜索策略,使爬蟲有次序、有目的地搜索,保證主題爬蟲選擇更合理的爬行路徑,高效地完成網(wǎng)頁爬取任務(wù)。獲取到網(wǎng)頁源文件后,根據(jù)需求篩選網(wǎng)頁上有效數(shù)據(jù),結(jié)合數(shù)據(jù)處理的難易程序,選擇適當(dāng)?shù)母袷酱鎯?chǔ)數(shù)據(jù),常見的存儲(chǔ)格式有CSV、Excel、Html等。實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲的工具主要有兩類:可編程的工具,如R、Python等;另一類是現(xiàn)成的爬蟲工具,如:八爪魚。
2.數(shù)據(jù)可視化。象形文字的出現(xiàn)表明:通過圖形圖像獲取信息是人類獲取信息最原始、最直觀、最高效的方式,常言道:一圖勝千言。大數(shù)據(jù)可視化分析技術(shù)是從人作為分析主體和需求的視角出發(fā),強(qiáng)調(diào)基于人機(jī)交互的、符合人的認(rèn)知規(guī)律的分析方法,目的是將人所具備的、機(jī)器并不擅長(zhǎng)的認(rèn)知能力融入數(shù)據(jù)分析過程中。大數(shù)據(jù)可視化分析技術(shù)包括文本可視化技術(shù)、多維數(shù)據(jù)可視化技術(shù)、網(wǎng)絡(luò)可視化技術(shù)、時(shí)空可視化技術(shù)等,其主要表現(xiàn)方式有標(biāo)簽云、柱狀圖、折線圖、散點(diǎn)圖、氣泡圖、熱力圖、雷達(dá)圖等。常用的大數(shù)據(jù)可視化分析工具主要有兩類:一類是開源的、可編程的工具,如R、Python等;另一類是商業(yè)化軟件分析工具,如Tableau、SAS等。
二、審計(jì)數(shù)據(jù)采集分析框架構(gòu)建
審計(jì)數(shù)據(jù)采集分析框架主要包含:審計(jì)數(shù)據(jù)采集模塊、審計(jì)數(shù)據(jù)可視化展示、審計(jì)規(guī)律分析三個(gè)模塊。
1.審計(jì)數(shù)據(jù)采集模塊。審計(jì)數(shù)據(jù)采集前,需要以審計(jì)計(jì)劃、審計(jì)目標(biāo)需求為牽引,對(duì)需要采集的目標(biāo)數(shù)據(jù)進(jìn)行預(yù)定義,確定采集方向,以確保采集數(shù)據(jù)準(zhǔn)確有效,避免浪費(fèi)人力物力。比如,在審計(jì)中需要核實(shí)參與軍隊(duì)采購?fù)稑?biāo)人的資質(zhì)是否符合要求,就需要從工商、稅務(wù)、行政處罰等數(shù)據(jù)為目標(biāo)進(jìn)行采集。在確定了采集的目標(biāo)后,需尋找能夠完成審計(jì)目標(biāo)的可靠數(shù)據(jù)來源,如:官方發(fā)布的可靠數(shù)據(jù),軍隊(duì)、政府部門的公開網(wǎng)站(如:工商、稅務(wù)、政府、軍隊(duì)行政處罰等),民間有公信力的數(shù)據(jù)提供方(如:天眼查、企查查),企業(yè)的官方網(wǎng)站等。確定了數(shù)據(jù)來源之后,需要對(duì)目標(biāo)網(wǎng)站的結(jié)構(gòu)特征進(jìn)行分析,根據(jù)網(wǎng)站的個(gè)性,編寫爬蟲程序,然后根據(jù)網(wǎng)頁的特點(diǎn),結(jié)合審計(jì)需求,抓取有效數(shù)據(jù)。最后,將所獲取的數(shù)據(jù)根據(jù)下步使用需要,采取不同的方式進(jìn)行存儲(chǔ)。
2.審計(jì)數(shù)據(jù)可視化展示模塊。大數(shù)據(jù)環(huán)境下,采集來的審計(jì)數(shù)據(jù)在數(shù)量和復(fù)雜程度上都對(duì)審計(jì)數(shù)據(jù)分析帶來巨大挑戰(zhàn),如何從包含大量干擾因素的數(shù)據(jù)中提煉有效信息,揭示未知的或驗(yàn)證已知的規(guī)律,為審計(jì)人員做出審計(jì)決策提供數(shù)據(jù)支持,實(shí)現(xiàn)“精確制導(dǎo)”下的“精確打擊”,是大數(shù)據(jù)時(shí)代背景下審計(jì)工作必須解決的問題。數(shù)據(jù)可視化技術(shù)助于審計(jì)人員探索分析和解釋復(fù)雜的海量數(shù)據(jù),將采集到的審計(jì)數(shù)據(jù)轉(zhuǎn)化為圖形和圖像后,審計(jì)人員可結(jié)合自身的審計(jì)知識(shí)和實(shí)踐經(jīng)驗(yàn),通過直觀感知,進(jìn)而從總體上系統(tǒng)理解和分析所獲取的審計(jì)數(shù)據(jù)的內(nèi)涵特征。此外,審計(jì)人員還可交互地改變可視化軟件的設(shè)置,輸出不同類別的圖形、圖像,多角度地分析審計(jì)數(shù)據(jù)。
3.審計(jì)規(guī)律分析模塊。在經(jīng)過采集數(shù)據(jù)的可視化展示后,根據(jù)數(shù)據(jù)分析展示的結(jié)果的直觀感受結(jié)合自身的審計(jì)知識(shí)與審計(jì)實(shí)踐經(jīng)驗(yàn),從中分析出數(shù)據(jù)所蘊(yùn)含其中的規(guī)律,從而根據(jù)發(fā)現(xiàn)的規(guī)律把握今后審計(jì)工作的方向,有力提升審計(jì)效率,指導(dǎo)審計(jì)實(shí)踐。
三、基于軍隊(duì)采購網(wǎng)實(shí)例運(yùn)用
“軍隊(duì)采購網(wǎng)”是中央軍委后勤保障部針對(duì)部隊(duì)集中采購量大、采購需求分散等難題,專門建立的網(wǎng)上采購平臺(tái),該平臺(tái)堅(jiān)持“公正公開,陽光透明,服務(wù)部隊(duì),保障打贏”的原則,為提升部隊(duì)?wèi)?zhàn)斗力發(fā)揮積極作用,通過幾年的運(yùn)行,軍隊(duì)采購網(wǎng)積累了相當(dāng)數(shù)量的數(shù)據(jù),具備了大數(shù)據(jù)分析基礎(chǔ)。在實(shí)際運(yùn)行中,少部分無良供應(yīng)商采用違規(guī)手段非法獲取訂單,給部隊(duì)?wèi)?zhàn)斗力提升帶來不利影響,為此主管部門主動(dòng)作為,懲處了采購活動(dòng)中的違法失信行為,并在“軍隊(duì)采購失信名單”欄目公示了近幾年來所有的違法失信行為查處情況。若能對(duì)近幾年所有違法失信行為進(jìn)行“總體分析、系統(tǒng)研究”,發(fā)掘具有傾向性的高發(fā)、頻發(fā)違法失信行為,并以分析結(jié)果為錨定問題線索,將為“精確打擊”提供有效指引。下面以Python語言為工具,運(yùn)用審計(jì)數(shù)據(jù)采集分析框架來實(shí)現(xiàn)預(yù)期目標(biāo)。
1.審計(jì)數(shù)據(jù)采集。根據(jù)審計(jì)目標(biāo)需求,以軍隊(duì)采購網(wǎng)為目標(biāo)網(wǎng)站,以“軍隊(duì)采購失信名單”網(wǎng)頁數(shù)據(jù)為目標(biāo)數(shù)據(jù),分析違法失信行為,發(fā)掘具有傾向性的問題規(guī)律,確定初始URL為:https://www.plap.cn/supplierCr/common/list.html。通過對(duì)該網(wǎng)頁進(jìn)行分析發(fā)現(xiàn)該網(wǎng)頁設(shè)置了反爬措施,無法直接獲取相關(guān)數(shù)據(jù),本次數(shù)據(jù)獲取需采用偽裝成真實(shí)用戶訪問網(wǎng)頁的方式獲取數(shù)據(jù)。通過調(diào)用request.post方法獲取網(wǎng)頁源文本并實(shí)現(xiàn)自動(dòng)翻頁,而后調(diào)用BeatifulSoup來解析獲取到的源文本,根據(jù)網(wǎng)頁數(shù)據(jù)排列特征,篩選出<tr>標(biāo)簽下的信息,最后將獲取數(shù)據(jù)按Excel格式存儲(chǔ)。
2.審計(jì)數(shù)據(jù)可視化分析展示。(1)文本可視化。經(jīng)綜合考量,本次實(shí)例分析采用文本可視化技術(shù)最為合適。大數(shù)據(jù)環(huán)境下,大量的文本數(shù)據(jù)使審計(jì)人員進(jìn)行分析的難度越來越大,傳統(tǒng)的瀏覽和篩選等方法無法滿足大數(shù)據(jù)環(huán)境下非結(jié)構(gòu)化數(shù)據(jù)審計(jì)的需要。將文本的內(nèi)容或規(guī)律以視覺符號(hào)的形式展示給審計(jì)人員,有助于審計(jì)人員利用視覺感知的優(yōu)勢(shì)來快速獲取大數(shù)據(jù)中蘊(yùn)含的重要信息,從而發(fā)現(xiàn)審計(jì)線索。文本可視化技術(shù)的意義在于能夠?qū)⑽闹兄刑N(yùn)含的語義特征(如詞頻、重要程度、動(dòng)態(tài)演化規(guī)律、邏輯結(jié)構(gòu)等)直觀地展示出來。標(biāo)簽云(tag cloud)是一種典型的文本可視化技術(shù),可以將關(guān)鍵詞根據(jù)詞頻或其他規(guī)則進(jìn)行排序,按照一定的規(guī)律進(jìn)行布局排列,用字體大小、顏色深淺等易于視覺感知的圖形屬性對(duì)關(guān)鍵詞進(jìn)行可視化展示,進(jìn)而快速直觀地掌握文本的要點(diǎn),發(fā)現(xiàn)審計(jì)線索。(2)設(shè)置停用詞庫。在實(shí)際的分析展示中發(fā)現(xiàn),直接以源文本生成標(biāo)簽云詞圖,部分詞頻較高,卻無法體現(xiàn)具體的違法失信行為的無效詞會(huì)出現(xiàn)在云詞圖中,干擾標(biāo)簽云詞圖展示效果,致使真正違法失信具體行為被掩蓋,如:“根據(jù)”“公司”“依據(jù)”“違規(guī)違紀(jì)”“相互”“提供”等詞。為此,為實(shí)現(xiàn)分析目的,本次分析建立了無效詞集合的停用詞庫,在分析中統(tǒng)計(jì)詞頻時(shí)屏蔽停用詞庫內(nèi)的詞語,排除無效詞干擾,得到更加精準(zhǔn)有效的展示效果,實(shí)現(xiàn)預(yù)期分析目標(biāo)。(3)生成標(biāo)簽去詞圖。以獲取到的“嚴(yán)重違法失信行為的具體情形”為源文本,調(diào)用jieba分詞庫,把源文本的句子全部切分為單獨(dú)的詞語,形成一個(gè)由詞語組成的文件,而后統(tǒng)計(jì)詞頻。根據(jù)分詞及詞頻統(tǒng)計(jì)結(jié)果,調(diào)用wordcloud庫生成標(biāo)簽云詞圖。
3.審計(jì)規(guī)律分析。(1)通過爬蟲得到采集數(shù)據(jù)結(jié)果,可以看出,主題爬蟲腳本成功實(shí)現(xiàn)了目標(biāo)數(shù)據(jù)獲取,得到軍隊(duì)采購失信名單欄目數(shù)據(jù),為下步分析,提供數(shù)據(jù)支撐。同時(shí),獲取的失信公司名稱,處罰結(jié)果等數(shù)據(jù)對(duì)于審計(jì)工作也有較大現(xiàn)實(shí)意義,比如:在審計(jì)中若對(duì)參加的投標(biāo)人、投標(biāo)公司是否因曾經(jīng)受過處理或在處罰影響期內(nèi)違規(guī)參加采購招標(biāo)活動(dòng)有疑問,可快速檢索比對(duì)實(shí)現(xiàn),進(jìn)而發(fā)現(xiàn)是否違規(guī)。(2)通過生成的標(biāo)簽云詞圖,可以直觀明了地發(fā)現(xiàn):“虛假”“串通”“圍標(biāo)”“串標(biāo)”這幾個(gè)詞語明顯大于其他詞語,色彩鮮艷,對(duì)比度高,直入眼簾,表明:在軍隊(duì)招投標(biāo)采購中使用虛假文件,投標(biāo)人之間圍標(biāo)、串標(biāo),招標(biāo)人與投標(biāo)人相互串通是最主要、最普遍、最易發(fā)、高發(fā)的違規(guī)失信行為,在今后的招標(biāo)采購審計(jì)中可以上述幾個(gè)問題重要錨點(diǎn)進(jìn)行審計(jì),重點(diǎn)關(guān)注此類的問題。其次,“核減”“工程造價(jià)”“上限”“轉(zhuǎn)包”“虛高”等詞語也較為突出,表明在工程造價(jià)超上限,違規(guī)轉(zhuǎn)包,價(jià)格虛高等問題還一定程度存在,在今后的審計(jì)中也應(yīng)該關(guān)注此類情形。(3)通過數(shù)據(jù)分析展示,得到了可靠的結(jié)果,較好地貫徹了大數(shù)據(jù)審計(jì)“總體分析、系統(tǒng)研究、發(fā)現(xiàn)疑點(diǎn)、分散核實(shí)、精確打擊”的思路。實(shí)現(xiàn)了審計(jì)方向從依靠審計(jì)人員依靠長(zhǎng)期審計(jì)實(shí)踐小樣本經(jīng)驗(yàn)的“經(jīng)驗(yàn)導(dǎo)向型”審計(jì)向依托大數(shù)據(jù)分析發(fā)掘規(guī)律的“數(shù)據(jù)支撐型”審計(jì)的轉(zhuǎn)變,拓寬了大數(shù)據(jù)信息技術(shù)的在審計(jì)實(shí)踐中的應(yīng)用邊界,有力驗(yàn)證了審計(jì)數(shù)據(jù)采集分析框架的有效性。
四、總結(jié)與展望
隨著大數(shù)據(jù)時(shí)代的深入發(fā)展,審計(jì)必將從“查糾錯(cuò)弊式的回頭看”向“風(fēng)險(xiǎn)預(yù)警式的提前管”發(fā)展,這些發(fā)展必將以高質(zhì)量的數(shù)據(jù)采集分析為基礎(chǔ)?!肮び破涫?,必先利其器”,大數(shù)據(jù)信息技術(shù)就是這樣一把“利器”。面對(duì)現(xiàn)實(shí)中更加復(fù)雜的審計(jì)實(shí)踐,還需大力推進(jìn)人工智能、5G、物聯(lián)網(wǎng)、量子科技、區(qū)塊鏈、高性能計(jì)算等信息技術(shù)與審計(jì)深度融合賦能,向前沿信息技術(shù)要審計(jì)戰(zhàn)斗力,解決當(dāng)前審計(jì)面臨的矛盾和痛點(diǎn),開創(chuàng)智能化主導(dǎo)、融合式聚變新局面,不斷推進(jìn)新時(shí)代審計(jì)高質(zhì)量發(fā)展。
參考文獻(xiàn):
[1] 徐超.大數(shù)據(jù)背景下審計(jì)數(shù)據(jù)采集技術(shù)與方法研究[J].會(huì)計(jì)之友,2020(19):114-119.
[2] 吳則建.主題網(wǎng)絡(luò)爬蟲在商業(yè)銀行內(nèi)部審計(jì)中的應(yīng)用[J].中國(guó)內(nèi)部審計(jì),2019(11):50-53.
[3] 陳偉.基于大數(shù)據(jù)可視化技術(shù)的信息系統(tǒng)AC審計(jì)[J].會(huì)計(jì)之友,2020(1):120-121.
[4] 陳偉,居江寧.基于大數(shù)據(jù)可視化技術(shù)的審計(jì)線索特征挖掘方法研究[J].審計(jì)研究,2018(1):16-21.
[5] 孟兵,李杰臣.零基礎(chǔ)學(xué)Python爬蟲、數(shù)據(jù)分析與可視化從入門到精通[M].機(jī)械工業(yè)出版社,2020:1-200.
[6] 張寶剛.基于Python的網(wǎng)絡(luò)爬蟲與反爬蟲技術(shù)的研究[J].電子世界,2021(4):86-87.
(作者單位:中國(guó)人民解放軍陸軍勤務(wù)學(xué)院 重慶 400000)
(責(zé)編:賈偉)