◆吳 濤/丹江口市審計(jì)局
隨著政務(wù)公開的逐步推行,今后將有越來越多的信息會(huì)在網(wǎng)絡(luò)上公開,審計(jì)部門數(shù)據(jù)采集的途徑也將會(huì)發(fā)生改變,掌握一種網(wǎng)絡(luò)數(shù)據(jù)采集工具將是每位審計(jì)人員必須具備的能力。在此,筆者以使用八爪魚采集器開展部門預(yù)決算公開審計(jì)為例,簡(jiǎn)述思路和方法,供審計(jì)同仁參考。
在開展丹江口市財(cái)政預(yù)決算政務(wù)信息公開審計(jì)過程中,審計(jì)人員發(fā)現(xiàn)所有預(yù)決算信息公開數(shù)據(jù)均由各預(yù)算單位按照財(cái)政部門要求上傳到該市人民政府網(wǎng)站。由于各預(yù)算單位上傳時(shí)間先后不一,且該版塊還公開有其它信息,審計(jì)取證時(shí)需要審計(jì)人員逐一核對(duì)統(tǒng)計(jì)出預(yù)決算公開的數(shù)量、時(shí)間及內(nèi)容,工作強(qiáng)度較大。如圖1所示。
圖1 預(yù)算信息公開示例
八爪魚采集器是一款通用型網(wǎng)頁采集軟件,采用可視化所現(xiàn)即所得操作,無需專業(yè)人員和編程能力,就可采集任意網(wǎng)頁數(shù)據(jù)。并且可以將采集結(jié)果保存為EXCEL格式,便于根據(jù)審計(jì)需要進(jìn)行數(shù)據(jù)處理。
步驟一:查看采集內(nèi)容范圍。打開信息公開網(wǎng)址(http://www.djk.gov.cn/zwgk/xxgkzl/xxgkml/?itemid=40498),找到待采集數(shù)據(jù),并察看數(shù)據(jù)存放范圍,發(fā)現(xiàn)2018年預(yù)算公開信息存放在第5-9頁。
步驟二:打開八爪魚采集器,輸入數(shù)據(jù)存放網(wǎng)址。這里使用“自定義模式——使用向?qū)J讲杉?,在輸入框中輸入待采集?shù)據(jù)存放網(wǎng)址。如圖2所示。
圖2 輸入待采集數(shù)據(jù)網(wǎng)址
步驟三:選擇采集網(wǎng)頁類型。根據(jù)網(wǎng)頁上數(shù)據(jù)保存的方式,選擇采集的網(wǎng)頁類型,如圖3所示。此處是通過頁面列表鏈接到詳細(xì)頁,因此選擇“網(wǎng)頁列表中每個(gè)鏈接頁的詳細(xì)內(nèi)容”。
圖3 選擇采集網(wǎng)頁類型
步驟四:鏈接列表信息采集。選中數(shù)據(jù)區(qū)域中的第一條信息,點(diǎn)擊鼠標(biāo)右鍵軟件就會(huì)自動(dòng)獲取第一條鏈接信息,然后對(duì)第二條信息進(jìn)行同樣的操作,軟件就自動(dòng)獲取該頁全部鏈接信息。如圖4所示。
圖4 鏈接列表信息采集
步驟五:鏈接頁翻頁設(shè)置。根據(jù)前面對(duì)待采集數(shù)據(jù)觀察可知,此處需要采集前9 頁數(shù)據(jù),因此選擇“需要翻頁”。用鼠標(biāo)單擊頁面列表后面的指定“翻頁按鈕或鏈接”,并指定翻頁9次后停止。如圖5所示。
圖5 鏈接頁翻頁設(shè)置
步驟六:詳細(xì)頁待采集字段設(shè)置。在打開的詳細(xì)頁里,在頁面待采集項(xiàng)上點(diǎn)擊鼠標(biāo)右鍵選擇采集字段。在這里由于存在附件,因此分別采集了附件名稱和附件鏈接,進(jìn)一步對(duì)附件內(nèi)容進(jìn)行審核。如圖6所示。
圖6 詳細(xì)頁待采集字段設(shè)置
步驟七:采集數(shù)據(jù)到EXCEL。選擇“啟動(dòng)本地采集”即可采集網(wǎng)頁數(shù)據(jù),并將結(jié)果保存到EXCEL表格中。采集結(jié)果如圖7所示。
圖7 數(shù)據(jù)采集結(jié)果
步驟八:整理采集數(shù)據(jù)。對(duì)采集的數(shù)據(jù)按審計(jì)需求進(jìn)一步整理,剔出無用數(shù)據(jù),發(fā)現(xiàn)部分單位存在信息公開時(shí)間不符合規(guī)定,未上傳信息公開規(guī)定的相關(guān)表格等問題。如圖8所示。
圖8 整理后的采集結(jié)果
該工具雖然解決了審計(jì)人員批量獲取網(wǎng)頁數(shù)據(jù)的難點(diǎn),但也存在以下不足:一是不能限定采集頁面的起始范圍,只能采集一定范圍內(nèi)的所有頁面數(shù)據(jù)。二是不能自動(dòng)過濾關(guān)鍵詞,需對(duì)采集結(jié)果進(jìn)行二次處理。三是只能抓取附件名稱和鏈接,而不能自動(dòng)下載附件。