吳琛華
[摘 要]當前,招標形式多樣,招標風險存在于各個環(huán)節(jié)。為有效防范招標風險,企業(yè)需要提前識別各個階段的風險因素,并采取有效的審計手段支持招標項目的開展。本文重點研究了企業(yè)審計大數據可視化建模分析系統(tǒng),采用微服務容器化技術和大數據分析技術,通過將手寫SQL才能進行的數據分析任務遷移到簡單的可視化配置中,使得幾乎沒有任何開發(fā)經驗的業(yè)務人員也能快速地進行審計風險分析。這種基于技術創(chuàng)新的方法為提高審計效率、確保招標項目順利開展提供了有力支持。
[關鍵詞]審計;招標;大數據;可視化建模;系統(tǒng);設計;實現;風險管理
doi:10.3969/j.issn.1673-0194.2023.13.013
[中圖分類號]F239;TP311 [文獻標識碼]A [文章編號]1673-0194(2023)13-0046-05
0? ? ?引 言
如今,我國招投標形式呈現多樣化、標準化、國際化的趨勢,招投標風險管理一直備受關注。由于招投標風險是客觀存在的,有一定的必然性和可變性。例如在招投標的計劃階段、立項階段、發(fā)標階段、投標階段、開標階段、評標階段、定標階段、合同階段等,存在著各式各樣的法律風險、人員風險、經濟風險與合同風險,這些風險隨著招標項目的進行而呈現不同的特性。企業(yè)需要提前識別各個階段的風險因子,然后采取行之有效的審計手段,如此才能確保招投標項目的順利進行。本文旨在利用大量的招投標數據構建風險模型,以提高風險識別的準確度。我們實現了一套企業(yè)審計大數據可視化建模分析系統(tǒng),該系統(tǒng)結合招投標行業(yè)的專業(yè)知識,充分挖掘數據價值,提升審計人員的工作效率,實現招投標全流程的智能化分析。
1? ? ?研究現狀
傳統(tǒng)的招投標風險分析主要依賴審計人員的自身經驗或者他人提供的情報線索,對某個招標項目或者某個招標單位進行調查取證,缺乏風險審計的完整性、無法固化風險模型。目前大多數的招投標風險管理是基于某個階段或者某個時間點進行風險管控,而將招投標理論應用到全量歷史數據和項目全過程的研究卻不多。當招投標系統(tǒng)不斷更新迭代且數據量不斷膨脹時,現有的工具無法適應系統(tǒng)變化而導致的數據結構的變更。另一方面,在不同的招標項目、不同的環(huán)境、不同的階段,招投標風險因子并不是一成不變的。
為了應對上述動態(tài)且定制化的建模需求,本文基于領域知識的建模分析能力和可移植、可擴展的技術,旨在促進審計行業(yè)從傳統(tǒng)的人工風險識別向數字化和智能化的方向轉變,以實現企業(yè)資源的優(yōu)化配置。
2? ? ?系統(tǒng)架構設計
下面我們將詳細闡述本系統(tǒng)的架構設計及實現,圖1展示了企業(yè)審計大數據可視化建模分析系統(tǒng)的總體架構設計,該架構分為三大功能:基礎組件體系、數據體系、安全體系。為了處理海量的數據,本架構設計之初便考慮了高擴展性、高可用性。將執(zhí)行功能剝離為智能調度,基于動態(tài)負載均衡算法避免造成任務堆積、服務崩潰。安全體系是為了確保系統(tǒng)安全、數據安全不可或缺的一部分。
在對本系統(tǒng)的架構有了初步的了解后,我們將重點介紹可視化建模中的幾個關鍵步驟,即數據接入、數據探索、數據質量管理、數據標準化、交互界面設計、業(yè)務算子,他們是本系統(tǒng)的核心功能。
2.1? ?數據接入
數據接入,獲取數據是數據建模的基礎。不同的行業(yè)有著形式多樣的數據源,只有探查出數據源的存儲位置、結構信息、業(yè)務用途等信息,才能進行數據接入。通過對源數據進行全方位的探查來認識數據,根據探查的結果定義源數據到目標系統(tǒng)的讀取策略,采用畫板的形式動態(tài)讀取路徑。根據探查和讀取定義的結果,對各種異構數據進行必要的解壓、解密、字符集轉換等操作,實現從源系統(tǒng)讀取數據或接受讀取源系統(tǒng)推送的數據并檢查數據是否與數據定義一致,不一致則停止接入。對于RDBMS關系型數據庫數據源,利用通用接口DatabaseMetaData獲取數據庫的元數據信息;對于Kafka等消息隊列數據源,通過Consumer客戶端獲取隊列的元數據信息;對于Http接口數據源,通過Http請求Response獲取元數據信息。通過構造不同的數據源探查插件,動態(tài)高效地支撐大數據智能化的數據探查。
2.2? ?數據探索
由于原始數據是雜亂無章的,針對數據進行可視化的探索變得尤為重要。探索性的數據分析,側重于原始數據本身的展示,因此與數據可視化具有相當緊密的聯系,并且圖形展示更直觀且有利于發(fā)現有價值的信息。信息時代之下,數據爆發(fā)式增長,使得數據分析與可視化的需求不斷增長。通過圖形化的方式呈現數據,數據可視化可以幫助人們更快地理解數據中的模式、趨勢、異常,從而提升數據分析的效率、把握數據的價值和內涵[1]。簡而言之,描述趨勢使用折線圖,描述數量使用柱狀圖(且必須從 0 開始),描述關系使用散點圖,描述比例使用餅狀圖。
2.3? ?數據質量管理
數據質量是數據分析結論有效性和準確性的基礎也是最重要的前提和保障。然而數據卻是把雙刃劍,它能帶來巨大價值的同時也是各行業(yè)領域最大的風險來源。
數據質量問題包括:①數據的完整性和準確性。數據明顯缺失、空值和缺失值、關鍵字段或信息的缺失、多表字段統(tǒng)計值不一致。②數據的唯一性。不同來源的數據出現重復的情況、主鍵字段存在重復的情況。③數據的權威性。同一個指標出現多個來源的數據且數值不一樣。④數據的合法性。獲取的數據與常識不同、字段長度不滿足預期、字段的值不滿足正則校驗(手機號、郵箱、時間、稅號等)、字段的值不在枚舉值的范圍內。⑤數據一致性。所發(fā)生的數據格式或單位不一致。⑥數據的及時性。數據在預期時間內沒有處理完成。
數據質量分析方法:①業(yè)務知識判斷數據是否在合理范圍;②總記錄數;③0值數/0值占比;④唯一值的數量;⑤空值數/空值占比;⑥最小值、最大值、平均值、方差、中位數及各分位數(箱線圖)、偏度、峰度、眾數;⑦基本數據類型;⑧最小、最大和平均長度;⑨異常值分析;⑩數值的精度和范圍;頻次與直方圖分析;數據分布是否對稱、是否符合正態(tài)分布;3σ原則;重復記錄的數量/占比。
2.4? ?數據標準化
數據標準管理主要目的在于規(guī)范產業(yè)數據的標準,如果待治理的產業(yè)數據之間屬性信息一致,但定義與描述各不相同,那么將難以保障產業(yè)數據治理的準確性[2]。為了使用統(tǒng)一的規(guī)范來約束企業(yè)內外部的數據,數據標準用以描述企業(yè)的數據含義與業(yè)務規(guī)則。實現企業(yè)管理數據的規(guī)范性、完整性、共享性、有效性,為數據資產的管理提供參考依據。
標準元素:也稱數據源,是數據標準的最小粒度,由一組屬性規(guī)定其標識、名稱、定義、類型、長度、允許值、質量規(guī)則的數據單元。一般定義需要參考國家標準、行業(yè)標準、企業(yè)標準,并經審核才能進行使用。
標準數據集:由一系列標準元素共同組成的集合。用以描述不同業(yè)務的業(yè)務規(guī)則、邏輯。
數據對標:通過自動對標或人工對標,將數據接入的外部數據集映射到標準數據集。
數據接入的數據格式是五花八門的,必須要經過標準化處理才能形成平臺的標準數據。
2.5? ?交互界面設計
對于傳統(tǒng)的大數據建模方式,一般是基于SQL引擎進行SQL腳本的開發(fā)。
本系統(tǒng)用戶可實現全程可視化操作,通過簡單的拖拉拽即可完成數據模型的搭建。交互界面主要包括模型的創(chuàng)建過程,定義模型的規(guī)則、風險主體、運行周期等信息。基于交互界面,用戶只需要知道基礎的模型定義過程,即可一站式地完成數據模型創(chuàng)建、模型分析、模型運行、模型上線,屏蔽了底層的模型解析、模型數據流。
首先對接標準化之后的數據集,對各個標準數據集進行關聯映射。關聯方式包括LEFT JOIN、RIGHT JOIN、INNER JOIN、FULL JOIN、SEMI JOIN。關聯
的字段通過拖拉拽的方式進行左右關聯。
模型的具體配置包括風險等級的定義、條件的定義、分類的選擇、指標的確定、規(guī)則的設置。通過左側的標準元素和右側的各類算子控件進行各種自由組合以構建模型的業(yè)務邏輯。模型運行時將根據模型配置解析為一串工作流,方便對每一步模型運行進行調試。對于無法使用簡單的拖拉拽方式配置的數據模型,平臺提供了自定義SQL建模的方式。
預警配置支持對不同的風險主體設置自定義的預警推送。包括風險主體的選擇、積分方式的定義、風險管理組的分配。
調度配置支持模型按規(guī)則運行,支持次、年、月、
日、周、小時方式運行。包括調度名稱、預警選擇、調度狀態(tài)、調度周期。解決在大規(guī)模數據和大量工作流程下,對資源高效、合理利用的問題。
模型配置完成之后,可以通過測試、抽樣來最終確認配置的正確與否。
2.6? ?業(yè)務算子
企業(yè)大數據可視化建模分析系統(tǒng)提供了豐富的算子資源供用戶使用。根據用戶建模的習慣以及建模的常用流程,提供了九類算子,包括統(tǒng)計算子、字符算子、算術算子、基礎算子、日期算子、條件算子、邏輯算子、AI算子、文件算子,并支持動態(tài)增加算子類型。不同類型的算子可滿足各種模型在任意階段對數據處理、數據分析、數據挖掘的需求。類別可以按需進行自定義,自定義分類需要提供類別字段及訓練數據集。
3? ? ?系統(tǒng)實現與效果評價
按照本文提出的設計方案,我們進行了編碼實現。在開發(fā)運維一體化(DevOps)平臺的基礎上,搭建起K8S微服務環(huán)境、Hadoop大數據環(huán)境和知識圖譜構建環(huán)境,實現了快速構建和部署定制化的大數據處理分析微服務組件。這使得我們形成了一個可擴展、可移植的應用框架,適用于多系統(tǒng)、多平臺環(huán)境下進行可視化建模分析。
在微服務架構下,我們按照最佳實踐原則,以適當的力度對系統(tǒng)功能進行拆分,形成一系列可復用的可視化建模分析微服務組件庫。這些組件庫包括以下幾種組件,如基礎服務模塊,包括身份認證、權限管理、系統(tǒng)日志、用戶中心、多語言、日志審計等功能;數據接入模塊,包括數據源管理,數據文件,數據集市,任務配置,調度執(zhí)行,資源中心;數據標準模塊,包括元素標準、字典標準、數據集標準;數據建模模塊,包括模型列表、預警列表、調度列表、風險管理組;預警分析模塊,包括風險預警統(tǒng)計、風險庫匯總、處置列表展示,主要分為風險地圖、風險庫、處置列表。
該系統(tǒng)數據模型基于Hadoop的數據倉庫工具Hive,方便用來查詢和分析大規(guī)模的分布式數據。通過可視化界面,初步建立了抽象的流程模型,底層經過進一步的算子解析、優(yōu)化和精簡得到可執(zhí)行的DAG業(yè)務鏈。然后,我們提取出業(yè)務鏈與數據鏈中的關鍵屬性,自動構建出HSQL語句,而無須編寫復 雜的MapReduce代碼。最后驅動程序將Stage發(fā)送到集群中執(zhí)行,任務調度器負責資源協(xié)調并處理依賴關系,最終形成基于某類風險主體的全面數據。
下面我們根據數據建模的目標,選擇合適的分析方法或算法。
3.1? ?實驗1——數據離散度建模
在招投標過程中,專家評標分析階段可能會產生投標企業(yè)與評標專家串通投標的行為。通過利益輸送,評標專家對投標企業(yè)的評分遠遠高于標段內的評標平均分??梢酝ㄟ^專家傾向性和專家打分偏差度進行建模分析,對超過一定傾向性比例和偏差度的投標企業(yè)預警。
在招投標過程中,投標報價階段投標企業(yè)會串通其他投標企業(yè)以高價或者低價投標,使標段內的所有投標企業(yè)的投標均價與自身的投標報價相近,以此來提高中標概率。通過對投標報價數據離散度建模分析,對報價超過一定偏離度的投標企業(yè)進行預警。
3.2? ?實驗2——異常行為建模
投標企業(yè)中標率偏高或偏低都屬于異常行為。通過分析單個投標企業(yè)所有投標記錄和所有中標記錄,得出投標企業(yè)的中標率。中標率偏低可能存在陪標的風險,中標率偏高可能存在串標的風險。對接招投標公開數據,如果發(fā)現中標率偏低的單位在投標單位注冊地中標率偏高,則有很大的概率說明這些投標企業(yè)存在借殼投標的行為。
3.3? ?實驗3——技術指標雷同建模
通過提取投標企業(yè)電子標書的電子信息。例如電子文件創(chuàng)建用戶、文件創(chuàng)建/修改時間戳、電子文件制作機器碼、電子文件創(chuàng)建標識碼。對同一標段下電子標書的隱藏信息進行分析比對,找出異常數據。
3.4? ?實驗4——供應商同源建模
關系圖譜是在大量數據集合中,按照一定的規(guī)則或規(guī)律,通過特定的算法對數據進行分析,從而發(fā)現不同事物中蘊含的關系,并將事物進行關聯,最終形成的數據網絡[3]。借助關系圖譜對招投標數據進行建模分析及可視化展示,從不同的維度,挖掘出隱含在不同數據中的關聯關系。我們要構建的關系圖譜包含的企業(yè)名稱、地址等信息通常不是精確的值。比如:北京市西直門外大街112號和北京市西城區(qū)西直門外大街112號,如果將這兩個地址映射為兩個實體的話,這兩個實體是沒有任何關聯關系的。為了消除實體歧義,就需要對歧義實體進行相似度計算,利用TF-IDF算法進行處理。
投標企業(yè)法人、投標企業(yè)負責人、投標企業(yè)負責人聯系電話、投標企業(yè)注冊地址、投標企業(yè)統(tǒng)一社會信用代碼等一般歸屬于某家投標企業(yè),如果出現在不同的投標企業(yè)中,很大程度上反映出企業(yè)之間的關聯密切,同時結合企業(yè)歷史投標記錄,分析投標企業(yè)在不同項目或者不同標段下的投標信息,挖掘出兩兩企業(yè)的潛在聯系,即投標企業(yè)存在同源關系或者說存在圍串標風險。
綜合以上的實驗來看,該企業(yè)審計大數據可視化建模分析系統(tǒng)憑借其多元需求場景考慮、強大的功能以及易用性,足以滿足大多數場景下的建模需求。
4? ? ?結束語
本文基于大數據技術,設計并實現了一套企業(yè)審計大數據可視化建模分析系統(tǒng),包括了數據接入、數據清洗、數據轉換、數值質量檢查、數據標準、數據建模、數據可視化等模塊。自該系統(tǒng)上線以來,已成功建設了上百個模型,節(jié)省了大量的開發(fā)人力成本。同時,業(yè)務專家直接參與算法和指標定義,使得模型的開發(fā)迭代周期大大縮短。該系統(tǒng)有效解決了招投標過程中各類違規(guī)風險的識別問題,大大節(jié)省了審計人員的時間成本。系統(tǒng)采用多維的數據處理與分析技術,構建了全方位的審計防護,確保招投標項目工作順利執(zhí)行。未來我們將聚焦于優(yōu)化系統(tǒng)的可擴展性、易用性,擴展跨行業(yè)應用,提升建模效率,實現更廣泛、更高效、更安全的應用,從而成為數據建模和可視化數據分析的首選工具。
主要參考文獻
[1]藍星宇,王嘉喆.數據可視化設計的類型學實踐[J].美術大觀,2022(3):149-152.
[2]安平.數據中臺視角下產業(yè)數據治理系統(tǒng)的設計研究[J].網格安全和信息化,2023(6):94-96.
[3]張寒爍,楊冬菊.基于關系圖譜的科技數據分析算法[J].計算機科學,2021,48(3):174-179.