■馬 博 劉 森 黎晚晴 陳玲娜 梁惠欣 李 勇
(1.中國南方電網(wǎng)有限公司審計部;2.南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司)
近年來我國經(jīng)濟高速增長,國內(nèi)電網(wǎng)建設也得到了飛速發(fā)展,每年都會建設大量的工程項目,然而由于項目眾多、申報材料繁雜(包括調(diào)研報告、項目建議書、立項報告、項目規(guī)劃書、項目初步設計書、可行性研究報告、技術經(jīng)濟分析報告等各類材料),衍生出項目重復申報或相似項目建設等一系列問題,如何科學、高效地發(fā)現(xiàn)工程項目的重復申報問題,成為當前電網(wǎng)企業(yè)內(nèi)部審計較為重要的課題之一。
通過多年來的不斷積累,工程立項審批部門積累了大量歷史項目申報材料。此外,隨著近些年來的電網(wǎng)公司信息化建設的不斷推進,相關項目申報材料由紙質(zhì)文件轉換成電子文件進行了存儲,為審計分析奠定了數(shù)據(jù)基礎。與此同時,自然語言處理技術和文本分析挖掘技術也不斷成熟,并且在各行業(yè)取得了廣泛應用,將文本挖掘技術引入到工程項目立項申報材料的審計過程中,能夠大幅提高審計效率。
在傳統(tǒng)的電網(wǎng)工程項目立項審計過程中,審計人員往往僅靠人工審閱立項申報材料,再根據(jù)自身大腦記憶的歷史項目進行比對,識別項目是否存在重復申報行為;或者通過檢索項目名稱關鍵字,看是否之前有項目名稱類似的項目或有類似采購,以判斷是否是重復申報項目。這些方法,一方面過于依賴審計人員的經(jīng)驗積累;另一方面,由于僅對項目名稱或部分采購內(nèi)容進行查重分析,稍加修改的重復申報項目很容易被漏掉;此外,人工審核效率也較為低下。因此,本課題引入文本挖掘技術,自動對海量的立項項目的相關材料進行相似性分析,快速識別出相似的項目,從而大幅提高項目重復申報審計的效率。
在本課題中,主要涉及4部分工作:信息抽取模型訓練、歷史立項材料信息抽取、新項目重復立項審計、舊項目重復立項審計。
圖1 主要工作
(1)信息抽取模型訓練。
為了對各個項目的關鍵內(nèi)容進行對比分析,例如項目背景、項目目標、建設內(nèi)容、項目金額、采購設備、關鍵技術等,需要從項目申報等材料中抽取相關內(nèi)容,形成結構化數(shù)據(jù)。但是由于各單位各年度的工程項目申報材料等存在不同的格式模板,無法構建一種統(tǒng)一的信息抽取規(guī)則,因此本課題通過機器學習的方式,對人工標注立項申報材料進行訓練學習,形成信息抽取模型,自動識別文檔模板,并抽取項目申報材料中的關鍵數(shù)據(jù)。信息抽取模型的訓練過程主要如圖2。
圖2 訓練信息標注模型
(2)歷史項目信息抽取。
對于歷史積累的海量申報項目,調(diào)用訓練出的信息抽取模型,逐個自動抽取各個項目的關鍵數(shù)據(jù),形成結構化歷史項目數(shù)據(jù)庫,為后續(xù)項目信息審計比對提供數(shù)據(jù)支撐。
(3)歷史項目重復申報分析。
歷史項目重復申報分析,主要批量對抽取形成結構化歷史項目數(shù)據(jù)庫中的項目進行比對分析,識別其中的重復申報項目??傮w處理流程如下圖,先從結構化歷史項目數(shù)據(jù)庫讀取每一個項目的結構化數(shù)據(jù);再計算各項目兩兩之間的相似度,將相似的項目聚類,形成聚類結果;對于聚類中項目數(shù)大于1的聚類,認為是潛在的重復申報項目;對于聚類中項目數(shù)大于1的聚類,且其中的項目都屬于同一申報單位的,認為是重復申報項目,并輸出其項目名稱、申報單位、申報時間(如圖3)。
圖3 歷史項目重復申報分析
(4)新項目重復申報分析。
對于新提交的立項項目,調(diào)用信息抽取模型自動抽取其關鍵數(shù)據(jù),并利用文本相似分析算法計算其和歷史項目庫中每個項目的關鍵數(shù)據(jù)之間的相似度,計算出相似度得分,如果有歷史項目與其相似度大于閾值,則認為該項目存在重復申報行為,并輸出相似度大于閾值的項目。
圖4 新項目重復申報分析
信息抽取技術是從大段的文字中抽取關心的關鍵信息,并將其存儲成結構化數(shù)據(jù),以便后續(xù)進一步查詢和分析使用。通常來說,信息抽取技術分為基于規(guī)則的信息抽取技術和基于機器學習模型的信息抽取技術2種。
基于規(guī)則的信息抽取技術往往結果較為精準,但也存在明顯的劣勢,就是普適性較差,需要將所有的可能的情況和抽取規(guī)則都窮舉;文檔格式稍有差異,抽取結果就會存在偏差。
與其相對的就是基于機器學習模型的信息抽取技術,其大致思想是認為標注一些模型訓練用的文檔,標注出從中要抽取的關鍵信息、位置、屬性名稱,例如從工程申報材料中抽取工程建設目標對應內(nèi)容、在文檔中的位置、屬性名稱為“工程建設目標”;每個訓練文檔中會人為標注出所有需要抽取的關鍵數(shù)據(jù)。機器學習的過程,就是通過學習海量的文檔數(shù)據(jù),自動總結學習出每一個關鍵信息對應的上下文特征,以及關鍵信息本身的文本特征,據(jù)此自動從新文檔中抽取出所有關鍵信息。本課題采用了條件隨機模型 CRF(Conditional Random Field)作為特征抽取模型的訓練算法模型。
CRF模型由Lafferty等人于2001年提出,是基于熵模型和隱馬爾科夫模型之上提出的一種基于遵循馬爾可夫性的概率圖模型,近年來在分詞、詞性標注和命名實體識別等序列標注任務中取得了很好的效果。
文本相似分析,簡單來說就是計算兩個文本串之間的相似度。例如對工程申報材料中相關項目的項目情況介紹、服務方案、服務安排、進度控制、質(zhì)量控制進行相似度分析,首先調(diào)用訓練出的信息抽取模型,抽取出關鍵數(shù)據(jù),然后對關鍵數(shù)據(jù)進行預處理,其中包括正則匹配、文本分詞、停用詞處理、字符串操作、規(guī)約化數(shù)據(jù)等,再通過文本相似度計算方法進行計算,最后根據(jù)該項目中的項目情況介紹、服務方案、服務安排、進度控制、質(zhì)量控制各部分權重,分析出和其他項目的最終相似度。常見的文本相似度計算方法有Jaccard相似系數(shù)、編輯距離算法、夾角余弦相似度3種。
3.2.1 Jaccard 相似系數(shù)
Jaccard 相似系數(shù)(Jaccard similarity coefficient)用于比較有限樣本集之間的相似性與差異性。Jaccard系數(shù)值越大,樣本相似度越高。
給定兩個集合A,B,Jaccard 系數(shù)定義為A與B交集的大小與A與B并集的大小的比值,|A∩B|/|A∪B|,其實就是計算兩個字符串中字符的交集和并集的比值。
3.2.2 夾角余弦相似度
兩個文本A和B之間的夾角余弦相關度similarity常用向量之間夾角的余弦值表示,公式為:
其中,Ai、Bi分別表示文本A和B第i個詞的詞頻,1<=i<=n。
由于項目申報信息中,數(shù)據(jù)稀疏度過高,通過余弦相似度計算會產(chǎn)生誤導性結果。
聚類算法是一種常見的數(shù)據(jù)挖掘算法,目的在于把大量的數(shù)據(jù)點分成若干類別,把相似的內(nèi)容和行為聚集在一起,不同的類之間盡量保證不相似。例如一些難以發(fā)覺的信息以特殊的形式隱藏在大數(shù)據(jù)中,一般的審計數(shù)據(jù)分析方法很難挖掘出這些異常信息,而采用文本聚類的算法能夠彌補這個缺陷。這些異常信息往往是審計人員重點審查的對象,可以對舞弊和違規(guī)行為的評估提供審計證據(jù)。對審計文本進行聚類后,可以按類別對每類文本進行具體的分析、比較和總結,大大減輕了審計人員進行數(shù)據(jù)分析的工作量。
我們開發(fā)工程項目關鍵信息抽取功能,運維文本挖掘的分詞、噪聲詞過濾等技術,進行文本相似度分析,并在相似度的基礎之上,運用聚類算法識別相似度較高的項目群,輔助工程項目重復申報審計工作,為審計人員提供快速識別疑似重復立項的工程項目線索,大幅度提高了審計工作效率,具體分為以下三個步驟:工程項目信息抽取、文本相似度分析和重復立項聚類分析。
通過信息抽取模型功能,將各項目申報材料中的關鍵信息,例如項目名稱、項目摘要、項目申請理由、項目內(nèi)容、項目總投資、項目預算、采購物資列表、項目支出明細等,抽取成結構化數(shù)據(jù),為后續(xù)文本相似度分析提供高質(zhì)量的數(shù)據(jù)基礎。其中,每一條記錄代表一個項目,每個字段代表該項目的關鍵數(shù)據(jù)項。
運用文本挖掘工具對工程項目信息抽取后得到的高質(zhì)量數(shù)據(jù)項分別進行文本相似度分析,實踐步驟有以下三個步驟:
(1)首先讀取抽取后的工程項目信息數(shù)據(jù),運用分詞技術,將各數(shù)據(jù)項文本進行文本預處理操作;
(2)再通過企業(yè)核心詞庫、停用詞處理、噪聲詞過濾等操作提取每個關鍵數(shù)據(jù)項的關鍵詞;
(3)然后運用文本相似度計算方法進行計算各個關鍵數(shù)據(jù)項的相似度。
具體建模流程如下圖所示,實現(xiàn)從信息抽取表到相似度表的轉換。
圖5 文本相似度分析建模流程
本課題還通過聚類算法對海量的歷史項目進行重復申報分析,將文本相似度分析的結果,作為聚類分析的輸入,實現(xiàn)將項目數(shù)據(jù)分類到不同的類或者簇,同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性??焖僮R別相似度較高的項目簇,并運用網(wǎng)絡圖呈現(xiàn)技術對聚類結果進行直觀展示,如下圖所示,其中每個點代表一個項目,對于聚集度很高的項目,說明其相似度極高,存在重復申報行為。對于相似度大于閾值的項目,系統(tǒng)會輸出相似項目列表及相似度,并可對比分析項目申報信息的相似內(nèi)容與差異。對于相似度大于閾值的項目,系統(tǒng)會輸出相似項目列表及相似度,并可對比分析項目申報信息的相似內(nèi)容與差異。
圖6 歷史數(shù)據(jù)重復申報聚類分析與展示
本課題通過引入文本挖掘等人工智能技術,對海量的立項材料進行高效分析,從而從中分析潛在的項目重復申報行為,為項目重復申報審計提供了新的手段。通過項目實踐,證明本課題采用的技術行之有效,能夠大幅提高項目重復申報的工作效率,并且同時避免了人為粗心或經(jīng)驗缺失而造成的審計遺漏。因此,建議相關技術進一步廣泛推廣,全方位提升工程項目審計的效率與質(zhì)量。