王淼 朱宇龍 馬博 劉森 黎晚晴
[摘 要]隨著信息技術(shù)的發(fā)展,電力企業(yè)招投標(biāo)業(yè)務(wù)積累了大量信息數(shù)據(jù)。如何提升審計(jì)監(jiān)督在數(shù)字化環(huán)境下發(fā)現(xiàn)問(wèn)題的能力,揭示招投標(biāo)過(guò)程中出現(xiàn)的違規(guī)行為,是審計(jì)人員必須解決的問(wèn)題。本文基于文本挖掘技術(shù),通過(guò)建立有效模型,識(shí)別招投標(biāo)文件中存在的問(wèn)題,極大提升了審計(jì)作業(yè)的智能化。
[關(guān)鍵詞]招投標(biāo);審計(jì);文本分析;非結(jié)構(gòu)化數(shù)據(jù);文本挖掘技術(shù)
doi:10.3969/j.issn.1673 - 0194.2020.14.038
[中圖分類號(hào)]F239.1;TP317.1[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2020)14-00-04
0? ? ?引 言
經(jīng)過(guò)多年的信息化建設(shè),電力企業(yè)招投標(biāo)業(yè)務(wù)基本實(shí)現(xiàn)了信息化管理,從招標(biāo)方案到投標(biāo)環(huán)節(jié)已全面實(shí)現(xiàn)線上信息化與電子化作業(yè)。電力企業(yè)每年大量的招標(biāo)項(xiàng)目產(chǎn)生了海量的非結(jié)構(gòu)化電子數(shù)據(jù)。對(duì)海量電子化數(shù)據(jù)進(jìn)行招投標(biāo)審計(jì),傳統(tǒng)的抽樣審計(jì)與人工核查方法已完全無(wú)法適應(yīng)當(dāng)前的實(shí)際情況,探索新技術(shù)、新手段、新作業(yè)流程在招投標(biāo)審計(jì)中的應(yīng)用勢(shì)在必行。
1? ? ?文本挖掘技術(shù)概述
文本挖掘指從大量文本數(shù)據(jù)中抽取事先未知的、可理解的、最終可用的知識(shí)的過(guò)程,同時(shí)運(yùn)用這些知識(shí)更好地組織信息以供將來(lái)參考。文本挖掘的主要用途是從原本未經(jīng)處理的文本中提取未知的知識(shí),但是文本挖掘是一項(xiàng)非常困難的工作,因?yàn)楸仨毺幚砟切┍緛?lái)就模糊且非結(jié)構(gòu)化的文本數(shù)據(jù),是一個(gè)多學(xué)科交叉領(lǐng)域,涵蓋了信息技術(shù)、文本分析、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘等技術(shù)。文本挖掘是從數(shù)據(jù)挖掘發(fā)展而來(lái),定義與人們熟知的數(shù)據(jù)挖掘定義相類似。但與傳統(tǒng)的數(shù)據(jù)挖掘相比,文本挖掘有其獨(dú)特之處,主要表現(xiàn)在:文檔本身是半結(jié)構(gòu)化或非結(jié)構(gòu)化的,無(wú)確定形式且缺乏機(jī)器可理解的語(yǔ)義;而數(shù)據(jù)挖掘的對(duì)象以數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)為主,并利用關(guān)系表等存儲(chǔ)結(jié)構(gòu)發(fā)現(xiàn)知識(shí)。由此可知,有些數(shù)據(jù)挖掘技術(shù)并不適用于文本挖掘,需要建立在對(duì)文本集預(yù)處理的基礎(chǔ)上。文本挖掘技術(shù)主要包括歧義消除、詞性標(biāo)注、句法解析、時(shí)間推理、指代消解、特征抽取、文本分類、文本聚類、文本比較、情感分析、人物關(guān)系網(wǎng)分析、信息抽取和智能檢校等。
2? ? ?文本挖掘技術(shù)在審計(jì)中的應(yīng)用
本文主要探索運(yùn)用文本挖掘技術(shù)將招投標(biāo)資料中的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),再運(yùn)用文本分析算法,進(jìn)行審計(jì)分析,幫助審計(jì)人員發(fā)現(xiàn)審計(jì)疑點(diǎn)。
2.1? ?圍標(biāo)問(wèn)題
2.1.1? ?業(yè)務(wù)目標(biāo)
在電力企業(yè)招投標(biāo)過(guò)程中,從招標(biāo)文件獲取招標(biāo)要求,從投標(biāo)文件獲取投標(biāo)信息,找出不符合資質(zhì)的投標(biāo)單位。從投標(biāo)文件中提取和分析投標(biāo)項(xiàng)目、投標(biāo)單位、投標(biāo)代理人,結(jié)合企業(yè)信息找出經(jīng)常在相同項(xiàng)目中一起投標(biāo),同時(shí)存在關(guān)聯(lián)持股、交換委托代理人的投標(biāo)單位,找出異常投標(biāo)企業(yè)和股份持有人。
2.1.2? ?分析流程
(1)通過(guò)文本挖掘技術(shù)抽取關(guān)鍵信息
利用文本挖掘技術(shù)抽取招標(biāo)文件中的項(xiàng)目名稱、投標(biāo)企業(yè)資質(zhì)要求(注冊(cè)資金、企業(yè)人員規(guī)模、企業(yè)成立時(shí)間)等,形成招標(biāo)要求關(guān)鍵信息數(shù)據(jù),如表1所示。
利用文本挖掘技術(shù)抽取投標(biāo)文件中的分析投標(biāo)項(xiàng)目、投標(biāo)單位、投標(biāo)委托代理人姓名等關(guān)鍵數(shù)據(jù),形成項(xiàng)目投標(biāo)關(guān)鍵數(shù)據(jù)表,如表2所示。
接入外部企業(yè)信息數(shù)據(jù),外部企業(yè)信息數(shù)據(jù)包括企業(yè)名稱、注冊(cè)資金、企業(yè)人員規(guī)模、企業(yè)成立時(shí)間、企業(yè)股份組成(企業(yè)股東信息、企業(yè)股東股份比例、企業(yè)股東占股金額)等關(guān)鍵信息,如表3、表4所示。
(2)分析關(guān)鍵信息
根據(jù)關(guān)聯(lián)招標(biāo)要求關(guān)鍵信息數(shù)據(jù)中的投標(biāo)企業(yè)資質(zhì)要求與外部企業(yè)信息數(shù)據(jù)中的注冊(cè)資金、企業(yè)人員規(guī)模、企業(yè)成立時(shí)間進(jìn)行比較。將注冊(cè)資金低于投標(biāo)企業(yè)注冊(cè)資金、企業(yè)人員數(shù)量少于投標(biāo)企業(yè)人員規(guī)模、企業(yè)成立年限晚于投標(biāo)企業(yè)成立年限的信息視為異常,作為審計(jì)疑點(diǎn)。運(yùn)用關(guān)系網(wǎng)分析算法分析,找出在相同項(xiàng)目中一起投標(biāo),同時(shí)存在相互持股情況的異常投標(biāo)企業(yè)和股份持有人,作為審計(jì)疑點(diǎn)。利用關(guān)聯(lián)分析算法分析,識(shí)別出經(jīng)常在相同類型的項(xiàng)目中一起投標(biāo),同時(shí)存在交換委托代理人的投標(biāo)單位,作為審計(jì)疑點(diǎn)。
2.1.3? ?分析結(jié)果
經(jīng)分析,發(fā)現(xiàn)部分項(xiàng)目存在投標(biāo)單位資質(zhì)與招標(biāo)要求不一致、注冊(cè)資金低于投標(biāo)企業(yè)注冊(cè)資金、企業(yè)人員數(shù)量少于投標(biāo)企業(yè)人員規(guī)模、企業(yè)成立年限晚于投標(biāo)企業(yè)成立年限的情況,下面對(duì)部分結(jié)果進(jìn)行列示,如表5所示。發(fā)現(xiàn)一些投標(biāo)單位在相同項(xiàng)目中一起投標(biāo),同時(shí)存在相互持股的情況,下面對(duì)部分結(jié)果進(jìn)行列示,如表6所示。表7是投標(biāo)公司持股情況。發(fā)現(xiàn)一些投標(biāo)單位經(jīng)常在相同項(xiàng)目中一起投標(biāo),同時(shí)存在交換委托代理人的情況,下面對(duì)部分結(jié)果進(jìn)行列示,如表8所示。
2.2? ?技術(shù)方案查重
2.2.1? ?業(yè)務(wù)目標(biāo)
依托企業(yè)歷史招投標(biāo)的技術(shù)文檔庫(kù),對(duì)項(xiàng)目投標(biāo)方的技術(shù)文檔進(jìn)行查重分析,分別從項(xiàng)目情況介紹、服務(wù)方案、服務(wù)安排、進(jìn)度控制、質(zhì)量控制進(jìn)行相似度分析,大于一定閾值,則認(rèn)為該技術(shù)方案存在嚴(yán)重的雷同情況。
2.2.2? ?分析流程
技術(shù)方案查重分析的流程主要分為3個(gè)步驟:文本抽取、分布式分模塊相似度計(jì)算、文檔整體相似度加權(quán)平均計(jì)算。利用基于編輯距離的文本相似度計(jì)算算法和加權(quán)平均算法,實(shí)現(xiàn)技術(shù)方案流程如圖1所示。
(1)文本抽取
在對(duì)非結(jié)構(gòu)化的技術(shù)方案文檔進(jìn)行查重審計(jì)的過(guò)程中,選擇的文本信息提取方法極大影響后續(xù)查重分析的效果。系統(tǒng)采用一種基于抽取模板的文檔結(jié)構(gòu)化提取技術(shù)抽取原始文檔中的待分析內(nèi)容,將其轉(zhuǎn)換成包含“項(xiàng)目情況,服務(wù)方案,服務(wù)安排、進(jìn)度控制、質(zhì)量管控”的結(jié)構(gòu)化字段數(shù)據(jù)進(jìn)行存儲(chǔ),以便重復(fù)利用,提高后續(xù)查重分析效率。
該方法的實(shí)現(xiàn)步驟如下。①定義模板。在讀取技術(shù)方案文檔時(shí),首先需要定義一個(gè)模板文件,用來(lái)定義待讀取文檔的結(jié)構(gòu)和需要提取Word的內(nèi)容,模板文件需要定義的內(nèi)容包括:采用可擴(kuò)展標(biāo)記語(yǔ)言XML定義文檔的具體結(jié)構(gòu),定制文件的樹(shù)型章節(jié)結(jié)構(gòu)內(nèi)容,通過(guò)XML結(jié)構(gòu)實(shí)現(xiàn)可配置的定義文檔的層級(jí)結(jié)構(gòu),每個(gè)層級(jí)作為配置文件的一個(gè)節(jié)點(diǎn);定制節(jié)點(diǎn)的屬性,根據(jù)各節(jié)點(diǎn)的實(shí)際業(yè)務(wù)需求,配置標(biāo)題節(jié)點(diǎn)名稱、編號(hào);定義模板節(jié)點(diǎn)的存儲(chǔ)標(biāo)識(shí),即讀取的數(shù)據(jù)應(yīng)該存放到數(shù)據(jù)庫(kù)表的哪個(gè)字段中。②文本提取。根據(jù)第一步定義的模板文件,加載待讀取的Word文檔并進(jìn)行提取。實(shí)現(xiàn)過(guò)程包含以下步驟:內(nèi)容遍歷,加載模板文件和Word文檔,并遍歷其中的所有節(jié)點(diǎn);根據(jù)XML定義的文檔結(jié)構(gòu)(樹(shù)型結(jié)構(gòu)),采用深度遍歷方式加載內(nèi)容遍歷,在遍歷過(guò)程中,根據(jù)當(dāng)前的節(jié)點(diǎn)類型加載不同的內(nèi)容;提取標(biāo)題節(jié)點(diǎn),根據(jù)模板節(jié)點(diǎn)中的標(biāo)題或編號(hào)定位到具體的Word文檔位置,如果不能定位則表示在模板中的標(biāo)題沒(méi)在文檔中,同時(shí)根據(jù)節(jié)點(diǎn)的屬性“是否為必須字段”判斷是否需要輸出錯(cuò)誤信息;提取文本節(jié)點(diǎn),讀取Word文檔中對(duì)應(yīng)的文本內(nèi)容,并依據(jù)模板中的節(jié)點(diǎn)定義,把讀取的數(shù)據(jù)保存到對(duì)應(yīng)數(shù)據(jù)庫(kù)表的字段中。利用該抽取方法,系統(tǒng)可以快速將技術(shù)方案文檔庫(kù)中的海量技術(shù)方案文件轉(zhuǎn)換為結(jié)構(gòu)化的各章節(jié)文本并存儲(chǔ)到關(guān)系數(shù)據(jù)庫(kù)中,為后續(xù)方案查重分析提供數(shù)據(jù)基礎(chǔ)。
(2)分布式分模塊相似度計(jì)算
技術(shù)方案相似度計(jì)算主要采用基于編輯距離的文本相似度算法。編輯距離又稱為L(zhǎng)evenshtein距離,由俄羅斯的數(shù)學(xué)家Vladimir Levenshtein在1965年提出,指兩個(gè)字串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。其中,編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符,刪除一個(gè)字符。一般來(lái)說(shuō),兩個(gè)字符串的編輯距離越小越相似。如果兩個(gè)字符串相等,則它們的編輯距離為0(不需要任何操作)。兩個(gè)字符串的編輯距離肯定不超過(guò)它們的最大長(zhǎng)度。為了支持海量技術(shù)方案的查重比對(duì),系統(tǒng)采用并行計(jì)算技術(shù),并利用計(jì)算機(jī)的多核資源,實(shí)現(xiàn)多篇文檔同時(shí)分析。充分高效地利用多核計(jì)算資源,降低單個(gè)問(wèn)題的求解時(shí)間,節(jié)省成本,滿足更大規(guī)?;蚋呔纫蟮膯?wèn)題求解需求。
文本相似度算法基本步驟如下。①構(gòu)造行數(shù)為m+1,列數(shù)為n+1的矩陣,用來(lái)保存完成某個(gè)轉(zhuǎn)換需要執(zhí)行的操作的次數(shù),將串s[1…n]轉(zhuǎn)換到串t[1…m]所需要執(zhí)行的操作次數(shù)為matrix[n][m]的值。②初始化matrix第一行為0到n,第一列為0到m;Matrix[0][j]表示第1行第j-1列的值,這個(gè)值表示將串s[1…0]轉(zhuǎn)換為t[1…j]所需要執(zhí)行的操作的次數(shù),很顯然將一個(gè)空串轉(zhuǎn)換為一個(gè)長(zhǎng)度為j的串,只需要j次的add操作,所以matrix[0][j]的值應(yīng)該是j,其他值以此類推。③檢查每個(gè)從1到n的s[i]字符,檢查每個(gè)從1到m的s[i]字符;將串s和串t的每一個(gè)字符進(jìn)行兩兩比較,如果相等,則讓cost為0,如果不等,則讓cost為1。如果可以在k個(gè)操作里面將s[1…i-1]轉(zhuǎn)換為t[1…j],那么就可以將s[i]移除,然后再做這k個(gè)操作,所以總共需要k+1個(gè)操作;如果可以在k個(gè)操作內(nèi)將s[1…i]轉(zhuǎn)換為t[1…j-1],也就是說(shuō)d[i,j-1]=k,那么就可以將t[j]加上s[1…i],這樣總共就需要k+1個(gè)操作;如果可以在k個(gè)步驟里面將s[1…i-1]轉(zhuǎn)換為t[1…j-1],那么就可以將s[i]轉(zhuǎn)換為t[j],使得滿足s[1…i]=t[1…j],這樣總共也需要k+1個(gè)操作。因?yàn)橐〉米钚〔僮鞯膫€(gè)數(shù),所以最后還需要比較這3種情況的操作個(gè)數(shù),取最小值作為d[i,j]的值;然后重復(fù)執(zhí)行,最后的相似度結(jié)果就在d[n,m]中。
(3)文檔整體相似度加權(quán)平均
加權(quán)平均法指標(biāo)綜合的基本方法,又稱為“綜合加權(quán)平均法”,指對(duì)經(jīng)過(guò)同度量處理的數(shù)值通過(guò)加權(quán)平均進(jìn)行綜合,形成一個(gè)總值,從而達(dá)到綜合評(píng)價(jià)目的的方法。該方法有兩種形式,分別為加法規(guī)則與乘法規(guī)則,本系統(tǒng)采用加法規(guī)則實(shí)現(xiàn)加權(quán)平均,分別對(duì)項(xiàng)目情況、服務(wù)方案、服務(wù)安排、進(jìn)度控制、質(zhì)量管控設(shè)置權(quán)重,將各部分權(quán)重乘以各部分相似度,相加得到該文檔的相似度。
2.2.3? ?分析結(jié)果
查重計(jì)算結(jié)果存儲(chǔ)在數(shù)據(jù)庫(kù)中,存儲(chǔ)信息包括源文件和目標(biāo)文件整體的相似度以及各部分信息的相似度,并標(biāo)注源文本和目標(biāo)文本的不同之處。技術(shù)方案查重結(jié)果數(shù)據(jù)結(jié)構(gòu)如表9所示。
3? ? ?結(jié) 語(yǔ)
本文探索了招投標(biāo)智能審計(jì)的應(yīng)用,利用人工智能技術(shù)開(kāi)展審核投標(biāo)資質(zhì),分析圍標(biāo)、投標(biāo)風(fēng)險(xiǎn)等繁雜的工作,大幅提高了審計(jì)工作的效率和準(zhǔn)確率,使審計(jì)人員能夠集中力量開(kāi)展分析性工作。
主要參考文獻(xiàn)
[1]蔣耀亮.自動(dòng)光學(xué)識(shí)別OCR在票據(jù)自動(dòng)識(shí)別系統(tǒng)中的應(yīng)用研究[J].通訊世界,2019(5):288-289.
[2]陳琳娣.機(jī)器人流程自動(dòng)化在內(nèi)部審計(jì)中的應(yīng)用實(shí)踐[J].中國(guó)內(nèi)部審計(jì),2019(4):43-45.
[3]鄒云峰,何維民,趙洪瑩,等.文本挖掘技術(shù)在電力工單數(shù)據(jù)分析中的應(yīng)用[J].現(xiàn)代電子技術(shù),2016(17):149-152.
[4]陳朵玲,胡肖鋒.基于Web文本挖掘技術(shù)的企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)研究[J].情報(bào)雜志,2005(6):22-24.
[5]李立,蔡峰,梁非,等.基于文本挖掘技術(shù)探索中醫(yī)治療膽結(jié)石藥證對(duì)應(yīng)規(guī)律研究[J].遼寧中醫(yī)雜志,2013(4):664-666.
[6]梁浩波.基于文本挖掘的用電客戶訴求智能聚類研究[J].廣東電力,2016(8):45-50,66.
[7]湯寧.基于文本挖掘的電力工單分析[C]//2018智能電網(wǎng)新技術(shù)發(fā)展與應(yīng)用研討會(huì)論文集,2018.
[8]許保勛.基于文本挖掘技術(shù)的證券智能監(jiān)管項(xiàng)目[J].金融電子化,2018(8):47-48.
[9]曹晉彰,趙少東,龐寧,等.基于文本挖掘技術(shù)的電網(wǎng)企業(yè)客戶抱怨分析應(yīng)用研究[J].大科技,2016(3):266.
[10]張博宇,周成軒.基于信息化條件下的供電企業(yè)市縣一體化審計(jì)管理探究[J].消費(fèi)導(dǎo)刊,2018(4):253-254.