汪莉 葉健彪
[摘要]本文結合內審工作具體實踐,探討OCR技術在財產保險公司內部審計工作中的應用基礎、預期目標及應用場景,以期促進審計技術創(chuàng)新、提高審計工作效率及效果。
[關鍵詞]OCR技術? ? 內部審計? ? 技術創(chuàng)新
人工智能、大數(shù)據的發(fā)展已經上升為國家戰(zhàn)
在略的當下,運用科技手段推進審計技術的深度轉型勢在必行。加強審計技術創(chuàng)新研究,是內部審計部門和人員順應審計工作發(fā)展新形勢、新要求,行使好審計監(jiān)督職責,保障國有保險企業(yè)高質量發(fā)展轉型的必然要求。積極探索OCR技術在內部審計工作中的應用,是審計人員推進審計技術創(chuàng)新的有益實踐。
一、內部審計應用OCR技術的現(xiàn)實基礎及實現(xiàn)目標
光學字符識別(Optical Character Recognition,
簡稱OCR)是指對圖像文件進行分析識別處理,獲取文字及版面信息并翻譯成計算機文字的過程。簡言之,就是將掃描文檔中的文字進行識別,再以文本的形式輸出。
在移動互聯(lián)時代,OCR可以說是一門非?!肮爬稀钡募夹g。從20世紀50年代發(fā)展至今,OCR技術在圖像文件識別的理論和應用方面,已非常成熟。近年來,OCR技術在保險行業(yè)的應用如火如荼。就財產保險公司的經營而言,現(xiàn)階段主要應用識別特定場景的專用OCR,實現(xiàn)如承保環(huán)節(jié)自然人身份證、駕駛證和企業(yè)工商登記證照識別;承保車輛行駛證識別;智能財務審核中對發(fā)票、火車票、出租車票等票據的識別以及合同審核。相對于OCR技術在保險公司承保、理賠和財務環(huán)節(jié)的研究和應用,OCR技術在內部審計工作中的應用尚處于摸索階段。在內部審計過程中,面對影像系統(tǒng)種類繁多、類別各異的圖像資料,OCR技術的應用缺乏標準化、結構化的識別基礎,實現(xiàn)難度較大。以費用報銷系統(tǒng)中的重要票據——發(fā)票圖像為例,在營業(yè)稅改增值稅實施以前,影像系統(tǒng)中發(fā)票種類較多,既有營業(yè)稅發(fā)票又有增值稅發(fā)票,既有機打發(fā)票又有手工發(fā)票和定額發(fā)票,且各地發(fā)票式樣不統(tǒng)一,使用OCR技術對發(fā)票信息進行識別存在較大技術瓶頸,不具備應用基礎。2016年5月1日營改增實施后,增值稅發(fā)票的式樣實現(xiàn)了票種和地域的統(tǒng)一,為OCR技術在審計領域的應用創(chuàng)造了客觀條件?,F(xiàn)階段,應用OCR技術推動內部審計的創(chuàng)新具備了現(xiàn)實基礎,將有力提升審計技術水平。
(一)激活沉睡數(shù)據價值,進一步擴展審計分析內容
傳統(tǒng)的審計模式下,保險公司內審人員僅能對核心業(yè)務系統(tǒng)及關聯(lián)信息系統(tǒng)中的結構化數(shù)據進行分析,而在保險公司龐大的數(shù)據儲存庫中,僅有少數(shù)為結構化數(shù)據,絕大部分為非結構化數(shù)據信息,諸如圖像、語音、視頻等。隨著業(yè)務規(guī)模的快速發(fā)展以及電子化運營程度的不斷深入,保險公司在承保、理賠和財務等業(yè)務環(huán)節(jié)所產生的大量紙質材料,通過掃描設備轉化成電子文檔保存至影像系統(tǒng),影像系統(tǒng)積累了海量的非結構化信息,這些信息尚未轉化成供內部審計工作利用的有效數(shù)據。通過OCR技術,能夠將影像系統(tǒng)中的非結構化數(shù)據識別成文本數(shù)據輸出,并形成審計分析對象。以費用報銷系統(tǒng)的影像為例,通過對增值稅發(fā)票票面的信息內涵和數(shù)據價值進行充分挖掘,將進一步擴展和延伸審計分析的內容和范圍,有效提升審計價值。
(二)拓寬風險數(shù)據維度,進一步豐富預警規(guī)則
現(xiàn)階段的內部審計對于風險的感知和識別,主要依靠審計輔助系統(tǒng)提取風險數(shù)據,由于風險數(shù)據的提取規(guī)則主要基于結構化數(shù)據,缺少非結構化數(shù)據所蘊含的信息,往往難以反映風險全貌。以費用列支的真實性和合規(guī)性審計為例,目前主要采用“科目+憑證”的方法進行抽樣篩查,審計發(fā)現(xiàn)的風險往往僅能反映單一業(yè)務或單一機構的“點”上異動,風險數(shù)據的維度相對單一。引入OCR技術,將全域和全量的發(fā)票影像識別轉化為Excel電子數(shù)據,再將轉化后的數(shù)據與報銷系統(tǒng)已有的結構化數(shù)據進行關聯(lián)匹配,在技術層面打通業(yè)務和經營機構的邊界,豐富預警規(guī)則,有利于內審人員發(fā)現(xiàn)“面”上的問題,進一步查找審計線索。
(三)提高非現(xiàn)場審計效率和精準度,進一步降低審計風險
審計抽樣是審計人員在非現(xiàn)場階段的主要工作。傳統(tǒng)審計模式下,開展非現(xiàn)場分析提取審計樣本主要有兩種方法:一是結合以往審計檢查發(fā)現(xiàn)的風險點提取風險數(shù)據;二是通過提取審計區(qū)間的全量業(yè)務清單,依據經驗進行人工判斷、篩選和提取抽樣。選取審計樣本后,審計人員需要登錄相關系統(tǒng)逐筆查看,了解基本事實后,再結合現(xiàn)場審計進行核實確認。在業(yè)務量不大的情況下,傳統(tǒng)審計抽樣方法是行之有效的,但隨著業(yè)務規(guī)模的急劇增加,依賴少量數(shù)據樣本的抽樣技術暴露出局限性,對于審計人員來說具有一定的風險,如果審計人員想降低抽樣風險,只能增加抽樣的樣本。而出于時間和人力成本考慮,一味通過增加樣本量降低審計風險顯然不現(xiàn)實。應用包括OCR在內的人工智能技術解決海量數(shù)據下審計抽樣困局,將是推進非現(xiàn)場審計深度轉型的有效途徑。人工智能使得審計人員能夠審查所有數(shù)據,審計人員可以不再局限于依賴少量數(shù)據樣本,而是立足總體樣本的審計檢查,可從所有數(shù)據中獲得相關信息。
(四)儲備數(shù)據資源,進一步提升審計信息化水平
在人工智能時代,內部審計不再只是查錯糾弊,將更加緊密圍繞企業(yè)發(fā)展大局,立足于價值創(chuàng)造,推動高質量發(fā)展轉型。人工智能可以利用自身優(yōu)勢對海量數(shù)據進行搜集、挖掘、歸納以及深度分析,從更高層面、更廣范圍、更加綜合的視角提供具有前瞻性的審計建議,這是一個變數(shù)據為資源、變資源為智慧的過程。構建基于人工智能技術的智能審計系統(tǒng)將成為未來內部審計信息化建設的趨勢。以OCR技術形成的數(shù)據及系統(tǒng)的結構化數(shù)據為資源,一方面,結合機器學習的應用,推動構建多維度風險數(shù)據的智能分析模型;另一方面,結合大數(shù)據技術,將內部數(shù)據和外部數(shù)據進行關聯(lián)分析,可以收集更多的審計證據,進一步提升審計價值。
二、OCR技術可應用的審計業(yè)務場景
由于影像系統(tǒng)存儲的影像資料種類繁多,且涉及承保、理賠和財務等多個業(yè)務環(huán)節(jié),在技術探索階段,以財務費用報銷系統(tǒng)為切入點,選取標準化、規(guī)范化程度較高的增值稅發(fā)票、火車票等票據圖像,進行格式化識別,并嘗試應用于以下審計業(yè)務場景。
(一)對公務接待和商務活動是否落實中央“八項規(guī)定”精神的核查
在全面從嚴治黨的新形勢和新要求下,國有企業(yè)領導干部在日常經營過程中是否嚴格落實中央“八項規(guī)定”精神,是經理經濟責任審計和高級管理人員審計必須關注的重要事項。通過OCR技術,對涉及公務接待和商務活動的報銷事項進行篩查,能夠迅速錨定是否存在違紀違規(guī)問題線索,主動開展核查。
1.對違規(guī)購買土特產、高檔煙酒等事項的核查。提取招待費、宣傳費、公雜費科目項下所有增值稅發(fā)票的影像,運用OCR技術對發(fā)票開具方、商品名稱等內容進行識別,重點關注發(fā)票開具方含有“商貿”“特產”“煙酒”“商行”的費用報銷,以及采購的商品名稱中含有“煙”“酒”“禮盒”。需要關注的是,審計實踐中發(fā)現(xiàn)基層公司存在隱形變異現(xiàn)象,通過開具“購水”或者“購茶葉”等發(fā)票進行變通,掩蓋實際采購的商品信息。對于此類情況,在對票面信息要素進行識別后,審計人員可通過現(xiàn)場訪談、盤點實物等方法對采購的真實性進行核查。
2.對超標購置宣傳品的核查。保險公司在品牌營銷、業(yè)務公關、拜訪重要客戶、接待來訪嘉賓等對外公務活動中,贈送宣傳品屬于正常的商務往來,但相關宣傳品購置應符合中央“八項規(guī)定”精神要求,避免奢侈。提取宣傳費、廣告費科目項下增值稅發(fā)票的影像,運用OCR技術對發(fā)票開具方、商品名稱和單價等內容進行識別,轉換成Excel文本后再進行比對篩查。
3.對超標出行事項的核查。中央針對超標乘坐交通工具出臺了明確規(guī)定,同時國內機票、火車票的票面都清晰標注了艙位和座位等級。運用OCR技術對差旅費報銷中機票艙位、火車票座位等級等信息進行識別,重點關注機票艙位為F、A、C、D,火車票座位等級為一等座、軟臥的差旅費報銷,并與出差人員的職務級別進行比對,從中篩選超標乘坐交通工具的行為。
4.對高檔酒店住宿和消費的核查。提取差旅費、招待費、會議費科目項下所有增值稅發(fā)票的影像,并對發(fā)票開具方進行識別,根據酒店名稱信息篩選屬于高檔酒店的費用。如某支公司2018年5月2日報銷差旅費2,178元,發(fā)票開具方為某酒店,該酒店在旅游訂房網站顯示為五星級酒店。在鎖定相關信息后,審計人員可結合現(xiàn)場訪談,了解實際情況,確定是否存在高檔酒店消費情況。
(二)對高頻交易及異常采購的核查
1.對同一經營單位在同一供應商連續(xù)多次采購的核查。在保險行業(yè)亂象中,基層公司變通列支銷售費用及虛開發(fā)票套取費用用于爭搶業(yè)務是監(jiān)管治理的重點。從以往審計經驗看,此類情況多為在同一商品銷售單位連續(xù)、多次采購。應用OCR技術,提取增值稅發(fā)票的開具方、商品名稱、開具日期等信息,重點關注連續(xù)、多次出現(xiàn)的發(fā)票開具單位,并對采購的商品、開具日期、報銷經辦人進行關聯(lián),分析商品采購情況的合理性,篩選存在邏輯錯誤或商品數(shù)量遠超經營單位日常運營實際需求的情況。如某支公司2018年9-12月連續(xù)8次在某科技公司購入大量復印紙、硒鼓等辦公用品,與該支公司機構和人員規(guī)模不匹配,采購商品數(shù)量遠超出實際需求。在鎖定相關信息后,審計人員可結合現(xiàn)場訪談進一步核實資金實際用途。
2.對同類物品采購價格的核查。運用OCR工具,對發(fā)票票面信息“貨物名稱”和“單價”進行識別,輸出文本后對同類物品采購價格進行核實,篩選相同貨物名稱但價格相差較大的費用報銷。如某支公司2018年10月26日報銷一批辦公耗材,其中三星3710硒鼓單價為241元;2018年12月10日再次報銷一批辦公耗材,其中三星3710硒鼓單價為413元。兩次采購供應商為同一供應商,但采購價格存在較大差異,可結合現(xiàn)場審計作進一步核實。
3.對舍近求遠采購的核查。通過OCR技術提取增值稅發(fā)票的開具方、商品名稱、開具日期等信息,重點關注跨區(qū)域采購非特定商品的報銷事項,篩選出舍近求遠的采購,進一步排除采購事項和費用列支是否存在不真實的問題。如中部省份某支公司2018年11月報銷宣傳品費用45,600元,發(fā)票開具方為深圳市某設計開發(fā)有限公司,商品名稱為金屬制品、杯壺套裝;同一經辦人在2018年12月再次報銷購宣傳品費用51,355元,發(fā)票開具方為深圳某禮品有限公司,商品名稱為汽車香膏座等。后續(xù)結合現(xiàn)場審計,了解基層經營單位舍近求遠采購的原因,進一步核實費用列支的真實性。
(三)對連號票據的核查
在實務操作中,部分基層公司為規(guī)避審核和管控,往往存在開具連號發(fā)票、在不同時點分開報銷的情況。審計人員通過OCR技術,提取重點監(jiān)控科目項下的增值稅發(fā)票影像,能夠實現(xiàn)對發(fā)票號的識別,快速定位使用連號發(fā)票在不同時間進行報銷的違規(guī)行為。如某支公司于2018年4月10日、2018年5月7日分別報銷招待費996元、997元,發(fā)票號分別為64025316、64025318,開票日期均為2018年3月28日,發(fā)票開具方均為“某餐飲股份有限公司”。
(四)對稅局代開發(fā)票的核查
在日常經營中,部分費用發(fā)票存在稅局代開的情況,但所涉及的費用一般金額較小、事項較瑣碎,如勞務費、清潔費等,而且需要稅局代開的銷售單位一般為規(guī)模較小、管理不規(guī)范的個體工商企業(yè)。此類費用發(fā)票的存在是合理的,但如果某經營單位存在大量此類發(fā)票,則屬于異常情況。運用OCR技術,把發(fā)票開具方包含“稅務”的費用進行匯總統(tǒng)計,篩選代開發(fā)票占比較高的經營單位,以及報銷金額較大的費用進行核查。如某支公司2016年存在一定數(shù)量當?shù)囟惥执_發(fā)票的費用報銷,通過OCR技術識別發(fā)票票面信息后抽查發(fā)現(xiàn)存在不合理的情況。如2016年12月報銷其他費用4200元,發(fā)票為某稅局代開,銷售商品為洗漱包,經進一步核實,發(fā)現(xiàn)實際商品銷售單位為某科技有限公司。
三、現(xiàn)階段應用OCR技術存在的困難
(一)影像資料篩選分類準確率問題
由于保險公司影像系統(tǒng)中包含的資料類目繁多,以費用報銷系統(tǒng)為例,包含增值稅發(fā)票、貨物明細清單、實物圖例、入庫簽收單、銷售方工商登記信息、自然人身份證件等多種影像資料。在實踐過程中,首先需要使用深度神經網絡的機器學習技術對影像照片進行清分,篩選并定位其中的發(fā)票照片。從現(xiàn)階段機器學習的效果看,由于訓練照片樣本數(shù)量、多樣性和訓練次數(shù)不足,目前深度神經網絡模型訓練實際識別準確率約90%,距離99%的理論值尚有差距,存在照片篩選錯誤或遺漏的問題。
(二)票據信息識別精準度問題
目前,影像資料主要依靠經辦人通過使用公司配備的高拍儀進行采集,在實際操作中存在高拍儀對焦不準確、拍攝環(huán)境光線不足、拍攝角度不正確等造成影像模糊、傾斜、暗光等情況;拍照上傳的圖片存在噪聲、模糊、扭曲、形變、復雜背景干擾等問題;在原始票據開具打印環(huán)節(jié),存在如文字溢出票據表格單元、錯行、錯位、印章覆蓋文字信息等問題,造成文字識別干擾,極大影響了識別準確率。
(三)影像資料獲取和存儲安全問題
現(xiàn)階段獲取分支機構的影像資料,需要通過安全文件傳送協(xié)議從影像系統(tǒng)下載。在照片下載的過程中,不可避免地對影像系統(tǒng)生產環(huán)境的帶寬造成一定的占用,需要在非繁忙時間進行下載。此外,由于網絡帶寬限制,影像照片的下載速度慢,耗時較長。影像資料下載后,若缺少專用的存儲設備,將存在數(shù)據安全風險。
(四)資源投入和人才隊伍建設問題
應用OCR技術對圖片進行處理操作,將大量非結構化數(shù)據轉化為便于進行審計分析的高質量結構化數(shù)據,需要匹配具有較高計算能力的硬件,如多核CPU、高端顯卡、大容量存儲硬盤等設備。一旦缺少相應的資源投入,存儲影像照片的數(shù)量有限,不能做到長期數(shù)據積累,客觀上造成數(shù)據利用不充分,資源投入不足,將成為OCR技術在審計應用場景大規(guī)模落地的掣肘。同時,由于現(xiàn)有內審隊伍的IT人員接觸新技術、新工具的時間不長,關鍵技術的應用能力尚顯不足,在改進算法提升影像資料篩選的準確率以及改善識別準確率方面,仍需要加大科研投入。因此,進一步加強審計信息化人才隊伍建設,加快審計條線IT人員的技術轉型,將是推進審計技術創(chuàng)新發(fā)展的關鍵所在。
隨著OCR技術在內部審計工作中的探索實踐,筆者相信,新技術的應用將為內審人員進一步樹立數(shù)據思維、拓寬審計思路、提升審計水平帶來更廣闊的視角。
主要參考文獻
張鳳元,皮雨鑫,劉美佳.將人工智能應用于審計的研究[J].對外經貿, 2016(12)