廣東電網(wǎng)有限責(zé)任公司廣州供電局 梁林森
近年來(lái),全國(guó)醫(yī)療服務(wù)的就診人數(shù)持續(xù)提高,數(shù)量高達(dá)幾十億,很多企業(yè)收到的醫(yī)療收費(fèi)報(bào)銷單據(jù)也在迅速增長(zhǎng),然而這類醫(yī)療收費(fèi)票據(jù)的處理依然停留在傳統(tǒng)的人工處理方式階段,難以滿足企業(yè)工作需要?,F(xiàn)在借助成熟的OCR文字識(shí)別技術(shù)實(shí)現(xiàn)醫(yī)療收費(fèi)報(bào)銷單據(jù)的自動(dòng)錄入,將極大的提高財(cái)務(wù)人員的工作效率,縮短報(bào)銷時(shí)間。
技術(shù)簡(jiǎn)述:OCR中文叫做光學(xué)字符識(shí)別,是利用光學(xué)技術(shù)和計(jì)算機(jī)技術(shù)把印在或?qū)懺诩埳系奈淖肿x取出來(lái),并轉(zhuǎn)換成一種計(jì)算機(jī)能夠接受、人又可以理解的格式。這項(xiàng)技術(shù)已經(jīng)比較成熟,應(yīng)用風(fēng)險(xiǎn)也低。OCR一般可分為手寫(xiě)體識(shí)別和印刷體識(shí)別,識(shí)別內(nèi)容則包括漢字、英文字母、阿拉伯?dāng)?shù)字、常用標(biāo)點(diǎn)符號(hào)等。一套OCR處理流程基本可分為版面分析、預(yù)處理、行列切割、字符識(shí)別、后處理識(shí)別矯正共計(jì)5個(gè)步驟。
技術(shù)特點(diǎn):基于OCR技術(shù)建立的各種圖像識(shí)別應(yīng)用系統(tǒng)大都可歸納為特征提取、文字定位、光學(xué)識(shí)別、語(yǔ)言模型四個(gè)方面。在建立的識(shí)別應(yīng)用系統(tǒng)中,原始圖像的數(shù)據(jù)質(zhì)量影響最終的識(shí)別結(jié)果。例如:拍照或掃描模糊,有斜角、反向等,這些都需要在特征提取前做好預(yù)處理。同時(shí)OCR有一個(gè)識(shí)別正確率的限制,并不會(huì)完全100%識(shí)別準(zhǔn)確,目前對(duì)印刷體的識(shí)別率可達(dá)到99.8%,手寫(xiě)體一般最高可達(dá)90%。因此,實(shí)現(xiàn)基于OCR技術(shù)的醫(yī)療收費(fèi)票據(jù)自動(dòng)錄入功能時(shí)需要考慮識(shí)別準(zhǔn)確率的情況,做好數(shù)據(jù)的后期矯正[1-2]。
當(dāng)前,醫(yī)療收費(fèi)票據(jù)基本都是打印的紙質(zhì)票據(jù),需通過(guò)票據(jù)掃描設(shè)備轉(zhuǎn)化為影像掃描件。然后通過(guò)OCR識(shí)別技術(shù)進(jìn)行票據(jù)信息的提取,最后錄入財(cái)務(wù)相關(guān)系統(tǒng),機(jī)器或人工審核后執(zhí)行后續(xù)企業(yè)內(nèi)部報(bào)銷流程。圖1為票據(jù)數(shù)據(jù)流向的分析示意圖。
如圖1所示,原始紙質(zhì)票據(jù)轉(zhuǎn)化為掃描件圖像后,經(jīng)過(guò)預(yù)處理后分為兩類數(shù)據(jù):一是分割和規(guī)范化的單個(gè)字符的圖像;另一個(gè)是經(jīng)過(guò)校正去燥等處理的完整的票據(jù)圖像(圖1中處理后圖像分支)。分割后的圖像送入OCR識(shí)別器中識(shí)別,提取票據(jù)數(shù)據(jù)信息;處理后的圖像可按票據(jù)種類、日期、單位、醫(yī)院類型、住院(科室)等數(shù)據(jù)項(xiàng)進(jìn)行分類壓縮存放,可保存在磁帶、光盤(pán)等大容量存儲(chǔ)介質(zhì)上,供查詢和重新識(shí)別使用[3]。
實(shí)現(xiàn)醫(yī)療收費(fèi)票據(jù)的自動(dòng)錄入功能需構(gòu)建四大應(yīng)用模塊,按數(shù)據(jù)的流向,依次為票據(jù)影像自動(dòng)獲取、票據(jù)識(shí)別、數(shù)據(jù)自動(dòng)錄入(圖2)、人機(jī)數(shù)據(jù)審核。其中人機(jī)數(shù)據(jù)審核尤為重要,因?yàn)樯婕暗较嚓P(guān)人員的報(bào)銷資金,如果以萬(wàn)份錯(cuò)誤率為功能符合度的指標(biāo),我們認(rèn)為萬(wàn)份錯(cuò)誤率<0.01%。通過(guò)人機(jī)數(shù)據(jù)審核功能,建立“機(jī)器+人工”的雙層核查機(jī)制,具體設(shè)計(jì)如下:
圖1 票據(jù)數(shù)據(jù)流向示意圖
創(chuàng)建系統(tǒng)自查自糾的數(shù)據(jù)約束規(guī)則,先由系統(tǒng)根據(jù)規(guī)則對(duì)錄入系統(tǒng)的數(shù)據(jù)進(jìn)行第一次核查,對(duì)發(fā)現(xiàn)的異常數(shù)據(jù)提交人工核查;人工對(duì)系統(tǒng)對(duì)提交的異常數(shù)據(jù)進(jìn)行識(shí)別,將正確的數(shù)據(jù)錄入系統(tǒng),提交后臺(tái)規(guī)則學(xué)習(xí)模型中進(jìn)行訓(xùn)練;人工對(duì)系統(tǒng)全部錄入的數(shù)據(jù)進(jìn)行隨機(jī)抽查,抽查發(fā)現(xiàn)錯(cuò)誤的數(shù)據(jù),將正確的數(shù)據(jù)錄入系統(tǒng),提交后臺(tái)規(guī)則學(xué)習(xí)模型中進(jìn)行訓(xùn)練;通過(guò)上述三個(gè)過(guò)程的循環(huán)應(yīng)用,逐步提高系統(tǒng)自查自糾的能力,降低人工參與的機(jī)會(huì),最終實(shí)現(xiàn)系統(tǒng)采集、識(shí)別、錄入、校對(duì)的全過(guò)程自動(dòng)化處理。
圖2 醫(yī)療收費(fèi)票據(jù)自動(dòng)錄入輔助應(yīng)用結(jié)構(gòu)圖
目前,基于OCR技術(shù)的醫(yī)療收費(fèi)票據(jù)自動(dòng)錄入系統(tǒng)已在廣東電網(wǎng)公司廣州供電局財(cái)務(wù)共享中心上線運(yùn)行,應(yīng)用效果也比較好,主要體現(xiàn)在以下兩點(diǎn):
工作效率極大提升。系統(tǒng)上線運(yùn)行前,對(duì)于財(cái)務(wù)人員來(lái)說(shuō)最頭疼的就是發(fā)票的錄入和整理。人工錄入耗時(shí)低效、易出錯(cuò),人工校驗(yàn)、糾正也會(huì)花費(fèi)大量的時(shí)間。現(xiàn)在發(fā)票通過(guò)掃描儀即可實(shí)現(xiàn)發(fā)票的識(shí)別、數(shù)據(jù)自動(dòng)錄入、發(fā)票驗(yàn)真等工作。以前1個(gè)月的發(fā)票錄入工作,現(xiàn)在3個(gè)小時(shí)內(nèi)可全部錄入系統(tǒng),工作效率得到了極大提升。
圖3 系統(tǒng)操作界面
與報(bào)銷系統(tǒng)高度集成,報(bào)銷時(shí)效大幅度縮短。這套醫(yī)療票據(jù)自錄入系統(tǒng)可以本地部署也可以云部署,直接對(duì)接企業(yè)財(cái)務(wù)共享中心,企業(yè)各地的員工通過(guò)手機(jī)客戶端即可完成發(fā)票的采集、識(shí)別、驗(yàn)真[4]。后續(xù),員工出差后不需要回到辦公室貼發(fā)票、提交報(bào)銷單,隨時(shí)隨地都可以提交報(bào)銷申請(qǐng),享受到了高效的醫(yī)療報(bào)銷體驗(yàn)。
綜上,針對(duì)醫(yī)療收費(fèi)票據(jù)報(bào)銷業(yè)務(wù),充分借鑒了OCR識(shí)別技術(shù)、移動(dòng)應(yīng)用技術(shù),以及人工智能技術(shù),與之前傳統(tǒng)的票據(jù)人工錄入工作模式相比,通過(guò)系統(tǒng)識(shí)別自錄入功能的使用,極大的降低醫(yī)療發(fā)票錄入和整理的時(shí)間成本,提高了財(cái)務(wù)人員的業(yè)務(wù)專注度,也提高了財(cái)務(wù)報(bào)銷工作的及時(shí)率,準(zhǔn)確度,有比較好的推廣應(yīng)用價(jià)值。