摘 要:該文提出一種基于 PaddleOCR 框架的金融票據手寫體文本識別方法,通過引入基于生成對抗網絡(GAN)的數據合成工具 Style-Text,增強模型對不同背景文本的識別能力。在真實的金融票據數據集上進行的實驗表明,該方法在處理復雜文本和低質量圖像方面表現出顯著的優(yōu)勢,證明其在金融票據手寫體文本識別中的有效性和實用性。
關鍵詞:金融票據識別;PaddleOCR;數據合成;手寫體;文本識別
中圖分類號:TP391.4 文獻標志碼:A 文章編號:2095-2945(2024)30-0068-04
Abstract: This paper proposes a handwritten text recognition method for financial bills based on the PaddleOCR framework. By introducing Style-Text, a data synthesis tool based on GeYBXDgfRg+BmoO/I0YMqg5A==nerative Adversarial Network (GAN), it enhances the model's ability to recognize texts in different backgrounds. Experiments on real financial bill datasets show that this method has significant advantages in processing complex texts and low-quality images, proving its effectiveness and practicality in handwritten text recognition of financial bills.
Keywords: financial instrument recognition; PaddleOCR; data synthesis; handwriting; text recognition
金融票據作為金融交易和記錄的基礎憑證,其數字化處理對于提升業(yè)務效率、降低操作風險以及增強客戶體驗至關重要。手寫體文本識別技術在這一過程中扮演著核心角色,尤其是在處理支票、銀行匯票、信用卡賬單等涉及手寫信息的金融票據時。然而,手寫體文本的高度變異性、不規(guī)則書寫風格以及復雜的背景噪聲,使得自動化識別任務充滿挑戰(zhàn)。盡管光學字符識別(OCR)技術已取得顯著進展,但針對金融票據中的手寫體文本識別,仍需解決準確率和魯棒性的問題。所以,開發(fā)一種高效、準確的手寫體文本識別算法,對于金融行業(yè)的現代化和數字化轉型具有重要的戰(zhàn)略意義。
1 本研究的貢獻和創(chuàng)新點
本研究聚焦于金融票據手寫體文本識別的難題,提出了一種基于PaddleOCR框架[1]的識別方案,并通過引入Style-Text數據合成工具[2],顯著提升了模型對不同背景文本的識別能力。具體貢獻和創(chuàng)新點如下。
第一,提出了基于PaddleOCR的金融票據手寫體文本識別方案:結合金融票據的特殊性,采用了深度學習技術和GAN生成的數據集,顯著提高了手寫體文本識別的準確性和效率。
第二,引入GAN生成的數據集:使用Style-Text工具生成的數據集,提高了模型在不同背景和字體下的識別能力,增強了模型的泛化能力和魯棒性。
本研究在理論和實踐為金融行業(yè)的數字化轉型提供了有力的技術支持,并在2022年廣東省農村信用社聯合社金融科技校園挑戰(zhàn)賽中獲得總決賽三等獎,充分證明了其在金融票據手寫體文本識別中的有效性和實用性。
2 相關工作
2.1 手寫體文本識別技術發(fā)展
手寫體文本識別(Handwritten Text Recognition,HTR)技術的發(fā)展經歷了從早期基于規(guī)則的方法到現代的基于機器學習,尤其是深度學習的方法的轉變。在早期,手寫體文本識別主要依賴于特征工程和傳統(tǒng)機器學習算法,如支持向量機(SVM)和隱馬爾科夫模型(HMM)。這些方法通常需要專家設計復雜的特征提取過程,并且在處理多樣化的手寫風格時存在局限性。
隨著深度學習技術的發(fā)展,基于深度學習方法在手寫體文本識別領域取得了重大進展。這些方法主要可以分為2類(如圖1所示):基于序列和基于分割。
基于序列的方法主要基于循環(huán)神經網絡(Recurrent Neural Networks,RNN)和卷積神經網絡(Convolutional Neural Networks,CNN)。其中,RNN方法主要通過建立字符級別的序列模型來捕捉上下文信息,包括基于CTC(Connectionist Temporal Classification)[3]的方法和基于Attention機制的方法[4]。CNN方法主要基于卷積神經網絡來捕捉特征,并結合CTC和Attention機制進行識別[5]。最近,基于Transformer模型的序列模型也開始應用于手寫文本識別領域。
基于分割的方法則主要基于分割和識別2個階段,分割階段將手寫文本分割為單個字符或單詞,而識別階段則主要使用CNN等模型對分割出的字符或單詞進行識別。代表性方法包括EAST、DB、Rosetta、Start-Net等。
由上可見,手寫體文本識別技術從依賴手工特征到利用深度學習自動學習特征轉變,技術逐漸趨于成熟。盡管如此,針對特定應用場景的優(yōu)化和改進仍然是研究的熱點,隨著深度學習技術的進一步發(fā)展和優(yōu)化,手寫文本識別的性能將會進一步提升。
2.2 數據集
本研究使用了4種數據集,簡單介紹如下。
1)CASIA-HWDB數據集[6](如圖2所示):該數據集由中國科學院自動化研究所在2007—2010年間收集,它包含1 020人書寫的脫機(聯機)手寫中文文本,使用Anoto筆在點針紙上書寫后掃描、分割得到,數據集包含數千個手寫文本文檔,由多種書寫方式和多個手寫者書寫,覆蓋了各種字體、字號和傾斜角度等情況。利用該數據集可以提高OCR系統(tǒng)在長文本識別方面的準確性。
2)HCL2000單字數據集[7](如圖3所示):該數據集包含1 000人手寫的3 755個常用漢字字符集,共有3 000多萬個圖像數據。
3)由“科創(chuàng)金融,趣碼未來”廣東省農信聯社2022年金融科技校園挑戰(zhàn)賽主辦方提供的真實業(yè)務場景下金融票據圖像切片數據集,該數據集包括3 148張圖像,分為4類,分別涉及銀行名稱、地址信息、金額、用途。圖像中存在一定量的干擾信息,通過圖像二值化運算,可以消除部分背景干擾(如圖4所示)。
4)基于GAN的數據合成工具Style-Text合成的數據集[2]:該工具可以生成各種樣式的手寫體文本圖像,包括不同的字體、顏色、形狀和傾斜角度等,使用該工具可以擴充數據集,從而提高OCR系統(tǒng)的魯棒性和準確性。
2.3 圖像預處理
在金融場景下,票據圖像質量可能會受到多種因素的影響,例如光照不足、圖像模糊、扭曲變形等,這些因素會直接影響手寫體文本識別的準確性。因此,本研究采取了以下預處理步驟來提高圖像質量。
1)圖像增強:使用直方圖均衡化技術對圖像進行增強,提高圖像對比度。
2)圖像去噪:使用基于小波變換的去噪算法對圖像進行降噪處理,去除圖像中的噪聲干擾。
3)圖像二值化:使用基于Otsu閾值法的二值化方法將圖像轉換為二值圖像,便于后續(xù)的文字分割和識別。
4)圖像切割:使用基于連通域分析的切割算法對圖像進行文字切割,將每個字符分離出來,便于后續(xù)的識別。
5)文本檢測預處理:對輸入圖像進行文本檢測預處理,例如縮放、裁剪、旋轉等操作,以確保輸入圖像適合文本檢測模型。
6)文本識別預處理:對檢測到的文本區(qū)域進行預處理,例如調整大小、去除噪聲、二值化等操作,以提高文本識別的準確性。
2.4 模型選擇
2.4.1 文本檢測模型
根據PaddleOCR文檔展示的在公開數據集上不同文本檢測算法的效果比較,可以看出不同的文本檢測模型在不同的骨干網絡和數據集上的性能表現有所不同。在ICDAR2015數據集上,骨干網絡為ResNet50_vd的SAST模型表現最好,其次是骨干網絡為ResNet50的DB++模型。在Total-text數據集上,骨干網絡為ResNet50_vd的SAST模型表現最好。目前PaddleOCR僅支持2種骨干網絡,分別是MobileNetV3、ResNet_vd系列,因此我們選擇骨干網絡為ResNet50_vd的SAST模型作為文本檢測模型。
2.4.2 文本識別模型
根據PaddleOCR文檔展示的在公開數據集上不同文本識別算法的效果比較,可以看出SVTR的平均精度(Avg Accuracy)最高,達到了89.25%,其次是ABINet和VisionLAN,因此我們選擇骨干網絡為SVTR-Tiny的SVTR模型作為文本識別模型。
3 算法驗證與實驗結果分析
3.1 實驗設置
為了驗證基于PaddleOCR框架和Style-Text數據合成的金融票據手寫體文本識別方法的有效性,本研究設計了一系列實驗。以下是實驗設置的詳細描述。
1)數據集準備:實驗主要使用了前述4個不同的數據集。所有數據集在輸入模型之前都經過了嚴格的預處理,包括圖像增強、去噪、二值化和切割,以提高后續(xù)識別任務的準確性。
2)模型配置:根據PaddleOCR文檔展示的在公開數據集上不同文本檢測算法和不同文本識別算法的效果比較,本研究采用了SAST模型作為文本檢測模型,選擇了基于SVTR-Tiny的SVTR模型作為文本識別模型。所有模型均在金融票據數據集上進行了進一步的訓練和微調。
3)訓練過程:模型訓練采用了端到端的訓練策略,其中包括文本檢測和識別2個階段。在文本檢測階段,模型通過學習區(qū)分文本區(qū)域和非文本區(qū)域來定位文本。在文本識別階段,模型則學習將檢測到的文本區(qū)域映射到正確的文本序列。模型訓練使用了基于PaddlePaddle的優(yōu)化算法,并設置了適當的學習率(為0.001)和批次大?。?6)。
4)模型評估:我們選擇了多種評估指標,包括精確率(Precision)、召回率(Recall)、HMean(即F1值)和每張圖像的處理幀率(FPS)。準確率和召回率用于衡量模型在文本識別任務上的表現,HMean則是兩者的調和平均,提供了一個綜合的性能度量。FPS指標則用于衡量模型在實際應用中的處理速度。
通過上述實驗設置,本研究旨在全面評估所提方法在金融票據手寫體文本識別任務中的性能,并探討其在金融業(yè)務中的應用潛力。
3.2 實驗結果
3.2.1 模型訓練指標
模型訓練過程的評價采用了Loss、Loss_threshold_maps、Loss_shrink_maps、Loss_binary_maps等指標(如圖5所示)。這些指標可以用來評估模型在訓練過程中的表現和學習進度,也能反映模型在不同階段的表現和學習效果。在訓練過程中,訓練集和驗證集上的損失都逐漸下降,收斂于較小的值,沒有出現過擬合。Loss_shrink_maps 和Loss_threshold_maps指標在訓練中的穩(wěn)定性和低損失值表明了模型在此任務上的有效性。
3.2.2 模型評估指標
模型在測試集上的評估指標包括HMean、Precision、Recall、Best_HMean等(如圖6所示)。
從實驗評估指標展示結果中可以看出,模型在金融票據手寫體文本識別中取得了較好的性能,模型在不同閾值下的表現差異較小,說明模型具有較好的魯棒性。但是,模型在某些情況下仍然存在錯誤識別的情況,需要進一步優(yōu)化模型的準確率。
3.2.3 模型部署和推理
本研究將訓練所得的模型部署在移動端APP上,進行性能實測。在實際測試中,該模型可以快速處理各種形狀、大小、顏色的金融票據,并將該文本準確地提取出來。模型在移動端的最大處理效率約為每秒5幀,滿足金融票據識別的性能要求。
3.3 結果分析
本研究通過一系列實驗全面評估了基于PaddleOCR框架和Style-Text數據合成工具的金融票據手寫體文本識別方法。以下是對實驗結果的深入分析和討論。
1)模型性能:實驗結果顯示,模型在金融票據手寫體文本識別任務上取得了顯著的性能提升。特別是在處理復雜背景和低質量圖像時,模型展現出了較高的準確率和召回率。這一結果驗證了PaddleOCR框架和Style-Text數據合成工具在提高模型泛化能力和魯棒性方面的有效性。
2)魯棒性:模型在不同閾值下的表現差異較小,表明了其在各種條件下的魯棒性。這一點在金融票據識別中尤為重要,因為票據的質量和背景條件可能存在很大差異。
3)處理速度:模型的FPS指標表明,我們的識別系統(tǒng)不僅準確,而且高效。這對于需要快速處理大量票據的金融業(yè)務場景至關重要。
+dbeZHwzFPJwisVbnjx4wg==4 結論
本研究中通過一系列實驗全面評估了基于PaddleOCR框架和Style-Text數據合成工具的金融票據手寫體文本識別方法。實驗結果顯示,改后模型框架在金融票據手寫體文本識別任務上取得了顯著的性能提升。特別是在處理復雜背景和低質量圖像時,模型展現出了較高的準確率和召回率。同時,模型在不同環(huán)境下的魯棒性和處理速度得到了很大的提升。
本研究推動了金融票據識別技術的自動化和智能化,為相關領域的OCR應用提供了寶貴的經驗和技術支持。然而,研究仍存在局限性,如長文本背景風格的單一性和形近字識別難題,未來研究仍需探索更多樣化的數據合成技術和精細的識別策略,提高對復雜背景和模糊手寫文本的識別能力,并探索更高效、智能的金融票據處理流程。
參考文獻:
[1] LI C, LIU W, GUO R, et al. PP-OCRv3: More attempts for the improvement of ultra lightweight OCR system[J]. arXiv preprint arXiv:2206.03001,2022.
[2] WU L, ZHANG C, LIU J, et al. Editing text in the wild[C]// Proceedings of the 27th ACM international conference on multimedia, 2019:1500-1508.
[3] GRAVES A, GRAVES A. Connectionist temporal classification[J]. Supervised sequence labelling with recurrent neural networks, 2012:61-93.
[4] FUKUI H, HIRAKAWA T, YAMASHITA T, et al. Attention branch network: Learning of attention mechanism for visual explanation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019:10705-10714.
[5] SHI B, BAI X, YAO C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016,39(11):2298-2304.
[6] LIU C L, YIN F, WANG D H, et al. CASIA online and offline Chinese handwriting databases[C]//2011 international conference on document analysis and recognition. IEEE, 2011:37-41.
[7] ZHANG H, GUO J, CHEN G, et al. HCL2000-A large-scale handwritten Chinese character database for handwritten character recognition[C]//2009 10th International Conference on Document Analysis and Recognition. IEEE, 2009:286-290.
基金項目:廣東省科技創(chuàng)新戰(zhàn)略專項資金立項項目(pdjh2022b0720)
第一作者簡介:張輝煌(1999-),男,大模型產品經理。研究方向為大語言模型在實際業(yè)務場景的應用。