亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

候選框密度可變的YOLO網(wǎng)絡國際音標字符識別方法

2019-08-27 02:26:02鄭伊齊冬蓮王震宇

計算機應用 2019年6期

鄭伊齊冬蓮王震宇

摘要：針對傳統(tǒng)方法對國際音標（IPA）的字符特征提取存在的識別精度低、實效性差等問題，提出了一種候選框密度可變的YOLO網(wǎng)絡國際音標字符識別方法。首先，以YOLO網(wǎng)絡為基礎，結合國際音標字符圖像X軸方向排列緊密、字符種類和形態(tài)多樣的特點來改變YOLO網(wǎng)絡中候選框的分布密度;然后，增加識別過程中候選框在X軸上的分布，同時減小Y軸方向上的密度，構成YOLO-IPA網(wǎng)絡。對采集自《漢語方音字匯》的含有1360張、共72類國際音標圖像的數(shù)據(jù)集進行檢驗，實驗結果表明：所提方法對尺寸較大的字符識別率達到93.72%，對尺寸較小的字符識別率達到89.31%，較傳統(tǒng)的字符識別算法，大幅提高了識別準確性;同時，在實驗環(huán)境下檢測速度小于1s，因而可滿足實時應用的需求。

關鍵詞：國際音標;字符檢測與識別;YOLO網(wǎng)絡;深度學習

中圖分類號： TP391.1

文獻標志碼：A

Abstract： Aiming at the low recognition accuracy and poor practicability of the traditional character feature extraction methods to International Phonetic Alphabet （IPA）， a You Only Look Once （YOLO） network character recognition method with variable candidate box density for IPA was proposed. Firstly， based on YOLO network and combined with three characteristics such as the characters of IPA are closely arranged on X-axis direction and have various types and forms， the distribution density of candidate box in YOLO network was changed. Then， with the distribution density of candidate box on the X-axis increased while the distribution density of candidate box on the Y-axis reduced， YOLO-IPA network was constructed. The proposed method was tested on the IPA dataset collected from Chinese Dialect Vocabulary with 1360 images of 72 categories. The experimental results show that， the proposed method has the recognition rate of 93.72% for large characters and 89.31% for small characters. Compared with the traditional character recognition algorithms， the proposed method greatly improves the recognition accuracy. Meanwhile， the detection speed was improved to less than 1s in the experimental environment. Therefore， the proposed method can meet the need of real-time application.

Key words： International Phonetic Alphabet （IPA）; character detection and recognition; You Only Look Once （YOLO） network; deep learning

0 引言

國際語音字母表（International Phonetic Alphabet， IPA）是國際語音學會為世界各種語言提供的一套強大的語音標注系統(tǒng)，通過采用一種簡單的圖表方式對音標符號進行分類和命名，目前在國際語言學界以及語言教學領域得到廣泛應用[1]。在我國各地方言和少數(shù)民族語言文字保護工作中，均需借助國際音標進行記錄，可以說國際音標是記錄和傳承民族、地區(qū)文化最重要的載體。

目前，國際音標有103個單獨字母，23個元音、72個輔音，已發(fā)展成為一種獨立復雜的符號系統(tǒng)[2]。但是，現(xiàn)存的字符識別系統(tǒng)還不能對國際音標字符進行高效且準確的識別。

從語言學背景角度分析，其主要原因在于：首先，國際音標是一種專門化的符號系統(tǒng)，往往只有語言學家學習和使用，應用環(huán)境相對封閉[3];其次，涉及國際音標的著作較少，影響也小，所以缺乏專門的字符識別系統(tǒng)[4];再次，早期的國際音標符號以拉丁字母為基礎，音標符號較少，借助已有的拉丁字母識別系統(tǒng)，可實現(xiàn)部分國際音標符號的識別[5]。然而，隨著數(shù)字化技術的出現(xiàn)、圖像設備的普及以及互聯(lián)網(wǎng)的迅速發(fā)展，越來越多的圖書文獻以圖像的形式出現(xiàn)，這其中也包括以國際音標為載體所記錄的文獻。為此，對于國際音標字符識別的研究也逐步引起學者的關注。

從技術應用角度分析，傳統(tǒng)的字符識別被當作一個分類問題來解決，從字符圖像的獲取到結果的輸出，必須經(jīng)過5個步驟：圖像的獲取、字符圖像的預處理、字符的特征提取、字符的識別分類和識別結果[6]。其中，字符圖像的特征提取最為關鍵，決定著識別系統(tǒng)的準確率和識別速度。目前，已有研究大多基于統(tǒng)計特征和結構特征提取字符圖像的信息，如四邊碼特征、粗網(wǎng)格特征、梯度角度直方圖特征等[7]。但當使用此類特征提取方法時，會產(chǎn)生相似字符區(qū)分度差、抗筆畫粘連干擾能力弱、局部字符特征描述不足等缺點，導致后續(xù)分類器的應用困難、識別準確性下降、模型訓練速度減慢，嚴重制約了國際音標字符識別技術的應用和發(fā)展。

隨著機器學習技術的發(fā)展，基于深度學習的目標檢測與定位識別方法得到了廣泛引用[8-10]。卷積神經(jīng)網(wǎng)絡（Convolution Neural Network， CNN）作為深度學習常用模型之一，在目標檢測與識別方面發(fā)揮了舉足輕重的作用。Krizhevsky 等[11]利用卷積神經(jīng)網(wǎng)絡對LSVRC-2010 （Large Scale Visual Recognition Challenge-2010）和LSVRC-2012 （Large Scale Visual Recognition Challenge-2012）數(shù)據(jù)集的1.2×106張圖像進行1000種以上的分類，獲得了當時最高的分類準確率?；谏疃葘W習的目標檢測方法大致可以分為兩類：一類是基于區(qū)域提名（Region Proposal）的目標檢測方法，如R-CNN（Region CNN）[12]、SPP-net（Spatial Pyramid Pooling net） [13]、Fast R-CNN（Fast R-CNN） [14]、Faster R-CNN（Faster R-CNN） [15]、R-FCN （Region-based Fully Convolutional Network） [16];另一類是無需區(qū)域提名，基于端到端（End-to-End）的目標檢測方法，如YOLO （You Only Look Once） [17]、SSD（Single Shot multibox Detector）[18]等?；趨^(qū)域提名的方法在精度上占據(jù)優(yōu)勢，但端到端的方法在速度上的優(yōu)勢更加明顯。

YOLO是由Redmon等[17]于2016年提出的一種全新的端到端檢測算法，雖然YOLO也屬于CNN，但在檢測過程中模糊了候選區(qū)域生成、候選區(qū)域特征提取、特征輸入分類器驗證的區(qū)別，直接快速地完成了檢測任務，可滿足實時性檢測的需求。國際音標圖像排列緊密，且字符的種類、形態(tài)多樣，綜合考慮檢測準確性與檢測速度，本文提出了一種候選區(qū)域密度可變的YOLO國際音標字符識別方法YOLO-IPA，結合國際音標圖像特點，合理分布候選框密度，提高檢測的準確性，為音標記錄文獻提供一種穩(wěn)定、高效、可實時應用的字符識別方法。

1.1 目標檢測

YOLO通過使用來自整個圖像的特征預測每個邊界框，同時可預測所有類的邊界框。如圖2所示，YOLO首先將輸入圖像劃分為S×S網(wǎng)格。如果目標的中心落入網(wǎng)格單元，那么網(wǎng)格單元就負責檢測該目標。每個網(wǎng)格要預測B個邊界框，而每個邊界框除了要回歸自身的位置之外，還要附帶預測所存在目標的置信度，如式（1）所示：

1.2 目標識別定位

每個邊界框均要預測（X，Y，W，H）和置信度等5個值，其中，X、Y為預測框中心相對于單元格邊界的偏移，W、H為預測框寬高相對于整幅圖像之比。同時，每個網(wǎng)絡將預測C個類別概率，即Pr（Classi|Object），該概率表示第i類物體中心落入該網(wǎng)格的概率。因此，對于輸入的每幅照片，最終網(wǎng)絡的輸出為S×S×（5×B+C）的一個向量。

2 YOLO-IPA網(wǎng)絡架構

針對國際音標字符的結構特點，YOLO-IPA首先以YOLO網(wǎng)絡結構為基礎，采用目標區(qū)域網(wǎng)絡（Region Proposal Network， RPN）并去除全連接層，使用錨箱來預測目標框;通過在所有卷積層上添加批量歸一化處理，改善收斂效果，構成YOLOv2網(wǎng)絡[19]。其次，針對國際音標圖像中，音標在X軸上排列較為密集的情況，如圖3所示，增加識別過程中候選框在X軸上的分布密度，同時減少Y軸方向上的數(shù)量，最終構成YOLO-IPA網(wǎng)絡，如圖4所示。

2.1 RPN

YOLO包含有全連接層，可直接預測邊界框的坐標值，但Faster R-CNN僅用卷積層與RPN來預測錨箱的偏移值與置信度，而不是直接預測坐標值。實際應用中，通過預測偏移量而不是坐標值更能夠簡化問題，降低神經(jīng)網(wǎng)絡的學習難度。因此，本文將使用RPN代替YOLO的全連接層，使用錨箱來預測邊界框。雖然使用錨箱會讓精確度有所下降，但可同時實現(xiàn)對不低于一千個框的預測，且大大提高了召回率。

2.2 批量歸一化

批量歸一化可以顯著改善收斂性能，而不需要其他形式的正則化。通過在YOLO所有卷積層中添加批量歸一化，mAP（mean Average Precision）可獲得超過2%的改進效果，同時也有助于規(guī)范模型，而不會出現(xiàn)過度擬合[19]。因此，本文在YOLO網(wǎng)絡的基礎上增加了批量歸一化的方法。

2.3 X軸方向候選框擴展

YOLO網(wǎng)絡首先將輸入圖像分成S×S網(wǎng)格，候選框將在X和Y軸上同等密度分布。對國際音標字符進行檢測時，如圖3所示，音標字符在圖像中呈現(xiàn)出在X軸上緊密排列分布、Y軸上分布稀疏的特點，原有的候選框分布規(guī)則將難以適用。針對這一問題，本文在此前建立網(wǎng)絡上增加AddBoxes層，增加候選框在X軸方向的密度，同時減小Y軸方向候選框密度，構成YOLO-IPA網(wǎng)絡。

3 實驗結果及分析

為了驗證本文所設計網(wǎng)絡結構在國際音標字符檢測與識別中的有效性，在PC上進行了實驗。PC的基本配置如下：CPU雙核2.8GHz，GPU采用單塊TitanX，12GB顯存，32GB內存，Ubuntu 14.04操作系統(tǒng)。深度學習采用Caffe框架訓練，訓練時間共18h。

3.1 國際音標字符訓練集

本文使用的國際音標字符樣本來自《漢語方音字匯》。該文獻收錄了20個漢語方言點的字音材料，基本上可以代表漢語的各大方言：北京、濟南、西安、太原、武漢、成都、合肥、揚州（以上官話），蘇州、溫州（以上吳語），長沙、雙峰（以上湘語），南昌（贛語），梅縣（客家話），廣州、陽江（以上粵語），廈門、潮州、福州、建甌（以上閩語）。全書共收入3000個字目，按普通話音序排列，用國際音標標寫方言讀音，該書是漢語語音研究的重要參考書。將全書掃描，按書中表格截出音標字符，國際音標字符如圖3所示。

3.2 實驗步驟

實驗步驟如下：

1）訓練算法。使用基于隨機梯度下降（SGD）法衍生的批量歸一化方法來訓練數(shù)據(jù)。每次隨機讀取10幅圖像進行訓練，動量項為0.9，學習率為10-4，偏置學習率為2×10-4，權值衰減系數(shù)為5×10-4。前20層卷積層使用原YOLO網(wǎng)絡的參數(shù)，卷積層轉化為RPN的卷積核參數(shù)用0來初始化，原網(wǎng)絡結構中的dropout操作被保留在原來的位置。

2）微調。通過反向傳播算法微調所有層的參數(shù)，在原YOLO網(wǎng)絡的基礎上對RPN進行微調，并遵循Fast R-CNN 中“image-centric”采樣策略進行訓練。

3）訓練數(shù)據(jù)。收集了1360張、共72類國際音標字符圖像，并人工標定了訓練與測試用的數(shù)據(jù)集。訓練前沒有對字符圖像進行任何處理，字符圖像的分辨率為300萬～2000萬像素。

3.3 結果分析

為驗證本文提出的增加X軸方向候選框數(shù)量以提高檢測器性能的有效性，比較了YOLO-IPA與利用選擇性搜索（Selective Search，SS）和EB（Edge Boxes）兩種不同方法進行可能性目標區(qū)域定位，然后分別對可能性目標區(qū)域進行方向梯度直方圖（Histogram of Oriented Gradient， HOG）、尺度不變特征變換（Scale-Invariant Feature Transform，SIFT）特征提取，最后使用K-近鄰（K-Nearest Neighbors， KNN）、支持向量機（Support Vector Machine， SVM）、邏輯回歸Softmax分類器分別進行實現(xiàn)識別的仿真結果。如表1所示，本文以、、s、k、五種字符為例給出了不同算法的識別精度對比，并以圖5為例給出了不同字符的識別結果。

從表1可知，6種方法中，YOLO-IPA均實現(xiàn)了最高精度，YOLOv2次之，而基于傳統(tǒng)特征提取的識別算法明顯差于深度學習方法。同時，由表1實驗結果可以看出，YOLO-IPA方法識別精度與字符大小相關，例如對于尺寸較大的字符（識別精度為93.72%）相比其他較小的字符，如s字符（識別精度為89.31%），具有更高的識別精度，但相比其他算法的識別精度已經(jīng)有了大幅提升。

4 結語

當前卷積神經(jīng)網(wǎng)絡已經(jīng)廣泛應用在目標識別與檢測的研究中，本文采用一種改進的YOLO目標檢測架構對國際音標進行定位和狀態(tài)識別。與傳統(tǒng)方法相比，該方法可以有效地對國際音標字符進行識別，但對較小尺寸的目標識別準確率還有待進一步提高，這也是下一步的研究工作。

參考文獻（References）

[1] 燕海雄，江荻.國際音標符號的分類、名稱、功能與Unicode編碼 [J].語言科學，2007，6（6）：82-91.（YAN H X， JIANG D. The classifications， functions， Chinese names of IPA symbols and their unicode [J]. Linguistic Sciences， 2007， 6（6）： 82-91.）

[2] 呂佳，江荻.國際音標擴展表的分類、命名與功能[J].聽力學及言語疾病雜志，2013，21（6）：665-668.（LYU J， JIANG D. The classification， nomenclature and function of extensions to the international phonetic alphabet [J]. Journal of Audiology and Speech Pathology， 2013， 21（6）： 665-668.）

[3] 曹雨生，徐昂.微機國際音標系統(tǒng)[J].民族語文，1990（1）：74-79.（CAO Y S， XU A. The international phonetic alphabet system in microcomputer [J]. Minority Languages of China， 1990（1）： 74-79.）

[4] 潘曉聲.國際音標符號名稱的簡稱[J].民族語文，2012（5）：56-61.（PAN X S. The name abbreviation of international phonetic alphabet symbols [J]. Minority Languages of China， 2012 （5）： 56-61.）

[5] PADEFOGED H，石在.國際音標的一些主要特征[J].齊齊哈爾師范學院學報（哲學社會科學版），1995（2）：150-153.（PADEFOGED H， SHI Z. Some major features of the international phonetic alphabet [J]. Journal of Qiqihar University （Philosophy & Social Science Edition）， 1995（2）： 150-153.）

[6] 邱立松.國際音標字符識別算法的研究[D].上海師范大學，2015：2-3.（QIU L S. Study on the recognition algorithm of international phonetic alphabet characters [D]. Shanghai： Shanghai Normal University， 2015： 2-3.）

[7] 張玉葉，姜彬，李開端，等.一種結合結構和統(tǒng)計特征的脫機數(shù)字識別方法[J].微型電腦應用，2016，32（8）：76-79.（ZHANG Y Y， JIANG B， LI K D， et al. An off-line handwritten numeral recognition method combined with the statistical characteristics and structural features [J]. Microcomputer Applications， 2016， 32（8）： 76-79.）

[8] 陳東杰，張文生，楊陽.基于深度學習的高鐵接觸網(wǎng)定位器檢測與識別[J].中國科學技術大學學報，2017，47（4）：320-327.（CHEN D J， ZHANG W S， YANG Y. Detection and recognition of high-speed railway catenary locator based on deep learning [J]. Journal of University of Science and Technology of China， 2017， 47（4）： 320-327.）

[9] 白翔，楊明錕，石葆光，等.基于深度學習的場景文字檢測與識別[J].中國科學：信息科學，2018，48（5）：531-544.（BAI X， YANG M K， SHI B G， et al. Deep learning for scene text detection and recognition [J]. SCIENTIA SINICA Informationis， 2018， 48（5）： 531-544.）

[10] 鐘沖，徐光柱.結合前景檢測和深度學習的運動行人檢測方法[J].計算機與數(shù)字工程，2016，44（12）：2396-2399.（ZHONG C， XU G Z. Movement pedestrian detection method combined with foreground subtraction and deep learning [J]. Computer & Digital Engineering， 2016， 44（12）： 2396-2399.）

[11] KRIZHEVSKY A， SUTSKEVER I， HINTON G E. ImageNet classification with deep convolutional neural networks [C]// NIPS 2012： Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach， FL： Curran Associates Inc.， 2012： 1097-1105.

[12] GIRSHICK R， DONAHUE J， DARRELL T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2014： 580-587.

[13] HE K M， ZHANG X Y， REN S Q， et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [C]// Proceedings of the 2014 European Conference on Computer Vision， LNCS 8691. Cham： Springer， 2014： 346-361.

[14] GIRSHICK R. Fast R-CNN [C] // ICCV 2015： Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington， DC： IEEE Computer Society， 2015： 1440-1448.

[15] REN S Q， HE K M， GIRSHICK R， et al. Faster R-CNN： towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39（6）： 1137-1149.

[16] DAI J F， LI Y， HE K M， et al. R-FCN： object detection via region-based fully convolutional networks [C] // NIPS 2016： Proceedings of the 30th International Conference on Neural Information Processing Systems. North Miami Beach， FL： Curran Associates Inc.， 2016： 379-387.

[17] REDMON J， DIVVALA S， GIRSHICK R， et al. You only look once： unified， real-time object detection [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2016： 779-788.

[18] LIU W， ANGUELOV D， ERHAN D， et al. SSD： single shot multibox detector [C]// ECCV 2016： Proceedings of the 2016 European Conference on Computer Vision， LNCS 9905. Cham： Springer， 2016： 21-37.

[19] REDMON J， FARHADI A. YOLO9000： better， faster， stronger [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2017： 6517-6525.