亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于視頻文字識(shí)別的跑步成績(jī)自動(dòng)測(cè)量系統(tǒng)研究＊

2018-12-06 08:01:18朱桂斌鐘劉翔

科技與創(chuàng)新 2018年22期

關(guān)鍵詞：文本區(qū)域檢測(cè)

朱桂斌，鐘劉翔

朱桂斌，鐘劉翔

（陸軍工程大學(xué)通信士官學(xué)校，重慶 400035）

目前，對(duì)于體育考核中跑步成績(jī)的測(cè)量仍采用人工計(jì)時(shí)的方法，其結(jié)果不夠客觀、準(zhǔn)確。針對(duì)這些問題，以機(jī)器視覺分析技術(shù)為核心，通過采集現(xiàn)場(chǎng)的視頻，實(shí)時(shí)識(shí)別參考人員的號(hào)牌，自動(dòng)記錄參考人員的圈數(shù)、用時(shí)和最終成績(jī)，以提高考核手段的科學(xué)性和客觀性。

自然場(chǎng)景；文字檢測(cè)；文字識(shí)別；背景檢測(cè)

隨著配備數(shù)碼相機(jī)的移動(dòng)電話終端的廣泛使用，視頻和圖像的采集更加方便。目前，網(wǎng)絡(luò)上有大量的視頻素材都是用消費(fèi)級(jí)終端在沒有嚴(yán)格光照、拍攝角度等條件拍攝的。這些視頻中的文字為后續(xù)的視頻分析和數(shù)據(jù)挖掘提供了可靠的信息來源。從自然場(chǎng)景中提取并識(shí)別文字在行人再識(shí)別、盲人輔助系統(tǒng)以及視頻字幕提取等領(lǐng)域應(yīng)用廣泛，成為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)研究熱點(diǎn)[1-8]。

在體育比賽或體能考核中經(jīng)常需要對(duì)人員進(jìn)行自動(dòng)識(shí)別，這是一個(gè)典型的行人再識(shí)別問題[1]。對(duì)運(yùn)動(dòng)員進(jìn)行識(shí)別有2種方法，即人臉識(shí)別或號(hào)碼識(shí)別。在拍攝場(chǎng)地，通常人員較多，采用人臉識(shí)別需要檢測(cè)和跟蹤識(shí)別的對(duì)象較多，對(duì)運(yùn)算能力的要求較高。號(hào)碼識(shí)別相對(duì)人臉識(shí)別運(yùn)算復(fù)雜度較低，便于在低成本的終端上實(shí)現(xiàn)。以此為基礎(chǔ)實(shí)現(xiàn)的運(yùn)動(dòng)成績(jī)自動(dòng)測(cè)量系統(tǒng)相對(duì)于人臉識(shí)別來說精度更高。

基于傳統(tǒng)OCR技術(shù)的文字檢測(cè)與識(shí)別效果已基本滿足要求，但是自然場(chǎng)景文字檢測(cè)與識(shí)別仍然有許多問題，特別是對(duì)運(yùn)動(dòng)目標(biāo)的文字識(shí)別尤其突出。主要原因有：①自然場(chǎng)景中通常含有許多干擾圖案，比如樹干、柵欄和標(biāo)志等；②自然場(chǎng)景圖像中文字的大小、方向、顏色各不相同；③拍攝的圖像會(huì)因運(yùn)動(dòng)員的快速運(yùn)動(dòng)或聚焦位置固定而變模糊，尤其是在拍攝分辨率較低時(shí)更加嚴(yán)重；④人員跑動(dòng)時(shí)身體姿勢(shì)和方向的變化甚至手臂的遮擋，將導(dǎo)致號(hào)碼區(qū)域的正確檢測(cè)和識(shí)別困難[1]。

自然場(chǎng)景文字識(shí)別包含2個(gè)過程，即文字檢測(cè)和文字識(shí)別。文字檢測(cè)的作用是從圖像中檢測(cè)文字的存在與否，并確定文字區(qū)域的邊框。文字識(shí)別可完成圖像信息到文字信息的映射。文本檢測(cè)和文本定位從本質(zhì)上來說都屬于有監(jiān)督的分類問題，區(qū)別在于類別的數(shù)量不同。分類問題通常由2個(gè)步驟組成，即特征提取和識(shí)別。常用特征包括邊緣特征、筆畫特征、結(jié)構(gòu)特征等，特征通常由人工設(shè)計(jì)。常用的分類器包括隨機(jī)森林、SVM和ANN等。近年來，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，有許多基于深度網(wǎng)絡(luò)的研究工作獲得了較大的進(jìn)步[6，8]?；谏疃染W(wǎng)絡(luò)的文本定位和識(shí)別技術(shù)通過對(duì)樣本的學(xué)習(xí)，自動(dòng)完成特征的提取和識(shí)別工作，性能較好。尤其是近年來由統(tǒng)一的深度網(wǎng)絡(luò)框架完成定位和識(shí)別2個(gè)任務(wù)，性能得到進(jìn)一步提高。

傳統(tǒng)的人工特征提取方法計(jì)算量一般較小，但性能有待提高；基于深度網(wǎng)絡(luò)的文本識(shí)別技術(shù)性能較好，但計(jì)算量較大，一般不容易在便攜式終端上實(shí)現(xiàn)。本文研究的內(nèi)容結(jié)合了兩者的優(yōu)點(diǎn)，傳統(tǒng)的方法完成文本的粗定位，保證系統(tǒng)有高的召回率（Recall）；用CNN實(shí)現(xiàn)定位后文本的識(shí)別，確保系統(tǒng)有較高的準(zhǔn)確率（Precision）。

1 系統(tǒng)方案

本文研究?jī)?nèi)容總體方案包含文本區(qū)域檢測(cè)和號(hào)碼識(shí)別兩大部分，各部分又各自包括3個(gè)模塊。

1.1 文本區(qū)域檢測(cè)

文本檢測(cè)方案包括的文本區(qū)域定位、SVM訓(xùn)練和文本區(qū)域定位判斷3個(gè)部分，具體內(nèi)容如圖1所示。

文字區(qū)域定位的主要作用是盡可能可靠地檢測(cè)出文字所在的區(qū)域。該系統(tǒng)設(shè)計(jì)有2個(gè)功能：①在構(gòu)造訓(xùn)練數(shù)據(jù)集時(shí)，可以輔助人工實(shí)現(xiàn)文字區(qū)域的預(yù)選；②在實(shí)際檢測(cè)時(shí)可以為后續(xù)的識(shí)別模塊提供處理對(duì)象。

通過文字區(qū)域定位可以獲得大量圖像塊，對(duì)這些圖像塊進(jìn)行人工判別與標(biāo)注，可以作為訓(xùn)練集的一部分。用這些訓(xùn)練集中的數(shù)據(jù)對(duì)SVM模型進(jìn)行訓(xùn)練，可以得到SVM模型。本文研究?jī)?nèi)容經(jīng)過實(shí)際調(diào)試后，選用高斯核函數(shù)的SVM。對(duì)于實(shí)際的文本檢測(cè)任務(wù)，用變尺度的滑動(dòng)窗口遍歷所有可能的位置，并對(duì)窗口內(nèi)圖像經(jīng)特征提取后送入訓(xùn)練好的SVM模型判斷，得到大部分可能是文字區(qū)域的圖像塊。為了確保系統(tǒng)有較高的召回率，檢測(cè)的圖像塊中可能包含非文字區(qū)域，該部分區(qū)域通過后續(xù)的文字識(shí)別模塊識(shí)別并剔除。

1.2 文字識(shí)別

文字識(shí)別部分包括字符分割、ANN訓(xùn)練和字符識(shí)別3個(gè)部分，具體如圖2所示。

圖2 號(hào)碼識(shí)別方案

在文字識(shí)別過程中，首先對(duì)文字區(qū)域檢測(cè)獲得的圖像塊進(jìn)行二值化，分割出文字前景和背景部分，然后經(jīng)過方向投影極值檢測(cè)的方法獲得只包含1個(gè)字符的圖像塊，對(duì)這些圖像塊進(jìn)行人工判別與標(biāo)注，可作為訓(xùn)練集的一部分。用這些訓(xùn)練數(shù)據(jù)對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，可以得到用于文字識(shí)別的DNN模型。在最終的文字識(shí)別中，可以將得到的字符圖像塊輸入訓(xùn)練好的DNN，就可以得到每個(gè)圖像中的具體字符，如圖2中輸出了的“33”。以上是本文研究的整體方案，在實(shí)現(xiàn)過程中還有許多具體方法，以下介紹其中的關(guān)鍵技術(shù)。

2 系統(tǒng)關(guān)鍵技術(shù)

2.1 視頻超分辨技術(shù)

實(shí)際拍攝的圖像有時(shí)會(huì)因運(yùn)動(dòng)員的快速運(yùn)動(dòng)或聚焦位置固定而變模糊，尤其是在拍攝分辨率較低時(shí)情況更嚴(yán)重。另外，運(yùn)動(dòng)員跑動(dòng)時(shí)身體姿勢(shì)和方向的變化甚至手臂的遮擋都會(huì)對(duì)拍攝圖像質(zhì)量造成很大的影響。為提高后續(xù)文本區(qū)域檢測(cè)和識(shí)別的準(zhǔn)確率，必須對(duì)視頻圖像進(jìn)行預(yù)處理，提高視頻圖像的質(zhì)量。本文采用文獻(xiàn)[10]的方法改善拍攝視頻質(zhì)量。

2.2 背景檢測(cè)和文字分割

由于現(xiàn)場(chǎng)有許多干擾圖像，比如標(biāo)語(yǔ)、彩旗等常含有文字，為了提高運(yùn)動(dòng)員號(hào)碼牌識(shí)別的準(zhǔn)確性，必須將這些包含干擾文字的區(qū)域?yàn)V除。本文采用結(jié)合運(yùn)動(dòng)估計(jì)的模糊最大類間方差的圖像分割算法[11]分割前景和背景，過濾干擾區(qū)域。同時(shí)，采用此方法對(duì)文字的前景和背景進(jìn)行分割，以供后續(xù)的識(shí)別任務(wù)。

2.3 系統(tǒng)實(shí)時(shí)性

系統(tǒng)實(shí)時(shí)性問題的解決可從3個(gè)方面實(shí)現(xiàn)：①用文獻(xiàn)[12]的方法對(duì)視頻中已經(jīng)識(shí)別的號(hào)碼進(jìn)行跟蹤，對(duì)新出現(xiàn)的號(hào)碼進(jìn)行識(shí)別，降低了系統(tǒng)的計(jì)算復(fù)雜度；②對(duì)SVM和ANN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化，減少其中冗余的層次和節(jié)點(diǎn)；③具體實(shí)現(xiàn)上，盡可能利用多核CPU的并行能力，利用多線程技術(shù)，實(shí)現(xiàn)流水線操作。

2.4 模型訓(xùn)練

復(fù)雜背景下的文s本檢測(cè)和文字識(shí)別技術(shù)是本文研究的主要內(nèi)容，其核心內(nèi)容是SVM模型和ANN模型的結(jié)構(gòu)以及訓(xùn)練。目前，深度神經(jīng)網(wǎng)絡(luò)進(jìn)展迅速，其典型的網(wǎng)絡(luò)結(jié)構(gòu)和預(yù)先訓(xùn)練模型均已開源。本文模型訓(xùn)練時(shí)在此基礎(chǔ)上，利用遷移學(xué)習(xí)方法進(jìn)一步對(duì)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)進(jìn)行調(diào)優(yōu)。

網(wǎng)絡(luò)訓(xùn)練的另一大問題就是數(shù)據(jù)集。本文的訓(xùn)練數(shù)據(jù)集一部分來自于本校體能訓(xùn)練和考核的現(xiàn)場(chǎng)錄像；另一部分來自于各類運(yùn)動(dòng)競(jìng)賽視頻，可以滿足模型的訓(xùn)練要求。測(cè)試數(shù)據(jù)集全部來自于本校體能考核視頻。

3 結(jié)束語(yǔ)

本文提出了利用機(jī)器視覺和深度學(xué)習(xí)的技術(shù)實(shí)現(xiàn)跑步成績(jī)自動(dòng)測(cè)量系統(tǒng)。系統(tǒng)利用運(yùn)動(dòng)信息進(jìn)行圖像融合，實(shí)現(xiàn)號(hào)碼圖像的增強(qiáng)與重構(gòu)，提高了圖像的分辨率、號(hào)碼分割效果、識(shí)別率。通過SVM實(shí)現(xiàn)復(fù)雜背景下文本區(qū)域檢測(cè)，利用深度網(wǎng)絡(luò)實(shí)現(xiàn)變形字符識(shí)別，并實(shí)現(xiàn)了在低運(yùn)算能力終端上的實(shí)時(shí)識(shí)別。

本項(xiàng)目的硬件成本較低，目前，全國(guó)中小學(xué)的體能考核甚至運(yùn)動(dòng)會(huì)還沒有采用這一方案實(shí)現(xiàn)成績(jī)的自動(dòng)測(cè)量。全國(guó)中學(xué)有60 000多所，普通高校有2 000多所，而體能考核的自動(dòng)化是一個(gè)大的趨勢(shì)，本項(xiàng)目有廣闊的市場(chǎng)和較高的推廣價(jià)值。

［1］趙麗科，鄭順義，馬浩，等.田徑運(yùn)動(dòng)員號(hào)碼牌圖像的號(hào)碼識(shí)別［J］.華東師范大學(xué)學(xué)報(bào)（自然科學(xué)版），2017（03）：64-77，86.

［2］哈恩楠，吉立新，高超.基于對(duì)象建議算法的自然場(chǎng)景文本檢測(cè)［J］.計(jì)算機(jī)應(yīng)用研究，2018（02）：624-627，636.

［3］唐有寶，卜巍，鄔向前.多層次MSER自然場(chǎng)景文本檢測(cè)［J］.浙江大學(xué)學(xué)報(bào)（工學(xué)版），2016（06）：1134-1140.

［4］易堯華，申春輝，劉菊華，等.結(jié)合MSCRs與MSERs的自然場(chǎng)景文本檢測(cè)［J］.中國(guó)圖象圖形學(xué)報(bào)，2017（02）：154-160.

［5］王夢(mèng)迪，張友梅，常發(fā)亮.基于邊緣檢測(cè)和特征融合的自然場(chǎng)景文本定位［J］.計(jì)算機(jī)科學(xué)，2017（09）：300-303，314.

［6］Xinyu. Zhou，Cong Yao，He Wen，et al.“EAST：An Efficient and Accurate Scene Text Detector”［C］//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR），Honolulu，Hawaii，USA，2017：2642-2651.

［7］S. Lee，C. Koch，J. Lee，et al. Yuille，“AdaBoost for Text Detection in Natural Scene”［C］//2011 International Conference on Document Analysis and Recognition（ICDAR），Beijing，China，2011：429-434.

［8］王林，張曉鋒.卷積深度置信網(wǎng)絡(luò)的場(chǎng)景文本檢測(cè)［J］.計(jì)算機(jī)系統(tǒng)應(yīng)用，2018（06）：231-235.

［9］張日升，朱桂斌，張燕琴.基于卷積神經(jīng)網(wǎng)絡(luò)的衛(wèi)星遙感圖像區(qū)域識(shí)別［J］.信息技術(shù)，2017（11）：83-86.

［10］戚曹，朱桂斌，陽(yáng)溢，等.基于局部自相似性的視頻圖像超分辨率算法［J］.重慶郵電大學(xué)學(xué)報(bào)（自然科學(xué)版），2015，（05）：692-699.

［11］曾偉，袁寶峰，朱桂斌.基于模糊最大類間方差的圖像分割算法［J］.實(shí)驗(yàn)科學(xué)與技術(shù)，2008（06）：22-24，31.

［12］曾偉，朱桂斌，李瑤.基于Kalman點(diǎn)匹配估計(jì)的運(yùn)動(dòng)目標(biāo)跟蹤［J］.計(jì)算機(jī)應(yīng)用，2009（06）：1677-1682.

TH744.5

10.15913/j.cnki.kjycx.2018.22.045

2095－6835（2018）22－0045－03

本文獲陸軍工程大學(xué)通信士官學(xué)校科研項(xiàng)目（編號(hào)：TZ-CQTY-Y-C-2017-035），重慶市社會(huì)事業(yè)與民生保障科技創(chuàng)新專項(xiàng)（cstc2017shmsA00003）資助

朱桂斌（1972—），男，河北涿鹿人，教授，2004年畢業(yè)于重慶大學(xué)（博士），主要從事圖像分析和識(shí)別方面的研究。

〔編輯：張思楠〕