亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于筆畫寬度特征和半監(jiān)督多示例學習的文本區(qū)域鑒別方法①

        2016-12-06 07:17:35杜慶安張博宇黃慶成
        高技術(shù)通訊 2016年2期
        關(guān)鍵詞:示例筆畫分類器

        吳 銳 杜慶安 張博宇 黃慶成

        (*哈爾濱工業(yè)大學計算機科學與技術(shù)學院 哈爾濱 150001) (**天津航天機電設(shè)備研究所 天津 300000)

        ?

        一種基于筆畫寬度特征和半監(jiān)督多示例學習的文本區(qū)域鑒別方法①

        吳 銳②*杜慶安**張博宇*黃慶成*

        (*哈爾濱工業(yè)大學計算機科學與技術(shù)學院 哈爾濱 150001) (**天津航天機電設(shè)備研究所 天津 300000)

        考慮到文本區(qū)域鑒別在視頻文本檢測中的重要作用,提出了一種基于筆畫寬度特征的文本區(qū)域鑒別方法,該方法通過分析候選文本區(qū)域中筆畫寬度的分布,有效地區(qū)分文本和非文本區(qū)域。此外針對筆畫寬度信息提取過程中存在未知極性參數(shù)的問題,提出了一種半監(jiān)督多示例學習(SS-MIL)算法,該算法可以充分利用訓練樣本中不完整的監(jiān)督信息,提高文本區(qū)域分類器的性能?;谏鲜龇椒?,實現(xiàn)了一個完整的視頻文本檢測系統(tǒng),并在具有代表性的數(shù)據(jù)集上對其進行了充分的實驗,實驗結(jié)果表明,基于筆畫寬度特征和SS-MIL的文本區(qū)域鑒別方法能夠有效地辨別文本區(qū)域,從而使該系統(tǒng)檢測視頻文本的綜合性能達到較高水平。

        文本區(qū)域鑒別, 筆畫寬度, 半監(jiān)督學習, 多示例學習(MIL)

        0 引 言

        在過去的數(shù)十年里,隨著視頻拍攝設(shè)備的廣泛普及和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,視頻數(shù)據(jù)的數(shù)量高速增長。視頻服務(wù)提供商亟需有效的方法對海量的視頻數(shù)據(jù)進行管理和存儲。視頻中的文本內(nèi)容包含著豐富的語義信息,這些信息是進行視頻資料自動注釋、檢索、壓縮的重要依據(jù)。從視頻圖像處理和文本檢測的研究角度出發(fā),目前已經(jīng)提出了一些視頻文本檢測方法[1]。這些方法大致可以分為三類:基于紋理的方法[2,3],基于連通組件(connect-component)的方法[4-6]以及基于邊緣的方法[7,8]。這些方法從文本區(qū)域的不同特性出發(fā),將前景(文本)從背景中剝離出來,然后將獲得的前景組合成候選的文本區(qū)域。由于背景復雜多變、光照不均以及字體字形變化等原因,準確地將文本和背景區(qū)分開仍然比較困難。在檢測候選文本區(qū)域的過程中,不可避免地會產(chǎn)生誤報。目前大多數(shù)視頻文本檢測方法都需要在生成候選文本區(qū)域的基礎(chǔ)上進行文本區(qū)域鑒別,因而大多數(shù)文本檢測方法都包含前景檢測、候選區(qū)域生成和文本區(qū)域鑒別三個階段。在文本區(qū)域鑒別階段,現(xiàn)有的文本檢測技術(shù)大多數(shù)通過檢測候選文本區(qū)域的幾何特性來發(fā)現(xiàn)上一階段產(chǎn)生的誤報。經(jīng)常使用的幾何特征包括位置、方向、長寬比以及飽和度(候選區(qū)域前景與背景面積的比值)等。這些特征往往隨著應用背景的變化而變化,在具體應用中需要手動進行調(diào)整。例如,在視頻文本檢測中,當檢測目標的位置較為確定時(視頻下部的字幕區(qū)域),基于位置的判別準則是有效的。但當檢測目標出現(xiàn)的位置具有較強隨機性時(嵌入文本區(qū)域或滾動字幕),這一準則就失去了意義。同理,基于區(qū)域方向、長寬比等特征進行文本區(qū)域鑒別時都需要提供目標數(shù)據(jù)的先驗知識,因而不具有普遍意義,泛化能力較差。

        本文提出了一種基于筆畫寬度特征的文本區(qū)域鑒別方法。該方法根據(jù)候選文本區(qū)域內(nèi)筆畫寬度的分布情況來判別當前區(qū)域是否包含文本,其優(yōu)勢在于適用于大多數(shù)文本區(qū)域。在使用筆畫寬度特征進行文本鑒別的過程中存在的一個難點是無法自動地獲取文字前景與背景之間的亮度對比關(guān)系,而這一參數(shù)對于準確地提取筆畫寬度信息來說至關(guān)重要。本文使用多示例學習方法(multi-instance learning,MIL)來解決這一問題。對于每一個樣本,基于可能的極性參數(shù)提取筆畫寬度特征,然后使用這些特征的集合來描述該樣本。其中每個特征稱為‘示例’,而特征的集合稱為‘示例包’。在此基礎(chǔ)上可以使用多示例學習方法訓練有效的文本區(qū)域分類器。由于在分類器訓練過程中使用的訓練樣本集大多沒有提供極性參數(shù)。本文在多示例學習方法的基礎(chǔ)上提出了一種新的半監(jiān)督多示例學習(semi-supervised multi-instance learning,SS-MIL)方法來進行文本區(qū)域分類器的訓練。該方法結(jié)合多示例學習和半監(jiān)督學習方法的特點,能夠充分利用訓練樣本中不完整的監(jiān)督信息,在降低學習成本的同時改進分類器的性能。

        本文將上述文本區(qū)域鑒別方法與基于角點的文本區(qū)域檢測方法[9]相結(jié)合,實現(xiàn)了完整的視頻文本檢測系統(tǒng)并在具有代表性的數(shù)據(jù)集上進行了充分的實驗。實驗結(jié)果表明本文提出的文本鑒別方法可以有效地辨別文本區(qū)域,使檢測系統(tǒng)的準確率和召回率都達到了較高水平。

        1 筆畫寬度特征

        圖1示出了視頻文本檢測流程。在圖中的前景檢測和候選區(qū)域生成階段,不可避免地存在誤報的情況,需要采用有效的文本區(qū)域鑒別方法來排除誤報的文本區(qū)域。本文提出了一種基于區(qū)域內(nèi)筆畫寬度的特征來實現(xiàn)文本區(qū)域的鑒別。該特征通過描述文本區(qū)域中筆畫寬度的分布來反映區(qū)域的特性。相對于區(qū)域位置等幾何特征,筆畫寬度特征具有更好的泛化能力,適用于不同種類的文本。

        圖1 視頻文本檢測流程

        在絕大多數(shù)語言中,字符都是由筆畫構(gòu)成的。為了使字符具有可識別性,筆畫與背景區(qū)域之間需要明確的邊界。因此筆畫上的像素點都位于兩個具有相反梯度方向的邊緣點之間。這兩個邊緣點之間的距離為筆畫的寬度。利用這一特性,可以使用筆畫寬度變換[10]求出圖像中每個像素點的筆畫寬度。下面通過圖2簡要敘述筆畫寬度變換的過程:

        首先將所有像素點的筆畫寬度值設(shè)置為∞,然后使用邊緣檢測器(本研究使用Canny算子)進行邊緣檢測。對于圖像中每一個邊緣點p,記其梯度方向為dp。從點p沿其梯度方向dp的反方向(假定文本的亮度低于背景亮度)發(fā)射一條射線s=p+n×dp并沿該射線搜索,直到找到另外一個邊緣點q。如果點q的梯度方向dq與點p的梯度方向dp近似相反(|dp-dq|<15° ),則射線s上的線段[p,q]所經(jīng)過所有像素點的筆畫寬度值都設(shè)為線段[p,q]的長度。相反,如果無法找到符合條件的點q,則放棄射線s,不更改s經(jīng)過像素點的筆畫寬度值。重復地對圖像中的每個邊緣點進行上述步驟。如果對某一個像素點發(fā)現(xiàn)一個比當前值更小的筆畫寬度值,則將這一點的筆畫寬度值更新為較小的值。當字符中出現(xiàn)較為復雜的情況,如筆畫轉(zhuǎn)彎處等,會出現(xiàn)明顯錯誤的、極大的筆畫寬度值。針對這種情況,算法使用中值抑制的方法來排除錯誤。

        (a)從筆畫上截取的一部分,其中每個方格表示一個像素點,灰色方格表示筆畫上的點,白色方格表示背景點;(b)中灰色方格表示檢測

        實驗結(jié)果表明,筆畫寬度變換可以準確地提取文本圖像中的筆畫寬度信息。通常情況下,同一行中的文字使用的筆畫寬度是大致相同的。因此,在文本區(qū)域鑒別問題中,如果一個候選區(qū)域確實包含文本內(nèi)容,則其中落在字符上的像素點的數(shù)量在整個區(qū)域中應該大于一定的比例。而這些像素點的筆畫寬度應該基本相同或在一個較小范圍內(nèi)變化?;谶@一特性,本文使用筆畫寬度分布直方圖作為特征來描述整個區(qū)域的特性。對于一個候選的文本區(qū)域r而言,其筆畫寬度特征的定義如下式所示:

        (1)

        其中sk表示候選區(qū)域中寬度值為k的像素點的個數(shù),n為使用的筆畫寬度的最大值。h和w分別為候選文本區(qū)域的高度和寬度,在保證候選文本區(qū)域為單行和單列的前提下,除以文字高(寬)度可以有效地消除候選區(qū)域面積的影響。當區(qū)域中不包含文本或只有少部分為文本區(qū)域的情況下,寬度信息的分布是不規(guī)律、較為雜亂的(圖3)。而當候選區(qū)域確實包含文本時,筆畫寬度信息在文本的真實筆畫寬度附近將出現(xiàn)一個較大的峰值(圖3(c))。

        2 文本區(qū)域分類的多示例模型

        為了能夠準確地提取筆畫寬度信息,需要指定候選文本區(qū)域中前景(文本)相對于背景的極性。然而在實際的應用中這一參數(shù)是難以由算法自動確定的。為了克服這一問題,本文提出了文本區(qū)域分類的多示例模型。該模型對候選文本區(qū)域依據(jù)兩種可能的假設(shè)(前景亮度高于背景和前景亮度低于背景)分別進行筆畫寬度變換(stroke width transform, SWT)。對于任意一個候選區(qū)域r,可以得到兩組筆畫寬度特征。其中一組能夠反映r中真實的寬度信息分布?;诓煌僭O(shè)提取的筆畫寬度信息如圖3所示。

        傳統(tǒng)的實訓內(nèi)容過于單一,會計教師只是教給學生簡單的會計技巧,比如核對會計賬目、編繪財務(wù)報表等,這些技巧不能滿足當前相關(guān)企業(yè)的需求。因此,會計教師要放棄傳統(tǒng)的教學方法,去尋找更加適合學生發(fā)展的教學方法,應增加教學內(nèi)容,使其與企業(yè)財務(wù)部門的相關(guān)要求保持一致。

        在上述條件下,可以基于示例級分類器構(gòu)建包級的分類器。候選區(qū)域的類別標簽lr可以用式

        (2)

        計算,其中k為常數(shù)偏移量。

        以式(2)為依據(jù),對于一個需要進行鑒別的文本區(qū)域,只要其中基于不同假設(shè)提取的兩組特征中有一組具有符合要求的筆畫寬度分布,就認為該區(qū)域通過了基于筆畫寬度特征的文本區(qū)域驗證。

        (a)檢測到的包含文本的候選文本區(qū)域;(b)基于使用筆畫寬度變換在假定前景亮度高于背景的條件下獲取的筆畫寬度信息繪制的圖像和小于50的筆畫寬度的分布,其中像素點的灰度值設(shè)為檢測到的筆畫寬度;(c)基于相反假設(shè)獲取的筆畫寬度信息和筆畫寬度分布;(d)在Pascal數(shù)據(jù)集中得到的不包含文本的候選文本區(qū)域;(e)和(f)分別為基于不同假設(shè)獲取的筆畫寬度灰度圖和相應的筆畫寬度分布

        3 文本區(qū)域分類器訓練

        本節(jié)給出了文本區(qū)域分類的多示例模型。為了獲得一個有效的基于hos特征的文本區(qū)域分類器,需要提供足夠的訓練樣本。由于使用筆劃寬度變換(SWT)算法獲取筆畫寬度信息需要前景與背景之間的極性參數(shù)來判斷搜索的方向,而現(xiàn)有的數(shù)據(jù)集中提供的監(jiān)督信息往往只標注當前樣本屬于文本區(qū)域還是非文本區(qū)域,不提供極性參數(shù),因而對訓練樣本中的每一個文本區(qū)域進行手工標注需要的人力消耗較大,這給分類器訓練任務(wù)帶來了困難。

        上述問題可以使用多示例學習(MIL)方法來解決。對本文中的訓練問題而言,文本區(qū)域分類器的學習是一個特殊的多示例學習問題,每個示例包中有且僅有兩個示例。

        在多示例學習方法的基礎(chǔ)上,考慮到多示例學習算法的學習效果與監(jiān)督學習效果相差較大,希望通過引入少量具有完整監(jiān)督信息的訓練樣本來提高分類器訓練的效果。本文提出了一種半監(jiān)督多示例學習方法來訓練的文本區(qū)域分類器。采用這一方法的主要目的是在降低消耗的同時充分利用樣本中不完整的監(jiān)督信息。該學習算法的具體流程見算法1。

        該方法首先根據(jù)實驗數(shù)據(jù)的實際標注信息,將樣本分為正例集合P、反例集合N和無標簽集合U。正例集合P中的樣本為真實的文本區(qū)域,而且極性參數(shù)是已知的。反例集合N中樣本為非文本區(qū)域,其中的兩組特征都不反映真實文本區(qū)域中的筆畫寬度,不需要提供極性參數(shù)。集合U中的樣本同樣是真實的文本區(qū)域,但其中的極性參數(shù)并未提供。在算法的最初階段進行有監(jiān)督的學習,使用集合P和N中的示例進行分類器的訓練。然后使用得到的分類器參數(shù)對集合U中的示例進行標注。進而使用所有樣本再次進行分類器的訓練。算法循環(huán)地執(zhí)行上述步驟,直到集合U中示例的標簽不再變化或達到預設(shè)的迭代次數(shù)為止。

        算法1 半監(jiān)督多示例學習算法輸入:正例集合P(帶有示例標簽),正例集合U(帶有包標簽),反例集合N輸出:示例分類器F,其參數(shù)集合為θ 1:基于P和N訓練分類器F,求解參數(shù)θ 2:利用θ計算集合U中每個樣本中兩個示例的標簽l 3:基于P,U和N重新訓練分類器,求解^θ 4:重新計算集合U中示例的標簽^l 5:若^l≠l a. 令l=^l b. 基于P,U和N訓練分類器,更新^θ c. 更新集合中示例的標簽^l=F(^θ) 6:返回θ=^θ

        值得注意的是,本文提出的半監(jiān)督多示例學習方法并不局限于某些特定的分類方法,能夠配合不同的分類器使用。當訓練樣本中同時存在有監(jiān)督樣本、無監(jiān)督樣本和半監(jiān)督樣本時,使用本文提出的方法可以充分利用樣本中不完整的監(jiān)督信息,提高分類器的性能。

        4 實 驗

        4.1 實驗數(shù)據(jù)

        使用的測試數(shù)據(jù)集包括Hua等[11]收集的微軟通用測試集(microsoft common test set,MCTS)。該數(shù)據(jù)集包括45幀包含文本內(nèi)容的視頻圖像,其中包含的文本區(qū)域都進行了詳細的標注,包括文字內(nèi)容、位置、對比度等信息。此外,為了使實驗具有更強的說服力,本文收集了一組新的視頻文本數(shù)據(jù)。這些數(shù)據(jù)的來源包括新聞、體育、演講、電影以及卡通等不同類型的視頻片段。其中包含457幀圖像,每一幀都包含有一個或多個文本區(qū)域,總的文本區(qū)域數(shù)量為1633個。本文的余下部分中將MSTS數(shù)據(jù)集記為‘MS’,本文收集的數(shù)據(jù)記為‘PIC’。

        為了對文本區(qū)域鑒別方法進行測試,首先要將文本區(qū)域從圖像中提取出來。對于正例樣本,可以比較容易地依據(jù)標記信息從圖像中提取子圖像并根據(jù)監(jiān)督信息對這些圖像進行歸類。實驗使用MS數(shù)據(jù)集中包含的152個文本區(qū)域作為監(jiān)督信息完整的正例集合P,PIC數(shù)據(jù)集中包含的1633個文本區(qū)域作為半監(jiān)督正例集合U。為了獲取反例樣本,本文使用一種改進的基于角點的視頻文本檢測算法[12]進行候選文本區(qū)域檢測。該方法首先將視頻幀投影到尺度空間,然后在不同的尺度下進行角點檢測并生成候選文本區(qū)域,最后將不同尺度下得到的候選文本區(qū)域合并。

        具體地,本文使用Pascal VOC數(shù)據(jù)集[13]中的圖像樣本來生成反例。首先從該數(shù)據(jù)集中人工選擇一組不包含文本內(nèi)容的圖片(247張),然后使用上述檢測算法進行文本區(qū)域檢測。由于上述圖像樣本中不包含任何文本內(nèi)容,算法得到714個不包含文本內(nèi)容的候選區(qū)域作為反例集合N。使用有效的文本檢測方法來獲取反例的好處在于得到的區(qū)域邊緣密度較大,與文本區(qū)域的相似程度更高。

        4.2 文本區(qū)域鑒別

        對4.1節(jié)中得到的文本區(qū)域樣本,使用SWT算法從上述樣本中提取筆畫寬度信息(基于兩種可能的極性參數(shù))。然后分別統(tǒng)計筆畫寬度信息的分布并利用區(qū)域?qū)挾扰c高度的最小值對該分布進行歸一化,避免文本區(qū)域尺度對特征的影響。

        實驗考察指標為文本區(qū)域分類的準確率。準確率的計算采用交叉驗證的方式:對于每次實驗,將正例和反例樣本隨機地分成相等的兩部分。其中一部分作為訓練樣本,另一部分作為測試樣本。最終的準確率為將上述隨機過程重復十次的平均值。本文首先使用帶示例標簽的正例集合P和反例集合N進行有監(jiān)督的分類器訓練。然后使用EM-DD[14]方法(改進的MIL方法)基于全部正例U,P和反例集合N進行多示例學習。最后使用本文提出的SS-MIL算法使用全部正例U,P和反例集合N訓練分類器。基于SS-MIL算法的分類器訓練過程如算法1所述。上述三種學習模式下,均使用基于徑向基函數(shù)(RBF)核的支持向量機(SVM)分類器[15]作為示例級的分類器,分類器的具體實現(xiàn)基于Libsvm[16]。三種不同學習模式得到的SVM分類器在相同的測試數(shù)據(jù)集上進行測試,得到的結(jié)果如表1所示。

        表1 文本區(qū)域分類精確度

        實驗結(jié)果證明,通過引入包含不完整監(jiān)督信息的樣本,使用本文提出的SS-MIL算法可以提高分類器的識別準確率。而EM-DD方法訓練的分類器由于無法利用示例級標簽包含的信息,分類器的準確率較低。

        4.3 文本區(qū)域檢測

        為了驗證高性能的文本鑒別方法對整個文本檢測系統(tǒng)性能的影響?;诒疚奈谋捐b別方法,本小節(jié)實現(xiàn)了一個完整的視頻文本檢測系統(tǒng)。為了保證實驗結(jié)果的準確性,本研究在MS數(shù)據(jù)集和PIC數(shù)據(jù)集上分別進行了文本區(qū)域檢測算法性能的系統(tǒng)測試。

        在實驗過程中,為了保證實驗結(jié)果的可靠性,將

        訓練文本區(qū)域分類器的樣本與測試樣本分開。首先從PIC數(shù)據(jù)集中選出138幀圖像,其中包含524個文本區(qū)域。然后從中隨機地選擇200個文本區(qū)域并為其手動增加對比度參數(shù),即示例級的標簽信息。這些樣本作為訓練樣本的正例。從Pascal VOC數(shù)據(jù)集中獲取的714個不含文本的區(qū)域全部作為反例。分類器訓練過程與4.2節(jié)相同。相應地,測試數(shù)據(jù)包含MS數(shù)據(jù)集中的45幀圖像以及PIC數(shù)據(jù)集中剩余的319幀圖像。

        在候選文本區(qū)域檢測階段,使用文獻[12]中提出的多尺度視頻文本檢測方法來獲取候選文本區(qū)域。實驗中使用的滑動窗口大小的變化范圍為10到40,步進值為5。角點強度閾值t設(shè)為0.3(正規(guī)化到0至1之間),形態(tài)學操作的參數(shù)o=15。在區(qū)域融合階段,將重合區(qū)域大于0.80的區(qū)域融合成為一個區(qū)域。表2分別對‘MS’和‘PIC’兩組數(shù)據(jù)集統(tǒng)計了在進行文本區(qū)域鑒別之前該方法在文本區(qū)域檢測任務(wù)中的性能。

        在文本區(qū)域鑒別階段每個候選文本區(qū)域最終的標簽由式(2)決定。為了提高算法的效率,除了使用筆畫寬度特征外,本文還使用區(qū)域大小和飽和度來過濾過小、明顯錯誤的候選區(qū)域。區(qū)域大小的閾值設(shè)定為1000(像素點),飽和度的大小設(shè)置為0.6。本文將提出的方法與另外兩種典型方法進行了對比試驗,文本區(qū)域檢測的召回率和精確度如表3所示。

        表2 文本區(qū)域檢測召回率

        表3中的結(jié)果顯示,本文中提出的算法可以有效地檢測不同類別視頻幀中的文本區(qū)域。算法的準確率優(yōu)于對比方法,召回率也達到較高水平,其綜合性能(F值)優(yōu)于同類方法。結(jié)合表2和表3的結(jié)果來看,本文提出的文本區(qū)域鑒別方法顯著地提高了檢測的準確率,從而提升了檢測系統(tǒng)的整體性能。

        表3 基于SS-MIL的文本檢測系統(tǒng)在測試數(shù)據(jù)上的結(jié)果

        5 結(jié) 論

        本文針對視頻文本檢測問題,提出了一種基于筆畫寬度特征的方法來實現(xiàn)更有效的文本區(qū)域鑒別。實驗結(jié)果證明,該特征可以更有效地反映文本區(qū)域的特性,因此比目前大多數(shù)方法采用的幾何特征具有更好的普適性和魯棒性。此外,本文提出一種新的半監(jiān)督多示例學習算法來解決文本區(qū)域分類器訓練過程中監(jiān)督信息不完整的問題。該方法可以有效地利用訓練樣本中不完整的監(jiān)督信息,在降低訓練成本的同時提高分類器的性能。本文最終將上述方法與一種具有較高召回率的文本檢測方法相結(jié)合,實現(xiàn)了一個完整的視頻文本檢測系統(tǒng)。實驗結(jié)果表明,該系統(tǒng)可以有效地檢測視頻中的文本區(qū)域,這一結(jié)果有力地證明了本文提出的文本區(qū)域鑒別方法的有效性。

        [1] Sharma N, Pal U, Blumenstein M. Recent advances in video based document processing: a review. In: IAPR International Workshop on Document Analysis Systems, Gold Coast, Australia, 2012. 63-68

        [2] Ye Q, Huang Q, Gao W, et al. Fast and robust text detection in images and video frames.ImageandVisionComputing, 2005, 23(6): 565-576

        [3] Qian X, Wang H, Hou X. Video text detection and localization in intra-frames of H. 264/AVC compressed video.Multimediatoolsandapplications, 2014, 70(3): 1487-1502

        [4] Koo H I, Kim D H. Scene text detection via connected component clustering and nontext filtering.IEEETransactionsonImageProcessing, 2013, 22(6): 2296-2305

        [5] Yi C, Tian Y. Text string detection from natural scenes by structure-based partition and grouping.IEEETransactionsonImageProcessing, 2011, 20(9): 2594-2605

        [6] Chen H, Tsai S S, Schroth G, et al. Robust text detection in natural images with edge-enhanced maximally stable extremal regions. In: Proceedings of the IEEE International Conference on Image Processing, Brussels, Belgium, 2011. 2609-2612

        [7] Shivakumara P, Sreedhar R P, Trung Q P, et al. Multioriented Video Scene Text Detection Through Bayesian Classification and Boundary Growing.IEEETransactionsonCircuitsandSystemsforVideoTechnology, 2012, 22(8): 1227-1235

        [8] Sharma N, Shivakumara P, Pal U, et al. A new method for arbitrarily-oriented text detection in video. In: IAPR International Workshop on Document Analysis Systems, Gold Coast, Australia, 2012. 74-78

        [9] Zhao X, Lin K H, Fu Y, et al. Text from corners: a novel approach to detect text and caption in videos.IEEETransactionsonImageProcessing, 2011, 20(3): 790-799

        [10] Epshtein B, Ofek E, Wexler Y. Detecting text in natural scenes with stroke width transform. In: IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012. 2963-2970

        [11] Hua X S, Wenyin L, Zhang H J. Automatic performance evaluation for video text detection. In: International Conference on Document Analysis and Recognition, Seattle, USA, 2001. 545-550

        [12] Zhang B, Liu J F, Tang X L. Multi-scale video text detection based on corner and stroke width verification. In: Visual Communications and Image Processing, Kuching, Malaysia, 2013. 1-6

        [13] Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes (voc) challenge.Internationaljournalofcomputervision, 2010, 88(2): 303-338

        [14] Zhang Q, Goldman S A. EM-DD: An improved multiple-instance learning technique. In: Advances in neural information processing systems, 2006. 1073-1080

        [15] 張學工. 關(guān)于統(tǒng)計學習理論與支持向量機. 自動化學報, 2000,(01): 36-46

        [16] Chang C C, Lin C J. LIBSVM: A library for support vector machines.ACMTransactionsonIntelligentSystemsandTechnology, 2011, 2(3): 27

        [17] Kim K I, Jung K, Kim J H. Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm.IEEETransactionsonPatternAnalysisandMachineIntelligence, 2003, 25(12): 1631-1639

        A text region identification method based on stroke width features and semi-supervised multi-instance learning

        Wu Rui*, Du Qingan**, Zhang Boyu*, Huang Qingcheng*

        (*Department of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001) (**Tianjin Institute of Aerospace Electrical Equipment, Tianjin 300000)

        In consideration of the importance of text region identification to video text detection, a new text region identification method based on stroke width features was proposed. The proposed method can effectively distinguish text regions form non-text regions by analyzing the distribution of the stroke width information in candidate text regions. Moreover, a new semi-supervised multi-instance semi-supervised learning (SS-MIL) algorithm was given to solve the problem that the polar parameter is uncertain in the process of extracting stroke width feature information. The proposed SS-MIL algorithm can improve the performance of region classifier by utilizing incomplete sample labels in training data. A complete video text detection system was implemented based on the proposed methods, and it was tested thoroghty by using the typical data sets such as MCTS. The results showed that the text region identification based on stroke width features and SS-MIL was effective, so the video text detection system achieved the higher overall performance in video test detection.

        text region verification, stroke width, semi-supervised learning, multi-instance learning (MIL)

        10.3772/j.issn.1002-0470.2016.02.001

        ①國家自然科學基金(61370162,61440025)和中央高校基本科研業(yè)務(wù)費專項資金(HIT.NSRIF.2012048)資助項目。

        2015-10-28)

        ②男,1976年生,博生,講師;研究方向:文本分析,模式識別,圖像處理;聯(lián)系人,E-mail: simple@hit.edu.cn

        猜你喜歡
        示例筆畫分類器
        大還是小
        筆畫相同 長短各異
        ——識記“己”“已”“巳”
        有趣的一筆畫
        學生天地(2020年14期)2020-08-25 09:21:06
        2019年高考上海卷作文示例
        常見單位符號大小寫混淆示例
        山東冶金(2019年5期)2019-11-16 09:09:22
        “全等三角形”錯解示例
        找不同
        BP-GA光照分類器在車道線識別中的應用
        電子測試(2018年1期)2018-04-18 11:52:35
        一筆畫
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        亚洲精品中文字幕二区| 欧美自拍区| 亚洲午夜无码视频在线播放| 男女动态视频99精品| 中文字幕人妻饥渴浪妇| 日日碰狠狠添天天爽| 久久精品片| 日本一区二区视频免费观看| 亚洲一区亚洲二区视频在线| 亚洲视频在线观看| 亚洲妇女水蜜桃av网网站| 激情综合五月天开心久久| 海外华人在线免费观看| 国产精品成人va在线观看| 国产乱子伦精品无码码专区| 午夜视频免费观看一区二区| 日韩一区二区av极品| 特级a欧美做爰片第一次| 久久99热精品这里久久精品| 亚洲av高清在线一区二区三区| 亚洲精品中文字幕免费专区| 国产丝袜在线精品丝袜| 免费看欧美日韩一区二区三区| 国产久久久自拍视频在线观看| 国产精品 无码专区| 国产又黄又猛又粗又爽的a片动漫| 亚洲无码vr| 91精品啪在线观九色| 亚洲国产av精品一区二区蜜芽| 2022Av天堂在线无码| 午夜国产精品一区二区三区| 99久久精品无码一区二区毛片| 少妇被躁爽到高潮无码文| 国产丰满乱子伦无码专| 精品三级国产一区二区三| 亚洲av无码久久精品狠狠爱浪潮| 亚洲AV无码国产成人久久强迫| 日本一区二区在线播放| 精品av熟女一区二区偷窥海滩| 久久99精品久久久久久| 性感人妻中文字幕在线|