亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖像描述算法的離線盲人視覺輔助系統(tǒng)

        2022-02-12 02:13:16陳悅郭宇謝圓琰米振強
        電信科學 2022年1期
        關鍵詞:剪枝離線解碼

        陳悅,郭宇,2,謝圓琰,米振強

        研究與開發(fā)

        基于圖像描述算法的離線盲人視覺輔助系統(tǒng)

        陳悅1,郭宇1,2,謝圓琰1,米振強1

        (1. 北京科技大學計算機與通信工程學院,北京 100083;2. 北京科技大學順德研究生院,廣東 佛山 528399)

        針對現(xiàn)有盲人視覺輔助設備存在的不便,探討了基于模型剪枝的圖像描述模型在便攜式移動設備上運行的方法?;仡櫫藞D像描述模型和剪枝模型技術,重點提出了一種針對圖像描述模型的改進剪枝算法。結果表明,在保證準確性的前提下,剪枝后的圖像描述模型可以大幅降低工作時的處理時間和消耗的電源容量,能夠隨時隨地快速準確地對環(huán)境信息進行描述及語音播報。

        視覺輔助系統(tǒng);圖像描述模型;模型壓縮和加速;模型剪枝算法

        0 引言

        視覺障礙群體是殘疾人群中容易被忽略的龐大人群,眼睛的缺陷讓他們無法通過視覺系統(tǒng)感知外界的信息,從而給日常生活和出行帶來極大不便?,F(xiàn)階段,視覺輔助設備給盲人的生活帶來了一些便利[1]。但現(xiàn)有的盲人輔助工具或多或少存在著價格昂貴、輔助功能有限、交互性差、無法離線使用等缺點?;诖耍疚奶岢隽艘环N搭載在低成本便攜設備中基于圖像描述算法的離線盲人視覺輔助系統(tǒng)。

        圖像描述能夠利用語言描述圖像內容。2014年提出m-RNN模型[2]和NIC模型[3]后,圖像描述任務相較于基于檢索的模型產生了較大進步,在此之后的研究結合目標檢測等高等級語義信息實現(xiàn)高層次視覺任務[4-5]、結合場景圖實現(xiàn)細粒度可控的圖像描述模型[6-7]、生成獨特精確且有信息量的圖像描述[8-9]等方面對其改進。

        隨著卷積神經(jīng)網(wǎng)絡[2-9]的發(fā)展、模型精度的不斷提升,神經(jīng)網(wǎng)絡計算量越來越大的同時還伴隨了大量的冗余。這造成了實現(xiàn)深度學習網(wǎng)絡模型要么需要具備強大計算能力的設備,要么需要能夠傳輸大量數(shù)據(jù)的網(wǎng)絡。這對于實現(xiàn)能夠隨身攜帶、幫助視覺障礙人群提供日常服務的小型移動設備帶來了巨大的挑戰(zhàn):一是小型移動設備無法完成大型深度學習網(wǎng)絡計算量,二是人們不能保證自己時時都處于能夠傳輸大量數(shù)據(jù)的網(wǎng)絡環(huán)境中?;诖?,在保證模型準確率的同時盡可能降低模型的復雜度成為了一個熱門研究課題,從剪枝[10-11]、量化[12-13]、蒸餾[14-15]、低秩分解[16-17]、加法網(wǎng)絡[18-20]等方面實現(xiàn)模型壓縮,已經(jīng)被廣泛應用在各種模型上。

        本文將在文獻[10]的方法上做出改進,對典型的圖像描述模型進行剪枝壓縮,在確保圖像描述精度的同時提高其運行速度,減少其工作消耗,并將其部署在低成本便攜式移動設備上,盲人通過拍攝照片便可以收聽到含有實時周圍環(huán)境信息描述的語音播報。不同的模型剪枝算法也能夠實現(xiàn)本文所實現(xiàn)的功能,但正如前文所述本文主要提出一種利用圖像描述模型為盲人提供視覺輔助的方法,并采用模型剪枝的方法解決當前圖像理解等神經(jīng)網(wǎng)絡模型計算量大,難以部署在低成本移動設備的問題,對不同模型剪枝的實現(xiàn)效果不在本文的重點考慮范圍之內,因此對于不同壓縮算法達到的壓縮程度以及精度不做深入探討。

        1 圖像描述模型的相關介紹

        本文所采用的圖像描述算法的整體框架為編碼-解碼(encoder-decoder)模型[21]。編碼-解碼模型原本用來解決自然語言處理中的序列到序列(sequence-to-sequence,seq2seq)問題,如自然語言翻譯、文章摘要、問答系統(tǒng)等,編碼-解碼模型如圖1所示。其中,編碼-解碼模型在最常見的自然語言翻譯模型中,編碼端和解碼端使用的都是循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)模型,一種語言的輸入通過RNN的編碼部分,生成一個語義編碼信息C,之后經(jīng)過RNN的解碼部分輸出為另一種語言。將圖像描述模型嵌入到編碼-解碼模型架構中后,編碼部分使用的是卷積神經(jīng)網(wǎng)絡,解碼部分使用的是循環(huán)神經(jīng)網(wǎng)絡。

        圖1 編碼-解碼模型

        注意力(attention)機制類似于人眼的注意機制[22],能夠隨著解碼的進行改變對局部的注意力。在編碼-解碼模型的基礎上加入軟注意力(soft attention)機制,可以生成更合理的單詞。加入軟注意力機制后的圖像描述整體框架如圖2所示。

        ● 編碼端:利用VGG16模型提取圖像特征,本文只利用模型的卷積層,經(jīng)卷積層提取之后最終形成注釋向量(annotation vector)。

        ● 解碼端:為了避免訓練時的梯度消失現(xiàn)象,本文使用長短期記憶(long short-term memory,LSTM)網(wǎng)絡[23]代替RNN:

        圖2 加入軟注意力機制后的圖像描述整體框架

        加入注意力機制后的圖像描述模型與普通圖像描述模型的不同在于,上下文向量(context vector){1,,z,,z}需要由注釋向量a和注意力機制共同決定。{1,…z,…,z}是根據(jù)某個特定的局部圖像信息而產生的上下文向量,注釋向量a會產生一個權重a,在注意力機制中,權重a是在時刻圖像區(qū)域a輸入LSTM中所占的比重。權重a由注釋向量a和長短期記憶網(wǎng)絡中的隱藏狀態(tài)h?1之間的相關性計算。之后只需要將a和對應的a加權求和就可計算上下文向量z。這樣,注意力機制就能夠對不同的圖像區(qū)域產生不同的關注度,進而生成更合理的詞。

        模型的復雜度一般用浮點數(shù)運算量(floating point operation,F(xiàn)LOP)衡量,卷積層FLOP的計算式[24]為:

        其中,(2×C×21)表示一次卷積操作的運算量,(2×C×21)×××表示拓展到整個卷積操作的運算量。

        本文在圖像描述模型中采用的是經(jīng)典的神經(jīng)網(wǎng)絡模型VGG16的卷積層部分提取圖像特征,VGG16網(wǎng)絡結構的大部分運算量來自其卷積層。本文剪枝的主要目標是減少模型的運算量,也即壓縮方法將針對編碼部分忽略解碼的相關操作。

        2 基于圖像描述算法的離線盲人視覺輔助系統(tǒng)

        2.1 系統(tǒng)框架

        針對現(xiàn)存盲人視覺類輔助工具的不足及盲人對周圍環(huán)境感知的急切需求,本文設計了如圖3所示的離線盲人視覺輔助系統(tǒng)。對圖像描述模型進行剪枝,使得其可以在低成本便攜式移動設備中離線處理圖像,解決現(xiàn)有視覺輔助設備價格昂貴、依賴網(wǎng)絡、交互性不強等問題。該系統(tǒng)以廣角相機拍攝的照片作為輸入,之后通過剪枝處理的圖像描述模型幫助盲人感知周圍環(huán)境,并利用揚聲器將圖像描述模型得到的環(huán)境描述通過語音的方式播報,從而從聽覺輔助視覺的角度幫助視覺障礙人士實現(xiàn)對環(huán)境的感知。本文將在下文對上述功能模塊進行具體闡述。

        2.2 圖像描述模型及剪枝

        為了向盲人提供生活上的便利,確保本系統(tǒng)能夠離線處理圖像并在確保圖像描述模型準確度的基礎上縮短圖像描述模型的運行時間、降低圖像描述模型的功耗,本文使用模型剪枝方法對圖像描述模型進行壓縮剪枝。具體過程如下。

        (1)評估神經(jīng)元的重要程度

        根據(jù)剪枝粒度的不同,神經(jīng)元可以定義為一個權重連接,也可以定義為整個特征圖。理想情況下,無須對神經(jīng)元的重要性進行評估,只需要采用暴力方法,逐一對卷積層進行裁剪,并觀察裁剪之后損失函數(shù)在訓練集上的變化,變化最小的即最不重要的特征圖,也就是最應該被剪掉的特征圖,其目的是使被剪枝的模型的代價函數(shù)損失最小,代價函數(shù)如式(5)所示,對應的公式相關符號物理意義詳見表1。

        為了解決上述問題,可以使用泰勒級數(shù)展開[25]近似損失函數(shù)的變化。對于所有的特征圖{0(1),0(2),…,z(C)}來說,剪掉某一個特征圖h就是令其等于0,這時:

        根據(jù)泰勒公式:

        因為拉格朗日余項1(h=0)的值很小,將其忽略,則判斷是否剪枝某一特征圖的目標函數(shù)變?yōu)椋?/p>

        (2)移除不重要的神經(jīng)元

        神經(jīng)元的移除可以根據(jù)是否滿足某個閾值,也可以按照重要程度進行排序。根據(jù)第一步的結果,只需設置一個門信號進行移除:

        圖3 離線盲人輔助系統(tǒng)模型框架

        門信號控制卷積計算輸出的結果為:

        (3)微調神經(jīng)網(wǎng)絡

        剪枝類似于一種對完整的網(wǎng)絡結構進行有損失調整的操作,勢必會對網(wǎng)絡模型的精度造成影響。如果剪枝后不進行微調,那么多輪次剪枝后,網(wǎng)絡模型的精度將會出現(xiàn)斷崖式的下降。因此每次剪枝后需要對模型重新進行訓練微調,這在整個流程中至關重要。

        (4)重復上述操作,進入下一輪的剪枝。

        根據(jù)上述算法,剪枝一次需要微調一次神經(jīng)網(wǎng)絡。如果一次只剪掉一個特征圖,那么剪枝過程就需要進行多次微調神經(jīng)網(wǎng)絡操作,這無疑增加了訓練時間。而訓練時間過長會帶來許多不便,例如系統(tǒng)在使用過程中往往會為了提高用戶的體驗感、升級功能、修復存在的漏洞等方面進行版本更新,訓練時間過長則會降低系統(tǒng)迭代更新的速度,不能及時滿足用戶的需求。相應地,一次剪裁掉多個特征圖可以大大縮減整個流程的執(zhí)行次數(shù)進而降低第3個步驟的執(zhí)行次數(shù)。具體來說,一次裁剪掉1個特征圖相較于一次裁剪掉30個特征圖,就需要多進行30次訓練。但是每次裁剪掉多個特征圖,會導致模型精度下降過快,這使得模型壓縮基本失去意義。一方面是因為模型的結構一次性改變過大,使得模型難以恢復;另一方面因為裁剪掉的特征圖中存在著不該被剪掉的信息。針對以上問題,本文提出一種改進方案實現(xiàn)一次裁剪多個特征圖從而減少微調神經(jīng)網(wǎng)絡所需要的時間同時最小化對剪枝后模型的影響。

        按照理論,在不改變任何參數(shù)和輸入的情況下,每次評估時應該會得到同樣的結果,然而實驗結果并不是這樣。當增加評估次數(shù)時,會產生不同的剪枝結果同時存在一些重合的特征圖,這些重合的特征圖在每輪的評估結果中所處的排序位置也不完全相同,這說明某一特征圖在某一評估輪次中最應該被剪掉而在其他輪次中有可能不應該被剪掉。

        根據(jù)上述現(xiàn)象,本文在每輪剪枝中,為了降低不同的評估實驗對結果的影響,首先將“評估神經(jīng)元的重要程度”這一操作執(zhí)行5次,模型的代價函數(shù)將變?yōu)椋?/p>

        其中,為執(zhí)行評估的次數(shù),,為每次評估后選取的特征圖的個數(shù),其他參數(shù)含義詳見表1。

        在增加評估次數(shù)后,對模型剪枝算法進行改進,具體方案如下。

        步驟1 在增加評估次數(shù)的基礎上,選取重合的特征圖,重合次數(shù)越多的特征圖就越應該被裁剪掉。

        表1 剪枝算法公式相關符號物理意義說明

        步驟2 將第一步中選取的特征圖的Oracle-abs值按從小到大的規(guī)則進行排序,裁剪掉排名靠前的特征圖。

        模型此時的代價函數(shù)為:

        在后續(xù)的實驗中,分別使用只有步驟(1)的改進方案(以下稱為改進方案1)和包含步驟(1)、步驟(2)的完整改進方案(以下稱為改進方案2)對模型壓縮的精確度進行驗證。

        2.3 盲人視覺輔助設備

        通過前文描述得到剪枝后的圖像描述模型后,本文將其在攜式處理器上進行了部署,并最終搭建了完整的盲人離線視覺輔助系統(tǒng),具體包含:用于拍攝周圍場景的廣角攝像機、將圖像描述用語音轉述的揚聲器及功能模塊、用于圖像處理的便攜式微處理器設備。其中,廣角攝像機和揚聲器借助智能眼鏡的形式實現(xiàn),便攜式微處理器選取了搭載Inter 4核Z8350 CPU、4 GB內存、電池容量為5 000 mAh(約為普通智能手機的電池容量)的便攜式計算機。盲人輔助設備使用說明如圖4所示。當視覺障礙人士處于日常生活環(huán)境并需要了解周圍環(huán)境情況時,可以通過攝像機拍攝周圍環(huán)境信息,圖像描述模型能夠對拍攝的圖片處理并生成圖像描述結果,語音播報功能模組對得到的圖像描述信息進行播報。通過實驗,視覺障礙人士在拍攝照片后2 s左右即可收聽到周圍環(huán)境信息的語音描述,符合實際生活的需求。更為具體的實驗結果將在第3節(jié)給出。

        圖4 盲人輔助設備使用說明

        3 實驗分析

        3.1 實驗條件

        (1)實驗設置

        本文利用阿里云服務器對所采用的圖像描述模型進行了剪枝和訓練,所采用的數(shù)據(jù)集為經(jīng)典的Flickr8k數(shù)據(jù)集[26]。上述數(shù)據(jù)集中每張圖像帶有5句關于該圖像的描述,每一句描述語句都有一個0~1的得分,得分越大則語句描述越準確。Flickr8k數(shù)據(jù)集示例如圖5所示。

        獲得剪枝后的圖像描述模型后,本文將其部署在了第3.3節(jié)所描述的離線盲人系統(tǒng)中,并分別用數(shù)據(jù)集和實際場景進行了定性和定量的分析。軟件環(huán)境為Ubuntu18.04系統(tǒng)、Python 3.6和Pytorch 1.0.0。

        (2)評價指標

        本文采用雙語替換評測(bilingual evaluation understudy,BLEU)[27]和基于召回率的評估指標(recall-oriented understudy for gisting evaluation,ROUGE)[28]對圖像描述模型的精度進行評價。

        BLEU采用一種-gram的匹配原則,即對生成的一句話進行個連續(xù)單詞的截斷。根據(jù)的取值,BLEU可以劃分成多種評價指標,常見的有BLEU-1、BLEU-2、BLEU-3、BLEU-4。具體來說,BLEU-1衡量的是單詞級別的準確性,而更高階的BLEU可以衡量句子的流暢性,具體的計算方法可以參看文獻[27],本文不贅述。

        ROUGE評估指標是一組能夠評估自動文摘以及機器翻譯的指標,通過將預測語句和參考語句進行比較得出召回率,以衡量自動生成的語句與參考語句之間的相似度。其中,有3個評價標準,分別是ROUGE-N、ROUGE-L和ROUGE-S。ROUGE 和 BLEU 幾乎一模一樣,區(qū)別是 BLEU 只計算準確率,而 ROUGE 只計算召回率,具體的計算方法可以參看文獻[28],本文不贅述。

        (3)實驗參數(shù)

        在本文的方案中,執(zhí)行評估的次數(shù)5,每次評估后選取的特征圖的個數(shù)=50,選擇一次需要裁剪掉的特征圖個數(shù)為50。在改進方案1中,當重合的特征圖個數(shù)不滿50時,需要擴大執(zhí)行評估的次數(shù)。在對模型進行參數(shù)微調時,批尺寸為64、所有訓練樣本的訓練次數(shù)為20、編碼學習率為5×10?5、解碼學習率為5×10?6。

        3.2 圖像描述模型實驗結果和分析

        (1)剪枝算法改進前后精度和效果對比

        為了驗證剪枝前后模型的精度未發(fā)生較大變化,本文首先以BLEU-4為評估指標分別記錄兩種改進剪枝算法迭代過程圖像描述模型的精度。圖6表示改進方案1和改進方案2在剪枝迭代過程中BLEU-4的變化情況。其中,原剪枝方案表示經(jīng)過原始剪枝方法進行模型壓縮的圖像描述模型。改進方案1表示在原剪枝方案的基礎上增加評估次數(shù),裁剪重合次數(shù)較多的特征圖。改進方案2表示在第一步增加評估次數(shù)的基礎上,計算特征圖的Oracle-abs值并按從小到大的規(guī)則進行排序,裁剪掉那些排名靠前的特征圖。

        圖6 圖像描述模型在原剪枝算法和改進方案上的精度對比

        為了更加直觀地驗證剪枝后的圖像描述模型仍有較高的精度,本文使用以改進方案二剪枝的圖像描述模型分別對數(shù)據(jù)集中室外和室內場景以及生活中的實際場景進行了實驗,如圖7、圖8、圖9所示??梢悦黠@看出,剪枝后圖像描述模型的輸出與剪枝前的圖像描述模型的輸出結果并無區(qū)別,這同樣印證了圖3的結論。

        (2)剪枝算法改進先后圖像描述結果相似度對比

        為了驗證圖像描述模型在本文所提出的剪枝模型的壓縮后,模型的準確度沒有明顯下降,能夠提供盲人所需要的周圍環(huán)境信息,本文隨機選取了100張圖像進行圖像描述實驗。將未剪枝的圖像描述模型的輸出作為參考描述,將剪枝后的圖像描述輸出作為預測描述,采用ROUGE-1、ROUGE-2、ROUGE-L評估方式計算剪枝前后的圖像描述的召回率,這在一定程度上能夠表示剪枝后圖像描述模型與原圖像描述模型輸出的相似度。具體實驗結果見表2,其中,本文將ROUGE-1、ROUGE-2、ROUGE-L的結果得分分為4個區(qū)間:0.91~1、0.71~0.9、0.51~0.7、0~0.5。記錄剪枝前后圖像描述模型輸出結果的召回率得分的比率情況,得分越高表示其輸出結果與參考結果越接近。剪枝前后圖像描述模型輸出結果的召回率情況如圖10所示。

        表2表示使用不同評估指標對剪枝前后圖像描述模型輸出結果評估時不同召回率的占比情況。由圖10可以看出,剪枝后的圖像描述模型與剪枝前圖像描述模型的輸出中有近60%的結果召回率大于0.9,在ROUGE-1和ROUGE-L評估指標中有近90%的結果召回率大于0.7,在ROUGE-2評估指標中也有超過70%的結果召回率大于0.7。這說明剪枝后的圖像描述模型相比于剪枝前的圖像描述模型的精度有降低,但與剪枝前的圖像描述相比能夠達到70%以上的相似度,模型精度下降不大。

        圖7 模型剪枝前后室外場景圖像描述對比

        圖8 模型剪枝前后室內場景圖像描述對比

        圖9 模型剪枝前后實際場景圖像描述對比

        表2 剪枝前后圖像描述模型輸出結果的召回率情況

        圖10 剪枝前后圖像描述模型輸出結果的召回率情況

        (3)剪枝算法改進先后消耗時間、電源容量對比

        為了驗證本文所提出的離線盲人視覺輔助系統(tǒng)的高可用性,本文分別測試了剪枝前以及使用改進方案2剪枝后的圖像描述模型在本文所用硬件上所消耗的時間和電源容量的變化情況。本文在相同的10張圖片上進行了實驗,并累計對應所消耗的時間和功率。

        同一組10張圖片在剪枝前后的兩個模型所累積消耗的時間如圖11(a)所示。無論是單張圖片的理解速度還是累計所需要的時間,剪枝后的模型處理速度比剪枝前的速度快,同時隨著處理圖片數(shù)量的增加,其差距也越來越大。根據(jù)表2,剪枝前從圖像輸入到輸出結果單張圖像平均用時為4.049 s;而剪枝后的模型對相同的10張圖像進行圖像描述時,單張圖像的平均用時僅為2.337 s,縮短了42%。圖像描述用時的縮短能夠為視覺障礙人士及時地提供附近環(huán)境信息,特別是在危險、緊急的情況下為視覺障礙人群獲得寶貴的反應時間。

        圖11 剪枝前后圖像描述對比

        同一組10張圖片在剪枝前后的兩個模型所累積消耗的電源容量如圖11(b)所示。從圖11中可以看出,對一張圖片進行圖像描述時功耗消耗相差不大,但隨著處理圖像數(shù)量的增多,剪枝后的模型相比于剪枝前的模型對電源容量累計消耗增長緩慢,即處理單張圖片剪枝后的模型所消耗的電源容量更低,即使處理了10張圖片后,剪枝后的模型所消耗的功率也只近似于剪枝之前的模型消耗的一半。這是由于剪枝后圖像描述所需要處理的數(shù)據(jù)減少,內存占用率隨之減少。根據(jù)表3,剪枝前從圖像輸入到輸出結果每張圖片所消耗的處理平均電源容量為0.269 mAh;而在剪枝后的模型對相同的10張圖像進行圖像描述時,每張圖像所消耗的平均電源容量僅為0.164 mAh。

        表3 剪枝前后圖像描述模型所消耗的平均處理時間和平均電源容量功率

        假定模型剪枝前處理一張圖片消耗的電池容量約為0.16 mAh,剪枝后處理一張圖片消耗的電池容量約為0.27 mAh,將本實驗設備用于日常生活可以處理約30 000 張圖片,而在同等條件下剪枝前的圖像描述模型只能處理約18 000 張圖片。剪枝前后圖像描述所消耗的功率減小對于將此盲人視覺輔助系統(tǒng)裝載于低成本便攜小巧的移動設備提供了極大的便利,延長了視障人士使用該系統(tǒng)時的時間。

        4 結束語

        本文提出了基于圖像描述模型算法的離線盲人視覺輔助系統(tǒng),為了使得圖像描述模型能夠在便攜式低性能移動式設備上離線使用,本文對模型進行了剪枝處理。視覺障礙人士可以利用本文的盲人視覺輔助系統(tǒng)對周圍場景拍照作為輸入,之后揚聲器將圖像描述后的信息以語音的形式播報,從而能夠感知周圍環(huán)境的信息。結果表明,剪枝后的模型在圖像描述的精度上與剪枝前的模型差別不大,但在處理時間和能耗上分別有較大的降低,這讓視覺障礙人士能夠長時間穩(wěn)定及時地感知周圍地環(huán)境,在一定程度上提升其生活幸福感。后續(xù)將進一步開展對現(xiàn)有模型的優(yōu)化,力求探索出計算機視覺相關模型在實際生活應用的最佳實踐模式。

        [1] 康帥, 章堅武, 朱尊杰, 等. 改進YOLOv4算法的復雜視覺場景行人檢測方法[J]. 電信科學, 2021, 37(8): 46-56.

        KANG S, ZHANG J W, ZHU Z J, et al. An improved YOLOv4 algorithm for pedestrian detection in complex visual scenes[J]. Telecommunications Science, 2021, 37(8): 46-56.

        [2] MAO J H, XU W, YANG Y, et al. Explain images with multimodal recurrent neural networks[EB]. 2014.

        [3] VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: a neural image caption generator[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2015.

        [4] ANDERSON P, HE X D, BUEHLER C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 6077-6086.

        [5] LUO Y P, JI J Y, SUN X S, et al. Dual-level collaborative transformer for image captioning[EB]. 2021.

        [6] YANG X, TANG K H, ZHANG H W, et al. Auto-encoding scene graphs for image captioning[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2019: 10685-10694.

        [7] CHEN S Z, JIN Q, WANG P, et al. Say as you wish: fine-grained control of image caption generation with abstract scene graphs[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2020: 9962-9971.

        [8] WANG Z Y, FENG B, NARASIMHAN K, et al. Towards unique and informative captioning of images[M]//Computer Vision – ECCV 2020. Cham: Springer International Publishing, [S.l.:s.n.], 2020: 629-644.

        [9] XU G H, NIU S C, TAN M K, et al. Towards accurate text-based image captioning with content diversity exploration[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2021: 12637-12646.

        [10] DENTON E, ZAREMBA W, BRUNA, et al. Exploiting linear structure within convolutional networks for efficient evaluation[C]//Advances in neural information processing systems. Cambridge:MIT Press, 2014: 1269-1277.

        [11] ZHUANG Z W, TAN M K, ZHUANG B H, et al. Discrimination-aware channel pruning for deep neural networks[EB]. 2018.

        [12] RASTEGARI M, ORDONEZ V, REDMON J, et al. Xnor-net: imagenet classification using binary convolutional neural networks[C]//European conference on computer vision. Berlin: Springer, 2016: 525-542.

        [13] WANG K, LIU Z J, LIN Y J, et al. HAQ: hardware-aware automated quantization with mixed precision[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2019: 8612-8620.

        [14] CHEN H T, WANG Y H, XU C, et al. Data-free learning of student networks[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2019: 3514-3522.

        [15] LUO L C, SANDLER M, LIN Z, et al. Large-scale generative data-free distillation[EB]. 2020.

        [16] YU X Y, LIU T L, WANG X C, et al. On compressing deep models by low rank and sparse decomposition[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2017: 7370-7379.

        [17] YANG Z, WANG Y, LIU C, et al. Legonet: efficient convolutional neural networks with lego filters[C]//International Conference on Machine Learning. New York: ACM Press, 2019: 7005-7014.

        [18] CHEN H T, WANG Y H, XU C J, et al. AdderNet: do we really need multiplications in deep learning?[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2020: 1468-1477.

        [19] XU Y, XU C, CHEN X, et al. Kernel based progressive distillation for adder neural networks[EB]. 2020.

        [20] SONG D H, WANG Y H, CHEN H T, et al. AdderSR: towards energy efficient image super-resolution[C]//Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2021: 15648-15657.

        [21] PARK Y, YUN I D. Fast adaptive RNN Encoder?Decoder for anomaly detection in SMD assembly machine[J]. Sensors (Basel, Switzerland), 2018, 18(10): 3573.

        [22] XU K, BA J, KIROS R, et al. Show, attend and tell: neural image caption generation with visual attention[EB]. 2015.

        [23] XINGJIAN S H I, CHEN Z, WANG H, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting[C]//Advances in neural information processing systems. Cambridge:MIT Press, 2015: 802-810.

        [24] MOLCHANOV P, TYREE S, KARRAS T, et al. Pruning convolutional neural networks for resource efficient inference[EB]. 2016.

        [25] 王從徐. 基于泰勒級數(shù)展開及其應用探討[J]. 紅河學院學報, 2021, 19(02): 154-156.

        WANG C X. Discussion on Taylor series expansion and its application[J]. Journal of Honghe University, 2021, 19(02): 154-156.

        [26] HODOSH M, YOUNG P, HOCKENMAIER J. Framing image description as a ranking task: data, models and evaluation metrics[J]. Journal of Artificial Intelligence Research, 2013, 47: 853-899.

        [27] 蔡鑫. 基于Bert模型的互聯(lián)網(wǎng)不良信息檢測[J]. 電信科學, 2020, 36(11): 121-126.

        CAI X. Internet bad information detection based on Bert model[J]. Telecommunications Science, 2020, 36(11): 121-126.

        [28] LIN C Y. Rouge: a package for automatic evaluation of summaries[C]//Text summarization branches out. Barcelona: ACL, 2004: 74-81.

        Offline visual aid system for the blind based on image captioning

        CHEN Yue1, GUO Yu1,2, XIE Yuanyan1, MI Zhenqiang1

        1.School of Computer & Communication, University of Science and Technology Beijing, Beijing 100083, China 2.Shunde Graduate School, University of Science and Technology Beijing, Foshan 528399, China

        In view of the inconveniences of existing visual aid systems for the blind, the method of running the image captioning model on portable mobile devices based on model pruning was discussed. Model pruning techniques and image captioning models were reviewed. An improved model pruning algorithm for image captioning model was proposed. Experimental results show that, on the premise of ensuring accuracy, the image captioning model after pruning can greatly reduce processing time and power consumption capacity, and can quickly and accurately describe environmental information and voice broadcast anytime and anywhere.

        visual assisted system, image captioning model, model compression and acceleration, model pruning algorithm

        TP391

        A

        10.11959/j.issn.1000?0801.2022014

        2021?09?17;

        2021?11?19

        陳悅(1998?),女,北京科技大學計算機與通信工程學院碩士生,主要研究方向為計算機視覺與人工智能。

        郭宇(1992?),男,博士,北京科技大學計算機與通信工程學院講師,主要研究方向為無線傳感器網(wǎng)絡、云計算、多機器人系統(tǒng)。

        謝圓琰(1996?),女,北京科技大學計算機與通信工程學院博士生,主要研究方向為云機器人、服務科學與云計算。

        米振強(1983?),男,博士,北京科技大學計算機與通信工程學院副教授,主要研究方向為服務計算、多機器人系統(tǒng)、移動環(huán)境中的點云計算。

        猜你喜歡
        剪枝離線解碼
        《解碼萬噸站》
        人到晚年宜“剪枝”
        異步電機離線參數(shù)辨識方法
        防爆電機(2021年4期)2021-07-28 07:42:46
        呼吸閥離線檢驗工藝與評定探討
        基于YOLOv4-Tiny模型剪枝算法
        淺談ATC離線基礎數(shù)據(jù)的準備
        解碼eUCP2.0
        中國外匯(2019年19期)2019-11-26 00:57:32
        NAD C368解碼/放大器一體機
        Quad(國都)Vena解碼/放大器一體機
        離線富集-HPLC法同時測定氨咖黃敏膠囊中5種合成色素
        中成藥(2018年2期)2018-05-09 07:20:09
        无码熟妇人妻av在线网站| 男男受被攻做哭娇喘声视频 | 国产精品人妻一码二码尿失禁 | 婷婷射精av这里只有精品| 国产乱xxⅹxx国语对白| 无码片久久久天堂中文字幕| 色拍拍在线精品视频| 91久久久久无码精品露脸| 厕所极品偷拍一区二区三区视频| 九一精品少妇一区二区三区| 狠狠躁夜夜躁av网站中文字幕| 丰满少妇被粗大的猛烈进出视频| 人妻少妇精品无码专区二区 | 琪琪av一区二区三区| 日本一区二区三区亚洲| 亚洲视频网站大全免费看| 成午夜精品一区二区三区| 国产精品综合一区二区三区| 理论片午午伦夜理片影院| 亚洲不卡电影| 国产成人自拍小视频在线| 亚洲综合中文日韩字幕| 亚洲色一区二区三区四区| 无码任你躁久久久久久久| 免费av在线国模| 加勒比熟女精品一区二区av| 一区二区三区中文字幕在线播放| 精品一区二区三区四区国产| 国产精品久久久爽爽爽麻豆色哟哟| 双腿张开被9个男人调教| 人妻丰满熟妇AV无码片| 淫妇日韩中文字幕在线| 亚洲综合色视频在线免费观看| 国产av久久在线观看| 亚洲色成人www永久在线观看| 熟妇人妻无乱码中文字幕| 日本熟妇hd8ex视频| 极品少妇一区二区三区| 无码毛片内射白浆视频| 欧美又大又色又爽aaaa片| 制服丝袜人妻中文字幕在线|