亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于在線視頻描述的視障人士輔助系統(tǒng)*

        2022-09-07 12:52:20陳冰萸
        計(jì)算機(jī)時代 2022年9期
        關(guān)鍵詞:特征模型系統(tǒng)

        陳冰萸

        (杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院,浙江 杭州 310018)

        0 引言

        近年來,我國政府重視維護(hù)殘疾人權(quán)益的工作,并大力推進(jìn)信息無障礙建設(shè),例如為殘疾人提供帶有語音及文字提示的信息交流服務(wù),如影視節(jié)目手語播報(bào)、公共圖書館無障礙設(shè)施和殘疾人公益組織等。如果這些工作都由人力完成,則成本高,且遠(yuǎn)遠(yuǎn)不能滿足需求。因此,借助計(jì)算機(jī)技術(shù)進(jìn)行突破成為了無障礙建設(shè)的重點(diǎn)任務(wù)。

        在計(jì)算機(jī)視覺領(lǐng)域,視頻描述這一技術(shù)的重要性日益突顯出來。其能夠用于視頻標(biāo)題生成、視頻字幕生成、視頻分類、內(nèi)容檢索及個性化推薦等方面。而在無障礙建設(shè)領(lǐng)域,視頻描述能夠輔助視障人士的日常生活,例如輔助日常出行、物品辨別等場景。

        本文以現(xiàn)有的一些網(wǎng)絡(luò)模型為基礎(chǔ),運(yùn)用近年來影響較深的注意力機(jī)制,結(jié)合緩沖區(qū)、多進(jìn)程的系統(tǒng)設(shè)計(jì),設(shè)計(jì)出一種基于PyTorch Mobile 框架的在線視頻描述系統(tǒng),將科技作為視障人士的“眼”,為他們的日常生活帶去便利。

        1 相關(guān)工作

        受圖像描述技術(shù)的啟發(fā),目前視頻描述技術(shù)經(jīng)常使用編碼器-解碼器(Encoder-Decoder)框架。現(xiàn)有的視頻描述模型通常使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),或遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)作為編碼器,對視頻進(jìn)行編碼,并使用RNN 作為解碼器對視頻進(jìn)行解碼,使視頻信息通過其他形式和載體呈現(xiàn)出來。

        針對如何充分利用視頻信息,生成更貼近場景需求、更準(zhǔn)確的描述結(jié)果的問題,近十年來學(xué)術(shù)界提出了很多可實(shí)現(xiàn)的解決方案。目前的視頻描述模型通過使用注意力機(jī)制整合視頻幀的特征,或采用層次循環(huán)編碼器、屬性增強(qiáng)反編碼器、多模態(tài)記憶和重構(gòu)損失等方法,來提高生成的描述質(zhì)量。雖然這些方法使視頻描述技術(shù)快速發(fā)展,但它們僅限于用一句話描述一段離線視頻,使用情景較為局限。因此,Yu等人提出了一種分層遞歸神經(jīng)網(wǎng)絡(luò),它能夠把較長的視頻轉(zhuǎn)化為文字描述,使視頻描述技術(shù)在工業(yè)界發(fā)展成為可能;而Xiong等人提出了一種基于事件的段落生成方法,系統(tǒng)中包含一個事件選擇模塊,用于選擇某個事件參與到描述生成的過程中去,由此實(shí)現(xiàn)對多個事件的描述,拓寬視頻描述的應(yīng)用情景。

        而對于實(shí)時作業(yè),動作檢測、目標(biāo)識別的研究開始得較早。實(shí)現(xiàn)實(shí)時目標(biāo)識別較為簡單,目標(biāo)識別系統(tǒng)可以從實(shí)時視頻幀中定時采幀,并對該特定幀進(jìn)行分析;動作檢測需要針對一個區(qū)間的視頻幀,即一個短視頻進(jìn)行分析,與視頻描述所需的場景較為貼合。而動作檢測需要針對一個區(qū)間的視頻幀,即一個短視頻進(jìn)行分析,與視頻描述所需的場景較為貼合。由Mohammadreza 在2018 年提出一種ECO 系統(tǒng)結(jié)構(gòu),該結(jié)構(gòu)通過維護(hù)兩個隊(duì)列,分別用于維護(hù)當(dāng)前視頻幀和歷史視頻幀,在保證視頻幀的充分利用的同時極大地提高了系統(tǒng)的運(yùn)行速度,很適合用于視頻描述系統(tǒng)中。

        本文的實(shí)時系統(tǒng)即是基于ECO 模型的基礎(chǔ)上加以改進(jìn),結(jié)合多層注意機(jī)制和雙層解碼器技術(shù),自主研發(fā)了一種能夠?qū)⒃诰€視頻轉(zhuǎn)化為符合語法規(guī)范且能夠準(zhǔn)確反映視頻內(nèi)容的描述的視頻描述系統(tǒng)。

        2 總體設(shè)計(jì)

        2.1 系統(tǒng)技術(shù)框架

        為使系統(tǒng)能夠貼合目標(biāo)群體的需求,達(dá)到滿意的效果,本系統(tǒng)的開發(fā)分理論設(shè)計(jì),編程實(shí)現(xiàn),模型訓(xùn)練及調(diào)優(yōu)和架構(gòu)效果驗(yàn)證,共四個步驟(如圖1)。其中,考慮到視障人群日常使用需要不斷獲得信息反饋,視頻時長較長,且有多個使用場景,系統(tǒng)的描述生成模塊同時包括視覺注意模塊和文本注意模塊,以保證視頻的視覺特征及描述的文本特征能夠被充分挖掘,且能夠突出其重點(diǎn)部分,使用戶能對所反映的事物有更準(zhǔn)確的認(rèn)識。

        圖1 技術(shù)框架圖

        項(xiàng)目模型使用目前最大的視頻描述數(shù)據(jù)集MSVD 數(shù)據(jù)集作為訓(xùn)練集及測試集,樣本劃分為8:2。在訓(xùn)練過程中,以CIDER1~4 作為模型當(dāng)前訓(xùn)練程度的評估指標(biāo),不斷調(diào)整模型的梯度、學(xué)習(xí)率等參數(shù),直至評估指標(biāo)達(dá)到收斂,表示模型訓(xùn)練完成。架構(gòu)效果驗(yàn)證時,針對系統(tǒng)的兩種視頻獲取方式,需要從描述準(zhǔn)確度、實(shí)時性、系統(tǒng)可運(yùn)行時間、多場景下的系統(tǒng)魯棒性等方面著手。

        2.2 系統(tǒng)技術(shù)路線

        2.2.1 Nginx-Rtmp-Module流媒體服務(wù)器

        Nginx 本身是非常出色的HTTP 服務(wù)器,F(xiàn)FMPEG是非常好的音視頻解決方案。通過Nginx-Rtmp-Module 模塊可將兩者組合在一起,搭建成一個功能較為完善的流媒體服務(wù)器,以支持RTMP 和LHS(LiveHTTPStream)。

        本系統(tǒng)將該模塊整合到手機(jī)系統(tǒng)(以iOS 系統(tǒng)為例)APP 中,當(dāng)在手機(jī)APP 開啟視頻識別功能的時候,APP 調(diào)用手機(jī)攝像頭拍攝視頻信息,Nginx-Rtmp-Module流媒體服務(wù)器則會將其推流至服務(wù)器中。

        2.2.2 OpenCV庫

        OpenCV 庫是一個基于BSD 許可發(fā)行的跨平臺計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)軟件庫,它主要用于圖像處理、計(jì)算機(jī)視覺、模式識別、物體識別(人臉識別、對象識別)等領(lǐng)域。如圖2所示,本系統(tǒng)中,OpenCV庫會每隔四秒,將接收到的視頻流轉(zhuǎn)化為MP4 格式的視頻,并輸入到視頻描述模型中。

        圖2 技術(shù)路線圖

        2.2.3 Video Captioning模型

        視頻描述模型,即技術(shù)框架中的描述生成模塊。其輸入為MP4 格式視頻,輸出為一句對輸入視頻的描述。本系統(tǒng)將視頻描述模型部署在云服務(wù)器中,它會接受由OpenCV 庫生成的MP4 視頻作為輸入。在其運(yùn)行前,只需要在后臺設(shè)置時間戳為四秒,即可使得視頻描述模型能夠自動每隔四秒讀取一次視頻文件,并生成相應(yīng)描述輸出。

        2.2.4 iOS手機(jī)系統(tǒng)語音庫

        iOS 手機(jī)系統(tǒng)自iOS7.0 以來就支持文本轉(zhuǎn)語音功能(TextToSpeech),iOS 手機(jī)開發(fā)者可以通過該功能將文字轉(zhuǎn)為語音輸出。在本系統(tǒng)中,當(dāng)視頻描述模型生成了視頻描述后,iOS 手機(jī)APP 即可從服務(wù)區(qū)獲取該描述語句,并通過iOS 手機(jī)系統(tǒng)自帶的文本轉(zhuǎn)語音功能將其由文字轉(zhuǎn)為語音輸送出,傳達(dá)給使用者,完成一個周期的視頻描述。

        3 模型設(shè)計(jì)

        3.1 視頻幀接收緩沖器

        本系統(tǒng)通過維護(hù)兩個緩沖器(隊(duì)列結(jié)構(gòu)),實(shí)現(xiàn)對實(shí)時視頻幀的接收、選取并合成視頻的操作。在每個存儲周期中,其中一個緩沖器(緩沖器A)用于存放當(dāng)前新接收的16 幀視頻幀,而另一個(緩沖器B)用于存放上一周期選取出的16 幀視頻幀。當(dāng)設(shè)置的四秒接收時間結(jié)束后,系統(tǒng)會從緩沖器B 中任意取出4 幀,從緩存器A 中任意取出12 幀,并將從B 中取出的歷史視頻幀放在前面,得到新的16幀視頻幀。

        對應(yīng)于系統(tǒng)技術(shù)路線,Nginx 流媒體服務(wù)器會將此16 幀推至OpenCV 庫中,并由OpenCV 庫將其轉(zhuǎn)化為MP4 視頻。同時,將緩沖器B 清空,并將此次選出的16 幀放入B 中,作為下一周期的歷史視頻幀。這樣,既能保證每一階段的輸入視頻大部分是當(dāng)前的內(nèi)容,又保留了部分歷史信息,使得最后的輸出內(nèi)容的前后連貫性提升。

        3.2 特征的提取

        針對每個周期從OpenCV 庫中得到的16 幀視頻,視頻描述模型會分別提取其空間特征(二維靜態(tài)特征)和時間特征(三維動態(tài)特征),以充分挖掘其畫面、動作信息。

        如圖3 所示,本系統(tǒng)使用I2D 卷積網(wǎng)絡(luò),對每一個視頻幀提取空間特征,該空間特征可以體現(xiàn)視頻幀中對象的特征。通過I2D 卷積網(wǎng)絡(luò),可以得到每一幀的特征f∈R,最后將16 幀的空間特征進(jìn)行拼接,得到完整的視頻空間特征F∈R。此外,本系統(tǒng)采用C3D 卷積網(wǎng)絡(luò)對該16 幀視頻提取其三維時間特征。C3D 卷積網(wǎng)絡(luò)由三維卷積層、池化層及全連接層組成。通過C3D 卷積網(wǎng)絡(luò)可以得到視頻的時間特征M∈R,該特征包括了視頻本身的時序信息,即動態(tài)信息。

        圖3 實(shí)時視頻接受及其特征提取

        3.3 注意力機(jī)制

        根據(jù)人的視覺特性,當(dāng)人在看一個畫面時,往往更關(guān)注畫面中最重要的對象或位置,注意力機(jī)制即是模擬了人類視覺的這一特征。

        通過注意力機(jī)制,系統(tǒng)可以在訓(xùn)練完成后,對視頻的特征生成權(quán)重分布,主體對象會得到更高的權(quán)值;然后再將視覺特征按權(quán)相加,整合得到最終的視覺特征。本系統(tǒng)的視覺注意模塊分為兩層,第一層為Region-LevelAttention,其可以學(xué)習(xí)關(guān)注每幀中最顯著的區(qū)域;第二層為Frame-LevelAttention,可以關(guān)注與視覺信息最相關(guān)的幀。兩層視覺注意模塊的設(shè)計(jì)不僅能夠自動聚焦于最相關(guān)的幀以及每幀中的顯著區(qū)域,也能保持幀內(nèi)的結(jié)構(gòu)信息和幀間的平滑性。

        此外,本系統(tǒng)還設(shè)計(jì)了文本注意模塊。相比傳統(tǒng)的Word-LevelAttention,本系統(tǒng)采用Phrase-LevelAttention。與視覺注意模塊的作用相似,文本注意模塊可以自動關(guān)注到當(dāng)前生成詞的前三個單詞,再從該短語級前綴中自動關(guān)注到最有用的內(nèi)容,從而提高生成描述的準(zhǔn)確率。

        3.4 LSTM解碼器

        本系統(tǒng)選用長短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)作為解碼器,即描述生成器。如圖4所示。LSTM 能夠通過隱藏門自動且隱式地保存每一節(jié)點(diǎn)的部分信息,作為下一時間步的歷史信息,故LSTM 相較于普通RNN 等解碼器,能夠挖掘到跨度更大的視覺特征,符合本系統(tǒng)使用場景的需求。

        圖4 描述生成模塊

        另外,本系統(tǒng)額外設(shè)置“平衡門”機(jī)制。在普通模型中,視覺特征和文本特征的權(quán)重比例大多是認(rèn)為固定的,故本系統(tǒng)中額外設(shè)置了平衡門。令視覺特征的權(quán)重值為λ,則文本特征的權(quán)重值為1-λ,在訓(xùn)練時即可得到該視頻描述模型的λ值。

        3.5 系統(tǒng)效果測試

        系統(tǒng)將MSVD 數(shù)據(jù)集作為訓(xùn)練集,不斷優(yōu)化調(diào)整模型參數(shù),直至模型能夠在數(shù)據(jù)集上得到一個較好得分。測試時通過手機(jī)攝像頭對準(zhǔn)測試視頻片段,視頻效果如圖5所示。

        圖5 測試攝像頭獲取視頻的可行性-觀影場景

        經(jīng)測試,我們可以看到系統(tǒng)對于攝像頭獲取實(shí)時視頻的方式支持性較好,且輸出的場景、人物、動作的識別都較為準(zhǔn)確。

        此外,此系統(tǒng)還可以用于日常生活,例如模擬出行,當(dāng)我們模擬用戶在日常出行時使用此系統(tǒng),將攝像頭對準(zhǔn)前行道路,可以得到如圖6所示的結(jié)果。

        圖6 測試攝像頭獲取視頻的可行性-出行場景

        經(jīng)測試,我們可以看到在出行場景下,系統(tǒng)對于道路環(huán)境、人數(shù)情況判斷較為準(zhǔn)確,基本可以滿足用戶出行時的輔助需求。

        由本系統(tǒng)設(shè)計(jì)初衷,系統(tǒng)還可以通過在線上傳視頻的方式獲取視頻,經(jīng)過測試可以得到如圖7所示效果。

        圖7 測試在線上傳視頻的可行性

        通過在多個視頻和使用場景下進(jìn)行的是,能夠得出以下結(jié)論:在大部分情況下,系統(tǒng)輸出的文字描述與視頻內(nèi)容基本一致,且實(shí)時性較好,手機(jī)運(yùn)行時也不容易卡頓,能夠基本滿足用戶的需求;在小部分情況下,輸出仍會有語法問題,但不會對理解產(chǎn)生影響,不會妨礙用戶使用。

        4 結(jié)束語

        為了給視障人士的生活提供方便,同時降低在無障礙建設(shè)進(jìn)程中的人力成本,本文提出了一種基于在線視頻描述的視障人士輔助系統(tǒng),論述了其設(shè)計(jì)及實(shí)現(xiàn)過程。該系統(tǒng)采用一種面向多使用場景的實(shí)時反饋技術(shù)架構(gòu),涵蓋了視頻傳輸、緩沖設(shè)計(jì)、描述生成及最終語音反饋等過程。該系統(tǒng)能夠有效從實(shí)時視頻幀中提取出空間特征、時間特征,通過視覺注意模塊及文本注意模塊合成整體特征,最后結(jié)合長短記憶解碼器,其生成的描述結(jié)果的準(zhǔn)確度、模型整體的速度均達(dá)到預(yù)期。

        猜你喜歡
        特征模型系統(tǒng)
        一半模型
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機(jī)系統(tǒng)
        ZC系列無人機(jī)遙感系統(tǒng)
        北京測繪(2020年12期)2020-12-29 01:33:58
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        精品国产免费久久久久久| 国模无码一区二区三区| 性高朝久久久久久久| 欧美亚洲韩国国产综合五月天| 国产精品黄色av网站| 我和丰满妇女激情视频| 黄瓜视频在线观看| 无码人妻少妇久久中文字幕蜜桃| 日本久久一级二级三级| 色视频网站一区二区三区| 欧洲女人性开放免费网站| 国产免费av片在线观看播放| 久久天堂av综合合色| 久久久国产精品无码免费专区 | 欧美日韩亚洲tv不卡久久| 午夜影视啪啪免费体验区入口| 久久影院最新国产精品| 欧洲女人与公拘交酡视频| 无码精品黑人一区二区三区| 亚洲无码vr| 国产一区二区三区色哟哟 | 狠狠色丁香久久婷婷综合蜜芽五月| 亚洲人成18禁网站| 精品国产一区二区三区a| 亚洲欧美日韩中文字幕一区二区三区| 亚洲人成网站在线观看播放| 亚洲女同一区二区久久| 白浆国产精品一区二区| 国产精品一区二区无线| 亚洲国产成人久久综合一区77| 亚洲区小说区图片区qvod伊| 韩国日本在线观看一区二区| 一本久久a久久免费综合| 国产全肉乱妇杂乱视频| 亚洲国产成人无码电影| 精品国产黄一区二区三区| 欧美中日韩免费观看网站| 99国产精品丝袜久久久久| 国产一区二区亚洲一区| 国产精品无码久久综合网| 亚洲成人福利在线观看|