亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        影像檔案多模態(tài)檢索模型框架構(gòu)建

        2023-08-10 08:14:02江檳伊房小可
        北京檔案 2023年7期

        江檳伊 房小可

        摘要:數(shù)字化轉(zhuǎn)型為影像檔案的管理提供了機(jī)遇和挑戰(zhàn)。針對(duì)當(dāng)前影像檔案檢索存在的問(wèn)題,該文以影像檔案內(nèi)容檢索為研究對(duì)象,在向量管理技術(shù)基礎(chǔ)上構(gòu)建影像檔案的多模態(tài)檢索模型框架。在所構(gòu)建的框架中,將影像檔案分解為聲音、文本和圖像三種模態(tài),分別形成三類(lèi)模態(tài)向量子空間,之后構(gòu)建不同向量模型之間的對(duì)應(yīng)關(guān)系形成總空間向量,進(jìn)而通過(guò)計(jì)算查詢(xún)數(shù)據(jù)與總空間向量的相似性,并通過(guò)多模態(tài)匹配得到更精準(zhǔn)的影像檔案片段。最后,該文以單個(gè)視頻的識(shí)別過(guò)程為例,做“文本-影像”雙模態(tài)的模擬實(shí)驗(yàn),以驗(yàn)證實(shí)現(xiàn)影像檔案多模態(tài)檢索的可行性。

        關(guān)鍵詞:影像檔案 多模態(tài) 檢索模型

        隨著媒體技術(shù)和信息技術(shù)的快速發(fā)展,影像檔案逐漸成為記錄個(gè)人記憶、企業(yè)記憶、政府記憶乃至國(guó)家記憶和社會(huì)記憶的重要載體。[1]提升影像檔案的檢索技術(shù)水平,保證其檢索效率,對(duì)促進(jìn)影像檔案的開(kāi)發(fā)利用起著重要作用。目前國(guó)內(nèi)影像檔案的檢索方式主要是通過(guò)輸入關(guān)鍵詞匹配著錄信息,從而得到相對(duì)應(yīng)的影像檔案,這種文字匹配文字的方式實(shí)際上是以單模態(tài)檢索為主,以用戶(hù)主觀的著錄信息為基礎(chǔ)實(shí)現(xiàn)的檢索,有時(shí)無(wú)法滿(mǎn)足用戶(hù)的客觀檢索需求。多模態(tài)檢索則是融合不同模態(tài)進(jìn)行的檢索,可通過(guò)綜合不同模態(tài)間的互補(bǔ)信息達(dá)到提高檢索準(zhǔn)確率的目的。[2]構(gòu)建影像檔案的多模態(tài)檢索模型,對(duì)于從海量影像檔案中快速、準(zhǔn)確地找到有價(jià)值的檔案數(shù)據(jù)具有重要意義。

        一、實(shí)現(xiàn)影像檔案多模態(tài)檢索的現(xiàn)實(shí)意義

        (一)影像檔案多模態(tài)檢索是開(kāi)發(fā)影像檔案的重要途徑

        要充分發(fā)揮影像檔案記錄歷史的功能,需要對(duì)影像檔案進(jìn)行深入開(kāi)發(fā),提高影像檔案的利用率。一方面,將影像檔案的內(nèi)容解構(gòu)成多模態(tài)數(shù)據(jù),形成多模態(tài)數(shù)據(jù)空間,推動(dòng)多模態(tài)影像檔案資源庫(kù)建設(shè);另一方面,在多模態(tài)影像檔案資源庫(kù)的基礎(chǔ)上,探索數(shù)據(jù)化影像檔案的檢索方式,如一站式多模態(tài)檢索方式等,最終實(shí)現(xiàn)影像檔案的高效檢索。

        (二)影像檔案多模態(tài)檢索將提升影像檔案在檔案學(xué)科的影響力

        影像檔案具有視覺(jué)直觀性強(qiáng)和感覺(jué)沖擊性強(qiáng)的特點(diǎn)。檔案工作者常因影像素材收集耗時(shí)長(zhǎng)、制作難度大等問(wèn)題,影響整體檔案工作流程。實(shí)現(xiàn)影像檔案多模態(tài)檢索有利于提高檔案工作者在影像檔案素材收集和制作方面的效率,實(shí)現(xiàn)“易找—易用—多找—多用”的連鎖反應(yīng)。影像檔案與其他類(lèi)型的檔案相比,整體利用率較低,這與影像檔案自身具有的價(jià)值是不相符的。隨著影像檔案利用率的提高,影像檔案在檔案學(xué)科中的影響力會(huì)擴(kuò)大,并進(jìn)一步促進(jìn)檔案學(xué)科與計(jì)算機(jī)、攝影藝術(shù)等學(xué)科的融合。[3]

        (三)影像檔案多模態(tài)檢索能夠延伸影像檔案的文化價(jià)值

        隨著媒體技術(shù)的發(fā)展,影像文化作為文化傳播的重要內(nèi)容正重構(gòu)人們的審美觀念。與其他類(lèi)型的檔案相比,影像檔案更具時(shí)代性,傳遞的信息更具多樣性。[4]實(shí)現(xiàn)多模態(tài)檢索會(huì)提高影像檔案利用率,借助電視、網(wǎng)絡(luò)播放器、短視頻等媒介,形成強(qiáng)大的文化傳播優(yōu)勢(shì)。

        二、現(xiàn)階段影像檔案管理面臨的問(wèn)題

        (一)影像檔案整體管理模式有待提升

        我國(guó)部分檔案管理機(jī)構(gòu)還沒(méi)有形成影像檔案管理的統(tǒng)一規(guī)范,普遍存在以下問(wèn)題:一是影像檔案存儲(chǔ)的格式還未統(tǒng)一。影像檔案部門(mén)都有專(zhuān)用的錄像設(shè)備,設(shè)備不統(tǒng)一會(huì)導(dǎo)致影像清晰度和存儲(chǔ)格式不同,進(jìn)而使得后續(xù)影像檔案的電子化管理變得困難。二是檔案工作者缺乏對(duì)影像檔案的科學(xué)管理意識(shí),難以實(shí)現(xiàn)影像資料的高質(zhì)量歸檔。檔案工作者需要將不同存儲(chǔ)格式的影像檔案轉(zhuǎn)化成相同的存儲(chǔ)格式,并按照統(tǒng)一規(guī)則進(jìn)行有序化管理。三是影像檔案的描述語(yǔ)言存在較大范圍的不一致。這里影像檔案的描述語(yǔ)言是指對(duì)影像檔案的主題、主體、時(shí)長(zhǎng)等進(jìn)行描述的語(yǔ)言。目前各檔案部門(mén)對(duì)影像檔案的描述語(yǔ)言格式要求沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),亟須確定影像檔案的描述語(yǔ)言以提升影像檔案的檢索效率。

        (二)影像檔案著錄、標(biāo)引和檢索技術(shù)水平落后

        學(xué)者張美芳曾提出我國(guó)檔案編目著錄工作結(jié)構(gòu)層次過(guò)于簡(jiǎn)單的共性問(wèn)題。[5]影像檔案形式特殊,主要以聲音和錄像呈現(xiàn),其檢索結(jié)果的精準(zhǔn)與否取決于著錄是否精確。影像檔案著錄、標(biāo)引和檢索技術(shù)水平直接影響著影像檔案的利用效率。我國(guó)影像檔案檢索多為單模態(tài)檢索,檔案編目工作還停留于文字層編目,主要基于描述文本導(dǎo)出檢索結(jié)果。此外,一些檔案工作者不會(huì)對(duì)影像檔案內(nèi)容進(jìn)行機(jī)器識(shí)別和存儲(chǔ),這給后期檔案利用帶來(lái)了許多困難。

        與國(guó)內(nèi)相比,國(guó)外對(duì)于影像檔案的著錄標(biāo)引技術(shù)研究更加深入,主要集中于基于內(nèi)容識(shí)別的影像著錄和多模態(tài)檢索。學(xué)者龐美詩(shī)蒂(R.M.Bommisetty)[6]在2022年4月提出了多模態(tài)檢索技術(shù),即在存儲(chǔ)階段,提取數(shù)據(jù)庫(kù)視頻的關(guān)鍵幀并生成算法ICTSLIC,應(yīng)用ICTSLIC生成的超像素表示數(shù)據(jù)庫(kù)視頻;在查詢(xún)階段,對(duì)查詢(xún)幀進(jìn)行ICTSLIC超像素分割,同樣用超像素表示查詢(xún)幀;最后通過(guò)計(jì)算查詢(xún)與存儲(chǔ)的歐氏距離進(jìn)行匹配,檢索出與查詢(xún)幀相似的視頻,這極大提升了影像檔案的檢索效率。2022年8月18日,國(guó)家檔案局發(fā)布了上一年度全國(guó)檔案主管部門(mén)和檔案館基本情況摘要,我國(guó)錄音磁帶、錄像磁帶、影片檔案達(dá)到109.2萬(wàn)盤(pán)。[7]面對(duì)海量的影像檔案,各級(jí)檔案部門(mén)僅依靠人力進(jìn)行編目不切合實(shí)際,有必要探索基于內(nèi)容的影像識(shí)別和多模態(tài)檢索技術(shù),通過(guò)機(jī)器學(xué)習(xí)提升影像檔案的檢索利用效率。

        三、構(gòu)建影像檔案多模態(tài)檢索模型

        我國(guó)影像檔案現(xiàn)有的檢索方式多采用關(guān)鍵詞式的單模態(tài)檢索,這就需要實(shí)現(xiàn)檢索文本關(guān)鍵詞與被檢索影像檔案內(nèi)容的高度匹配,檢索程度受限。針對(duì)當(dāng)前問(wèn)題,本文提出影像檔案聲音、文本、圖像的多模態(tài)檢索模型,此模型可通過(guò)匹配不同模態(tài)間的數(shù)據(jù)信息達(dá)到更高的檢索效率。主要思路是將影像分解為不同模態(tài)的數(shù)據(jù),進(jìn)而構(gòu)建表示同一語(yǔ)義的不同模態(tài)數(shù)據(jù)所對(duì)應(yīng)的向量模型,之后構(gòu)建不同向量模型之間的對(duì)應(yīng)關(guān)系形成總空間向量,通過(guò)多模態(tài)匹配得到更精準(zhǔn)的影像檔案片段。

        (一)構(gòu)建影像檔案多模態(tài)檢索模型框架

        如圖1所示,圖左側(cè)為影像檔案工作人員著錄流程。工作人員首先需要將影像檔案進(jìn)行著錄并存入系統(tǒng),系統(tǒng)會(huì)通過(guò)自動(dòng)語(yǔ)音識(shí)別技術(shù)(ASR)提取出影像檔案中的聲音數(shù)據(jù)以及被轉(zhuǎn)化的聲音內(nèi)容文本數(shù)據(jù),同時(shí)通過(guò)關(guān)鍵幀提取技術(shù)提取影像檔案關(guān)鍵幀的圖像數(shù)據(jù),并在此基礎(chǔ)上錄入圖像數(shù)據(jù)的專(zhuān)業(yè)描述文本。最終,影像檔案會(huì)形成音頻、文字和圖像三種數(shù)據(jù),并通過(guò)聲音編碼器、文本編碼器和圖片編碼器編碼,分別進(jìn)入線(xiàn)上的音頻、文本和圖像三種模態(tài)的公共子空間。這三類(lèi)子空間共同形成了公共多模態(tài)向量總空間。

        在公共多模態(tài)向量總空間中,我們規(guī)定公共音頻向量子空間內(nèi)編碼向量為An,公共文本向量子空間內(nèi)編碼向量為Bn,公共圖像向量子空間內(nèi)編碼向量為Cn,并在總空間中設(shè)定A1音頻向量綁定B1文本向量和C1圖像向量,A2音頻向量綁定B2文本向量和C2圖像向量,依此類(lèi)推。右側(cè)是影像檔案查詢(xún)者的檢索流程,如圖1所示,影像檔案查詢(xún)者可上傳一段音頻、描述文本、圖片,存儲(chǔ)系統(tǒng)會(huì)通過(guò)解碼器得出相應(yīng)的向量編碼,再將向量編碼與公共多模態(tài)總空間中的各子空間向量編碼進(jìn)行對(duì)比,得到匹配編碼后的查詢(xún)結(jié)果。如果存儲(chǔ)系統(tǒng)在各向量子空間中沒(méi)有找到與之匹配的編碼,則會(huì)自動(dòng)查詢(xún)并匹配相似向量編碼,再輸出查詢(xún)結(jié)果。影像檔案存儲(chǔ)系統(tǒng)運(yùn)行時(shí)需要將各種模態(tài)的數(shù)據(jù)進(jìn)行編碼和解碼,在此過(guò)程中主要運(yùn)用了Video ClipExtractionByDescription(VCED)技術(shù)。

        (二)模擬實(shí)驗(yàn)

        前文所提到的影像檔案多模態(tài)檢索模型實(shí)質(zhì)上是以影像檔案資源庫(kù)為對(duì)象,針對(duì)海量影像進(jìn)行檢索的概念模型。在檢索過(guò)程中,系統(tǒng)需要采用自動(dòng)語(yǔ)音識(shí)別、關(guān)鍵幀提取、VCED文本自動(dòng)提取影像等技術(shù)對(duì)每個(gè)視頻進(jìn)行逐一編碼、解碼,并與查詢(xún)者輸入的查詢(xún)數(shù)據(jù)相匹配,最后將所匹配的各類(lèi)模態(tài)數(shù)據(jù)匯總后一并輸出給查詢(xún)者。本文以系統(tǒng)中單個(gè)視頻的識(shí)別過(guò)程為例,做“文本-影像”雙模態(tài)的模擬實(shí)驗(yàn),以驗(yàn)證實(shí)現(xiàn)影像檔案多模態(tài)檢索的可行性。實(shí)驗(yàn)過(guò)程如下所述。

        1.利用Python搭建JINA開(kāi)源環(huán)境。在開(kāi)源過(guò)程中,我們需要運(yùn)用3.9版本Python,依次安裝包含Python3.9、Pip、Docker、Rust、FFmpeg、Clip.git等6個(gè)軟件包。其中最重要的是Clip.git,這是由OpenAI提出的一種多模態(tài)預(yù)訓(xùn)練算法,連接文本與圖像兩種模態(tài)。

        2.關(guān)鍵幀抽取。這個(gè)過(guò)程將用戶(hù)的輸入內(nèi)容分為兩個(gè)部分:一個(gè)是用戶(hù)輸入的視頻,另一個(gè)是用戶(hù)輸入的文本。輸入視頻需要先通過(guò)FFmpeg運(yùn)行,再通過(guò)Clip進(jìn)行關(guān)鍵幀圖像抽取,形成N個(gè)片段。輸入文本則直接通過(guò)Clip進(jìn)行文本抽取描述,并與視頻模態(tài)內(nèi)容相匹配。

        3.運(yùn)用VCED技術(shù)構(gòu)建影像檔案跨模態(tài)檢索模型。VCED技術(shù)基于MLOPS框架JINA與CLIP模型搭建,通過(guò)前后端分離模式的多模態(tài)檢索,實(shí)現(xiàn)通過(guò)文字描述自動(dòng)識(shí)別視頻中相符合的片段。如VCED影像檢索模擬器的界面所示,在Browse files按鈕部分,我們可以上傳需要檢索的影像數(shù)據(jù),在Description欄目可以輸入描述文本,在Top N欄目可以輸入數(shù)字n,這代表系統(tǒng)需要輸出n段與描述文本相符的影像數(shù)據(jù)。

        4.模擬運(yùn)行。如圖2所示,首先上傳一段任意的視頻,在文本描述欄目輸入“girl with smile”的描述詞,在段落數(shù)欄目中輸入數(shù)字“3”,點(diǎn)擊檢索會(huì)得到相應(yīng)的3段與描述詞相符的影像數(shù)據(jù)結(jié)果。

        上述實(shí)驗(yàn)是以單個(gè)視頻的關(guān)鍵幀抽取為例做的“文本-影像”雙模態(tài)的模擬實(shí)驗(yàn),即通過(guò)輸入文本可得到視頻中某個(gè)相關(guān)的視頻片段。該模擬實(shí)驗(yàn)說(shuō)明本文提出的方法可以運(yùn)用于影像檔案多模態(tài)檢索中,側(cè)面反映了影像檔案多模態(tài)檢索的可行性。

        四、結(jié)語(yǔ)

        信息技術(shù)的高速發(fā)展為影像檔案數(shù)字化發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ),影像檔案的多模態(tài)檢索是一個(gè)新的研究方向。本文針對(duì)當(dāng)前影像檔案檢索中存在的問(wèn)題,將多模態(tài)檢索的理念和技術(shù)引入影像檔案檢索中,一方面通過(guò)研究探索影像檔案多模態(tài)檢索的可行性,另一方面希望借此進(jìn)一步推動(dòng)影像檔案的開(kāi)發(fā)利用。但由于技術(shù)局限,該研究實(shí)驗(yàn)階段只能從單個(gè)視頻中檢索到對(duì)應(yīng)片段,無(wú)法達(dá)到從海量視頻集成的數(shù)據(jù)庫(kù)中檢索到相應(yīng)片段的效果。后續(xù)我們將進(jìn)一步開(kāi)展技術(shù)與影像檔案相結(jié)合的研究,為影像檔案開(kāi)發(fā)利用貢獻(xiàn)綿薄之力。

        *本文為北京市屬高等學(xué)校優(yōu)秀青年人才培育計(jì)劃項(xiàng)目(The Project of Cultivation for Young Top-motch Talents of Bei? jingMunicipalInstitutions)“多源數(shù)據(jù)驅(qū)動(dòng)的北京公共數(shù)字文化智慧服務(wù)研究”(項(xiàng)目編號(hào):BPHR202203216)的研究成果之一。

        注釋及參考文獻(xiàn):

        [1]章燕華,王力平.數(shù)字化轉(zhuǎn)型背景下的檔案信息化發(fā)展戰(zhàn)略:英國(guó)探索、經(jīng)驗(yàn)與啟示[J].檔案學(xué)通訊,2021(4):28-35.

        [2]歐衛(wèi)華,劉彬,周永輝,等.跨模態(tài)檢索研究綜述[J].貴州師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,36(2):114-120.

        [3]楊峰.新媒體語(yǔ)境下影像檔案開(kāi)發(fā)與利用的案例分析與展望[J].檔案管理,2022,257(4):94-95.

        [4]徐園園,李娜.移動(dòng)短視頻時(shí)代城市影像檔案建設(shè)[J].中國(guó)檔案,2022,583(5):70-71.

        [5]張美芳.面向音視頻檔案保存與利用的分類(lèi)編目研究[J].檔案學(xué)通訊,2018(1):93-95.

        [6]BOMMISETTY R M, KHARE A, KHARE M, et al. Content-based video retrieval using integration of curve? let transform and simple linear iterative clustering[J].Interna? tional Journalof Image&Graphics,2022,22(2):1-24.

        [7]中華人民共和國(guó)國(guó)家檔案局.2021年度全國(guó)檔案主管部門(mén)和檔案館基本情況摘要(二)[EB/OL].(2022-08-18)[2023-03-16].https://www.saac.gov.cn/daj/zhdt/202208/ b9e2f459b5b1452d8ae83d7f78f51769.shtml.

        作者單位:北京聯(lián)合大學(xué)應(yīng)用文理學(xué)院

        二区三区亚洲精品国产| 97久久精品午夜一区二区| 亚洲AV无码一区二区三区人| 亚洲最稳定资源在线观看| 亚洲三级香港三级久久| 色88久久久久高潮综合影院| 国产一区二区三区影院| 日韩av一区二区毛片| 亚洲桃色蜜桃av影院| 久久99精品久久久久久噜噜| 性高朝久久久久久久| 亚欧免费视频一区二区三区| 亚洲成在人线天堂网站| 初尝人妻少妇中文字幕| 高潮毛片无遮挡高清免费| 国产成人丝袜在线无码| 一区二区三区日韩精品视频| 国产视频一区二区三区久久亚洲| 人妻风韵犹存av中文字幕| 午夜一区二区视频在线观看| 黄色国产精品福利刺激午夜片| 亚洲综合在线一区二区三区| 日韩精品资源在线观看免费| 久久精品国产亚洲av麻豆会员 | 97久久综合区小说区图片区| 一本一本久久a久久精品综合| 99在线无码精品秘 人口| 人妻少妇偷人精品一区二区| 中文字幕人妻熟女人妻| 夜爽8888视频在线观看| 无码一区二区三区在| 少妇被猛烈进入中文字幕 | 亚洲av无码av在线播放| 亚洲综合网在线观看首页| 精品久久日产国产一区| 狠狠综合久久av一区二区蜜桃| 久久不见久久见免费影院www| 亚洲精品中文字幕观看| 可以直接在线看国产在线片网址| 一本久久a久久精品vr综合| 国产精品入口牛牛影视|