亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種多模態(tài)跨媒體檢索的融媒體影視系統(tǒng)

        2021-10-28 03:36:04李春芳劉永久王楷翔楊睿張凌飛李敏鄧智銘石民勇
        關(guān)鍵詞:人臉識(shí)別

        李春芳,劉永久,王楷翔,楊睿,張凌飛,李敏,鄧智銘,石民勇

        (中國(guó)傳媒大學(xué)計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,北京 100024)

        1 引言

        媒體融合發(fā)展已上升至國(guó)家戰(zhàn)略,影像為王的媒介時(shí)代,有視頻有真相。視頻具有時(shí)序播放的特點(diǎn),知識(shí)密集型視頻,如紀(jì)錄片、正史影視,很多受眾不能在呈現(xiàn)的幾秒內(nèi)理解視頻的全部信息。另一方面,用戶也會(huì)常感到觀看線性視頻的信息過(guò)少、浪費(fèi)時(shí)間。2018 年11 月,教育部、中宣部印發(fā)了《關(guān)于加強(qiáng)中小學(xué)影視教育的指導(dǎo)意見》,體現(xiàn)了政府對(duì)影視教育的重視。如何找到與課程內(nèi)容密切關(guān)聯(lián)的影視作品及視頻片段,是應(yīng)用影視教育中的瓶頸。

        本文著重研究了面向應(yīng)用場(chǎng)景的視頻字幕提取和人臉識(shí)別,對(duì)重要實(shí)體,鏈接外部知識(shí)庫(kù)和電子課本;對(duì)視頻做知識(shí)增強(qiáng),支持視頻非線性檢索,構(gòu)建一種富信息融媒影視新形式,滿足深度知識(shí)獲取,改善用戶收視體驗(yàn)。本文面向教育文化傳播,以近代史電影、中國(guó)詩(shī)詞大會(huì)和科技記錄片三個(gè)場(chǎng)景實(shí)現(xiàn)視頻融媒應(yīng)用,嘗試應(yīng)對(duì)網(wǎng)絡(luò)時(shí)代的文明恐慌,為新型主流媒體智能化發(fā)展賦能。

        2 相關(guān)研究

        2.1 字幕提取

        字幕形式的對(duì)白或解說(shuō)詞,有場(chǎng)景說(shuō)明、畫面補(bǔ)充、深化內(nèi)涵的作用,可用于視頻非線性檢索。字幕提取包括:字幕事件檢測(cè)、字幕區(qū)域定位、字幕分割、基于OCR(Optical Character Recognition)的文本識(shí)別。

        字幕識(shí)別首先將視頻生成盡可能不重復(fù)、不遺漏的字幕圖像序列。從視頻提取字幕幀的方法包括三種:逐幀、等幀間隔、幀差法(或字幕事件檢測(cè))。從單張圖像檢測(cè)文本區(qū)域的方法大致分為四種:基于紋理特征,基于邊緣特征,基于連通域和基于深度學(xué)習(xí)的方法。

        2012 年,曹喜信研究了基于邊緣強(qiáng)度的字幕提?。?]。2017 年,袁聞研究了網(wǎng)絡(luò)視頻字幕關(guān)鍵詞提取與檢索[2]。2018 年,石民勇、艾莫爾夫等研究了抽幀和圖像分割的字幕提?。?],王智慧等提出了先監(jiān)測(cè)字幕幀再鎖定區(qū)域的字幕提取方法[4]。

        從英文文獻(xiàn)看,側(cè)重對(duì)字幕和視頻的融合應(yīng)用。2018 年,呂金娜等用識(shí)別人臉和字幕實(shí)現(xiàn)了一個(gè)StoryRoleNet,自動(dòng)構(gòu)建影視劇的人物關(guān)系[5]。2019 年,Tapu 等基于人臉識(shí)別、視頻分鏡、語(yǔ)音識(shí)別及字幕識(shí)別,把字幕文本標(biāo)注到說(shuō)話人附近,實(shí)現(xiàn)了幫助聾啞人看視頻的Deep-Hear 系統(tǒng)[6]。2020 年,曠視科技Wan Zhaoyi 等提出一種針對(duì)泛場(chǎng)景文字識(shí)別的深度神經(jīng)網(wǎng)絡(luò)方法TextScanner[7]。

        與深度學(xué)習(xí)方法相比,基于邊緣特征定位字幕區(qū)幾乎無(wú)學(xué)習(xí)代價(jià),輕量簡(jiǎn)潔。本文基于等幀間隔和幀差法,利用多幀字幕邊緣特征的統(tǒng)計(jì)特性,提高字幕塊定位精度和效率。

        字幕塊文字識(shí)別由OCR 處理。2020 年百度基于深度學(xué)習(xí)的OCR 識(shí)別率達(dá)99%,并提供云端API。此外中文識(shí)別還包括漢王OCR、文通OCR 和開源OCR引擎Tesseract。本文字幕OCR采用了Tesseract。

        2.2 人臉識(shí)別

        從字幕文本可檢索包含關(guān)鍵詞的視頻時(shí)間點(diǎn),然而存在大量畫面人物和字幕人物不一致情況,如字幕包含“毛澤東”的畫面,大部分是他人的對(duì)白中提到“毛澤東”,為此需基于人臉識(shí)別檢索畫面。

        人臉識(shí)別包括:人臉檢測(cè),人臉對(duì)齊和人臉識(shí)別。人臉識(shí)別包括1:1 比較的人臉驗(yàn)證和1:k 比較的人臉識(shí)別,影視人臉識(shí)別是一個(gè)1:k 問題。2014 年Facebook 的研究者提出了DeepFace,用三維人臉對(duì)齊,交叉熵作為損失函數(shù),在人臉庫(kù)LFW(Labeled Faces in the Wild)上識(shí)別率達(dá)到97.35%[8]。2015 年,Google的研究者提出了FaceNet,構(gòu)建(圖像,正例,反例)三元組,人臉圖像與正例距離近與反例距離遠(yuǎn)作為目標(biāo)函數(shù) 的 訓(xùn) 練 方 法,在LFW 上 識(shí) 別 率 達(dá) 到99.65%[9]。2016 年,Google 提 出了GoogLeNet 的升級(jí)版Inception-ResNet,PyTorch 實(shí)現(xiàn)該算法用于人臉識(shí)別[10]。2016 年,Zhang Kaipeng 等提出構(gòu)建圖像金字塔,將人臉檢測(cè)與人臉關(guān)鍵點(diǎn)對(duì)齊的多任務(wù)MTCNN 模型[11]。此外,還可采用視頻ReID技術(shù)跟蹤識(shí)別人臉[12]。

        隨著算法到API 的快速迭代,專家認(rèn)為,AI 創(chuàng)新重點(diǎn)在于應(yīng)用場(chǎng)景,然而技術(shù)遠(yuǎn)沒被應(yīng)用到主流視頻媒體,大量制作精良的視頻不能被便利地檢索、挖掘和傳播,傳統(tǒng)媒體內(nèi)容王者地位受到嚴(yán)峻挑戰(zhàn)。

        2.3 跨媒體語(yǔ)義檢索

        跨媒體檢索旨在以任意媒體數(shù)據(jù)檢索其他媒體的相關(guān)數(shù)據(jù),實(shí)現(xiàn)圖像、文本等不同媒體的語(yǔ)義互通和交叉檢索。2018年,彭宇新綜述了跨媒體檢索的概念方法和挑戰(zhàn)[13-14],認(rèn)為學(xué)習(xí)圖像和文本間精確的關(guān)聯(lián)關(guān)系,提高跨媒體檢索準(zhǔn)確率。同年,王述和史忠植研究了基于深度典型相關(guān)性分析的跨媒體語(yǔ)義檢索,從多媒體數(shù)據(jù)中抽取概念及標(biāo)簽訓(xùn)練,語(yǔ)義映射實(shí)現(xiàn)跨媒體檢索[15]。2019年,卓昀侃等提出跨媒體循環(huán)神經(jīng)網(wǎng)絡(luò),挖掘包括圖像、視頻、文本、音頻和3D 模型的細(xì)粒度信息,提升了跨媒體檢索的準(zhǔn)確率[16]。

        2018年,許斌團(tuán)隊(duì)自動(dòng)抽取加眾包構(gòu)建了小初高全學(xué)科基礎(chǔ)教育知識(shí)圖譜edukg.cn,用于智慧教育[17]。與跨媒體理論研究相比,本文工程上實(shí)現(xiàn)了一個(gè)跨媒體檢索系統(tǒng);與教育知識(shí)圖譜圖文表達(dá)相比,本文是以視頻為核心的融媒系統(tǒng)。

        以下分別論述視頻字幕提取、視頻的人臉識(shí)別、電子書識(shí)別,以及集成實(shí)現(xiàn)的融媒影視系統(tǒng)。

        3 基于統(tǒng)計(jì)特征的視頻字幕提取

        本節(jié)利用字幕區(qū)的邊緣統(tǒng)計(jì)特征,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)高識(shí)別率的字幕提取算法,分析了實(shí)驗(yàn)結(jié)果。

        3.1 多幀邊緣統(tǒng)計(jì)特征用于確定字幕上下邊界

        圖1(a)是字幕區(qū)域Y方向的邊緣特征構(gòu)造的二值矩陣的行和,可以明顯的分辨出字幕的上下邊界。在字幕幀字?jǐn)?shù)少,且遇到特殊文字,單獨(dú)取一幀定位不準(zhǔn)確。為此,采用多幀字幕統(tǒng)計(jì)特征,即取眾數(shù)(眾數(shù),指在統(tǒng)計(jì)分布上具有明顯集中趨勢(shì)點(diǎn)的數(shù)值,也是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值),見圖1(b),多幀字幕眾數(shù)的上下邊界作為整個(gè)視頻字幕上下邊界,剔除了字形差異的干擾。

        圖1 基于多幀字幕邊緣特征定位字幕上下邊界

        基于以上分析,初始化先確定字幕上下邊界。隨機(jī)選擇視頻中的N 幀(N=50),取幀圖像的下1/5 和左1/2 區(qū)域,對(duì)該區(qū)域做灰度化、中值濾波、用Sobel 算子提取Y 方向的邊緣特征,進(jìn)一步二值化(閾值可調(diào),默認(rèn)150),構(gòu)建一個(gè)邊緣特征存在與否的one-hot 二值矩陣,計(jì)算行和,從行和最大值逐像素向兩端滑動(dòng)檢測(cè)當(dāng)前幀的上下邊界。對(duì)N 幀樣本的邊界統(tǒng)計(jì),用眾數(shù)作為字幕上下邊界。

        3.2 基于多幀統(tǒng)計(jì)特征確定字幕對(duì)齊方式

        影視字幕對(duì)齊方式分兩種,左對(duì)齊和居中對(duì)齊,即非左即中。隨機(jī)抽取多幀字幕,灰度化、二值化,用二值化one-hot 矩陣的列和確定字幕左邊界,從列和最大的像素點(diǎn)開始向左按字寬滑動(dòng),左側(cè)邊界比較集中判斷為左對(duì)齊,非常分散判斷為居中對(duì)齊。字幕邊緣特征如圖2 所示,從最大的列和開始向左滑動(dòng)獲得左邊界。

        圖2 基于二值化矩陣列和確定字幕對(duì)齊方式

        3.3 基于統(tǒng)計(jì)特征的視頻字幕定位算法

        算法1,輸入為影視視頻文件,輸出字幕文件。

        算法1 基于統(tǒng)計(jì)特征的視頻字幕提取算法輸入:帶有字幕的視頻文件(如*.mp4)輸出:字幕文件.srt①初始化:統(tǒng)計(jì)多幀經(jīng)Sobel 算子生成邊緣one-hot 矩陣確定視頻字幕上下邊界。②初始化:根據(jù)多幀字幕統(tǒng)計(jì)特征確定左邊界,確定對(duì)齊方式。③每隔0.5 秒讀取視頻的一幀,根據(jù)上下邊界和對(duì)齊方式,確定左右邊界,確定是否為字幕幀。非字幕幀則丟棄,繼續(xù)循環(huán)③。④計(jì)算當(dāng)前字幕圖像灰度化、二值化矩陣,one-hot 矩陣的中間行與上一幀字幕圖像中間行的余弦距離,如果兩幀的余弦距離>0.7 認(rèn)為是重復(fù)字幕,認(rèn)為是相同字幕幀則丟棄,跳轉(zhuǎn)③。⑤根據(jù)上下和左右邊界分割圖像取出當(dāng)前幀的字幕區(qū)域,經(jīng)灰度化、色階調(diào)整、二值化、黑白翻轉(zhuǎn)、得到白背景黑字的字幕圖像。⑥對(duì)判定為非重復(fù)的字幕幀,經(jīng)OCR識(shí)別輸出文本。⑦字幕區(qū)域圖像生成的文本行經(jīng)正則表達(dá)式過(guò)濾非中文和數(shù)字字符亂碼,經(jīng)萊溫斯坦(Levenshtein)字符編輯距離再次去重。⑧計(jì)算字幕幀的毫秒時(shí)間,按字幕格式寫入字幕文件.srt。⑨判斷是否超過(guò)視頻長(zhǎng)度,是則結(jié)束,否則轉(zhuǎn)③繼續(xù)提取下一個(gè)可能的字幕幀文本。

        字幕定位算法的流程如圖3所示,說(shuō)明如下:

        圖3 字幕識(shí)別算法流程圖

        (1) 步驟③參數(shù)0.5 秒的選擇由實(shí)驗(yàn)統(tǒng)計(jì)確定。根據(jù)統(tǒng)計(jì)規(guī)律,字幕行停留時(shí)間一般在0.5-7 秒,識(shí)別原則是不丟字幕幀并盡可能減少重復(fù)字幕幀。

        (2) 步驟③會(huì)有極少量的無(wú)字幕幀被判為有字幕,原因是背景紋理過(guò)于復(fù)雜造成的干擾,這樣無(wú)字幕幀經(jīng)OCR識(shí)別為亂碼,通過(guò)正則表達(dá)式濾除。

        (3) 步驟④重復(fù)字幕幀的判定。擁有相同字幕的圖像幀,必然有極為相似的邊緣特征,對(duì)比兩幀字幕區(qū)域Y 軸方向邊緣one-hot 矩陣中間行向量的余弦相似度,判斷字幕是否重復(fù),本文設(shè)定余弦相似度>0.7,為相同字幕幀,重復(fù)字幕檢測(cè)波形參見圖4。此處仍可能產(chǎn)生少量的重復(fù)字幕,后續(xù)再次去重。

        (4) 本算法沒有單獨(dú)處理字幕事件檢測(cè),目的是通過(guò)抽幀提高識(shí)別效率。通過(guò)余弦相似度判斷抽幀時(shí)刻字幕是否改變,圖4的波形圖和字幕序列為《舌尖上的中國(guó)》的600 幀,每12 幀取一幀,取50 幀作為樣本,共有11個(gè)波峰,即11個(gè)對(duì)比的抽幀中one-hot矩陣中間行的余弦相似度>0.7,每個(gè)波峰表示一組相同字幕,代表了一條不同字幕,共12條字幕,波形跳變與字幕一致,即為幀差去重復(fù)。

        圖4 重復(fù)字幕檢測(cè)的波形圖示例

        (5)步驟⑤當(dāng)判定字幕區(qū)域包含字幕且和上一幀不同,對(duì)字幕區(qū)域灰度化處理。色階是用直方圖描述整張圖像的明暗信息。色階調(diào)整使字幕圖像與背景色調(diào)分離,提高字幕辨識(shí)度,如公式(1)所示,含三個(gè)參數(shù):像素灰度值Input,高光值Highlight 和陰影值Shadow,該像素輸出值Output。

        實(shí)驗(yàn)表明色階調(diào)整對(duì)OCR 識(shí)別率影響較大。圖5 是視頻一幀灰度圖調(diào)整色階前后對(duì)比,并把字幕區(qū)域突出顯示。可以看出,色階調(diào)整后,圖像的對(duì)比度下降,但是字幕辨識(shí)度改善。以《互聯(lián)網(wǎng)時(shí)代》為例,色階調(diào)整字幕圖像可以使得OCR 識(shí)別率由70%提升到95%以上。

        圖5 色階調(diào)整對(duì)圖像和文字清晰度的影響

        (6) 步驟⑤對(duì)字幕圖像二值化,本文設(shè)定灰度>150 映射為255,否則為0,再反色處理。處理過(guò)程參見圖6,可以看出有效剔除了背景干擾。

        (7)步驟⑦依據(jù)正則表達(dá)式剔除亂碼。使用OCR識(shí)別文字,仍有部分重復(fù)字幕或無(wú)字幕的亂碼。為提高識(shí)別精度,本文針對(duì)單一語(yǔ)言字幕識(shí)別,OCR 識(shí)別中文時(shí)將標(biāo)點(diǎn)、符號(hào)、英文字符等視為噪聲。

        中文編碼范圍是[u4e00-u9fa5],且字幕大都不包括標(biāo)點(diǎn),但有數(shù)字。本文根據(jù)Unicode的中文編碼表,re.compile(r'[^u4e00-u9fa5+0-9]+')匹配,結(jié)果只保留中文字符和數(shù)字。對(duì)于英文字幕使用re.compile(r'^w+$'),去除中文和亂碼。

        (8)Levenshtein 距離指字符串轉(zhuǎn)成另一字符串所需的最少編輯次數(shù),包括:替換、插入和刪除。如:將“中央電視臺(tái)”轉(zhuǎn)化為“中央廣播電視總臺(tái)”,編輯距離為3。步驟⑦依據(jù)Levenshtein 編輯距離和字符串相似度過(guò)濾OCR后的少量重復(fù)字幕。

        3.4 字幕提取實(shí)驗(yàn)

        (1)實(shí)驗(yàn)環(huán)境

        2.面板AR根檢驗(yàn)。本文對(duì)京津冀城市群土地綜合承載力與區(qū)域經(jīng)濟(jì)發(fā)展系統(tǒng)的PVAR模型進(jìn)行面板AR根檢驗(yàn)(見圖1),系統(tǒng)PVAR模型共有6個(gè)根,且所有根模的倒數(shù)都位于單位圓內(nèi),表明系統(tǒng)PVAR模型滿足穩(wěn)定性條件。[17]因此,對(duì)系統(tǒng)PVAR模型進(jìn)行面板Granger因果檢驗(yàn)、面板脈沖響應(yīng)函數(shù)和面板方差分解技術(shù)分析是科學(xué)的。

        實(shí)驗(yàn)采用Python3.7 和OpenCV,主要函數(shù)包括VideoCapture、cvtColor、medianBlur、Sobel、threshold,分別用于讀取視頻、灰度化、中值濾波、提取特征邊緣和二值化操作。所用OCR 為Tesseract-OCR4.0.0。

        (2)字幕塊識(shí)別率

        本文用5 部中文和2 部英文視頻作為實(shí)驗(yàn)數(shù)據(jù)。對(duì)識(shí)別字幕塊定義:查全率=正確識(shí)別字幕條數(shù)/字幕總條數(shù),查準(zhǔn)率=正確識(shí)別字幕條數(shù)/識(shí)別字幕條數(shù)。實(shí)驗(yàn)如表1 所示,《建軍大業(yè)》總字幕1750 條,查全率99.83%,漏識(shí)別3 條,查準(zhǔn)率98.20%?!禩he Lion King》的查全率為99.72%,查準(zhǔn)率為99.81%。

        表1 字幕條數(shù)提取實(shí)驗(yàn)結(jié)果

        (3)字幕文字識(shí)別率

        開源OCR 引擎Tesseract 的中文識(shí)別率約為97%。本文文字識(shí)別率實(shí)驗(yàn)如表2 所示,《中國(guó)通史》貞觀之治的文字查全率95.81%,查準(zhǔn)率95.43%,《舌尖上的中國(guó)》單集文字查全率95.92%,查準(zhǔn)率94.33%,《互聯(lián)網(wǎng)時(shí)代》文字查全率96.04%,查準(zhǔn)率94.20%?!督ㄜ姶髽I(yè)》共11767 字,查全率98.6%,查準(zhǔn)率97.73%。

        表2 字幕文字識(shí)別率實(shí)驗(yàn)結(jié)果

        本文實(shí)驗(yàn)數(shù)據(jù)規(guī)模遠(yuǎn)高于已有文獻(xiàn),表3 中與文獻(xiàn)[1]和[4]相比,本文中英文字幕塊查全率最高,達(dá)到99.65%以上,中文平均查準(zhǔn)率達(dá)到97.6%,英文查準(zhǔn)率達(dá)到99.8%。

        表3 字幕塊提取與已有文獻(xiàn)的對(duì)比

        4 影視視頻人臉識(shí)別

        為實(shí)現(xiàn)影視人臉識(shí)別,以《建軍大業(yè)》為例,在豆瓣爬取主要角色照片,以“編號(hào)-演員名-角色名”格式存儲(chǔ),用于人臉識(shí)別。主要角色及演員共57 名,部分?jǐn)?shù)據(jù)如表4所示。

        表4《建軍大業(yè)》人臉識(shí)別的演員與角色

        圖7 統(tǒng)計(jì)角色出場(chǎng)時(shí)間流程圖

        輸入原視頻,每隔0.2 秒抽一幀,若當(dāng)前幀檢測(cè)到人臉,則用演員照片識(shí)別對(duì)應(yīng)角色,記錄幀時(shí)刻,沒有檢測(cè)到人臉繼續(xù)抽幀,結(jié)果以.srt字幕存儲(chǔ)。

        PyTorch 以高度易用被工程中廣泛采用,本文采用其實(shí)現(xiàn)的人臉檢測(cè)和對(duì)齊一體的MTCNN[11]算法和Inception-ResNet[10]算法實(shí)現(xiàn)人臉識(shí)別,掛載的預(yù)訓(xùn)練參數(shù)為VGGFace2。

        視頻檢索在秒級(jí)精度即可,本文忽略毫秒把人臉識(shí)別的起始時(shí)間和字幕起始時(shí)間對(duì)應(yīng),寫入字幕subtitle 數(shù)據(jù)表,實(shí)現(xiàn)基于字幕和人臉并行的視頻非線性檢索。表5中第一行指在該字幕處,畫面出現(xiàn)人物“毛澤東”和“周恩來(lái)”。對(duì)《建軍大業(yè)》識(shí)別角色人臉,對(duì)應(yīng)到字幕時(shí)間,共540條字幕附近有角色出現(xiàn),檢索正確率為98%。

        5 電子書PDF的數(shù)據(jù)化

        為實(shí)現(xiàn)電子書與影視視頻的跨媒體關(guān)聯(lián)檢索,需要對(duì)圖像格式的電子書數(shù)據(jù)化。處理流程見圖8,基于Python Wand 庫(kù)和C++的ImageMagick 對(duì)PDF 電子書逐頁(yè)轉(zhuǎn)為圖片,圖片經(jīng)過(guò)灰度化、邊緣提取、二值化、兩次膨脹和腐蝕,聚合成一個(gè)文字框或者圖片區(qū)域,獲取輪廓后生成切塊,并濾掉噪聲小塊,切割文字或圖片區(qū)域,記錄塊的坐標(biāo),對(duì)切割后的文字區(qū)域,經(jīng)Baidu-Aip的OCR識(shí)別為文字。

        表5《建軍大業(yè)》字幕和人物出場(chǎng)時(shí)間表

        圖8 圖像格式電子書PDF的數(shù)據(jù)化

        表6 為3 本電子書數(shù)據(jù)化的實(shí)驗(yàn)結(jié)果,以初中歷史八年級(jí)上冊(cè)為例,132 頁(yè),采用72×72 分辨率,拆為圖片用時(shí)32 秒,用時(shí)5.9 秒劃分為660 個(gè)圖文塊,對(duì)其中文字塊OCR 識(shí)別共用時(shí)729.2 秒,手工隨機(jī)抽取5頁(yè)檢測(cè),識(shí)別率約98.87%?!度斯ぶ悄芎?jiǎn)史》OCR 識(shí)別率為99.18%。

        表6 電子書數(shù)據(jù)化實(shí)驗(yàn)結(jié)果

        6 多模態(tài)跨媒體檢索的融媒體影視架構(gòu)

        6.1 系統(tǒng)架構(gòu)

        本節(jié)設(shè)計(jì)實(shí)現(xiàn)了基于字幕提取、人臉識(shí)別、電子書數(shù)據(jù)化、詞頻統(tǒng)計(jì)的支持視頻內(nèi)容理解、非線性檢索和知識(shí)增強(qiáng)的融媒影視系統(tǒng)。架構(gòu)見圖9,演示地址www.yingshinet.com。

        圖9 多模態(tài)跨媒體檢索的融媒體影視系統(tǒng)架構(gòu)

        系統(tǒng)以3 個(gè)應(yīng)用為例構(gòu)建了融合知識(shí)庫(kù)的數(shù)據(jù)庫(kù),實(shí)現(xiàn)跨媒體檢索,以下分別論述實(shí)現(xiàn)過(guò)程。

        6.2 近代史融媒體影視的跨媒體語(yǔ)義檢索

        圖10(a)是《建軍大業(yè)》視頻,左下是主要?dú)v史人物的字幕加人臉數(shù),右上是人物信息,抽取自思知(Ownthink)知識(shí)圖譜,存入本地?cái)?shù)據(jù)庫(kù)。

        圖10 支持非線性檢索的融媒影視系統(tǒng)

        圖10(a)視頻下方是課本圖片和數(shù)據(jù)化的文字,對(duì)人物實(shí)體添加鏈接,點(diǎn)擊實(shí)現(xiàn)跨媒體檢索。右下是字幕檢索區(qū),顯示了字幕第一幀、時(shí)間和文字。

        為提高跨媒體檢索的準(zhǔn)確率,根據(jù)對(duì)白特點(diǎn)對(duì)人物實(shí)體添加了檢索別名。人物實(shí)體名詞、別名和人臉識(shí)別三者的語(yǔ)義一致,采用“或”關(guān)系查詢提高了檢索準(zhǔn)確率。在《建軍大業(yè)》中“毛澤東”的別名為“潤(rùn)之”,檢索字幕查詢到12 條,檢索別名返回4 條,檢索人臉返回139 條,總計(jì)155 條,總數(shù)與獻(xiàn)禮電影主題一致,角色戲份代表領(lǐng)袖人物的歷史地位。在數(shù)據(jù)化的電子課本中對(duì)重要實(shí)體添加超鏈接,實(shí)現(xiàn)從電子書文字檢索視頻e-book2video,解決了中小學(xué)影視教育中與教材關(guān)聯(lián)的視頻片段查找難題。

        使用人物詞云和字幕詞云導(dǎo)航檢索,實(shí)現(xiàn)點(diǎn)擊鼠標(biāo)代替鍵盤輸入,并提供了對(duì)視頻的概覽理解。對(duì)單片視頻字幕文本分詞、統(tǒng)計(jì)詞頻,生成字幕詞云導(dǎo)航檢索,參見圖10,點(diǎn)擊詞條返回跨媒體協(xié)同檢索結(jié)果。

        6.3 綜藝融媒視頻《中國(guó)詩(shī)詞大會(huì)》

        《中國(guó)詩(shī)詞大會(huì)》在詩(shī)詞選擇上力求達(dá)到“熟悉的陌生題”,強(qiáng)化普及性,增強(qiáng)參與感和代入感,然而有詩(shī)詞專家認(rèn)為摘句尋章有明顯不足,影響整首詩(shī)詞的文化意蘊(yùn)和藝術(shù)奧妙表達(dá)。

        本節(jié)以《中國(guó)詩(shī)詞大會(huì)》1-5 季共50 集視頻為例,通過(guò)字幕提?。⊿ubtitle 表),融合全唐宋詩(shī)詞庫(kù)(Poem表,33.2 萬(wàn))、中小學(xué)語(yǔ)文課本(Ebook 表,22 本)、哈佛大學(xué)的中國(guó)歷代人物傳記資料庫(kù)(抽取了詩(shī)人子集構(gòu)建CDBDPoet 表,1.24 萬(wàn)詩(shī)人),通過(guò)字幕實(shí)現(xiàn)視頻與知識(shí)庫(kù)的跨庫(kù)協(xié)同,構(gòu)建了一種富信息融媒綜藝視頻,參見圖10(b),視頻播放時(shí)下面顯示與字幕詩(shī)句同步的整首詩(shī)詞和詩(shī)人作品,以知識(shí)補(bǔ)全解決視頻節(jié)目中摘句尋章的不足,提供跨媒體關(guān)聯(lián)理解。

        6.4 互聯(lián)網(wǎng)科技融媒紀(jì)錄片

        紀(jì)錄片是典型知識(shí)密集型視頻。以《互聯(lián)網(wǎng)時(shí)代》為例,匯聚全球14 個(gè)國(guó)家互聯(lián)網(wǎng)領(lǐng)域200 多位重要人物觀點(diǎn),形成宏觀視角、全景式描繪,極具重復(fù)學(xué)習(xí)和反復(fù)使用價(jià)值,然而線性檢索限制了傳播,查找文字和人物都非常困難。

        本節(jié)對(duì)紀(jì)錄片提取字幕和對(duì)重要人物做人臉識(shí)別,實(shí)現(xiàn)視頻的非線性檢索。從維基百科抽取了計(jì)算機(jī)科學(xué)家實(shí)體做知識(shí)增強(qiáng),寫入Entity表,用電子書全文對(duì)視頻提供跨媒體的佐證和補(bǔ)充。

        6.5 基于眾包的數(shù)據(jù)校正

        盡管字幕文字查全率超過(guò)95%,電子書識(shí)別率超過(guò)98.5%,但是錯(cuò)誤率需要低于出版標(biāo)準(zhǔn)的0.01%。本節(jié)采用基于眾包的人工校對(duì)和審核,采用多數(shù)人投票原則,即2人以上修改相同自動(dòng)審核通過(guò),不足2人的修改等待管理員人工審核。

        6.6 知識(shí)庫(kù)管理

        對(duì)人物實(shí)體的增刪改查,設(shè)計(jì)了數(shù)據(jù)管理模塊。依據(jù)數(shù)據(jù)來(lái)源的權(quán)威性,按照課本、教師用書、思知知識(shí)圖譜和CDBD 的順序修改,并盡可能提供數(shù)據(jù)來(lái)源說(shuō)明。對(duì)于詩(shī)人、詩(shī)詞設(shè)計(jì)了增刪改查管理,擴(kuò)充唐朝以前的詩(shī)詞、明清詩(shī)詞和毛澤東詩(shī)詞等。

        7 小結(jié)

        本文融合字幕識(shí)別、人臉識(shí)別、電子書識(shí)別,實(shí)現(xiàn)對(duì)影視視頻的內(nèi)容理解、非線性檢索和知識(shí)增強(qiáng),構(gòu)建了一個(gè)跨媒體協(xié)同的視頻融媒播放系統(tǒng)。主要工作包括:(1) 提出了一種基于多統(tǒng)計(jì)特征的字幕提取方法;(2) 設(shè)計(jì)了以字幕格式為基準(zhǔn)的人物和字幕協(xié)同的非線性影視檢索方法,解決視頻內(nèi)容檢索難題,通過(guò)視頻溯源課本,通過(guò)課本概念定位視頻起點(diǎn);(3)實(shí)現(xiàn)了知識(shí)庫(kù)和電子書協(xié)同檢索和知識(shí)增強(qiáng)的融媒影視播放系統(tǒng),解決視頻信息補(bǔ)全問題,實(shí)現(xiàn)視頻與多源知識(shí)庫(kù)的跨媒體檢索。本文的研究可用于影視作品制播后的深度開發(fā)和傳播,并提供了一種教育教學(xué)中應(yīng)用影視視頻的便利形式,也可為主流媒體的融媒體全媒體傳播賦能。

        跨庫(kù)檢索的難題是語(yǔ)義對(duì)齊,本文基于隱形的跨媒體公共子空間實(shí)現(xiàn)了協(xié)同檢索,后續(xù)將構(gòu)建顯性的多種媒體資源公共子空間以實(shí)現(xiàn)跨媒體關(guān)聯(lián)檢索。

        猜你喜歡
        人臉識(shí)別
        人臉識(shí)別 等
        揭開人臉識(shí)別的神秘面紗
        人臉識(shí)別技術(shù)的基本原理與應(yīng)用
        電子制作(2019年14期)2019-08-20 05:43:34
        人臉識(shí)別技術(shù)在高速公路打逃中的應(yīng)用探討
        基于(2D)2PCA-LBP 的人臉識(shí)別方法的研究
        電子制作(2017年17期)2017-12-18 06:40:55
        淺談人臉識(shí)別技術(shù)
        人臉識(shí)別在高校安全防范中的應(yīng)用
        電子制作(2017年1期)2017-05-17 03:54:46
        巡演完美收官 英飛拓引領(lǐng)人臉識(shí)別新潮流
        人臉識(shí)別在Android平臺(tái)下的研究與實(shí)現(xiàn)
        基于Metaface字典學(xué)習(xí)與核稀疏表示的人臉識(shí)別方法
        国产少妇露脸精品自拍网站| 婷婷五月综合丁香在线| 欧美婷婷六月丁香综合色| 日本少妇按摩高潮玩弄| 亚洲中文字幕在线第二页| 久久久久久av无码免费看大片| 亚洲无线码一区在线观看 | 日本不卡视频一区二区三区| 欧美国产激情二区三区| 欧美老熟妇欲乱高清视频| 国产目拍亚洲精品一区二区| 水蜜桃在线观看一区二区国产| 又黄又爽又色视频| 国产全肉乱妇杂乱视频| 日韩精品一区二区三区毛片| 亚洲成在人线天堂网站| 亚洲av日韩av永久无码下载| 亚洲 欧美 影音先锋| 久久久99精品视频| 亚洲精品女同一区二区三区| …日韩人妻无码精品一专区| 无码中文字幕加勒比一本二本| 一区二区三区中文字幕有码| 国产女主播大秀在线观看| 亚洲成av人片不卡无码| av天堂久久天堂av色综合| 成人免费无码视频在线网站| 中文字幕在线乱码亚洲| 久久精品无码av| 久久国产亚洲精品超碰热| 国产成人精品视频网站| 亚洲激情综合中文字幕| 人人爽久久涩噜噜噜丁香| 国产精品嫩草影院午夜| 午夜宅男成人影院香蕉狠狠爱| 欧美xxxx做受欧美88| 国产亚洲视频在线观看网址| 亚洲一区二区高清在线| 国产青青草在线观看视频| 东北寡妇特级毛片免费| AⅤ无码精品视频|