楊睿 王昊宇 劉歡嫻 張琳 楊宇萌
摘要:隨著自媒體短視頻行業(yè)的興起,視頻配樂所涉及的問題也越來越突出,尤其舞蹈類短視頻中背景音樂與舞蹈動(dòng)作千篇一律的情況常常出現(xiàn)。為解決這一問題,本文基于動(dòng)作語義提取方法,實(shí)現(xiàn)對(duì)視頻中人物關(guān)節(jié)點(diǎn)的跟蹤和動(dòng)作語義的提取,并利用搜索引擎得到背景音樂,為自媒體短視頻背景音樂與舞蹈動(dòng)作的多樣性做出了貢獻(xiàn)。
關(guān)鍵詞:人工智能;動(dòng)作識(shí)別;語義研究;自動(dòng)配樂
1、 緒論
通過人物的表情、動(dòng)作、語言等識(shí)別人物的情緒狀態(tài)是機(jī)器視覺中的熱門領(lǐng)域,早在20世紀(jì)90年代美國麻省理工學(xué)院就有相應(yīng)研究。
目前對(duì)于表情、語音識(shí)別技術(shù)的研究相對(duì)成熟,而動(dòng)作識(shí)別還只是新興的研究方向。動(dòng)作識(shí)別已被嘗試應(yīng)用在眾多現(xiàn)實(shí)場(chǎng)景中,如機(jī)器人視覺、人機(jī)交互、智能監(jiān)控及體感游戲等,在人們生產(chǎn)生活中發(fā)揮了巨大的促進(jìn)作用。
舞蹈類短視頻配樂領(lǐng)域主要有三個(gè)亟待解決的問題:如何從視頻中識(shí)別人體運(yùn)動(dòng),如何通過運(yùn)動(dòng)特征識(shí)別人類動(dòng)作語義,以及如何將動(dòng)作語義轉(zhuǎn)化為高層語義并用搜索引擎找到音樂。
2、 問題分析及系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
2.1問題分析
在基于動(dòng)作語義識(shí)別的背景音樂匹配系統(tǒng)研究中,主要工作是從運(yùn)動(dòng)視頻中提取動(dòng)作特征、構(gòu)建動(dòng)作語義集合并建立動(dòng)作與動(dòng)作語義之間的映射關(guān)系模型,實(shí)現(xiàn)從運(yùn)動(dòng)視頻中識(shí)別人的動(dòng)作信息。
首先,從靜態(tài)姿態(tài)特征和動(dòng)態(tài)運(yùn)動(dòng)特征兩方面提取特征數(shù)據(jù);然后,根據(jù)當(dāng)前人類情緒識(shí)別領(lǐng)域和行為心理學(xué)領(lǐng)域研究成果,本文構(gòu)建了包含“開心”、“憤怒”、“悲傷”、“恐懼”和“中立”這五種動(dòng)作語義的語義集合。并通過引入“不確定”的識(shí)別結(jié)果,為后續(xù)進(jìn)行語義識(shí)別提供便利。
當(dāng)完成舞蹈視頻的語義分析后,將獲得的動(dòng)作語義進(jìn)行簡(jiǎn)單變換并通過搜索引擎找到與該視頻匹配的音樂,從而完成配樂功能。
2.2系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
智慧配樂師功能包含舞蹈語義識(shí)別和背景音樂匹配兩部分,具體設(shè)計(jì)如圖1所示。
下面詳細(xì)介紹各功能的原理及具體情況。
(1)舞蹈語義識(shí)別功能
①提取人體二維輪廓
幀間差分法作為最常用的運(yùn)動(dòng)目標(biāo)檢測(cè)方法之一,其基本原理就是采用基于像素的時(shí)間差分在圖像序列相鄰的兩幀或三幀之間,通過閉值化提取出場(chǎng)景中的運(yùn)動(dòng)區(qū)域。
我們將相鄰幀相減得到差分圖像,在保證環(huán)境亮度變化不大的條件下,選定一個(gè)閾值,根據(jù)像素值變化與閾值的大小關(guān)系對(duì)差分圖像二值化。利用幀間差分法更新速度快、算法簡(jiǎn)單、計(jì)算量小等優(yōu)點(diǎn),得到人體二維輪廓。
②定位人體關(guān)節(jié)點(diǎn)
人體被看成是由骨骼及關(guān)節(jié)點(diǎn)構(gòu)成的剛性系統(tǒng),骨骼的位置由關(guān)節(jié)點(diǎn)決定,因此人體運(yùn)動(dòng)可以用關(guān)節(jié)點(diǎn)表征。
在以往的研究中,手動(dòng)標(biāo)定視頻第一幀的方法雖然簡(jiǎn)單易行,但在面對(duì)大量未知數(shù)據(jù)時(shí)并不可行。為避免人工定標(biāo)浪費(fèi)時(shí)間,我們根據(jù)醫(yī)學(xué)人體比例約束,實(shí)現(xiàn)自動(dòng)定位關(guān)節(jié)點(diǎn)的效果。
③光流法關(guān)節(jié)點(diǎn)跟蹤
光流法常用來跟蹤點(diǎn)的運(yùn)動(dòng),光流的變化能夠反映圖像灰度在時(shí)間上的變化與景象中物體結(jié)構(gòu)及其運(yùn)動(dòng)的關(guān)系,其中LK光流算法在跟蹤人體各關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)方面表現(xiàn)更好。
光流法通過特征匹配求關(guān)節(jié)點(diǎn)處的流速,利用計(jì)算量小、快速靈活的特點(diǎn),能夠快速檢測(cè)到運(yùn)動(dòng)對(duì)象。
④動(dòng)作特征的提取
在提取人體動(dòng)作過程中,我們將人體動(dòng)作特征分為兩類:靜態(tài)姿態(tài)特征,包含重心傾斜狀態(tài)、頭部彎曲度、頭部彎曲度、肘部彎曲度及胸腔彎曲度;動(dòng)態(tài)運(yùn)動(dòng)特征,包含重心移動(dòng)速度與關(guān)節(jié)點(diǎn)相對(duì)速度。
動(dòng)作速率一定程度上反應(yīng)人的情緒信息,由于肩部節(jié)點(diǎn)、肘部節(jié)點(diǎn)和手部節(jié)點(diǎn)相對(duì)于重心變化較為獨(dú)立,反映信息較為明顯,可作為關(guān)節(jié)點(diǎn)速率的主要計(jì)算依據(jù),用關(guān)節(jié)點(diǎn)相對(duì)運(yùn)動(dòng)速率與重心絕對(duì)運(yùn)動(dòng)速率的比值作為動(dòng)態(tài)運(yùn)動(dòng)特征參數(shù)。
⑤動(dòng)作語義識(shí)別
在獲取特征數(shù)據(jù)后,分別計(jì)算出對(duì)應(yīng)的語義,再根據(jù)映射關(guān)系得到最終的語義識(shí)別結(jié)果。使用雷達(dá)圖展現(xiàn)各語義所占概率,通過選取單幀雷達(dá)圖中概率超過 27%的前兩種語義作為代表語義,用概率值作為對(duì)應(yīng)權(quán)重,統(tǒng)計(jì)有效幀在各語義中的加權(quán)平均值,最終得到輸入視頻的語義雷達(dá)圖。
(2)背景音樂匹配功能
在多媒體的檢索中,最自然直接的辦法就是用人類的語義概念進(jìn)行檢索,通過語義方式的搜索達(dá)到比視覺底層特征更直接和更有效的效果。經(jīng)過動(dòng)作特征提取、構(gòu)建動(dòng)作語義集合、建立動(dòng)作與動(dòng)作語義之間的映射關(guān)系模型最終分析得到人們?nèi)粘K季S中的高層語義概念——?jiǎng)幼髡Z義。通過舞蹈語義識(shí)別部分得到結(jié)構(gòu)化標(biāo)簽,利用搜索引擎實(shí)現(xiàn)背景音樂的搜索查找,最終完成配樂功能。
圖2是基于動(dòng)作語義識(shí)別的背景音樂匹配過程圖。
3、 系統(tǒng)創(chuàng)新點(diǎn)
“智慧配樂師”以舞蹈動(dòng)作意義為切入點(diǎn),利用人工智能技術(shù)尋找最佳配樂,體現(xiàn)了如下創(chuàng)新點(diǎn):
(1)利用人工智能技術(shù)挖掘舞蹈運(yùn)動(dòng)特征數(shù)據(jù)。通過幀間差分法實(shí)現(xiàn)人體初步識(shí)別,再根據(jù)醫(yī)學(xué)領(lǐng)域人體結(jié)構(gòu)比例約束標(biāo)定必要關(guān)節(jié)點(diǎn),并使用光流法挖掘出特征數(shù)據(jù)。
(2)構(gòu)建特征映射模型獲取舞蹈動(dòng)作語義。通過對(duì)視頻數(shù)據(jù)的分析,構(gòu)建出特征數(shù)據(jù)與動(dòng)作語義之間的映射模型,獲得視頻中舞蹈動(dòng)作語義。
(3)依據(jù)動(dòng)作語義為舞蹈片段分類。利用語義雷達(dá)圖選取單幀中概率超過預(yù)設(shè)閾值的前兩種語義作為該幀的代表語義進(jìn)而確定舞蹈片段的節(jié)奏和風(fēng)格。
4、 結(jié)語
本文通過研究基于舞蹈類短視頻的動(dòng)作語義提取方法,實(shí)現(xiàn)了對(duì)視頻中人物關(guān)節(jié)點(diǎn)的跟蹤,并計(jì)算得到運(yùn)動(dòng)特征,再根據(jù)已構(gòu)建的語義映射模型提取動(dòng)作語義,最后利用搜索引擎得到背景音樂。由于個(gè)體性差異,語義的肢體表達(dá)方式也有不同,如何根據(jù)個(gè)體性差異進(jìn)行針對(duì)性的識(shí)別是未來研究的一個(gè)難點(diǎn)。目前,語義識(shí)別正向著多信號(hào)融合的方向發(fā)展,人體面部表情與肢體動(dòng)作相結(jié)合的多信號(hào)語義識(shí)別系統(tǒng)將為人機(jī)交互領(lǐng)域的應(yīng)用帶來更多可能。
參考文獻(xiàn):
[1]劉艷,劉鼎家,韓智攀.基于動(dòng)作識(shí)別的情緒提取方法研究[J].計(jì)算機(jī)工程,2015,41(05):300-305.
[2]門鑫. 基于深度學(xué)習(xí)的視頻內(nèi)容識(shí)別和搜索算法研究[D].北京郵電大學(xué),2019.
課題項(xiàng)目:本文為沈陽師范大學(xué)校級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃資助項(xiàng)目《基于人工智能動(dòng)作語義識(shí)別的背景音樂匹配系統(tǒng)——“智慧配樂師”》(項(xiàng)目編號(hào):202113066)成果.