亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于動(dòng)作語義識(shí)別的背景音樂匹配系統(tǒng)的研究

2021-09-22 20:12:19楊睿王昊宇劉歡嫻張琳楊宇萌

科教創(chuàng)新與實(shí)踐 2021年27期

關(guān)鍵詞：人工智能

楊睿王昊宇劉歡嫻張琳楊宇萌

摘要：隨著自媒體短視頻行業(yè)的興起，視頻配樂所涉及的問題也越來越突出，尤其舞蹈類短視頻中背景音樂與舞蹈動(dòng)作千篇一律的情況常常出現(xiàn)。為解決這一問題，本文基于動(dòng)作語義提取方法，實(shí)現(xiàn)對(duì)視頻中人物關(guān)節(jié)點(diǎn)的跟蹤和動(dòng)作語義的提取，并利用搜索引擎得到背景音樂，為自媒體短視頻背景音樂與舞蹈動(dòng)作的多樣性做出了貢獻(xiàn)。

關(guān)鍵詞：人工智能;動(dòng)作識(shí)別;語義研究;自動(dòng)配樂

1、緒論

通過人物的表情、動(dòng)作、語言等識(shí)別人物的情緒狀態(tài)是機(jī)器視覺中的熱門領(lǐng)域，早在20世紀(jì)90年代美國麻省理工學(xué)院就有相應(yīng)研究。

目前對(duì)于表情、語音識(shí)別技術(shù)的研究相對(duì)成熟，而動(dòng)作識(shí)別還只是新興的研究方向。動(dòng)作識(shí)別已被嘗試應(yīng)用在眾多現(xiàn)實(shí)場(chǎng)景中，如機(jī)器人視覺、人機(jī)交互、智能監(jiān)控及體感游戲等，在人們生產(chǎn)生活中發(fā)揮了巨大的促進(jìn)作用。

舞蹈類短視頻配樂領(lǐng)域主要有三個(gè)亟待解決的問題：如何從視頻中識(shí)別人體運(yùn)動(dòng)，如何通過運(yùn)動(dòng)特征識(shí)別人類動(dòng)作語義，以及如何將動(dòng)作語義轉(zhuǎn)化為高層語義并用搜索引擎找到音樂。

2、問題分析及系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2.1問題分析

在基于動(dòng)作語義識(shí)別的背景音樂匹配系統(tǒng)研究中，主要工作是從運(yùn)動(dòng)視頻中提取動(dòng)作特征、構(gòu)建動(dòng)作語義集合并建立動(dòng)作與動(dòng)作語義之間的映射關(guān)系模型，實(shí)現(xiàn)從運(yùn)動(dòng)視頻中識(shí)別人的動(dòng)作信息。

首先，從靜態(tài)姿態(tài)特征和動(dòng)態(tài)運(yùn)動(dòng)特征兩方面提取特征數(shù)據(jù);然后，根據(jù)當(dāng)前人類情緒識(shí)別領(lǐng)域和行為心理學(xué)領(lǐng)域研究成果，本文構(gòu)建了包含“開心”、“憤怒”、“悲傷”、“恐懼”和“中立”這五種動(dòng)作語義的語義集合。并通過引入“不確定”的識(shí)別結(jié)果，為后續(xù)進(jìn)行語義識(shí)別提供便利。

當(dāng)完成舞蹈視頻的語義分析后，將獲得的動(dòng)作語義進(jìn)行簡(jiǎn)單變換并通過搜索引擎找到與該視頻匹配的音樂，從而完成配樂功能。

2.2系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

智慧配樂師功能包含舞蹈語義識(shí)別和背景音樂匹配兩部分，具體設(shè)計(jì)如圖1所示。

下面詳細(xì)介紹各功能的原理及具體情況。

（1）舞蹈語義識(shí)別功能

①提取人體二維輪廓

幀間差分法作為最常用的運(yùn)動(dòng)目標(biāo)檢測(cè)方法之一，其基本原理就是采用基于像素的時(shí)間差分在圖像序列相鄰的兩幀或三幀之間，通過閉值化提取出場(chǎng)景中的運(yùn)動(dòng)區(qū)域。

我們將相鄰幀相減得到差分圖像，在保證環(huán)境亮度變化不大的條件下，選定一個(gè)閾值，根據(jù)像素值變化與閾值的大小關(guān)系對(duì)差分圖像二值化。利用幀間差分法更新速度快、算法簡(jiǎn)單、計(jì)算量小等優(yōu)點(diǎn)，得到人體二維輪廓。

②定位人體關(guān)節(jié)點(diǎn)

人體被看成是由骨骼及關(guān)節(jié)點(diǎn)構(gòu)成的剛性系統(tǒng)，骨骼的位置由關(guān)節(jié)點(diǎn)決定，因此人體運(yùn)動(dòng)可以用關(guān)節(jié)點(diǎn)表征。

在以往的研究中，手動(dòng)標(biāo)定視頻第一幀的方法雖然簡(jiǎn)單易行，但在面對(duì)大量未知數(shù)據(jù)時(shí)并不可行。為避免人工定標(biāo)浪費(fèi)時(shí)間，我們根據(jù)醫(yī)學(xué)人體比例約束，實(shí)現(xiàn)自動(dòng)定位關(guān)節(jié)點(diǎn)的效果。

③光流法關(guān)節(jié)點(diǎn)跟蹤

光流法常用來跟蹤點(diǎn)的運(yùn)動(dòng)，光流的變化能夠反映圖像灰度在時(shí)間上的變化與景象中物體結(jié)構(gòu)及其運(yùn)動(dòng)的關(guān)系，其中LK光流算法在跟蹤人體各關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)方面表現(xiàn)更好。

光流法通過特征匹配求關(guān)節(jié)點(diǎn)處的流速，利用計(jì)算量小、快速靈活的特點(diǎn)，能夠快速檢測(cè)到運(yùn)動(dòng)對(duì)象。

④動(dòng)作特征的提取

在提取人體動(dòng)作過程中，我們將人體動(dòng)作特征分為兩類：靜態(tài)姿態(tài)特征，包含重心傾斜狀態(tài)、頭部彎曲度、頭部彎曲度、肘部彎曲度及胸腔彎曲度;動(dòng)態(tài)運(yùn)動(dòng)特征，包含重心移動(dòng)速度與關(guān)節(jié)點(diǎn)相對(duì)速度。

動(dòng)作速率一定程度上反應(yīng)人的情緒信息，由于肩部節(jié)點(diǎn)、肘部節(jié)點(diǎn)和手部節(jié)點(diǎn)相對(duì)于重心變化較為獨(dú)立，反映信息較為明顯，可作為關(guān)節(jié)點(diǎn)速率的主要計(jì)算依據(jù)，用關(guān)節(jié)點(diǎn)相對(duì)運(yùn)動(dòng)速率與重心絕對(duì)運(yùn)動(dòng)速率的比值作為動(dòng)態(tài)運(yùn)動(dòng)特征參數(shù)。

⑤動(dòng)作語義識(shí)別

在獲取特征數(shù)據(jù)后，分別計(jì)算出對(duì)應(yīng)的語義，再根據(jù)映射關(guān)系得到最終的語義識(shí)別結(jié)果。使用雷達(dá)圖展現(xiàn)各語義所占概率，通過選取單幀雷達(dá)圖中概率超過 27%的前兩種語義作為代表語義，用概率值作為對(duì)應(yīng)權(quán)重，統(tǒng)計(jì)有效幀在各語義中的加權(quán)平均值，最終得到輸入視頻的語義雷達(dá)圖。

（2）背景音樂匹配功能

在多媒體的檢索中，最自然直接的辦法就是用人類的語義概念進(jìn)行檢索，通過語義方式的搜索達(dá)到比視覺底層特征更直接和更有效的效果。經(jīng)過動(dòng)作特征提取、構(gòu)建動(dòng)作語義集合、建立動(dòng)作與動(dòng)作語義之間的映射關(guān)系模型最終分析得到人們?nèi)粘Ｋ季S中的高層語義概念——?jiǎng)幼髡Z義。通過舞蹈語義識(shí)別部分得到結(jié)構(gòu)化標(biāo)簽，利用搜索引擎實(shí)現(xiàn)背景音樂的搜索查找，最終完成配樂功能。

圖2是基于動(dòng)作語義識(shí)別的背景音樂匹配過程圖。

3、系統(tǒng)創(chuàng)新點(diǎn)

“智慧配樂師”以舞蹈動(dòng)作意義為切入點(diǎn)，利用人工智能技術(shù)尋找最佳配樂，體現(xiàn)了如下創(chuàng)新點(diǎn)：

（1）利用人工智能技術(shù)挖掘舞蹈運(yùn)動(dòng)特征數(shù)據(jù)。通過幀間差分法實(shí)現(xiàn)人體初步識(shí)別，再根據(jù)醫(yī)學(xué)領(lǐng)域人體結(jié)構(gòu)比例約束標(biāo)定必要關(guān)節(jié)點(diǎn)，并使用光流法挖掘出特征數(shù)據(jù)。

（2）構(gòu)建特征映射模型獲取舞蹈動(dòng)作語義。通過對(duì)視頻數(shù)據(jù)的分析，構(gòu)建出特征數(shù)據(jù)與動(dòng)作語義之間的映射模型，獲得視頻中舞蹈動(dòng)作語義。

（3）依據(jù)動(dòng)作語義為舞蹈片段分類。利用語義雷達(dá)圖選取單幀中概率超過預(yù)設(shè)閾值的前兩種語義作為該幀的代表語義進(jìn)而確定舞蹈片段的節(jié)奏和風(fēng)格。

4、結(jié)語

本文通過研究基于舞蹈類短視頻的動(dòng)作語義提取方法，實(shí)現(xiàn)了對(duì)視頻中人物關(guān)節(jié)點(diǎn)的跟蹤，并計(jì)算得到運(yùn)動(dòng)特征，再根據(jù)已構(gòu)建的語義映射模型提取動(dòng)作語義，最后利用搜索引擎得到背景音樂。由于個(gè)體性差異，語義的肢體表達(dá)方式也有不同，如何根據(jù)個(gè)體性差異進(jìn)行針對(duì)性的識(shí)別是未來研究的一個(gè)難點(diǎn)。目前，語義識(shí)別正向著多信號(hào)融合的方向發(fā)展，人體面部表情與肢體動(dòng)作相結(jié)合的多信號(hào)語義識(shí)別系統(tǒng)將為人機(jī)交互領(lǐng)域的應(yīng)用帶來更多可能。

參考文獻(xiàn)：

[1]劉艷，劉鼎家，韓智攀.基于動(dòng)作識(shí)別的情緒提取方法研究[J].計(jì)算機(jī)工程，2015，41（05）：300-305.

[2]門鑫. 基于深度學(xué)習(xí)的視頻內(nèi)容識(shí)別和搜索算法研究[D].北京郵電大學(xué)，2019.

課題項(xiàng)目：本文為沈陽師范大學(xué)校級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃資助項(xiàng)目《基于人工智能動(dòng)作語義識(shí)別的背景音樂匹配系統(tǒng)——“智慧配樂師”》（項(xiàng)目編號(hào)：202113066）成果.