亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

人工智能在數(shù)字多媒體技術(shù)的應(yīng)用探討

2018-10-30 09:46:48李明軒

中國(guó)科技縱橫 2018年19期

李明軒

摘要：隨著信息技術(shù)的應(yīng)用，人工智能和多媒體技術(shù)已經(jīng)得到了蓬勃發(fā)展，通過(guò)現(xiàn)代多媒體技術(shù)，人們能夠?qū)σ恍┰境橄蟮氖挛锞哂懈泳唧w的了解，通過(guò)人工智能，使得多媒體技術(shù)更加智能化。因此，本文主要闡述了人工智能技術(shù)在數(shù)字多媒體中的應(yīng)用基礎(chǔ)和應(yīng)用功能，并對(duì)數(shù)字化智能多媒體技術(shù)的進(jìn)一步發(fā)展進(jìn)行了展望。

關(guān)鍵詞：人工智能；數(shù)字化；多媒體；信息技術(shù)

中圖分類(lèi)號(hào)：TP37-4 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1671-2064（2018）19-0042-02

近些年來(lái)隨著人工智能技術(shù)的研究與發(fā)展，人工智能正加速改變各個(gè)行業(yè)的發(fā)展方向，這其中多媒體技術(shù)將可能是受益最明顯的應(yīng)用領(lǐng)域之一。神經(jīng)網(wǎng)絡(luò)相關(guān)算法問(wèn)題得到解決，人工智能技術(shù)在最近幾年得到了快速的發(fā)展，而人工智能技術(shù)在多媒體領(lǐng)域的滲透，使這項(xiàng)技術(shù)獲得了新的突破。當(dāng)下圖片、長(zhǎng)視頻、短視頻、直播、AR等各種媒體形式占據(jù)著互聯(lián)網(wǎng)，在媒體內(nèi)容和形式都非常豐富的今天，如何辨識(shí)、解析這些內(nèi)容，并通過(guò)人工智能反饋是目前所有科技巨頭關(guān)注的焦點(diǎn)，其中人工智能技術(shù)將在圖像識(shí)別、語(yǔ)音語(yǔ)義識(shí)別、同聲傳譯、字幕識(shí)別等多媒體應(yīng)用場(chǎng)景有更深的應(yīng)用與挖掘。

本文結(jié)合當(dāng)下熱點(diǎn)問(wèn)題—人工智能技術(shù)，針對(duì)其在多媒體技術(shù)中的應(yīng)用情況，闡述人工智能技術(shù)在多媒體領(lǐng)域的應(yīng)用基礎(chǔ)和技術(shù)手段，并從人工智能分類(lèi)功能和私有化應(yīng)用角度進(jìn)行了深入探討，以此拓展對(duì)信息技術(shù)的應(yīng)用理解。

1 數(shù)字化智能多媒體技術(shù)基礎(chǔ)

通俗一點(diǎn)講，人工智能就是大數(shù)據(jù)+機(jī)器學(xué)習(xí)。這跟人的思維很像，當(dāng)想要獲取知識(shí)的話(huà)，需要很多的原材料，比如通過(guò)觀察外邊的世界，去閱讀各種書(shū)籍，或者請(qǐng)教老師、他人等。對(duì)于計(jì)算機(jī)來(lái)說(shuō)也是這樣的原理，它需要獲取大量的數(shù)據(jù)去做訓(xùn)練，在大量數(shù)據(jù)里邊抽取出有用的信息，構(gòu)成它的知識(shí)庫(kù)。

1.1 多媒體數(shù)據(jù)是人工智能的基礎(chǔ)

數(shù)據(jù)是人工智能技術(shù)實(shí)現(xiàn)的基礎(chǔ)，在多媒體技術(shù)平臺(tái)中，數(shù)據(jù)處理是如何操作的呢？首先，多媒體對(duì)象存儲(chǔ)、直播云、媒體工廠每天會(huì)產(chǎn)生大量的原始數(shù)據(jù)，比如對(duì)象存儲(chǔ)每天新增的圖片會(huì)超過(guò)10億張，但是這些原始數(shù)據(jù)并不一定是對(duì)計(jì)算機(jī)友好的，例如直播數(shù)據(jù)，里面有傳輸?shù)膮f(xié)議、音視頻的交錯(cuò)，還有各種編碼在里面，這樣的原始刪去數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)來(lái)說(shuō)是不友好的。就需要預(yù)處理的平臺(tái)對(duì)原始數(shù)據(jù)進(jìn)行處理，譬如圖片壓縮、音頻提取與聲道、采樣率歸一化、視頻抽幀等，這些預(yù)處理的功能目前采用鏡像部署的方式在彈性計(jì)算平臺(tái)上運(yùn)行計(jì)算，目前有的平臺(tái)可以做到超過(guò)10000個(gè)虛擬節(jié)點(diǎn)在做這個(gè)事情。

僅有數(shù)據(jù)還是不夠的，需要將數(shù)據(jù)打上標(biāo)簽，讓計(jì)算機(jī)知道這個(gè)東西是什么，然后它通過(guò)數(shù)據(jù)標(biāo)簽去訓(xùn)練和學(xué)習(xí)，認(rèn)識(shí)這一類(lèi)的事物。目前打標(biāo)簽有多種形式，如人工標(biāo)注、關(guān)鍵字主動(dòng)抓取等，對(duì)于難于標(biāo)注的語(yǔ)音類(lèi)的數(shù)據(jù)，同時(shí)也會(huì)采用融合第三方的數(shù)據(jù)?？梢?jiàn)，數(shù)據(jù)是人工智能的基礎(chǔ)，未來(lái)在人工智能這個(gè)領(lǐng)域，數(shù)據(jù)層面的競(jìng)爭(zhēng)也將會(huì)非常激烈。

1.2 機(jī)器學(xué)習(xí)是智能多媒體的手段

人工智能的另外一個(gè)重要環(huán)節(jié)機(jī)器學(xué)習(xí)，它解決的主要是兩類(lèi)問(wèn)題，一是分類(lèi)，二是回歸。

分類(lèi)目前應(yīng)用得比較廣泛，也相對(duì)成熟一些，如圖片的分類(lèi)，給出一張圖片，識(shí)別這個(gè)圖片是小貓還是小狗；或是對(duì)文字內(nèi)容的分類(lèi)，比如讓計(jì)算機(jī)去分析一篇文章到底是體育類(lèi)的還是經(jīng)濟(jì)類(lèi)的等等。回歸則是數(shù)學(xué)的概念，它處理的問(wèn)題也是偏數(shù)學(xué)方向的，輸入和輸出都是數(shù)字類(lèi)型的。據(jù)了解，目前有些團(tuán)隊(duì)在做類(lèi)似股票預(yù)測(cè)的場(chǎng)景，像這種場(chǎng)景依賴(lài)的變量非常多，而且本身系統(tǒng)非常復(fù)雜，難度比較大。

2 人工智能在數(shù)字多媒體中的應(yīng)用

在當(dāng)下這個(gè)超級(jí)信息時(shí)代，分類(lèi)和回歸在媒體方面的應(yīng)用十分廣泛，如內(nèi)容審核、人臉識(shí)別、自動(dòng)標(biāo)簽、字幕識(shí)別、同聲傳譯等。

2.1 內(nèi)容審核

目前大多數(shù)的平臺(tái)對(duì)用戶(hù)都是開(kāi)放的，用戶(hù)可以上傳圖片、視頻等。開(kāi)放本身是好事，使得內(nèi)容更加豐富，但會(huì)涉及到很多網(wǎng)絡(luò)監(jiān)管問(wèn)題，在國(guó)家和政府對(duì)網(wǎng)絡(luò)內(nèi)容的監(jiān)管要求越來(lái)越嚴(yán)格的背景下，很多平臺(tái)機(jī)構(gòu)會(huì)專(zhuān)門(mén)成立內(nèi)容審核部門(mén)，采用人工審核的方式，對(duì)用戶(hù)上傳內(nèi)容進(jìn)行全量審核。這項(xiàng)工作如果完全依賴(lài)人力的話(huà)將是一項(xiàng)巨大的工程，且審核團(tuán)隊(duì)的工作枯燥乏味。

目前，比如UCloud的UMAI平臺(tái)支持圖片與視頻的涉黃、暴力等內(nèi)容識(shí)別，通過(guò)調(diào)用UMAI接口來(lái)對(duì)內(nèi)容做預(yù)處理，可以將占比為絕大多數(shù)的正常內(nèi)容過(guò)濾掉，而只留下極少數(shù)判定為疑似不健康的內(nèi)容，需要審核團(tuán)隊(duì)進(jìn)行進(jìn)一步的復(fù)查，這樣極大地減少了人工審核的工作量。

2.2 人臉識(shí)別

現(xiàn)在人工智能在人臉識(shí)別這塊應(yīng)用較為廣泛，如身份認(rèn)證、手機(jī)刷臉、系統(tǒng)登錄等；另外是人臉的搜索，比如在一段視頻里快速確定有沒(méi)有出現(xiàn)某個(gè)關(guān)鍵人物，或一個(gè)圖片集里有沒(méi)有包含這樣的人。人臉識(shí)別主要的流程一般如下，首先對(duì)這個(gè)圖片進(jìn)行人臉的檢測(cè)，然后提取關(guān)鍵點(diǎn)，包括眼睛、鼻子、嘴巴、耳朵、輪廓等，切分處理以后，再給到卷積網(wǎng)絡(luò)提取特征，最后再做人臉識(shí)別，目前在公司考勤、政治任務(wù)識(shí)別方面已有相關(guān)的應(yīng)用。

2.3 自動(dòng)標(biāo)簽

針對(duì)用戶(hù)自主上傳的圖片，自動(dòng)標(biāo)簽則發(fā)揮出重要作用。用戶(hù)在上傳圖片的時(shí)候，往往只會(huì)標(biāo)注一到兩個(gè)關(guān)鍵詞，對(duì)圖片進(jìn)行描述，而圖片里邊包含的大量其他的內(nèi)容和信息，是沒(méi)辦法檢索出來(lái)的，因?yàn)楝F(xiàn)在很多后臺(tái)的搜索是基于關(guān)鍵字的。通過(guò)計(jì)算機(jī)視覺(jué)的場(chǎng)景識(shí)別功能，可以很好地將圖片的隱藏信息挖掘出來(lái)，讓圖片有更多的關(guān)鍵字，能夠被更多的場(chǎng)景檢索出來(lái)，發(fā)揮其作用。

2.4 字幕識(shí)別

字幕識(shí)別的應(yīng)用非常直接而實(shí)用，例如身份證、發(fā)票、名片的識(shí)別，可以減少手寫(xiě)錄入的工作量，而類(lèi)似視頻字幕識(shí)別這種，則可以幫助計(jì)算機(jī)更好地去理解視頻的內(nèi)容。

2.5 同聲傳譯

隨著企業(yè)走出國(guó)門(mén)的需要，利用人工智能實(shí)現(xiàn)同聲傳譯可以幫助跨國(guó)公司、員工進(jìn)行不同語(yǔ)種間的交流。在視頻直播這一塊，可以在視頻直播傳輸前，把里面的音頻提取出來(lái)，做切片處理以后，把語(yǔ)音識(shí)別出來(lái)，經(jīng)過(guò)翻譯系統(tǒng)后輸出字幕并打上時(shí)間戳，播放終端拿到字幕和視頻數(shù)據(jù)后，做一次時(shí)間戳同步，在播放端進(jìn)行展示。

當(dāng)然，該系統(tǒng)的實(shí)現(xiàn)主要有兩個(gè)難點(diǎn)：一是它需要經(jīng)過(guò)兩次計(jì)算機(jī)的識(shí)別，第一次是語(yǔ)音的識(shí)別，第二次是翻譯，這會(huì)有一個(gè)誤差的累積；二是這種場(chǎng)景的實(shí)時(shí)性要求比較高，比如說(shuō)字幕的翻譯有點(diǎn)滯后，視頻數(shù)據(jù)又需要比較低的延遲，這樣體驗(yàn)會(huì)非常不好。

2.6 私有化部署

以上主要聚焦于公有多媒體技術(shù)云平臺(tái)的人工智能的應(yīng)用，而實(shí)際上由于政策、保密等工作需要，有多媒體技術(shù)并不能直接存放到公共云平臺(tái)上，在內(nèi)部也有不少服務(wù)器、視頻采集設(shè)備等硬件資源，希望能夠直接利用上。針對(duì)這樣的需求，通常需要采用私有化部署的方案。

比如UCloud平臺(tái)是通過(guò)部署兩件事去實(shí)現(xiàn)私有化部署的方案：第一是實(shí)現(xiàn)云平臺(tái)組件化，平臺(tái)內(nèi)部可以集成很多種功能，比如直播、存儲(chǔ)、錄制、截圖等，將這些功能剝離開(kāi)，做成各種組件的形式。這樣有一個(gè)好處，組件可以靈活搭配，用戶(hù)需要什么功能就部署什么組件，如果對(duì)某些功能有個(gè)性化需求，只要簡(jiǎn)單修改對(duì)應(yīng)組件的功能就可以了。第二是提供訓(xùn)練好的模型，事先利用公共平臺(tái)數(shù)據(jù)訓(xùn)練好的模型，并根據(jù)客戶(hù)需要部署到客戶(hù)的私有環(huán)境中進(jìn)行應(yīng)用。

實(shí)際上類(lèi)似的私有化部署在自動(dòng)考勤系統(tǒng)等場(chǎng)景已經(jīng)有成熟的應(yīng)用，相關(guān)人工智能公司也在不斷挖掘更多可應(yīng)用的場(chǎng)景，希望運(yùn)用人工智能技術(shù)改變?nèi)粘５墓ぷ髋c生活方式。

3 結(jié)語(yǔ)

人工智能在多媒體技術(shù)的應(yīng)用有著十分廣泛的空間，如智能數(shù)字化多媒體教學(xué)軟件的實(shí)現(xiàn)，使得教學(xué)系統(tǒng)實(shí)現(xiàn)人性化，且具有更強(qiáng)的適應(yīng)性，以及采用人工智能識(shí)別技術(shù)實(shí)現(xiàn)入侵系統(tǒng)的智能化管理，給社會(huì)管理提供智能技術(shù)手段。相信，隨著人工智能技術(shù)在數(shù)字化信息領(lǐng)域的不斷發(fā)展與深入應(yīng)用，將會(huì)推動(dòng)信息技術(shù)的快速革新，為社會(huì)技術(shù)進(jìn)步帶來(lái)新的動(dòng)力。

參考文獻(xiàn)

[1]黃夢(mèng).計(jì)算機(jī)多媒體音像壓縮技術(shù)的研究及應(yīng)用前景探析[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用，2014，（4）：207-207.

[2]人工智能與多媒體結(jié)合的產(chǎn)物—數(shù)字視頻入侵式報(bào)警系統(tǒng)[N].中國(guó)信息導(dǎo)報(bào)，1997.

[3]王立剛.關(guān)于智能多媒體教學(xué)軟件的研究[J].邊疆經(jīng)濟(jì)與文化，2006，（3）：154-159.

[4]楊潤(rùn)華，楊漢祥，謝錦平. 基于MPEG4的多用途智能多媒體監(jiān)控系統(tǒng)[J].電子技術(shù)，2002，（11）：30-34.