在近日中國科協(xié)發(fā)布的12個領(lǐng)域60個重大問題中,人機情感交互位列其中?!盁o情感不智能”已經(jīng)成為眾多研究者的共識。
日前,在杭州舉行的第七屆UCAN用戶體驗設(shè)計論壇上,阿里巴巴人機自然交互實驗室聯(lián)合達摩院機器智能技術(shù)實驗室和浙江大學(xué)推出了一款可以基于圖文內(nèi)容自動生成短視頻的人工智能Aliwood。值得一提的是,該團隊在研發(fā)過程中引入了“情感計算”能力,給視頻所配的音樂建立起了情感模型,以便更好地抓住觀眾的情緒。“情感計算”讓機器也可以察言觀色,它是怎么做到的?
從感知信號中提取情感特征
“視頻中的每一個單元都會多多少少左右我們的情緒?!卑⒗锇桶腿藱C自然交互實驗室負責人楊昌源在接受采訪時介紹,音樂情感是視頻情感的一部分,通過AI的方式給音樂建立一套情感模型,基于目前應(yīng)用最廣二維情感分類法模型,將備選音樂從“arousal”和“valence”兩個維度劃分,優(yōu)先選擇更為契合購物(電商)環(huán)境的偏雙高模型音樂作為視頻的音頻配樂,為電商產(chǎn)品視頻渲染出正向購物氣氛。
如何理解情感計算,要從“情感”這個源頭說起。國際關(guān)系學(xué)院信息科技系副教授李斌陽介紹,情感相對來說是一個比較籠統(tǒng)的概念,包括了情緒、感情、心情等多個方面。而狹義的情感計算要分析的就是人對于一個事或物所持有的觀點,如褒義、貶義、正面、負面等,也可以是分析人在當時環(huán)境中的喜、怒、哀、樂等感情或情緒。
當你說“錢包丟了”的時候,具有情感計算能力的機器人會是什么反應(yīng)?它不僅會接受到了錢包丟失的既定事實,還能“讀”出你的悲傷,拍拍你的肩膀說,“沒關(guān)系的,總有運氣不好的時候。”
1985年,圖靈獎獲得者馬文·明斯基提出應(yīng)該讓計算機具有情感能力,他說問題不在于智能機器能否有任何情感,而在于機器實現(xiàn)智能時怎么能夠沒有情感。從此,賦予計算機情感能力并讓計算機能夠理解和表達情感的研究、探討引起了計算機界許多人士的興趣。
情感計算(Affective Computing)一詞,是美國MIT媒體實驗室皮卡德教授提出的。她給出了定義,即情感計算是關(guān)于情感、情感產(chǎn)生以及影響情感方面的計算。讓機器也具備“感情”,從感知信號中提取情感特征,分析人的情感與各種感知信號的關(guān)聯(lián),成為國際上近幾年興起的研究方向。
基于多模態(tài)融合讀懂情感
情感計算是如何做到的?以文本分析為例,李斌陽介紹,最初的文本分析主要是基于詞典中的詞語色彩,即褒貶進行分析,并在此基礎(chǔ)上加入一些規(guī)則提高效果。在此之后,基于傳統(tǒng)機器學(xué)習的方法興起,其主要圍繞模型和特征兩個方面。從2013年至今,深度學(xué)習方法作為一個主流分析方法被廣泛應(yīng)用。
“深度學(xué)習的方法提供了一種對于文本表示的建模方法?!崩畋箨栒f,它最主要的特點是基于上下文語境,找到隱含的情感表述。舉個例子,如“今天我去商場,我買了一件衣服,很好看,只花了300元”。傳統(tǒng)的機器學(xué)習方法可能只把注意力放到“很好看”這個詞,而深度學(xué)習方法則可能注意到“只花了300元”這句話,雖然沒有明顯的表達情感詞匯,但我們可以從中體會到“只花300元”,表達說話人認為衣服是比較便宜的觀點,基于深度學(xué)習的情感計算可以分析出說話人不僅認為衣服好看,還很便宜,這是和傳統(tǒng)機器學(xué)習最大的不同。
“目前,有很多情感分析基于多模態(tài)融合的方法?!崩畋箨栒f,以前我們探討的情感分析多指文本中的情感分析,現(xiàn)在的情感分析是多維度的,如文字+圖片+表情+顏文字的綜合分析,文本+語音+圖像的綜合,即多模態(tài)情感分析,是目前來說比較前沿的情感分析研究方向。
楊昌源也認為現(xiàn)在多模態(tài)情感分析是發(fā)展的主流方向。他介紹,每個模塊所傳達的人類情感的信息量大小和維度不同。在人機交互中,不同的維度還存在缺失和不完善的問題。因此,人機交互中情感分析應(yīng)盡可能從多個維度入手,將單一不完善的情感通道補上,最后通過多結(jié)果擬合來判斷情感傾向。除了上面提到的文字、圖像模態(tài)等,目前對于腦電波、皮電信號、心率等情感信息通道的研究也是新興研究方向。
新零售、自動駕駛應(yīng)用效果初現(xiàn)
發(fā)展近20年,目前情感計算已經(jīng)應(yīng)用在生活中的多個場景。如我們最傳統(tǒng)的商品評價分析、民意調(diào)查,以及應(yīng)用程序中的推薦功能。楊昌源介紹,在未來情感計算用于流媒體用戶的情感分析或是一個發(fā)展方向。如在一段長視頻中,用戶對于某類物品的喜好操作等,可能成為精準推薦的參考。而在線下新零售中,店員也可以通過情感分析對于消費者的購物行為有一定把握。
在駕駛領(lǐng)域,情感計算也正應(yīng)用其中。楊昌源介紹,如我們可以通過對于駕駛者微表情,以及一些生理信號的捕捉,來判斷一個人的疲勞程度,從而避免交通事故的發(fā)生。MIT媒體實驗室數(shù)據(jù)顯示,在識別表情方面,計算機已經(jīng)可以超越人類,對于真笑和苦笑的一樣實驗中,機器學(xué)習的成功率是92%,大幅優(yōu)于人類。
此外知識圖譜的引入也讓人工智能更懂你。知識圖譜如同人工智能的知識庫,如aliwood的下一步也計劃通過構(gòu)建短視頻知識圖譜的方式將人類的知識結(jié)構(gòu)化、系統(tǒng)化,并賦能給Aliwood,來幫助AI短視頻的生成。
盡管情感計算已經(jīng)深入生活,而要讓機器人更加懂你卻并非易事。李斌陽說,當我們追溯情感發(fā)生的本源時,我們還并不能完全清楚它的發(fā)生機制,就像錢包丟了,我們能夠感受到情緒,但它的發(fā)生機制是什么,這還需要從認知學(xué)、心理學(xué)等進行探索。楊昌源介紹,目前實驗室也將如何讓人和機器的交互、機器和機器的交互更積極、更聰明作為一個長久目標,要實現(xiàn)這個目標還需要多個學(xué)科共同努力。翟冬冬