在專業(yè)人士眼中,目前的表情識別只能拿來玩。因為要讓計算機讀懂人的表情,確定和不確定因素造成的困難都很多。何況一個人的表情,另一個真人都未必能讀懂。
微軟曾經(jīng)在Office 97中推過一個“屏幕助手”。今天提起來,不知道有幾個人還能想起,那是個長著大眼睛的文件夾。這多少因為,“大眼夾”還沒在這個世界玩鬧多久,就“斃命”于用戶的抱怨。而在摩比源公司的工程師吳飛看來,“大眼夾”的失敗在于缺少表情識別,如果它能像虛擬視頻中的小人們那樣,懂得察言觀色,通過用戶表情,知道什么時候該咧嘴笑,什么時候該耍點小可愛,它的命運也許會有所改變。
顛覆你的視頻娛樂
心理學(xué)家拉塞爾(J.A.Russell)曾經(jīng)發(fā)現(xiàn)一個少有人注意的事實:在人們的日常交流中,通過語言傳遞的信息其實只有7%,大約55%的信息都是用面部表情傳遞的。吳飛所在項目組正在探索的表情計算,就是希望能設(shè)計出可以識別和適應(yīng)用戶情緒狀態(tài)的軟件。雖然聽起來不太現(xiàn)實,但這個思路已經(jīng)在虛擬視頻軟件Fix8上得到了體現(xiàn)。
趙愛華是一位75歲的老太太,華夏老年大學(xué)的一名學(xué)生。在Fix8的虛擬世界中,她擁有千張面孔,比孫悟空還厲害。剛開始視頻聊天,趙愛華只是為了能常常見到遠在美國讀書的孫女。慢慢地,她也跟著孫女學(xué)會了在視頻中添加音樂和背景,甚至用上了更為花哨的虛擬視頻。
坐在兒子新購置的電腦前,趙愛華熟練地點開軟件,選擇自己近期最愛的BOB頭、蛤蟆鏡、外加一頂黑色禮帽,視頻中的老太太立刻變身成“活力女孩”?!拔疫€可以變成櫻桃小丸子、蠟筆小新,不過我更喜歡把自己扮成年輕漂亮的女孩,美得冒泡美得理直氣壯?!壁w愛華說著就沖進了飛吧的虛擬世界。兒子有時也會跟她開玩笑說注意網(wǎng)上交友慎重,可別鬧出緋聞!趙愛華就會哈哈大笑,然后沖兒子神秘地說:“要是哪個毛頭小子敢打歪主意,我就顯現(xiàn)我的廬山真面目,嚇?biāo)浪?!?/p>
Fix8是摩比源公司2005年成立初期研發(fā)的產(chǎn)品,吳飛是研發(fā)者之一。他說:“普通的視頻欠缺創(chuàng)意,而虛擬視頻能讓人自由發(fā)揮。”吳飛一邊說一邊在電腦上打開網(wǎng)友上傳的視頻。
這是一段美國大選的視頻。Fix8將真實世界中的總統(tǒng)大選搬到了虛擬世界,選民變身成希拉里、奧巴馬或麥凱恩中的任何一個,通過YouTube平臺進行在線辯論。只要一個網(wǎng)絡(luò)攝像頭,“希拉里”“奧巴馬”和“麥凱恩”們就可以跟隨著真人進行移位及演講。
“這個軟件的關(guān)鍵是人類表情分析和重組技術(shù)。我們可以將用戶的頭部做成虛擬形象,通過網(wǎng)絡(luò)攝像頭捕捉用戶臉部表情,顯示在電腦上,形象通過Internet進行傳輸,顯示在對方的視頻窗口里,讓用戶可以即時互動?!眳秋w說。
眾所周知,人和人之間交談時,面部器官的結(jié)構(gòu)特征是次要的,語言和面部表情才是傳遞信息的主要載體?,F(xiàn)在,虛擬視頻僅僅通過網(wǎng)絡(luò)傳遞對方的語言和面部表情,并且利用面部表情信號驅(qū)動虛擬人頭部模型進行相應(yīng)的表情變化。這么一來,不僅能保護隱私,還能在大大節(jié)省帶寬的情況下,盡可能地傳遞對方要表達的信息。所以,敏感的韓國電信運營商SK電訊在Fix8推出沒多久就開始了和摩比源公司的合作。與此同時,虛擬視頻也迅速火熱起來。2008年5月10日,久游網(wǎng)和摩比源合作推出了勁秀團,今年9月,新浪與久游網(wǎng)攜手推出變臉盛宴SINA SHOW,緊隨其后的吐司網(wǎng)和9158視頻社區(qū)也將陸續(xù)推出虛擬視頻軟件。
那么,這些虛擬視頻就是傳說中的表情識別么?Fix8能夠通過定位和跟蹤人臉部的特征點,將面部肌肉線條的運動刻畫出來,但它并沒有涉及到情感計算。在另一位同樣研究表情識別的工程師陳浩民眼里,具有情感計算才能叫真正的表情識別,而且這樣的表情識別會有更多應(yīng)用。
在情感計算上升級
王斌是一名出租車司機,夜班。每天下午7點到第二天早上7點,他都會在首都機場“趴活”。雖然白天睡了幾個小時,可到了凌晨2點,還是困得不行,腦袋再次和方向盤親密接觸后才徹底清醒?!昂迷诓皇窃诶畹倪^程中打瞌睡,但不是每次都這般幸運?!蓖醣笳f。
瞌睡時,如果有個聲音能及時提醒,王斌會安全很多。事實上,在對2001年到2004年京津塘高速公路北京段的交通事故進行統(tǒng)計分析時,疲勞駕駛奪取駕駛員的生命數(shù)位列第一,占所有交通事故起因的27%。于是,中星微電子集團的陳浩民針對此類情況,和同事們一起研發(fā)了依靠人臉表情識別技術(shù)的報警系統(tǒng)。
所謂人臉表情識別,就是計算機能對人臉的表情信息進行特征提取分析,按照人的認識和思維方式加以歸類和理解,能夠分析理解人的情緒并且做出相應(yīng)的判斷。
當(dāng)然,人的情感不容易計算,但對計算機而言,不會計算情感的確是個缺陷。
“我們項目組研發(fā)的安全行車的智能監(jiān)控系統(tǒng)在一定程度上擁有表情識別、情感計算能力。通過攝像頭獲取圖像信號,圖像信號用于監(jiān)測司機面部表情的乏意,司機一旦出現(xiàn)疲態(tài),報警器就會報警,這套監(jiān)控系統(tǒng)計劃今年9月用在火車駕駛室內(nèi)。疲勞監(jiān)控只是表情識別的一個應(yīng)用,在另一項模擬研究中,當(dāng)軟件能用平靜的聲音勸說憤怒的司機時,事故減少了一半?;蛘呤窃谟錾鲜鹿蕰r,適當(dāng)時機及時發(fā)出鼓勵和勸解,比如‘你能做到的’,最終開發(fā)出能感受到用戶情緒的系統(tǒng)?!标惡泼裾f。
除此以外,人臉表情識別能應(yīng)用的地方很多。譬如在人機交互當(dāng)中,用戶可以利用表情來指示計算機。用戶眨一下眼睛,表示要求計算機取消當(dāng)前的任務(wù),眨兩下眼睛就表示要求計算機將任務(wù)保存。如果計算機再聰明一點,就能主動地從用戶的面部表情推測用戶的內(nèi)心情感,并自動地給出相應(yīng)的人性化的服務(wù)。特別是在動畫制作中,有了表情識別,動畫人物微笑、眨眼都不再需要很多張圖片組合起來,利用軟件就能簡單實現(xiàn)。
停留在玩的階段
“現(xiàn)在我們遇到些困難,要全面實現(xiàn)表情識別,幾乎做不下去?!标惡泼窠忉屨f:“看到你在笑,我就能知道你開心。但是要讓計算機能做出這種判斷,難度還是很大的。人臉是一個柔性體而不是剛體,很難把臉部運動和表情變化聯(lián)系起來。再有,像悲傷和憤怒這樣的情緒,怎么概括不同的表情特點,讓計算機能夠清楚地分辨?這也很難?!彼?,為了保持較高的識別率,他和他的同事們不得不著手其他途徑。
然而,真正的困難還在于,不只“識別”表情這么簡單。現(xiàn)實中,需要始終跟蹤定位人臉的系統(tǒng)要面對的環(huán)境比實驗室復(fù)雜得多,很容易受到外界因素的干擾——哪怕只是轉(zhuǎn)一下頭,或者燈光閃一下。
如果用戶腦袋稍微側(cè)一點,計算機眼中的人臉就會出現(xiàn)很大變化。各個器官的形狀,各個點的色彩都會因為些許的偏移而發(fā)生變化。這個時候計算機就會自動生成多種可能,暈頭轉(zhuǎn)向、辨識不出。針對這一狀況,有研究者提出采用多攝像頭技術(shù)、旋轉(zhuǎn)不變特征技術(shù)、色彩補償技術(shù)來予以解決,盡管有一定的效果,但是當(dāng)頭部運動比較復(fù)雜、多種光線交叉變化時,算法識別率仍然不理想。
“最終體現(xiàn)系統(tǒng)功能的完備程度,還是看能識別多少種表情。然而,現(xiàn)在大多數(shù)系統(tǒng)還只能對某一類表情來進行分析,功能非常單一。”在談到表情識別系統(tǒng)未來的發(fā)展時,像其他研究人工智能的人一樣,陳浩民面對的還都是老問題——有可能性,有思路,但實現(xiàn)起來難。表情識別應(yīng)用的一個重要方向,也是目前所有這一領(lǐng)域的人都在努力的方向,就是推測人的內(nèi)心情感,從而讓計算機能提供一種人性化的服務(wù)。但情感并不僅僅只有面部表情這樣唯一的一種表現(xiàn)方式,并且在很多情況下,面部表情并不一定真實地反映人的心理狀態(tài)?!耙簿褪钦f,語音語調(diào)、脈搏、體溫,這都是表情識別技術(shù)需要考慮的問題??偟恼f來,依舊停留在玩兒的階段?!标惡泼裾f。
插文:
情感計算
1971年,心理學(xué)家保羅#8226;艾克曼(Paul Ekman)與福里森(Friesen)最早提出人類有六種主要情感:憤怒、高興、悲傷、驚訝、厭惡和恐懼。每種情感以唯一的表情來反映人的一種獨特的心理活動。從解剖學(xué)出發(fā),他們提出一種人臉面部表情運動的描述方法——人臉運動編碼系統(tǒng)FACS ,根據(jù)面部肌肉的類型和運動特征定義了基本形變單元,人臉面部的各種表情最終能分解對應(yīng)到各個基本形變單元上來,分析表情特征信息,就是分析面部基本形變單元的變化情況。后來,美國MIT大學(xué)媒體實驗室皮卡德(Picard)教授提出了情感計算的說法。在實際操作中,主要是通過各種傳感器獲取由人的情感所引起的表情及生理變化信號,利用合適的“情感模型”對這些信號進行識別,從而理解人的情感并做出適當(dāng)?shù)捻憫?yīng)。
表情如何識別
在表情識別系統(tǒng)中,計算機會通過對人臉樣本集和非人臉樣本集的學(xué)習(xí),產(chǎn)生一個分類器。在對人臉表情特征提取和分類之前一般需要做幾何歸一化和灰度歸一化。具體說來,幾何歸一化就是指根據(jù)人臉定位結(jié)果將圖像中人臉變換到同一位置和同樣大小,灰度歸一化是對圖像進行光照補償?shù)忍幚?,光照補償能夠一定程度地克服光照變化的影響而提高識別率。預(yù)處理完成后,開始人臉表情特征的提取與識別。表情特征識別的方法很多,其中之一是通過幾何特征的識別方法,也就是對人臉表情的顯著特征,如眼睛、鼻子、眉毛、嘴等的位置變化進行定位、測量,確定其大小、距離、形狀及相互比例等特征,進行表情識別。