廣東工業(yè)大學
陳俊洪,鄭澤賢,李軍達,曾潤佳,何志銅
國內(nèi)外機器人制造企業(yè)均在加速推進智能機器人產(chǎn)品的研發(fā)與推廣,但縱觀現(xiàn)有智能機器人的應用場景,雖然編程手段更為高效(操作者手動拖拽示例或者軟件繪制軌跡),但關鍵難點問題仍未解決:智能機器人只能執(zhí)行預編程的指令,以相對“精確”的方式完成特定重復動作。而當環(huán)境發(fā)生變化時,會導致大量殘次品產(chǎn)生,即現(xiàn)有機器人尚未具備“有意識感知”操作物體和環(huán)境并做出調(diào)整的能力。要解決該問題,機器人的“智能化”是必經(jīng)之路。本項目以提高機器人的“智能化”程度為目標,讓機器人能夠根據(jù)人體的動作變化進行安全、實時的跟蹤協(xié)作,且當環(huán)境發(fā)生變化時,機器人能夠通過視覺編程快速適應新的工作環(huán)境,無需重新返廠編程,極大提高了生產(chǎn)效率,對我國智能制造具有重大推動作用。
利用任務-目標導向方法對人的操作動作和操作物體進行分開識別,過濾操作過程中不相關或冗余內(nèi)容,只學習關鍵動作及如何操作物體,最終實現(xiàn)操作目的。
利用深度學習技術將視頻進行元語義分解,識別出視頻中的基本元素,并通過算法將元語義按照語義語法規(guī)則進行重組,最終形成機器人指令操作。該做法相比于其他機器人系統(tǒng)更高級之處在于其可使用工具進行動作模仿,而非簡單的動作模仿。該技能不僅適用于家庭服務,更加能夠跨場景進行部署。機器人炒菜視頻圖像如圖1所示。
圖1 炒菜視頻圖像
利用深度學習方法對人體關鍵點進行實時監(jiān)測,通過動作關鍵幀和基于時間的動態(tài)模型對人的操作完成度進行判定,進而達到人機協(xié)作目的。
提供關鍵指令給機器人進行識別,機器人識別語音后與對應的操作技能進行匹配執(zhí)行,最終實現(xiàn)人機交互的目的。
本系統(tǒng)以視覺編程為核心,將視頻、語音和文本等多模態(tài)數(shù)據(jù)進行融合,具有學習能力強、部署效率高等技術優(yōu)勢。與此同時,本產(chǎn)品具備以下創(chuàng)新點:
(1)機器人自學能力強。不同于絕大多數(shù)機器人的預編程指令,本產(chǎn)品創(chuàng)新性地通過計算機視覺技術進行學習,是機器人與深度學習兩大交叉領域的新嘗試,避免了用途或場景更改時再次對機器人進行指令編程,具備很高的靈活性與可重用性。
(2)適用性廣。本產(chǎn)品對物體進行操作時,將物體的著力點作為抓取物體的依據(jù),該方法能廣泛應用于多種不同形狀及類別的物體,使得機器人能夠?qū)Χ鄨鼍爸械亩喾N物體進行操作。
(3)對操作行為具備理解能力。機器人需要對執(zhí)行的動作進行理解后才能準確執(zhí)行該動作,本產(chǎn)品通過定義語法語義規(guī)則構建語法樹,對復雜的操作行為進行分解,將分解后的元語義按照指定的語法規(guī)則進行重構,形成新的語義樹,最后將語義樹轉(zhuǎn)換為機器人指令用于執(zhí)行。