卜文銳
(陜西國防工業(yè)職業(yè)技術(shù)學(xué)院 陜西省西安市 710300)
隨著人工智能技術(shù)的發(fā)展,近年來各類機(jī)器人的智能程度得到了顯著提升;而隨著該領(lǐng)域各類應(yīng)用數(shù)據(jù)和實(shí)踐經(jīng)驗(yàn)的積累,人工智能技術(shù)也隨之不斷進(jìn)步,取得了許多優(yōu)秀的研究成果。AI技術(shù)在各類機(jī)器人實(shí)用技術(shù)中主要體現(xiàn)在智能感知技術(shù)、智能導(dǎo)航與規(guī)劃技術(shù)、智能控制與操作以及智能交互等方面。
各類實(shí)際應(yīng)用場景的復(fù)雜化使得機(jī)器人的應(yīng)用日漸具有挑戰(zhàn)性。機(jī)器人的智能感知主要是借助各種不同類型的傳感器來實(shí)現(xiàn)。
機(jī)器人視覺的實(shí)現(xiàn)過程需要經(jīng)過維度轉(zhuǎn)換,也就是從三維實(shí)體到二維圖像,再經(jīng)過一定的處理過程得到可用數(shù)據(jù)。這些數(shù)據(jù)通常包括物體的距離、明暗和一定程度的色彩信息,為了獲得較好的數(shù)據(jù),通常會(huì)在良好的照明條件下進(jìn)行圖像采集。機(jī)器人視覺方面的應(yīng)用主要包括視覺反饋(控制機(jī)器人動(dòng)作)、視覺導(dǎo)航(控制機(jī)器人移動(dòng))和視覺檢驗(yàn)(質(zhì)量控制、安全檢測)等方面。
觸覺應(yīng)用的典型目標(biāo)是替代多種場合下人類雙手的特定功能,往往借助觸覺傳感器來實(shí)現(xiàn)。實(shí)際場景中涉及的觸覺主要包括接觸覺、壓力覺、滑覺、接近覺和溫度覺等。這一領(lǐng)域的研究難點(diǎn)在于模擬人體運(yùn)動(dòng)器官所需要的數(shù)據(jù)在維度和數(shù)量上都非常大,而且單純引入傳感器并不能顯著提高機(jī)械手完成復(fù)雜任務(wù)的能力。目前,觸覺應(yīng)用領(lǐng)域的進(jìn)步主要得益于聚類、分類算法的進(jìn)步,而機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法對(duì)于機(jī)器人觸覺應(yīng)用的提升起到了明顯的助推作用。
機(jī)器人聽覺借助聽覺傳感器實(shí)現(xiàn),在使用過程中,傳感器檢測并顯示聲音的波形,將之轉(zhuǎn)化為可被后電路使用的數(shù)據(jù)樣式。機(jī)器人聽覺廣泛應(yīng)用在日常溝通、工業(yè)、醫(yī)療、軍事和航海、航天等領(lǐng)域。
在具體的任務(wù)當(dāng)中,測量聲音的響度和音調(diào)、區(qū)分左右聲源以及判斷聲源方向往往是對(duì)機(jī)器人的基本要求;進(jìn)一步的要求通常包括與人進(jìn)行語音交流以實(shí)現(xiàn)人機(jī)對(duì)話功能。這一體系當(dāng)中,自然語言處理(NLP)和語音處理(SSP)技術(shù)的發(fā)展為機(jī)器人聽覺的進(jìn)步提供了有力支持。
在機(jī)器人的實(shí)際應(yīng)用場景中,需要采集和處理的數(shù)據(jù)往往具有多種模態(tài)(例如視覺、聽覺和觸覺等)且具有顯著的動(dòng)態(tài)特征。為完成某個(gè)特定的任務(wù)所采集、處理的大量數(shù)據(jù)通常屬于多模態(tài)數(shù)據(jù),收集這些數(shù)據(jù)的每種方法或視角都稱為一個(gè)模態(tài)。機(jī)器人分析處理多模態(tài)數(shù)據(jù)的能力是其智能化程度的典型標(biāo)志之一。
在無人駕駛、智慧物流和智能倉儲(chǔ)等領(lǐng)域,機(jī)器人的智能導(dǎo)航與規(guī)劃是研究者長期以來關(guān)注的核心內(nèi)容。如何在保證機(jī)器人安全平穩(wěn)運(yùn)行的前提下最大程度地減少人為干預(yù),并以此為基礎(chǔ)實(shí)現(xiàn)自動(dòng)避障,是當(dāng)前研究中的熱點(diǎn)問題。
由于機(jī)器人在各類工作環(huán)境中移動(dòng)時(shí)場景參數(shù)的多樣性與復(fù)雜性,自動(dòng)避障目標(biāo)的實(shí)現(xiàn)需要機(jī)器人搭載的傳感器、處理器和運(yùn)動(dòng)控制部分的有機(jī)、高效協(xié)同。機(jī)器人的實(shí)時(shí)處理與反應(yīng)能力決定了事先編制的各類避障規(guī)則能否及時(shí)生效。為了提升智能機(jī)器人自主行動(dòng)和避障的能力,當(dāng)前此類機(jī)器人設(shè)計(jì)當(dāng)中很大程度上引入了歸納學(xué)習(xí)策略等內(nèi)容,機(jī)器人在不斷的學(xué)習(xí)訓(xùn)練過程中提升自身的信息處理與實(shí)時(shí)控制能力。自動(dòng)避障的基本流程如下:
(1)確定機(jī)器人的靜態(tài)和動(dòng)態(tài)參數(shù)。
(2)確定機(jī)器人本體與障礙之間的相對(duì)位置參數(shù)。
(3)根據(jù)障礙物參數(shù)分析機(jī)器人本體的運(yùn)動(dòng)態(tài)勢。
今后機(jī)器人智能導(dǎo)航與規(guī)劃系統(tǒng)將會(huì)更大程度地引入各類性能優(yōu)異地傳感器,并將功能從導(dǎo)航拓展到監(jiān)控、通信等方面,機(jī)器人規(guī)劃最佳路徑的能力將隨著自身算力的提高和機(jī)器學(xué)習(xí)算法的優(yōu)化而不斷提升。
機(jī)器人的控制與操作涵蓋了運(yùn)動(dòng)控制和操作過程中的自主操作及遙控操作。近年來,智能化的機(jī)器人操控已成為行業(yè)當(dāng)中較為主流的技術(shù)。
比例-積分-微分控制(PID)、計(jì)算力矩控制(CTM)、魯棒控制(RCM)和自適應(yīng)控制(ACM)是機(jī)器人運(yùn)動(dòng)控制比較典型的方法,但由于它們的局限性(例如無法自我學(xué)習(xí)),傳統(tǒng)的機(jī)器人系統(tǒng)在復(fù)雜環(huán)境下的穩(wěn)定性、魯棒性和動(dòng)態(tài)性能都不盡如人意。近二十多年來,以神經(jīng)網(wǎng)絡(luò)、模糊邏輯和進(jìn)化計(jì)算為代表的人工智能理論與方法在機(jī)器人控制領(lǐng)域取得了較為顯著的成果。
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力和非線性映射能力對(duì)于優(yōu)化傳統(tǒng)的機(jī)器人控制模型有著重要的作用,應(yīng)用較多的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)有直接控制、自矯正控制和并聯(lián)控制等。
(1)直接控制:利用設(shè)計(jì)好的神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)能力,經(jīng)過一定次數(shù)的訓(xùn)練歸納出機(jī)器人運(yùn)動(dòng)的抽象方程。當(dāng)機(jī)器人運(yùn)動(dòng)與理想狀況發(fā)生偏差時(shí),神經(jīng)網(wǎng)絡(luò)直接給出優(yōu)化后機(jī)器人應(yīng)當(dāng)具有的動(dòng)力輸出,從而控制機(jī)器人合理運(yùn)動(dòng)。
(2)自矯正控制:使用訓(xùn)練度高的神經(jīng)網(wǎng)絡(luò)矯正系統(tǒng)的參數(shù)。該結(jié)構(gòu)采用在線方式根據(jù)發(fā)生變化的系統(tǒng)模型參數(shù)估計(jì)新參數(shù)值,并將該值輸出到控制器以調(diào)整系統(tǒng)的狀態(tài);其優(yōu)點(diǎn)是不必徹底解析系統(tǒng)結(jié)構(gòu)且參數(shù)估計(jì)較為準(zhǔn)確。
(3)并聯(lián)控制結(jié)構(gòu):通常有前饋型和反饋型兩種類型。其中,前饋型神經(jīng)網(wǎng)絡(luò)基于機(jī)器人的逆動(dòng)力特性,將常規(guī)控制器與網(wǎng)絡(luò)給出的驅(qū)動(dòng)力矩并行設(shè)置。當(dāng)該力矩大小適當(dāng)時(shí)系統(tǒng)誤差較小,此時(shí)常規(guī)控制器基本不發(fā)揮控制作用;反之,常規(guī)控制器將起到主導(dǎo)作用。而反饋型神經(jīng)網(wǎng)絡(luò)是基于控制器的控制,根據(jù)任務(wù)要求和實(shí)際場景的實(shí)時(shí)差異生成矯正力矩,使機(jī)器人處于應(yīng)有的運(yùn)動(dòng)狀態(tài)。
當(dāng)前機(jī)械制造與AI技術(shù)不斷融合,促進(jìn)了泛用性更強(qiáng)、智能交互能力更加顯著的服務(wù)型機(jī)器人的相關(guān)研究,相對(duì)于傳統(tǒng)的工業(yè)機(jī)器人而言該領(lǐng)域逐漸具有更高的研究熱度。根據(jù)服務(wù)機(jī)器人的應(yīng)用場景,機(jī)械手臂在其中扮演著重要的角色。典型任務(wù)主要包括實(shí)際環(huán)境中的目標(biāo)識(shí)別、目標(biāo)抓取及后續(xù)的精細(xì)操作任務(wù)。這類任務(wù)需要機(jī)器人能夠準(zhǔn)確識(shí)別目標(biāo)的形狀、姿態(tài)、抓取特征、抓取方式,并實(shí)時(shí)規(guī)劃機(jī)械手臂完成任務(wù)的具體方式。
機(jī)械手臂完成抓取任務(wù)的解決方式分為“分析法”和“經(jīng)驗(yàn)法”兩種類型?!胺治龇ā本哂休^為嚴(yán)格和典型的數(shù)學(xué)特征,由于其在模型建立、抓取穩(wěn)定性判據(jù)、指關(guān)節(jié)逆運(yùn)動(dòng)學(xué)等方面搜索的盲目性和求解優(yōu)化的困難,在機(jī)器人靈巧操作領(lǐng)域取得的成果有限。然而,“經(jīng)驗(yàn)法”在近二十年來獲得了較為顯著的突破。該方法基于大量的訓(xùn)練數(shù)據(jù),借助支持向量機(jī)等機(jī)器學(xué)習(xí)方法并注重泛化學(xué)習(xí)能力的提升,取得了良好的實(shí)踐效果。近年來,加之計(jì)算機(jī)視覺領(lǐng)域中深度學(xué)習(xí)的突破,卷積神經(jīng)網(wǎng)絡(luò)被應(yīng)用于目標(biāo)抓取特征的自主學(xué)習(xí),使得機(jī)械手臂實(shí)時(shí)抓取操作的要求得到了滿足。
另外,服務(wù)機(jī)器人操作任務(wù)的復(fù)雜度使得傳統(tǒng)機(jī)械手臂的運(yùn)動(dòng)軌跡規(guī)劃方法難以取得顯著的應(yīng)用成果,相對(duì)于五次多項(xiàng)式法和RRT等方法,當(dāng)前模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)得到了較多的關(guān)注。模仿學(xué)習(xí)是在大量人類專家決策數(shù)據(jù)的基礎(chǔ)上,將狀態(tài)和動(dòng)作作為網(wǎng)絡(luò)的輸入和輸出,經(jīng)過一系列的數(shù)據(jù)構(gòu)建和算法處理,以分類或回歸學(xué)習(xí)為手段得到最優(yōu)的輸出模型。該過程往往是在深度神經(jīng)網(wǎng)絡(luò)的協(xié)助下進(jìn)行的,而強(qiáng)化學(xué)習(xí)則是在此基礎(chǔ)上引入反饋機(jī)制以增強(qiáng)學(xué)習(xí)效果。得益于AI芯片和算法的發(fā)展,智能服務(wù)機(jī)器人與人交互和應(yīng)對(duì)復(fù)雜環(huán)境的能力有了顯著的提升。
機(jī)器人存在的意義在很大程度上可以說是為人類服務(wù),那么與人交互的過程是否順暢自然就稱為評(píng)估機(jī)器人智能水平的重要標(biāo)準(zhǔn)。當(dāng)前,人類主要通過語言、表情、動(dòng)作及與機(jī)器人配套的可穿戴設(shè)備實(shí)現(xiàn)與機(jī)器人的各種交互。當(dāng)然,人機(jī)交互的方式包含著巨大的可能性。機(jī)器人技術(shù)的變革不斷影響著人們的生活方式,而在人機(jī)交互過程中,AI技術(shù)因其與機(jī)器人技術(shù)的深度融合也在不斷進(jìn)步。
由于各種機(jī)器人在識(shí)別人類意圖的過程中會(huì)遇到各種困難,以各類可穿戴設(shè)備輔助機(jī)器人采集和分析人類的意圖來加強(qiáng)人機(jī)交互流暢性就成為十分可行的處理方式。這類場合下的可穿戴設(shè)備通常具有集成度高、識(shí)別精度高和通信能力強(qiáng)的特點(diǎn),設(shè)備中部署的計(jì)算機(jī)系統(tǒng)能夠持續(xù)采集必要的人機(jī)交互數(shù)據(jù)。包含了可穿戴設(shè)備的人機(jī)交互體系,往往能夠充分感知用戶的狀態(tài)數(shù)據(jù)、意圖及周邊環(huán)境,并結(jié)合使用目的適時(shí)增強(qiáng)用戶對(duì)外部世界的感知能力。當(dāng)前,可穿戴設(shè)備支持的人機(jī)交互經(jīng)過多年發(fā)展,已逐步拓展到民用娛樂、醫(yī)療和科研等領(lǐng)域。
在許多機(jī)器人的應(yīng)用場景中,自動(dòng)識(shí)別人類意圖并采取相應(yīng)行動(dòng)是評(píng)估機(jī)器人智能程度的重要指標(biāo),也是機(jī)器人為人類提供更大便利的基本要求,此類系統(tǒng)比單純接受語音指令并采取行動(dòng)的機(jī)器人更為復(fù)雜,其智能程度也更高。意圖理解任務(wù)通常發(fā)生在動(dòng)態(tài)的場景中,機(jī)器人需要充分感知?jiǎng)討B(tài)態(tài)勢,理解并預(yù)測當(dāng)前可能需要完成的任務(wù),實(shí)現(xiàn)無人類介入條件下的高度人機(jī)協(xié)作。在這個(gè)過程當(dāng)中,人處于核心地位,其表達(dá)出的意圖將決定機(jī)器人的行動(dòng)。除了感知語言外,機(jī)器人主要通過分析人類行為采取相應(yīng)的行動(dòng)。
在識(shí)別人類行為的過程中,可選用的參數(shù)較多,常用的一種方法是在分析大量人類動(dòng)作數(shù)據(jù)的基礎(chǔ)上,預(yù)測人體關(guān)節(jié)可能的位置,通過反復(fù)識(shí)別和預(yù)測的訓(xùn)練過程,得到具有一定實(shí)用性的預(yù)測模型,為人機(jī)交互提供幫助。由于深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展,當(dāng)前人類行為識(shí)別任務(wù)當(dāng)中研究的行為種類已達(dá)上千種。其中,基于LSTM深度神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,并引入視覺深度傳感器來分析人類運(yùn)動(dòng)過程中骨架運(yùn)動(dòng)數(shù)據(jù)的技術(shù)取得了較好的成效。但是,當(dāng)前各類相關(guān)應(yīng)用場景中,行為識(shí)別需要分析的數(shù)據(jù)量往往還較大,在實(shí)時(shí)處理短期數(shù)據(jù)方面還有待提升。另外,由于強(qiáng)化學(xué)習(xí)在掌握復(fù)雜操作技能方面的優(yōu)勢,采用強(qiáng)化學(xué)習(xí)的反復(fù)試錯(cuò)訓(xùn)練機(jī)器人的方式也被廣泛研究,在交互式機(jī)器人智能運(yùn)動(dòng)規(guī)劃中有著巨大的發(fā)展?jié)摿Α?/p>
由于集成電路技術(shù)、大數(shù)據(jù)技術(shù)和通信技術(shù)領(lǐng)域的顯著突破,人工智能技術(shù)在近年來呈現(xiàn)出爆發(fā)式發(fā)展的趨勢,無論從算法層面還是硬件設(shè)計(jì)層面都取得了豐碩的成果。機(jī)器人是人工智能應(yīng)用的典型領(lǐng)域,也因而發(fā)生了翻天覆地的變化。智能感知技術(shù)、智能導(dǎo)航與規(guī)劃技術(shù)、智能控制與操作以及智能交互等領(lǐng)域取得的進(jìn)展深刻影響著當(dāng)今人類的生產(chǎn)生活,在算法研究、神經(jīng)網(wǎng)絡(luò)訓(xùn)練和新應(yīng)用領(lǐng)域開發(fā)等方面,機(jī)器人技術(shù)都有著巨大的研究潛力和良好的發(fā)展前景。