亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Kinect傳感器的移動(dòng)機(jī)器人環(huán)境檢測(cè)及行為學(xué)習(xí)①

        2016-12-05 07:47:34勇盛棟梁
        高技術(shù)通訊 2016年1期
        關(guān)鍵詞:移動(dòng)機(jī)器人障礙物深度

        段 勇盛棟梁 于 霞

        ?

        基于Kinect傳感器的移動(dòng)機(jī)器人環(huán)境檢測(cè)及行為學(xué)習(xí)①

        段 勇②盛棟梁 于 霞

        (沈陽工業(yè)大學(xué)信息科學(xué)與工程學(xué)院 沈陽 110870)

        研究了一種基于深度圖像和強(qiáng)化學(xué)習(xí)算法的移動(dòng)機(jī)器人導(dǎo)航行為學(xué)習(xí)方法。該方法利用機(jī)器人裝配的Kinect傳感器檢測(cè)工作環(huán)境信息,然后對(duì)獲取的深度圖像數(shù)據(jù)和視頻圖像進(jìn)行處理、融合和識(shí)別,并由此構(gòu)建機(jī)器人任務(wù)學(xué)習(xí)的狀態(tài)空間,最終利用強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)移動(dòng)機(jī)器人的導(dǎo)航任務(wù)的自學(xué)習(xí)。該方法的有效性通過實(shí)驗(yàn)得到驗(yàn)證。實(shí)驗(yàn)表明,該方法能夠使機(jī)器人具有較強(qiáng)的環(huán)境感知能力,并能夠通過自學(xué)習(xí)的方式掌握行為能力。

        移動(dòng)機(jī)器人導(dǎo)航, Kinect傳感器, 深度圖像, 強(qiáng)化學(xué)習(xí)(RL)

        0 引 言

        機(jī)器人學(xué)習(xí)是指機(jī)器人利用自身配置的傳感器,通過與環(huán)境的不斷交互來獲取知識(shí)并掌握完成任務(wù)的能力,它是使機(jī)器人具有生物智能的一種有效方式,對(duì)于提高機(jī)器人的智能水平、自動(dòng)化程度以及對(duì)環(huán)境的適應(yīng)性具有重要意義。

        在未知環(huán)境中機(jī)器人進(jìn)行的任務(wù)學(xué)習(xí)包括環(huán)境感知、自學(xué)習(xí)方法以及如何應(yīng)用學(xué)習(xí)方法實(shí)現(xiàn)機(jī)器人的任務(wù)執(zhí)行等關(guān)鍵問題。其中機(jī)器人裝配的傳感器的感知能力是機(jī)器人進(jìn)行一切工作的基礎(chǔ)和前提條件,目前在移動(dòng)機(jī)器人導(dǎo)航領(lǐng)域應(yīng)用的傳感器主要包括:超聲測(cè)距傳感器、激光測(cè)距傳感器以及單目視覺、全景視覺、雙目視覺傳感器和3D激光攝像機(jī)等[1]。而近年來適用于移動(dòng)機(jī)器人應(yīng)用的新類型傳感器不斷出現(xiàn),其中Kinect傳感器的出現(xiàn)和應(yīng)用為機(jī)器人的研究提供了新的方法并受到了廣泛的關(guān)注[1-3]。Kinect是微軟公司于2010年推出的基于體感交互的傳感器設(shè)備,能夠?qū)崿F(xiàn)視頻圖像、深度數(shù)據(jù)、語音信號(hào)的獲取和處理,在人機(jī)交互、虛擬現(xiàn)實(shí)、語音識(shí)別、智能機(jī)器人等領(lǐng)域體現(xiàn)出了巨大的潛力[4-6]。Kinect傳感器能夠直接獲取彩色圖像數(shù)據(jù)和覆蓋區(qū)域的深度距離信息,因此與超聲、激光、單目視覺等常用傳感器相比能夠提供更為豐富的感知信息,同時(shí)也具有較好的使用和開發(fā)便利性,因此其研究和開發(fā)具有重要實(shí)用價(jià)值。有效的學(xué)習(xí)方法是機(jī)器人完成學(xué)習(xí)任務(wù)的關(guān)鍵。強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)是一種重要的機(jī)器學(xué)習(xí)方法[7],其學(xué)習(xí)目標(biāo)是實(shí)現(xiàn)狀態(tài)空間到動(dòng)作空間的最優(yōu)映射策略,這與反應(yīng)式移動(dòng)機(jī)器人導(dǎo)航方式有著天然的關(guān)聯(lián),因此已成為一種有效的機(jī)器人自學(xué)習(xí)方法[8-10]?;诖耍狙芯拷o出了一種基于Kinect傳感器環(huán)境信息感知的移動(dòng)機(jī)器人導(dǎo)航任務(wù)自學(xué)習(xí)方法。該方法首先對(duì)Kinect獲取的環(huán)境信息進(jìn)行處理、識(shí)別和理解,再根據(jù)導(dǎo)航任務(wù)需求,應(yīng)用強(qiáng)化學(xué)習(xí)方法來實(shí)現(xiàn)機(jī)器人的行為動(dòng)作學(xué)習(xí)。本研究通過實(shí)驗(yàn)測(cè)試了機(jī)器人傳感器對(duì)環(huán)境的感知能力,并驗(yàn)證了機(jī)器人執(zhí)行導(dǎo)航任務(wù)的有效性。

        1 Kinect系統(tǒng)原理及感知信息

        1.1 Kinect傳感器介紹

        Kinect傳感器如圖1所示,數(shù)據(jù)獲取器件從左至右分別是紅外激光發(fā)射器、彩色攝像頭和紅外接收器,分別用來獲取普通視頻圖像和深度數(shù)據(jù)[11,12]。

        圖1 自主移動(dòng)機(jī)器人及Kinect傳感器

        1.2 環(huán)境信息的獲取與處理

        Kinect傳感器獲取同一室內(nèi)場(chǎng)景的視頻圖像和深度數(shù)據(jù)映射圖像如圖2所示。為了方便觀察和利用深度數(shù)據(jù),將其進(jìn)行可視化處理,每個(gè)像素的深度數(shù)據(jù)映射到顏色空間,顯示結(jié)果見圖2(b),圖中不同灰度對(duì)應(yīng)不同的深度距離數(shù)值。圖中黑色像素用來標(biāo)識(shí)傳感器不能正確檢測(cè)的深度值,出現(xiàn)該問題的原因來自于Kinect傳感器本身的局限性。造成這些無效深度數(shù)據(jù)出現(xiàn)的情況主要包括環(huán)境中的凹形物體、物體邊緣、特殊材質(zhì)表面物體以及光照條件等。

        無效深度像素通常會(huì)成塊出現(xiàn),因此常規(guī)的圖像去噪方法難以解決該問題?;诖?,Silbeman等提出利用條件隨機(jī)場(chǎng)模型深度表示區(qū)域來實(shí)現(xiàn)室內(nèi)場(chǎng)景分割,以此消除Kinect采集的無效數(shù)據(jù)[13]。文獻(xiàn)[14]也給出了基于雙邊聯(lián)合濾波方法來填補(bǔ)深度圖像中的無效數(shù)據(jù)空洞。但以上方法需要較為復(fù)雜的運(yùn)算,將會(huì)影響機(jī)器人視覺等應(yīng)用領(lǐng)域?qū)μ幚韺?shí)時(shí)性的要求。因此我們?cè)跐M足需求的情況下折衷考慮性能和效率,使用無效數(shù)據(jù)相鄰區(qū)域同一行數(shù)據(jù)的均值來添補(bǔ)無效數(shù)據(jù)的方法,同時(shí)為了防止無效數(shù)據(jù)出現(xiàn)在邊緣的情況,使用水平雙方向進(jìn)行掃描,添補(bǔ)無效數(shù)據(jù)的深度映射圖像,如圖2(c)所示。

        圖2 Kinect傳感器數(shù)據(jù)采集和處理

        2 基于Kinect傳感器的機(jī)器人系統(tǒng)結(jié)構(gòu)

        研究實(shí)驗(yàn)平臺(tái)使用博創(chuàng)公司的Voyager Ⅱ型移動(dòng)機(jī)器人,如圖1所示。移動(dòng)機(jī)器人導(dǎo)航問題可以認(rèn)為是機(jī)器人能夠根據(jù)傳感器獲取的環(huán)境信息,完成在有障礙物的環(huán)境中的特定任務(wù)。將自主移動(dòng)機(jī)器人系統(tǒng)分為傳感器、主控系統(tǒng)、運(yùn)動(dòng)機(jī)構(gòu)三層,Kinect傳感器層用于感知環(huán)境信息,將獲取的視頻圖像和深度數(shù)據(jù)傳遞給機(jī)器人主控系統(tǒng);機(jī)器人主控系統(tǒng)進(jìn)行感知信息融合處理以實(shí)現(xiàn)障礙物的檢測(cè)以及目標(biāo)物的定位,然后基于感知信息進(jìn)行導(dǎo)航任務(wù)學(xué)習(xí),學(xué)習(xí)后建立導(dǎo)航策略,再將決策指令發(fā)送給底層運(yùn)動(dòng)結(jié)構(gòu);運(yùn)動(dòng)機(jī)構(gòu)控制機(jī)器人執(zhí)行避障、接近目標(biāo)等行為動(dòng)作。

        機(jī)器人檢測(cè)的環(huán)境信息主要包括完全未知的障礙物和具有已知顏色特征的目標(biāo)物。未知障礙物是機(jī)器人室內(nèi)工作環(huán)境的家具、墻壁等物體,已知特征目標(biāo)為機(jī)器人需要跟蹤的目標(biāo)物,

        基于Kinect感知信息進(jìn)行多障礙物檢測(cè)方法如下:(1)建立環(huán)境地面模型,檢測(cè)多障礙物。由于Kinect獲取的深度數(shù)據(jù)反映了物體表面與傳感器的距離信息,因此當(dāng)傳感器俯仰角度不變的情況下,地面距離也保持不變。事先采集無障礙深度數(shù)據(jù)圖像作為地面模型,然后將檢測(cè)深度數(shù)據(jù)與地面模型進(jìn)行幀差,可初步檢測(cè)多障礙物。(2)根據(jù)Kinect測(cè)距原理和深度數(shù)據(jù)特性,利用障礙物深度圖像的邊緣特征和距離特征進(jìn)行障礙物的分割;(3)對(duì)Kinect深度傳感器進(jìn)行標(biāo)定(類似與針孔成像模型),利用深度數(shù)據(jù)圖像的像素與空間位置關(guān)系確定分割障礙物的位置信息。(4)根據(jù)實(shí)際要求設(shè)定障礙物距離閾值,確定障礙物所在機(jī)器人視野中的區(qū)域,實(shí)現(xiàn)障礙物的檢測(cè)。檢測(cè)過程及結(jié)果如圖3所示,檢測(cè)后可獲得障礙物的距離信息和與機(jī)器人的相對(duì)方位信息。

        圖3 基于Kinect傳感器的障礙物檢測(cè)

        此外,在研究中選擇小球作為機(jī)器人跟蹤的可移動(dòng)目標(biāo),基于Kinect傳感器的目標(biāo)物檢測(cè)方法如下:(1)首先注冊(cè)視頻圖像和深度數(shù)據(jù)圖像,使得兩者在像素級(jí)上對(duì)應(yīng)。注冊(cè)后可以實(shí)現(xiàn)視頻數(shù)據(jù)和深度數(shù)據(jù)的信息融合,從而處理復(fù)雜機(jī)器視覺任務(wù);(2)根據(jù)目標(biāo)物體的顏色特征進(jìn)行搜索和分割,包括顏色采集、確定顏色分割閾值、區(qū)域連通、像素搜索等操作,具體實(shí)現(xiàn)方法可參考之前的研究工作[15];(3)基于二維圖像實(shí)現(xiàn)目標(biāo)的分割,但要確定目標(biāo)的三維空間定位,需要進(jìn)行攝像機(jī)標(biāo)定和幾何關(guān)系計(jì)算等復(fù)雜操作[15]。而Kinect傳感器為目標(biāo)空間定位提供了方便且精確的方法,只需根據(jù)視頻圖像獲取的目標(biāo)物像素坐標(biāo)位置,即可對(duì)應(yīng)深度數(shù)據(jù)圖像直接得到目標(biāo)位的距離信息。其檢測(cè)過程及結(jié)果如圖4所示,檢測(cè)后可以獲得目標(biāo)物的距離信息和與機(jī)器人的相對(duì)方位信息。

        圖4 基于Kinect傳感器的目標(biāo)物檢測(cè)

        3 移動(dòng)機(jī)器人導(dǎo)航行為自學(xué)習(xí)

        強(qiáng)化學(xué)習(xí)是一種基于感知環(huán)境信息獲取機(jī)器人導(dǎo)航行為能力的有效方法。它只需定義機(jī)器人的學(xué)習(xí)任務(wù),再將機(jī)器人置于未知環(huán)境中通過自身的傳感器來獲取環(huán)境狀態(tài),通過機(jī)器人與環(huán)境的交互來積累成功和失敗經(jīng)驗(yàn),以試錯(cuò)的方式不斷提高機(jī)器人的行為能力。本節(jié)將討論使用強(qiáng)化學(xué)習(xí)方法來學(xué)習(xí)移動(dòng)機(jī)器人的躲避障礙物和接近目標(biāo)行為。

        3.1 強(qiáng)化學(xué)習(xí)基本理論

        定義智能體的狀態(tài)集合為S={st|st∈S},它執(zhí)行的動(dòng)作集合表示為A={at|at∈A}。在t時(shí)刻,根據(jù)智能體的狀態(tài)st,選擇并執(zhí)行動(dòng)作at,導(dǎo)致智能體的狀態(tài)轉(zhuǎn)移到st+1,同時(shí)從環(huán)境得到強(qiáng)化信號(hào)rt,它對(duì)動(dòng)作at的效能進(jìn)行評(píng)價(jià)。強(qiáng)化學(xué)習(xí)的任務(wù)是得到一個(gè)映射策略π:S→A。

        在強(qiáng)化學(xué)習(xí)算法中,Q學(xué)習(xí)是最重要也是使用最廣泛的一種算法,它通過定義函數(shù)Q(s,a)來評(píng)估狀態(tài)相對(duì)應(yīng)的各個(gè)動(dòng)作。Q學(xué)習(xí)算法的基本形式為[2,5]

        -Q(st,at))·e(st,at)

        (1)

        其中,ηt為學(xué)習(xí)率,γ為折扣因子。e(st,at)定義為資格跡[7],它主要用于解決強(qiáng)化學(xué)習(xí)的信度分配問題。

        3.2 基于Kinect感知信息的強(qiáng)化學(xué)習(xí)方法

        本文應(yīng)用表格型Q學(xué)習(xí)方法來使機(jī)器人學(xué)習(xí)避障和接近目標(biāo)行為的學(xué)習(xí)。表格型Q學(xué)習(xí)是將狀態(tài)空間和動(dòng)作空間進(jìn)行離散化,再由離散的狀態(tài)變量和動(dòng)作變量構(gòu)成查找表格,表格中的值為對(duì)應(yīng)的狀態(tài)-動(dòng)作對(duì)的評(píng)估值Q。根據(jù)式(1)實(shí)現(xiàn)學(xué)習(xí)過程中Q值的更新,在學(xué)習(xí)結(jié)束后選擇具有最大Q值的動(dòng)作和對(duì)應(yīng)的狀態(tài)變量形成映射策略。

        (2)

        式中d為障礙物與機(jī)器人的距離,該值可以通過第3節(jié)分割的障礙物所對(duì)應(yīng)的深度信息得到。在距離垂直劃分中,對(duì)于沒有障礙和距離劃分為“遠(yuǎn)”的機(jī)器人避障策略是相同的。

        通過對(duì)特征目標(biāo)的識(shí)別和定位可以得到目標(biāo)相對(duì)于機(jī)器人的角度信息和距離信息,獲取后機(jī)器人可形成記憶位置信息,將其定義為狀態(tài)變量str和std。再根據(jù)機(jī)器人實(shí)際工作的需求將其進(jìn)行適當(dāng)?shù)碾x散化。

        結(jié)合避障和接近目標(biāo)兩種行為,強(qiáng)化學(xué)習(xí)每個(gè)狀態(tài)變量可以定義為:st={sl,sc,sr,str,std},分別用來表示機(jī)器人Kinect感知范圍內(nèi)左、中、右三個(gè)方向障礙物的距離狀態(tài)以及目標(biāo)的方位和距離信息,將其可能出現(xiàn)的各分量組合構(gòu)成狀態(tài)對(duì)應(yīng)序號(hào)編碼,并構(gòu)成表格型Q學(xué)習(xí)的離散狀態(tài)。

        圖5 機(jī)器人行為學(xué)習(xí)狀態(tài)劃分

        Q學(xué)習(xí)的動(dòng)作空間由移動(dòng)機(jī)器人運(yùn)行信息給出。移動(dòng)機(jī)器人采用左右輪獨(dú)立驅(qū)動(dòng)方式,其旋轉(zhuǎn)半徑范圍可從零(原地打轉(zhuǎn))到無限大(直線運(yùn)動(dòng))。機(jī)器人的運(yùn)動(dòng)包括兩個(gè)部分:車體中心的平動(dòng)和繞小車中心的轉(zhuǎn)動(dòng),機(jī)器人的基本運(yùn)動(dòng)控制單元為左右輪速(左右驅(qū)動(dòng)電機(jī)轉(zhuǎn)速),表示為vl和vr。定義的Q學(xué)習(xí)動(dòng)作變量為“宏動(dòng)作”,具體分為直行前進(jìn)、左/右小轉(zhuǎn)、左/右大轉(zhuǎn)、原地左/右轉(zhuǎn)向,如圖6所示。每個(gè)宏動(dòng)作通過給定的不同的左右輪速來實(shí)現(xiàn)。

        圖6 強(qiáng)化學(xué)習(xí)動(dòng)作變量

        Q學(xué)習(xí)最重要的學(xué)習(xí)依據(jù)是強(qiáng)化信號(hào)函數(shù)(回報(bào)),它代表在一定狀態(tài)下選擇并執(zhí)行動(dòng)作獲得的立即評(píng)估回報(bào)。對(duì)于機(jī)器人所要學(xué)習(xí)任務(wù)需要在避障的同時(shí)接近目標(biāo),對(duì)于避障行為,希望機(jī)器人遠(yuǎn)離障礙物,因此機(jī)器人越接近障礙物,越應(yīng)該得到懲罰(負(fù)回報(bào));相反,機(jī)器人應(yīng)該獲得獎(jiǎng)勵(lì)(正回報(bào))。對(duì)于接近目標(biāo)行為,機(jī)器人接近目標(biāo)物應(yīng)獲得獎(jiǎng)勵(lì),而遠(yuǎn)離目標(biāo)則應(yīng)得到懲罰。綜合兩種行為需求,定義Q學(xué)習(xí)的強(qiáng)化信號(hào)(回報(bào))函數(shù)如下:

        (3)

        4 實(shí)驗(yàn)結(jié)果及分析

        基于以上研究工作,對(duì)Kinect傳感器環(huán)境感知和利用強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)移動(dòng)機(jī)器人導(dǎo)航任務(wù)學(xué)習(xí)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)平臺(tái)采用VoyagerII自主機(jī)器人,系統(tǒng)開發(fā)使用Windows操作系統(tǒng)環(huán)境下C++語言的開發(fā)環(huán)境。系統(tǒng)操作界面如圖7所示,可以顯示傳感器采集的信息、處理結(jié)果、定位信息等,能夠?qū)崿F(xiàn)各種處理的操作,機(jī)器人的行為學(xué)習(xí)和導(dǎo)航控制等。

        圖7 系統(tǒng)操作界面

        實(shí)驗(yàn)環(huán)境為實(shí)驗(yàn)室的室內(nèi)場(chǎng)地,室內(nèi)環(huán)境的墻壁,障礙物和具有顏色特征的目標(biāo)球構(gòu)成基本的實(shí)驗(yàn)場(chǎng)景,通過改變障礙物和目標(biāo)物的位置來得到多個(gè)變化的實(shí)驗(yàn)環(huán)境。

        4.1 移動(dòng)機(jī)器人環(huán)境信息檢測(cè)實(shí)驗(yàn)

        首先利用機(jī)器人裝配的Kinect傳感器進(jìn)行環(huán)境檢測(cè)實(shí)驗(yàn)并同常用超聲傳感器(聲納)檢測(cè)結(jié)果進(jìn)行比較。機(jī)器人通常配置多個(gè)聲納傳感器,每個(gè)傳感器按照一定的距離間隔分別安裝在機(jī)器人同一水平的圓周上,見圖1。首先使用超聲進(jìn)行環(huán)境檢測(cè),環(huán)境中的障礙物如圖8所示,該障礙物正面接觸面積狹窄,同時(shí)下部還有一較低高度的橫梁,這類物體在室內(nèi)環(huán)境中十分常見。圖9為機(jī)器人超聲傳感器的檢測(cè)結(jié)果,圖中以標(biāo)靶圖的方式標(biāo)識(shí)出了機(jī)器人前方聲納的測(cè)距數(shù)據(jù),顯示了傳感器并沒有完整地檢測(cè)出環(huán)境中的障礙物。說明聲納雖然檢測(cè)出圖中靠左側(cè)的立柱,但由于聲納測(cè)距角度分辨率較低,無法確定寬度較窄障礙物的具體方位信息。

        圖8 機(jī)器人工作環(huán)境中的障礙物

        圖9 基于超聲的障礙物檢測(cè)結(jié)果

        同時(shí),使用Kinect傳感器對(duì)于同一環(huán)境進(jìn)行檢測(cè),Kinect傳感器獲取的深度數(shù)據(jù)進(jìn)行處理,分割出該障礙物,如圖10所示??梢訩inect傳感器能夠較為完整準(zhǔn)確地實(shí)現(xiàn)復(fù)雜障礙物的檢測(cè),相對(duì)于機(jī)器人常用的超聲傳感器具有更強(qiáng)的感知能力和適用性。

        圖10 基于Kinect傳感器障礙物檢測(cè)結(jié)果

        此外,本研究利用Kinect傳感器的目標(biāo)定位方法,即通過融合自身獲取的彩色圖像和深度數(shù)據(jù)來實(shí)現(xiàn),首先根據(jù)目標(biāo)顏色特征進(jìn)行分割,然后在像素級(jí)對(duì)應(yīng)深度數(shù)據(jù)圖像來獲得其距離信息。在完成目標(biāo)分割后就能夠直接從深度數(shù)據(jù)中得到目標(biāo)的相對(duì)距離值。實(shí)驗(yàn)中,分別進(jìn)行10次測(cè)量,每次改變目標(biāo)物(小球)和機(jī)器人的相對(duì)位置,求得多次定位相對(duì)誤差的平均值為1.1%,定位距離最大相對(duì)誤差為1.8%。

        由于各傳感器的精度與工作距離有關(guān),因此本文采用相對(duì)誤差來反映測(cè)距精度,實(shí)驗(yàn)中作為標(biāo)準(zhǔn)的精確數(shù)據(jù)通過單點(diǎn)激光測(cè)距儀(SW-40,精度±2mm)獲得。

        4.2 移動(dòng)機(jī)器人導(dǎo)航任務(wù)學(xué)習(xí)實(shí)驗(yàn)

        強(qiáng)化學(xué)習(xí)后,基于最終的Q表確定狀態(tài)變量和動(dòng)作變量的最優(yōu)映射策略,并用其來控制機(jī)器人執(zhí)行導(dǎo)航任務(wù)。圖11為在學(xué)習(xí)過程中,某一狀態(tài)—?jiǎng)幼鲗?duì)應(yīng)的根據(jù)最大Q值進(jìn)行歸一化后的Q值變化曲線,表明了回報(bào)函數(shù)作用于Q值的更新,并最終使Q值到達(dá)最大值,實(shí)現(xiàn)了該狀態(tài)到動(dòng)作的最優(yōu)映射策略。

        圖11 強(qiáng)化學(xué)習(xí)中某一Q值變化曲線

        圖12為在應(yīng)用學(xué)習(xí)策略控制機(jī)器人在仿真環(huán)境中的導(dǎo)航運(yùn)行軌跡,其中對(duì)機(jī)器人運(yùn)動(dòng)和障礙物位置進(jìn)行模擬,目標(biāo)位置設(shè)定為已知??梢姍C(jī)器人能夠在較為復(fù)雜的環(huán)境中完成避障且接近目標(biāo)。

        圖12 機(jī)器人導(dǎo)航軌跡

        此外,我們使用實(shí)體移動(dòng)機(jī)器人進(jìn)行實(shí)驗(yàn),通過改變目標(biāo)物的位置來得到多組目標(biāo)物的位置信息,其位置信息來自于上節(jié)的識(shí)別結(jié)果。其位置信息坐標(biāo)分別為:(3.55m, 7.10m), (1.53m, 6.76m),(5.32m, 6.81m)。然后分別進(jìn)行機(jī)器人導(dǎo)航實(shí)驗(yàn),圖13顯示了其中一組的實(shí)體移動(dòng)機(jī)器人在工作環(huán)境下的運(yùn)行情況,可見機(jī)器人可以按照較為優(yōu)化的路徑無碰撞地到達(dá)目標(biāo)。

        圖13 移動(dòng)機(jī)器人導(dǎo)航運(yùn)行過程

        本文對(duì)于由障礙物和目標(biāo)物定義的強(qiáng)化學(xué)習(xí)離散狀態(tài)空間劃分沒有過于精細(xì),主要原因是由于機(jī)器人車體、障礙物和目標(biāo)均具有一定的體積,特別是機(jī)器人接近時(shí)物體在圖像中會(huì)有較大的比例,因此會(huì)得到“遠(yuǎn)粗近細(xì)”的機(jī)器人控制效果,能夠滿足機(jī)器人工作的要求。此外,若劃分過細(xì)也會(huì)使得對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)狀態(tài)空間過大,影響學(xué)習(xí)效率,引起維數(shù)災(zāi)難問題。

        5 結(jié) 論

        感知系統(tǒng)是機(jī)器人執(zhí)行一切工作任務(wù)的基礎(chǔ),也是決定自主機(jī)器人智能程度的關(guān)鍵,Kinect傳感器的產(chǎn)生和應(yīng)用為移動(dòng)機(jī)器人了解環(huán)境信息提供了更為有效、便捷的途徑?;诖?,本文研究了Kinect傳感器在移動(dòng)機(jī)器人領(lǐng)域的應(yīng)用問題,給出了障礙物和目標(biāo)物的檢測(cè)及定位方法,彌補(bǔ)了傳統(tǒng)超聲傳感器和視覺傳感器在機(jī)器人環(huán)境感知方面的局限和不足。此外,本文提出了利用Kinect感知信息并基于強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人復(fù)雜任務(wù)學(xué)習(xí)方法,該方法能夠在沒有專家知識(shí)和精確環(huán)境模型的條件下,利用傳感器感知環(huán)境信息,通過機(jī)器人自學(xué)習(xí)來掌握行為動(dòng)作能力。因此,研究工作能夠有效地提高機(jī)器人的智能水平、學(xué)習(xí)能力和環(huán)境的適應(yīng)性,同時(shí)也能夠進(jìn)一步拓展到其他復(fù)雜任務(wù)的學(xué)習(xí)中。

        [ 1]StoyanovT,MojtahedzadehR,AndreassonH,etal.Comparativeevaluationofrangesensoraccuracyforindoormobileroboticsandautomatedlogisticsapplications.RoboticsandAutonomousSystems, 2013, 61: 1094-1105

        [ 2] 楊東方,王仕成,劉華平等. 基于Kinect系統(tǒng)的場(chǎng)景建模與機(jī)器人自主導(dǎo)航. 機(jī)器人,2012, 34(5):281-589

        [ 3]TolgyessyM,HubinskyP.TheKinectsensorinroboticseducation.In:Proceedingsofthe2ndRoboticsinEducation,Vienna,Austria, 2011. 143-146

        [ 4] 劉鑫,許華榮,胡占義. 基于GPU和Kinect的快速物體重建. 自動(dòng)化學(xué)報(bào),2012,38(8): 1288-1297

        [ 5]HanJG,ShaoL,XuD,etal.EnhancedcomputervisionwithMicrosoftKinectsensor:areview.IEEETransactionsonCybernetics, 2013, 43(5): 1318-1334

        [ 6] 羅元,謝彧,張毅. 基于Kinect傳感器的智能輪椅手勢(shì)控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn). 機(jī)器人,2012,34(1):110-113,119

        [ 7]SuttonRS,BartoAG.Reinforcementlearning:anintroduction.Cambridge:MITPress, 1998

        [ 8]McPartlandM,GallagherM.Reinforcementlearninginfirstpersonshootergames.IEEETransactionsonComputationalIntelligenceandAIinGames, 2011, 3 (1): 43-56

        [ 9]ChenCL,LiHX,DongDY.Hybridcontrolforrobotnavigation—ahierarchicalQ-learningalgorithm.IEEERobotics&AutomationMagazine, 2008, 15 (2): 37-47

        [10]YamaguchiA,Takamatsu,OgasawaraT.OCOB:actionspaceforreinforcementlearningofhighDoFrobots.AutonomousRobots, 2013, 34(4): 327-346

        [11] 余濤.Kinect應(yīng)用開發(fā):用最自然的方式與機(jī)器對(duì)話. 北京:機(jī)械工業(yè)出版社,2013

        [12]KhoshelhamK,ElberinkSO.AccuracyandresolutionofKinectdepthdataforindoormappingapplication.Sensors, 2012, (12): 1437-1454

        [13]SilbermanN,FergusR.Indoorscenesegmentationusingastructuredlightsensor.In:ProceedingsoftheIEEEInternationalConferenceonComputerVisionWorkshops,Barcelona,Spain, 2011. 601-608

        [14]CamplaniM,SalgadoL.Efficientspatio-temporalholefillingstrategyforKinectdepthmaps.Is&t/spieElectronicImaging, 2012, 8290(9): 841-845

        [15] 段勇,徐心和. 自主足球機(jī)器人視覺系統(tǒng)結(jié)構(gòu)及關(guān)鍵技術(shù)研究. 東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2006, 27(1):9-12

        doi:10.3772/j.issn.1002-0470.2016.01.003

        Mobile robot environment detection and behavior learning based on Kinect sensor

        DuanYong,ShengDongliang,YuXia

        (SchoolofInformationScienceandEngineering,ShenyangUniversityofTechnology,Shenyang110870)

        Abehaviorlearningalgorithmformobilerobotnavigationbasedondepthimagesandreinforcementlearningisproposed.ThealgorithmusestheKinectsensoronamobilerobottocapturetheenvironmentaldataoftherobot,then,processes,fusesandidentifiesthedataofdepthimagesandvideoimagesamongthemtoestablishthestatespaceforrobotlearning,andfinally,usesthereinforcementlearningmethodtoimplementthemobilerobot’sself-learningofnavigationtasks.Theeffectivenessofproposedalgorithmwasverifiedbyexperiment.Theexperimentalresultsshowthatthemethodcanmakeamobilerobotpossesthestrongerabilityofperceivingenvironmentsandcapacityofmasteringbehaviorsbyself-learning.

        mobilerobotnavigation,Kinectsensor,depthimage,reinforcementlearning(RL)

        ① 國家自然科學(xué)基金(60905054),遼寧省高等學(xué)校優(yōu)秀科技人才支持計(jì)劃(LR2015045)和遼寧省自然科學(xué)基金(2015020010)資助項(xiàng)目。

        2015-09-20)

        10.3772/j.issn.1002-0470.2016.01.002

        ② 男,1978年生,博士,副教授;研究方向:智能機(jī)器人,計(jì)算機(jī)視覺,機(jī)器學(xué)習(xí)等;聯(lián)系人,E-mail: duanyong0607@163.com(

        猜你喜歡
        移動(dòng)機(jī)器人障礙物深度
        移動(dòng)機(jī)器人自主動(dòng)態(tài)避障方法
        深度理解一元一次方程
        高低翻越
        SelTrac?CBTC系統(tǒng)中非通信障礙物的設(shè)計(jì)和處理
        深度觀察
        深度觀察
        深度觀察
        基于Twincat的移動(dòng)機(jī)器人制孔系統(tǒng)
        極坐標(biāo)系下移動(dòng)機(jī)器人的點(diǎn)鎮(zhèn)定
        基于引導(dǎo)角的非完整移動(dòng)機(jī)器人軌跡跟蹤控制
        国内自拍愉拍免费观看| 国产精品亚洲国产| 老熟妇高潮喷了╳╳╳| 亚洲欧洲一区二区三区波多野| av高清视频在线麻豆免费观看| 国产av在线观看久久| 超清纯白嫩大学生无码网站| 女人夜夜春高潮爽a∨片| 99久久亚洲国产高清观看| 亚洲成熟中老妇女视频| 无码人妻精品一区二区三区夜夜嗨| 米奇7777狠狠狠狠视频影院| 日韩A∨精品久久久久| 亚洲av毛片成人精品| 亚洲综合自拍偷拍一区| 国产精品二区一区二区aⅴ污介绍| 国产亚洲精品aaaaaaa片| 国产精品久久久久影视不卡| 日韩午夜三级在线视频| 亚洲午夜av久久久精品影院色戒 | 亚洲色大成网站www永久一区 | 性久久久久久| 精品爆乳一区二区三区无码av| 亚洲色四在线视频观看| 丝袜美足在线视频国产在线看| 久久久久亚洲精品无码网址蜜桃| 国内少妇自拍区免费视频| 亚洲国产综合性感三级自拍 | 日本中文字幕官网亚洲| 亚洲人成网线在线播放va蜜芽| 免费人成再在线观看网站| 资源在线观看视频一区二区| 国产亚洲精品色婷婷97久久久| 亚洲国产另类精品| 亚洲AV无码专区国产H小说| 久久久亚洲精品蜜臀av| 日本久久久免费观看视频| 久久久老熟女一区二区三区| 精品国产av无码一道| 午夜一区二区三区免费观看| 亚洲av综合av一区|