于汝清 劉 帥 付奕銘
警犬訓(xùn)練中獎勵手段的相關(guān)理論探究
于汝清 劉 帥 付奕銘
為了更好地服務(wù)實訓(xùn),本文將獎勵手段按照定義、在警犬訓(xùn)練中的地位、獎勵手段特點、形式組成、劃分標(biāo)準(zhǔn)、運用必要性以及不同形式獎勵手段的有機結(jié)合等七個方面進行分別論述,對警犬訓(xùn)練中獎勵手段的相關(guān)理論進行探究。
獎勵手段是指訓(xùn)導(dǎo)員或者助訓(xùn)員為加速培養(yǎng)和鞏固犬的能力,對犬服從指揮做出正確動作進行正強化的手段。
獎勵手段在警犬訓(xùn)練當(dāng)中至關(guān)重要,常常伴隨著整個訓(xùn)練的始終。它是使犬形成條件反射、對訓(xùn)導(dǎo)員建立依戀性、使犬樂于接受訓(xùn)練、使犬建立自信心、調(diào)整緩和犬神經(jīng)活動狀態(tài)等環(huán)節(jié)中重要的、必不可少的手段。牢固掌握和正確地運用獎勵手段,是一名合格的訓(xùn)導(dǎo)員應(yīng)當(dāng)具備的基本能力,也是警犬能力提高的必要條件。
獎勵手段具有獎勵形式多樣化、應(yīng)注意細節(jié)多、運用時應(yīng)因犬而異、因科目而異和因時而異的特點。
(一)獎勵形式多樣化,應(yīng)注意細節(jié)多
多樣化是指獎勵手段分為獎食、撫拍、游散、口令“好”、銜取五種獎勵方式。應(yīng)注意細節(jié)多是指這五種獎勵方式各自還可以細化出很多運用細節(jié),需要訓(xùn)導(dǎo)員嚴(yán)格把握。
(二)運用時應(yīng)因犬而異
犬存在著個體差異和犬種差異,不同犬所需要的獎勵手段和因素是不同的。
(三)運用時應(yīng)因科目而異
獎勵手段的幾種獎勵形式均不是可以通用于任何一個科目的,我們應(yīng)根據(jù)科目的不同選取最佳的獎勵手段。
(四)運用時應(yīng)因時而異
每一天的不同訓(xùn)練時間段、犬的不同生長發(fā)育時期、訓(xùn)練同一科目的不同時期,犬所需要的最佳獎勵手段都是不同的。
獎勵手段的形式通常包括獎食獎勵手段、撫拍獎勵手段、游散獎勵手段、口令“好”獎勵手段、銜取獎勵手段等能起到強化犬的正確行為作用的手段。這些手段均是通過使犬的神經(jīng)中樞產(chǎn)生興奮來達到獎勵效果的。
(一)獎食獎勵手段
食物對于犬具有重要的生物學(xué)意義,易于引起犬的食欲,富有引誘性,能夠使犬的味覺中樞產(chǎn)生興奮。給予犬獎食可以使犬在食欲上得到滿足,從而起到對犬的獎勵作用。
(二)撫拍獎勵手段
撫拍能夠使犬的觸覺中樞產(chǎn)生興奮,使犬得到一種愛撫、舒適的感覺,同時也能使犬感覺到訓(xùn)導(dǎo)員對自己的安慰,從而起到對犬的獎勵作用。
(三)游散獎勵手段
令犬游散可以滿足犬的自由反射和游戲欲望。在較長時間的訓(xùn)練當(dāng)中,由于行動受到約束或者由于作業(yè)負擔(dān)而感到緊張時,犬非常渴望自由。因此,在犬完成某一動作或科目后,令其游散,犬往往會感到非常愉快舒暢,這樣既能起到獎勵犬的作用,同時還能使犬神經(jīng)活動的緊張狀態(tài)得到緩和,對繼續(xù)訓(xùn)練很有益處。
(四)口令“好”獎勵手段
口令“好”是需要結(jié)合其它非條件性獎勵手段,多次重復(fù)結(jié)合,使犬建立某些條件反射后,犬才能對口令“好”產(chǎn)生興奮反應(yīng),從而起到獎勵作用。
(五)“響片”獎勵手段
“響片”是指通過手指按壓能夠產(chǎn)生清脆“卡塔”聲響的小型訓(xùn)練器械。使用原理等同于口令“好”獎勵,也是需要結(jié)合其它非條件性獎勵手段,多次重復(fù)結(jié)合,使犬建立某些條件反射后,犬才能對 “響片”的“卡塔”聲產(chǎn)生興奮反應(yīng),從而起到獎勵作用。
(六)銜取獎勵手段
銜取獎勵手段對于多數(shù)犬來說是一種獵取欲望的追求和滿足,能引起其神經(jīng)活動過程產(chǎn)生興奮。因此,在犬做出正確行為動作后,給予其銜取物,能使犬產(chǎn)生興奮反應(yīng),從而起到獎勵作用。
(一)條件性獎勵手段和非條件性獎勵手段
根據(jù)是否需要后天培養(yǎng)才能起到獎勵效果,可將獎勵手段分為條件性獎勵手段和非條件性獎勵手段。條件性獎勵手段是指必須通過某種形式和內(nèi)容的后天培養(yǎng)才能起到獎勵效果的手段,包括口令“好”獎勵手段,以及類似口令“好”的信號獎勵手段,如“響片”;非條件性獎勵手段是指不需要后天訓(xùn)練培養(yǎng)、犬與生俱來的、一旦運用就能起到獎勵作用的手段,獎食、撫拍、游散、銜取是非條件性獎勵手段。
(二)一般性獎勵手段和結(jié)束性獎勵手段
根據(jù)獎勵效果對訓(xùn)練產(chǎn)生的影響,可將獎勵手段分為一般性獎勵手段和結(jié)束性獎勵手段。在通常情況下,不影響犬的作業(yè)過程的獎勵手段稱為一般性獎勵手段;一旦運用就意味著訓(xùn)練結(jié)束的獎勵手段稱為結(jié)束性獎勵手段。例如,在訓(xùn)練犬追蹤時,犬按照布置的跡線低頭嗅認時,給予犬口令“好”獎勵或者適度的撫拍獎勵,不會影響其繼續(xù)嗅認,此時口令“好”和適度的撫拍獎勵是一般性獎勵手段;當(dāng)犬按照布置的跡線完成整個嗅認過程后,我們在跡線終點放置銜取物獎勵犬,此時的銜取獎勵為結(jié)束性獎勵手段。為了快速掌握兩種獎勵手段,我們需要在同一次訓(xùn)練或者同一組訓(xùn)練當(dāng)中預(yù)先設(shè)計好訓(xùn)練方案,明確何時要繼續(xù)訓(xùn)練,何時結(jié)束訓(xùn)練,要繼續(xù)訓(xùn)練時運用一般性獎勵手段,要結(jié)束時運用結(jié)束性獎勵手段。有針對性地使用這兩種獎勵手段,可以使訓(xùn)練流暢而高效。
(三)即時性獎勵手段和延時性獎勵手段
根據(jù)對犬獎勵時機的不同,可將獎勵手段分為即時性獎勵手段和延時性獎勵手段。即時性獎勵是指當(dāng)犬完成動作或行為符合我們預(yù)期時,第一時間獎勵犬;延時性獎勵是指當(dāng)犬完成動作或行為符合我們預(yù)期時,隔一段時間再運用獎勵手段。例如,在訓(xùn)練犬“坐”科目時,犬服從指揮坐下就立即下達口令“好”來獎勵犬,這就是即時性獎勵手段;在逐步塑造犬坐延緩能力的時候,我們希望犬坐延緩的時間越來越長,隨著犬延緩能力的提高,獎勵手段的運用愈加具有延時性,即并非犬坐下就給予獎勵,而是坐了一定時間后再獎勵犬,此時的獎勵手段為延時性獎勵手段。即時性獎勵手段可以及時迅速起到強化犬的作用,利于犬的條件反射的建立,促使科目的形成;延時性獎勵手段則可以使犬科目形成更具穩(wěn)定性,有利于科目的鞏固和提高。
(四)瞬時性獎勵手段和持續(xù)性獎勵手段
根據(jù)獎勵在時間上是否具有延續(xù)性,可將獎勵手段分為瞬時性獎勵手段和持續(xù)性獎勵手段。瞬時性獎勵手段是指獎勵在一瞬間發(fā)生和結(jié)束的獎勵手段;持續(xù)性獎勵手段是指獎勵在時間上具有一定持續(xù)性的獎勵手段。例如,口令“好”、自由掉落犬口中“入口即化”的獎食均屬于瞬時性獎勵手段。在犬完成所訓(xùn)科目后,將犬帶到身邊持續(xù)撫拍獎勵犬;犬完成所訓(xùn)練科目后,令犬游散一定時間,或者將游散轉(zhuǎn)化為與其互動游戲一定時間,此時的獎勵手段即為持續(xù)性獎勵手段。
(五)單一獎勵手段和復(fù)合獎勵手段
根據(jù)獎勵在運用時同時采用的獎勵形式數(shù)目,可將獎勵手段分為單一獎勵手段和復(fù)合獎勵手段。單一獎勵手段是指在獎勵犬的正確行為動作時,采用且僅采用一種獎勵形式獎勵犬;復(fù)合獎勵手段是指在獎勵犬的正確行為動作時,同時采用兩種或者多種獎勵形式對犬進行獎勵。
在日常訓(xùn)練中,大多數(shù)情況下我們都應(yīng)該根據(jù)不同的訓(xùn)練狀態(tài),運用不同的獎勵手段來獎勵犬的正確行為,我們稱之為常規(guī)情況。但是有一些非常規(guī)情況下是不宜或者不可以運用獎勵手段的,以下列舉幾種非常規(guī)情況下不宜或者不可以運用獎勵手段的例子。
(一)犬被施以懲罰之后不可以立即運用獎勵手段
當(dāng)犬做出非期望動作或行為時,我們通常采取機械刺激或者口令“非”等懲罰性手段來刺激犬,以糾正其錯誤動作或行為。有的訓(xùn)導(dǎo)員擔(dān)心犬因此會變得被動,常常會立即獎勵犬,以緩和犬的神經(jīng)活動狀態(tài)。但此時是不應(yīng)當(dāng)立即使用獎勵手段的,因為會造成犬的“誤解”,犬往往會理解為獎勵的是其剛才錯誤動作或行為,從而導(dǎo)致錯上加錯,未糾正錯誤反而強化了錯誤。例如,有些犬興奮的時候會銜咬甚至撕咬訓(xùn)導(dǎo)員的衣褲,這是我們不希望看到的行為,此時需要給犬機械刺激,倘若此時立即給予犬獎勵以緩和其被刺激后的神經(jīng)狀態(tài),犬會理解為訓(xùn)導(dǎo)員在鼓勵其撕咬衣褲,下次犬還會繼續(xù)撕咬。正確的處理方式是應(yīng)該在犬被機械刺激后,通過進行其他訓(xùn)練以轉(zhuǎn)移其注意力或者不予理睬的方式處理,決不能立即運用獎勵手段。
(二)需要采用“零強化”時不運用獎勵手段獎勵犬
“零強化”是指當(dāng)犬做出某一動作時,不給予犬強化,使用這一手段的條件是:當(dāng)訓(xùn)導(dǎo)員不確定犬做出的動作正確或者錯誤,或者不宜使用懲罰時。例如,訓(xùn)導(dǎo)員引導(dǎo)犬扒鑒別罐時,犬忽然對扒倒的鑒別罐有興趣并產(chǎn)生拱、扒等游戲行為時,如果此時訓(xùn)導(dǎo)員獎勵犬,則犬在日后會對鑒別罐興奮,形成“見罐就扒”的不良聯(lián)系;此時訓(xùn)導(dǎo)員也不宜采用懲罰犬的方式,以免造成犬對鑒別罐被動的情況發(fā)生。正確的作法是訓(xùn)導(dǎo)員應(yīng)及時帶犬離開鑒別罐,以忽視、不獎勵、不懲罰、“零強化”方法減弱犬玩罐的活動,從而減少犬再次出現(xiàn)此行為的可能性。
獎食、撫拍、口令“好”(響片)、游散、銜取幾種獎勵手段在犬的初期警用性能培養(yǎng)階段均可以單一使用,但是,隨著訓(xùn)練的時間和難度的增長,單一的獎勵手段的獎勵效果對犬來說是遠遠不夠的。過于單一的獎勵手段或者某種獎勵手段單調(diào)頻繁的使用,往往會造成獎勵不充分,使犬對所訓(xùn)練的內(nèi)容不興奮,甚至產(chǎn)生抑制。獎勵手段的多樣化和不規(guī)律化能使犬在訓(xùn)練中自始至終保持愉悅感,進而保持良好的受訓(xùn)狀態(tài)。而將各種獎勵方式有機結(jié)合可以達到獎勵手段的多樣化和不規(guī)律化的效果。也就是說,不同獎勵手段的有機結(jié)合是對犬獎勵效果充分到位、是使犬擁有良好的受訓(xùn)狀態(tài)和作業(yè)狀態(tài)的有力保障。因此,當(dāng)進入復(fù)雜科目、較難條件反射建立階段,應(yīng)將單項獎勵有機結(jié)合起來,增加強度,來強化犬的正確有效行為。
獎勵手段無論是在理論層面,還是實訓(xùn)操作層面均是一個老生常談的話題,但是獎勵手段仍然是一個易懂易會卻難以精準(zhǔn)把握和靈活運用的訓(xùn)練手段。本文對警犬訓(xùn)練中獎勵手段的相關(guān)理論進行探究,旨在能夠為廣大訓(xùn)導(dǎo)員理清以上所提及的獎勵手段相關(guān)理論脈絡(luò),方便記憶,力圖在訓(xùn)導(dǎo)員自身的理論體系構(gòu)建中和日常訓(xùn)練中提供幫助??偠灾?,正確而靈活地掌握獎勵手段是高效訓(xùn)犬的有力保障,可以在實訓(xùn)中少走彎路,達到事半功倍的效果。
(作者單位:公安部警犬技術(shù)學(xué)校,110000)
(編輯:顏 勤)