Klikerowe szkolenie psów. Przedstawienie metody klikerowej szkolenia psów

Przedstawienie metody klikerowej szkolenia psów - cz1


3. PRZEDSTAWIENIE METODY KLIKEROWEJ SZKOLENIA PSÓW

3.1. HISTORIA SZKOLENIA KLIKEROWEGO

Za prekursora szkolenia klikerowego zwierząt uważa się Skinnera. To głównie on, odkrył i zbadał prawa uczenia poprzez warunkowanie instrumentalne. Skinner sam szkolił zwierzęta stosując pozytywne wzmacnianie i wszystkie zasady, które przedstawione zostały w rozdziale drugim. Skinner początkowo miał dużo przeciwników, jednak miał też zwolenników. To jego studenci jako pierwsi zaczęli się zajmować "pozytywnym" szkoleniem zwierząt. Fred S. Keller jako pierwszy zaczął wykładać na uniwersytecie psychologie warunkowania instrumentalnego stworzoną przez Skinnera. Wraz z Schoenfeld�em opublikowali pierwszą książkę o nowej dziedzinie pt.: "Principles of Psychology" (1947). Studenci używając praw Skinnera studiowali zachowania zwierząt, a także dzieci jak i dorosłych w zmiennych warunkach [Burch, Bailey 1999].

Szkolenie zwierząt wykorzystujące warunkowanie sprawcze rozszerzało się, zwłaszcza w kręgu studentów prekursora tego sposobu uczenia się. Skinner wraz z Marian i Kellerem Brelandami założyli Project Pelican, który szkolił gołębie dla potrzeb wojny. W 1943r. przystąpili do szkolenia różnych gatunków zwierząt, wykorzystywanych w pokazach w całym kraju. Ich organizacja nazwana została Animal Behavior Enterprises, była pierwszą organizacją używającą warunkowania instrumentalnego. Uczyli kaczki i kurczaki tańczyć, grać w piłkę i wielu innych sztuczek. Zwierzęta tresowane przez Brelandów były wykorzystywane w reklamach i pokazach telewizyjnych. W latach 50-tych zaczęli pracować z delfinami, dołączył do nich wtedy zoolog, Bob Bailey. Po śmierci Kellera, Bob i Marian pobrali się i kontynuowali pracę. Wyszkolili ponad 140 gatunków ptaków i ssaków stosując dźwięk jako naukowo uzasadnione prawo warunkowania sprawczego [Burch, Bailey 1999].

Szkoleniem psów zajmowano się od lat. Już w latach 20-tych popularne były w Stanach Zjednoczonych pokazy psów. Jednak szkolenie dla posłuszeństwa rozpoczęła w 1933r. Helene Whitehouse Walker. W Niemczech szkoleniem zajmował się Conrad Most, zajmował się głównie tresurą psów policyjnych, a później także psów przewodników dla niewidomych. 28 lat przed odkryciem Skinnera Most posługiwał się prawami warunkowania instrumentalnego tj. warunkowe i bezwarunkowe wzmacnianie, kształtowanie i wygaszanie. Używał głosu i łagodnego tonu jako warunkowego wzmocnienia jakie nazywał warunkową zachętą [Burch, Bailey 1999].

Następnym znanym treserem psów był William Koehler. Wyszkolił on tysiące psów, używając głównie wzmacniania negatywnego i pozytywnego wygaszania, czyli kary. Milo Persall w 50-tych latach stosował pozytywne wygaszanie (P+) do korekty niepoprawnych zachowań. W celu nauczenia czystości sugerował wkładanie nosa psa w jego odchody, jeżeli pies skakał na właściciela, polecał pchnięcie kolanem w psa. Jego szkolenie polegało na uczeniu zachowań poprzez zmuszanie psa do ich wykonywania, a następnie wprowadzaniu komendy jako bodźca warunkowego.

W latach 80-tych weterynarz i behawiorysta, Ian Dunbar zaczął rozwijać pozytywne metody szkolenia psów, w których stosował jedzenie jako nagrody za poprawne zachowania. Dzięki niemu więcej ludzi zaczęło stosować pozytywne wzmacnianie w uczeniu swoich psów.

Karen Pryor używała praw warunkowania instrumentalnego w uczeniu ssaków morskich. Do uczenia ich zachowań używała gwizdka jako bodźca warunkowego. Następnie zajęła się szkoleniem psów przy użyciu klikera [Burch, Bailey 1999]. Do dziś szkoli zwierzęta w ten sposób.

Szkolenie klikerowe zaczęło się rozwijać w Stanach Zjednoczonych i rozprzestrzeniać w innych krajach świata. W Polsce metoda zaczęła być znana dzięki Barbarze Waldoch, która utworzyła stronę internetową na ten temat i listę dyskusyjną zrzeszającą ludzi zajmujących się szkoleniem klikerowym, gdzie wymieniają się swoimi wiadomościami i doświadczeniami.

3.2. KLIKER JAKO NARZĘDZIE SZKOLENIOWE

Kliker to podstawowe narzędzie wykorzystywane w szkoleniu klikerowym psów, a także innych zwierząt. Jest to blaszane pudełeczko ze sprężyną, które wydaje charakterystyczny dźwięk klik-klak [Waldoch 2002].

Służy do dokładnego zaznaczenia zachowania wykonywanego przez zwierzę. Po tym sygnale następuje bodziec bezwarunkowy czyli nagroda np. jedzenie. Dźwięk klikera jest więc bodźcem warunkowym sygnalizującym pojawienie się bodźca bezwarunkowego. Pies uczy się związku między "kliknięciem" i nagrodą. Sama nagroda nie zawsze może być podana dokładnie w chwili żądanego zachowania. Kliker jest niezastąpionym pomostem łączącym bodziec bezwarunkowy z warunkowym [Waldoch 2002].

Bodziec warunkowy musi spełniać pewne warunki, żeby możliwe było bezbłędne zaznaczenie różnych, pożądanych zachowań w szkoleniu. Musi być:

  • obecny - prosty w użyciu, możliwy do noszenia ze sobą praktycznie wszędzie
  • natychmiastowy - dźwięk musi być krótki, możliwy do bardzo szybkiego zaznaczenia nim zachowania
  • rozpoznawalny - dźwięk musi być za każdym razem dokładnie taki sam, jego specyficzność powinna go wyróżniać spośród innych odgłosów, które zwierzę słyszy na co dzień
  • ewidentny - nie może być powiązany z innymi sytuacjami niż praca z psem [Spector 1999].

Kliker spełnia wszystkie te wymagania. Jego dźwięk jest świetnie rozróżnialny, rozpoznawalny, można go zastosować bardzo szybko. Kliker jest też czymś neutralnym, znaczy to, że nie jest związany z żadnymi emocjami. Podkreśla on jedynie właściwe zachowanie, dostarcza psu jednoznacznej informacji, że to co właśnie zrobił jest właściwe i otrzymuje za to nagrodę. Sama nagroda nie jest komunikatem. Morgan Spector, amerykański behawiorysta zajmujący się szkoleniem psów, określa nagrodę jako emocjonalną integrację z psem, która przekazuje pozytywne odczucia, niekoniecznie jednak pozytywne informacje. Kliker nazwano uwarunkowanym wzmocnieniem. Poprzez skojarzenie jego dźwięku z nagrodą nabiera on niewiarygodnej siły. Karen Pryor, treserka delfinów i psów w książce pt.: "Don�t shoot the dog" pisze o delfinach, które pracowały za uwarunkowane wzmocnienie nawet wtedy gdy były najedzone. Podaje ona też przykłady psów szkolonych klikerowo pracujących ponad godzinę za niewielką ilość rzeczywistych wzmocnień w postaci jedzenia. Gdy wzmocnienie warunkowe zostanie już ugruntowane, nie należy go nadużywać w niekontrolowany i pozbawiony znaczenia sposób, gdyż straci ono swą siłę.

Zastanawiano się, czy klikera nie można zastąpić innymi dźwiękami. Czy na przykład używanie słowa nie spełni podstawowych kryteriów bodźca warunkowego? Okazało się, że nie spełnia wszystkich warunków. Przede wszystkim głos jest zmienny, jego brzmienie zmienia się w zależności od nastroju, pogody. Nie jest możliwe wypowiadanie pochwał tym samym tonem podczas każdej sesji szkoleniowej. Ton głosu jest dla psa bardzo ważny, zauważa on nawet niewielkie zmiany, czasem nie zauważalne przez człowieka. Te same słowa wypowiedziane innym tonem będą miały dla psa zupełnie różne znaczenia. Słowo używane jako pochwała np. dobry pies, jest często wypowiadane w innych sytuacjach niż praca z psem. Słowo dobry jest używane nie tylko w stosunku do samego psa, ale w życiu codziennym np. dobry obiad. Wszystko to osłabia użyteczność słów. Pochwała nie jest też tak natychmiastowa jak kliker. Użycie trzymanego w ręku klikera przychodzi ludziom o wiele szybciej niż wypowiedzenie danego słowa. Podczas nauki pewnych zachowań bardzo często i szybko trzeba dostarczać bodźca warunkowego, szybkość i fizyczna możliwość naciskania klikera jest o wiele większa niż werbalizowania danego słowa [Spector 1999]. Kliker jest dobrze słyszalny nawet z oddali, można więc pracować w oddaleniu od psa, które jest konieczne przy uczeniu niektórych zachowań [www.clickandtreat.com]. Nie znaczy to jednak, że słowa, pochwały, pieszczoty nie są ważne i wartościowe. Często używa się obu form, ale stanowią one bardziej wzmocnienie bezwarunkowe niż warunkowe. Nie dostarczają one psu informacji w trakcie wykonywania ćwiczenia [Spector 1999].

Inne dźwięki, takie jak gwizdanie, klaskanie językiem, piszcząca zabawka również nie mogą być dostarczane natychmiastowo i są trudne w użyciu [Spector 1999].

Badania, przeprowadzone przez Karen Pryor i Barbarę Schoenings wykazały, że kliker jest analizowany szybciej przez ośrodkowy układ nerwowy niż jakiekolwiek słowo. Nawet u najlepiej wyszkolonego zwierzęcia słowo musi zostać rozpoznane i zinterpretowane zanim "zadziała", a jego efekt może być zaburzony poprzez towarzyszące mu sygnały emocjonalne, specyfikę mówiącego i inne dodatkowe informacje [www.kliker.pieski.eu.org/Teoria/magiczny_kliker.php].

3.3 NAUKA ZWIĄZKU POMIĘDZY KLIKNIĘCIEM I NAGRODĄ

Aby możliwe było efektywne szkolenie musi być utworzony związek między "kliknięciem", czyli bodźcem warunkowym a nagrodą, bodźcem bezwarunkowym. Początkowo kliker jest dźwiękiem obojętnym dla psa. Dopiero skojarzenie go z nagrodą sprawia, że pies zaczyna reagować na "kliknięcie". Dźwięk ten zostaje uwarunkowany [Pryor 1985].

Utworzenie związku pomiędzy kliknięciem a nagrodą jest bardzo proste. Treser "klika" i natychmiast daje nagrodę. Powtarza to kilka razy w kilku sesjach. Na tym etapie nie wzmacnia się żadnych szczególnych zachowań. Pies musi skojarzyć, że klik = nagroda. Kliker uważa się za "włączony" gdy pies reaguje na jego dźwięk odwracając się do właściciela i oczekując na nagrodę. Dopiero, gdy taki związek jest utworzony, można przystąpić do prawdziwego szkolenia i "klikania" odpowiednich zachowań [Spector 1999].

3.4. NAGRODY

Szkolenie klikerowe opiera się przede wszystkim na wzmacnianiu pozytywnym (R+). Wyklucza stosowanie pozytywnego wygaszania (P+), zwanego potocznie karą, gdyż przynosi ono skutki uboczne tj. strach, agresję. Do wygaszenia niepożądanych zachowań używa się czasem negatywnego wygaszania (P-). Ma ono dużą siłę oddziaływania na psa, bez potrzeby użycia przemocy i siły fizycznej. Przykładem P- jest np. zatrzymanie się, gdy pies ciągnie na smyczy, przewodnik zabiera możliwość posuwania się do przodu. W celu wyeliminowania złych reakcji psa, treser usuwa wzmacnianie, nagradzając tylko zachowania dobre [Waldoch 2002].

Jako że wzmacnianie pozytywne jest podstawą szkolenia ważne jest stosowanie nagród.

Nagroda musi być czymś co pies lubi i dla zdobycia której będzie chętnie pracował. Na początkowym etapie szkolenia jest to przede wszystkim jedzenie, smakołyki [Waldoch 2002]. Wielkość nagród musi być dostosowana do rozmiarów zwierzęcia. Im mniejszy smakołyk tym szybciej pies go zje, skraca to także czas oczekiwania na przełknięcie. Pozwala również na stosowanie większej liczby kęsów w trakcie jednej sesji szkoleniowej, zanim zwierzę naje się do syta [Pryor 1985]. Karen Pryor podaje przykład tresury pandy, która jako nagrodę za odpowiednie zachowanie dostawała całą marchewkę. Za każdym razem panda spędzała kilka minut na jedzeniu, w rezultacie po kwadransie nauki była najedzona i przestawała pracować. O wiele skuteczniejsze było podawanie plasterka marchewki jako wzmocnienia bezwarunkowego.

Praktyczną zasadą treserów przedstawioną przez Karen Pryor (1985) jest: jedna czwarta całodziennego pożywienia w trakcie jednej sesji szkoleniowej.

Smakołyki muszą być zróżnicowane i interesujące dla psa, aby chętnie pracował. Często pies przyzwyczaja się do związku nagrody z miejscem, z którego zostaje ona podawana. Jeżeli zawsze dostaje nagrodę z tego samego pudełka, będzie pracował tylko w obecności tego pudełka. Pudełko staje się bodźcem dyskryminacyjnym. Dlatego ważne jest różnicowanie miejsca, z którego pies otrzymuje smakołyk np. z kieszeni, torebki, pudełka itp. Pies nie może przewidzieć skąd pojawi się nagroda [Waldoch 2002].

Gdy pies jest już nauczony pewnych zachowań nagrodą nie musi być wyłącznie smakołyk. Mogą to być tzw. nagrody życiowe, np.:

  • zabawa z innym psem

  • zabawa z właścicielem lub innym właścicielem

  • pieszczoty, głaskanie

  • piłeczka, zabawka

  • spacer

  • bieganie po parku

  • wejście do wody

  • wejście na kanapę

  • bieganie przy rowerze

  • możliwość powąchania ciekawego miejsca itp. [Włodarczyk 2004, informacja ustna].

Rodzaj nagród jest uzależniony od każdego psa indywidualnie, od rzeczy, które lubi i które stanowią dla niego nagrodę.

W szkoleniu psów można wykorzystać zasadę Premack�a. W każdej sesji szkoleniowej pewne zachowania pies preferuje bardziej od innych. Można nagrodzić zwierzę dając do wykonania bardziej lubiane zachowania w zamian za mniej lubiane np. jeżeli pies lubi chodzić przy nodze, za zostanie w pozycji warującej może zostać nagrodzony właśnie chodzeniem przy nodze [/www.kliker.pieski.eu.org/Teoria/premack.php].

Nagrody powinny być dostosowane do jakości pracy psa. Jeżeli pies za każdym razem będzie dostawał dokładnie takie samo wzmocnienie, niezależnie od tego, jak ciężką pracę wykonał, jego reakcje mogą osłabnąć. Dlatego ważne jest podawanie specjalnych nagród za nadzwyczajne wykonanie zadania. Nagroda taka nazywana została jackpotem. Jackpotem mogą być dwa lub trzy smakołyki zamiast jednego lub może to być coś specjalnego. Gary Wilkes nazwał ją dodatkiem za doskonałość [Spector 1999]. Jeżeli zwierzę zrobi coś co będzie znacznie wyższe od oczekiwań tresera to zasługuje on na jackpot. Musi to znacznie przekraczać zwykłe kryteria nagradzania, które powinny być stawiane przed uczeniem każdego zachowania. Można psa specjalnie nagrodzić, kiedy zachowanie wymaga takiego wysiłku, który nie możliwy byłoby do uczenie tego codziennie. Jeżeli pies pracuje długo i ciężko można wprowadzić zmienny harmonogram nagradzania i nagradzać jackpotem [www.kliker.pieski.eu.org/Teoria/Bailey_o_jackpocie.php].

Karen Pryor opisuje przykład tresera koni, który w nagrodę za wykonanie po raz pierwszy trudnego zadania zsiada z konia, zdejmuje z niego siodło i puszcza go wolno. Danie wolności stanowi dla konia jackpot i pomaga w utrwaleniu u zwierzęcia nowej umiejętności [Pryor 2004].

3.5. ZASADY SZKOLENIA: KLIK I NAGRODA

3.5.1. NIGDY KLIK BEZ NAGRODY

Jedną z podstawowych zasad szkolenia klikerowego jest związek pomiędzy kliknięciem a nagrodą. Po każdym sygnale klikera powinna pojawić się nagroda. To jest umowa szkoleniowa między właścicielem a psem. Jeżeli po "klik" pies nie otrzymuje wzmocnienia bezwarunkowego jest to podważenie zasady szkoleniowej. Po pewnym czasie dźwięk klikera straci swą moc i pies przestanie pracować dla tego dźwięku [Spector 1999]

3.5.2. NIGDY NAGRODA BEZ WCZEŚNIEJSZEGO SYGNAŁU

 

 

Pies uczy się, że nagroda pojawia się, gdy usłyszy dźwięk klikera. Podważeniem zasady szkoleniowej jest nie utrzymywanie stosunku: jeden klik = jedna nagroda. Podawanie wzmocnień podstawowych bez wcześniejszego kliknięcia osłabia moc klikera. Na początkowym etapie szkolenia często nie jest to zauważalne, jednak w zaawansowanej pracy z psem może to bardzo utrudniać uczenie się zwierzęcia [Spector 1999].

3.6. WYCZUCIE CZASU MIĘDZY ZACHOWANIEM A KLIKNIĘCIEM

Kolejną ważną zasadą szkolenia klikerowego jest wyczucie czasu między zachowaniem psa a "kliknięciem", zwane popularnie wśród szkoleniowców "timingiem". "Klik" musi zabrzmieć w czasie pożądanego zachowania, a nie wtedy kiedy się ono skończyło, bo pies może robić już coś innego [www.kliker.pieski.eu.org/Teoria/15_zasad]. Na przykład przy nauce siadania trzeba "kliknąć", gdy pies dotknie zadem podłoża, a nie gdy już siedzi. Gdy "kliknięcie" będzie za późne, jest duże prawdopodobieństwo, że wzmocnione zostanie inne zachowanie niż samo siadanie. Pies nauczy się wykonywania zachowań przesądnych czyli innych niż siadanie. Zachowania przesądne zbadał Skinner poprzez podawanie gołębiom pokarmu w karmnikach w stałych odstępach czasowych niezależnie od tego co robiły w momencie karmienia. Chociaż nie było zależności pomiędzy zachowaniem i wzmocnieniem, u jednego gołębia rozwinęło się kręcenie się, a u drugiego wkładanie głowy w róg klatki. Wykształciły się u nich zachowania przesądne [Tavris, Wode 1999].

Każdy szkoleniowiec musi, więc wykazać się dużym refleksem, gdyż opóźniony sygnał może spowalniać naukę zwierzęcia. Bob Bailey, który wyszkolił klikerowo tysiące zwierząt, organizując kursy dla ludzi szkolących klikerowo, zaobserwował, że większość z nich ma problem z uzyskaniem dobrego "timingu". Stworzył wraz z Marian Bailey kilka ćwiczeń, które poprawiają refleks przewodnika. Do tych ćwiczeń potrzebna jest druga osoba, ponieważ najczęściej brak dobrego "timingu" wynika z tego, że przewodnik szkoląc psa sam, nie zauważa błędów jakie popełnia. Przykładowe ćwiczenie:

  • stojąc na twardym podłożu przewodnik trzyma w jednej ręce metalowy przedmiot np. klucze, a w drugiej kliker. Metalowy przedmiot upuszcza i powinien kliknąć w momencie, kiedy przedmiot uderza o podłogę. Powinien być słyszalny tylko jeden dźwięk, uderzenie kluczy razem z kliknięciem [Waldoch 2002].

Szkolenie jest mechaniczną umiejętnością mówi Bob Bailey. Do wyrobienia takiej umiejętności potrzeba dużo ćwiczeń. Już w 50 latach Brelandowie zauważyli, że najlepsze rezultaty szkoleniowe uzyskiwali treserzy mający bardzo dobry "timing" i stosujący konsekwentne nagradzanie [www.kliker.pieski.eu.org/Teoria/Bailey_o_timingu].

3.7. UZYSKANIE POŻĄDANEGO ZACHOWANIA

W szkoleniu klikerowym psów są trzy metody uzyskiwania pożądanych zachowań. Są to:

1. wyłapanie - jest to nagradzanie zachowania, które pies robi sam z siebie. Obserwując psa i zaznaczając sygnałem pewne, pożądane zachowania można nauczyć go wielu rzeczy. Im nagradzanie jest częstsze, zachowanie będzie się częściej powtarzać. Metodą wyłapywania zachowań można nauczyć psa np. siadania, stania, przeciągania się, przewracania na plecy, itp. [www.kliker.pieski.eu.org/Teoria/sposoby_uczenia].

2. naprowadzenie - jest to uzyskanie pożądanego zachowania za pomocą używania smakołyka do zachęcenia psa do wykonania konkretnego zachowania. Np. trzymanie smakołyka nad głową psa powoduje, że zwierzę usiądzie, wtedy następuje klik i nagroda. Przy uczeniu tą metodą, ważne jest szybkie wycofanie naprowadzania, gdy pies skojarzył dane zachowanie z wzmocnieniem. W wypadku ciągłego naprowadzania pies będzie zawsze oczekiwał pomocy przewodnika i ruch naprowadzający stanie się częścią zachowania [www.kliker.pieski.eu.org/teoria/sposoby_uczenia].

3. kształtowanie - jest to nagradzanie każdego ruchu psa w stronę zachowania końcowego. Np. kształtując noszenie koszyka w pysku, najpierw klika się spojrzenie psa w kierunku koszyka, następnie podejście do niego, potem zniżenie pyska do rączki koszyka, dotknięcie i powąchanie rączki, otworzenie pyska nad rączką, wzięcie jej w zęby, podniesienie całego koszyka, zrobienie jakiegoś ruchu z koszykiem.

Kryteria podnosi się powoli, żeby pies był w stanie zrobić, to co jest od niego wymagane [Waldoch 2002].

 

3.8. WPROWADZANIE KOMEND

W szkoleniu klikerowym komenda jest dodawana, gdy pies wykonuje już dane ćwiczenie. Komendę dodaje się gdy treser jest pewny, że szkolone zwierzę jest w stanie wykonać polecenie. Początkowo wypowiada ją w momencie, gdy pies zaczyna wykonywać zachowanie, stopniowo daje ją coraz wcześniej, aż stanie się ona sygnałem do wykonania ćwiczenia [Spector 1999].

komenda -> zachowanie -> klik -> nagroda

Komenda jest poleceniem, a równocześnie szansą na nagrodę. Jeżeli pies jej nie wykona, zaprzepaści możliwość otrzymania nagrody. W uczeniu metodą klikerową pies nie jest do niczego zmuszany. Jeżeli nie wykonuje polecenia znaczy to, że przewodnik za szybko podniósł kryteria i za dużo wymaga od psa. Musi więc wrócić do początków i uprościć ćwiczenie [Pryor 1985]. Komendy powinny być wypowiadane spokojnym głosem, nie należy krzyczeć. Im ciszej się mówi, tym bardziej pies koncentruje się na przewodniku. Nie należy też powtarzać komend kilkakrotnie, wtedy pies uczy się wykonywania poleceń dopiero po powtórzeniu komendy [Waldoch 2002].

Do komendy słownej można dodać komendę optyczną np. podniesienie ręki na siad. Jest to przydatne zwłaszcza w pracy na odległość. Pies jako drapieżnik bardzo dobrze reaguje na ruch, dlatego sygnał optyczny może być łatwiejszy do odebrania niż słowo [Waldoch 2002].

Czas pomiędzy wydaniem komendy, a reakcją psa powinien być prawie natychmiastowy. Często zdarza się, że pies wykonuje polecenie dopiero po pewnym czasie. Możliwe jest przyśpieszenie wykonywania komendy. Przewodnik wybiera jedno zachowanie, które pies dobrze zna i wykonuje na komendę i nad tym zachowaniem pracuje kilka dni. Ustala jaki powinien być średni czas reakcji i zaczyna ćwiczenie. Jeżeli pies wykona polecenie w ustalonym czasie to dostaje sygnał klikera i nagrodę. Jeżeli wykona z dużym opóźnieniem, przewodnik zaczyna od początku, może zmienić pozycje np. odejść kilka kroków, dąży do przyśpieszenia wykonywania ćwiczeń. Gdy zwierzę wykonuje polecenie w wymaganym czasie, trzeba podwyższyć kryteria i wymagać jeszcze szybszego wykonania ćwiczenia [Waldoch 2002].

Najlepszym sposobem na nauczenie szybkiego wykonywania komend jest uczenie tego razem z nauką zachowania i uważanie zachowania za wyuczone dopiero wtedy, gdy szybkość wykonania jest zadowalająca [/www.kliker.pieski.eu.org/Teoria/przyspieszanie.php].

Komendy stają się dla psa bodźcami do zachowania i w zamian otrzymania nagrody. Jeżeli pies wykonuje polecenia komend znaczy to, że jest pod kontrolą bodźców. Doskonała kontrola bodźców jest zdefiniowana przez cztery warunki:

  • Zachowanie pojawia się zawsze natychmiast w odpowiedzi na bodziec np. pies natychmiast siada na komendę "siad"
  • Zachowanie nie pojawia się bez bodźca np. w czasie szkolenia pies nie siada jeśli przewodnik nie da takiego polecenia
  • Zachowanie nie pojawia się w odpowiedzi na inny bodziec np. na komendę "waruj" pies nie siada
  • Żadne inne zachowanie nie pojawia się w odpowiedzi na dany bodziec np. na komendę "siad" pies nie odpowiada podskokiem itp. [Pryor 1985].

 

3.9. ZASADY POMOCNE W SZYBSZEJ I LEPSZEJ NAUCE ZACHOWANIA

Dźwięk klikera jest mostem między zachowaniem a wzmocnieniem bezwarunkowym. Dokładne zaznaczenie zachowania pozwala na efektywne szkolenie. Dzięki klikerowi jest to możliwe. Wzmocnienie bezwarunkowe następuje zazwyczaj z pewnym opóźnieniem dlatego kliker rozwiązuje ten problem. Jednak Bob Bailey pisze, że im dłuższe opóźnienie między warunkowym a bezwarunkowym wzmocnieniem, tym mniej efektywne jest wzmocnienie warunkowe. Zwierzę kojarzy wzmocnienie bezwarunkowe z zachowaniem tak samo, jak kojarzy z zachowaniem wzmocnienie warunkowe. Aby pies uczył się skutecznie ważne jest dostarczenie podstawowego wzmocnienia tak szybko jak to tylko możliwe. W niektórych przypadkach zwierzęta uczą się radzić sobie z tym opóźnieniem np. w przypadku szkolenia na odległość. Jednak wzmocnienie warunkowe nie jest doskonałym mostem, łączy ono dwa różne momenty w czasie. Opóźnienie w podawaniu nagród jest niemożliwe do uniknięcia, ale powinno się je redukować [www.kliker.pieski.eu.org/Teoria/szybkosc_podawania_nagrody].

W przeciwnym wypadku szkolenie będzie wolniejsze i trudniejsze. Poprzez duże opóźnienie w podawaniu nagród można nauczyć psa innego, przypadkowego zachowania, które przyczyni się do nauczenia całego łańcucha zachowań. Np. pies po usłyszeniu sygnału klikera podskakuje po nagrodę:

zachowanie -> klik -> podskok -> smakołyk

 

Pies za każdym razem będzie podskakiwał do smakołyka, co stanie się ogniwem łańcucha, a jedzenie jako bodziec bezwarunkowy, będzie to zachowanie wzmacniał. Są to zachowania przesądne, które pies powtarza, ponieważ jest to, często nieświadomie, nagradzane [Spector 1999].

Bob Bailey zwraca też uwagę na nagradzanie w pozycji uczonego zachowania.

To w jakiej pozycji jest podawany smakołyk może psu bardzo pomóc zrozumieć o co chodzi w danym ćwiczeniu. Kiedy i gdzie dostarczana jest nagroda może zaważyć na zachowaniu psa [www.kliker.pieski.eu.org/Teoria/szybkosc_podawania_nagrody].

Są to zasady, które bardzo ułatwiają szkolenie zwierząt.

3. 10. GENERALIZOWANIE ZACHOWAŃ

Rozszerzenie reakcji na nowe bodźce jest nazywane generalizacją [Anderson 1998]. Jeżeli pies jest nauczony pewnego zachowania tylko w jednym miejscu, istnieje duże prawdopodobieństwo, że w innym miejscu pies tego ćwiczenia nie będzie wykonywał. Dzieje się tak dlatego, że zwierzę kojarzy dane zachowanie z miejscem gdzie było ono wzmacniane. Bardzo ważne jest więc generalizowanie, czyli uczenie psa tego samego zachowania w różnorodnych miejscach i sytuacjach. Uczy się on kojarzyć wykonywane ćwiczenie w zróżnicowanych okolicznościach [Spector 1999].

Na początkowym etapie szkolenia treser ćwiczy z psem w miejscu znanym dla psa, gdzie pies czuje się dobrze. Pies nie może dodatkowo stresować się nieznaną sytuacją i miejscem, najczęściej jest, więc to mieszkanie. Nie może być w nim za dużo rozproszeń, które odrywałyby zwierzę od szkolenia. Właściciel powinien zaczynać naukę, gdy jest sam ze swoim pupilem. Gdy pies nauczył się już zachowania i wykonuje je na komendę, treser zaczyna ćwiczyć z nim w różnych okolicznościach. Musi to robić stopniowo, we wszystkich pomieszczeniach mieszkania, w obecności domowników, na spacerze, ulicy itp. Musi także przy tym zmieniać pozycje swojego ciała, żeby pies nie skojarzył ćwiczenia tylko np. ze staniem właściciela [Waldoch 2002]. Nowe środowisko jest nowym kryterium, kryteria muszą być zwiększane "małymi kroczkami" [Spector 1999].

Generalizowanie jest niezbędnym procesem szkoleniowym. Dzięki niemu pies buduje większe zaufanie do właściciela, który w każdej nowej sytuacji jest z psem i oczekuje od niego robienia rzeczy łatwych, a nie ryzykownych [Spector 1999]. Pies wie, że jeżeli nie wykona ćwiczenia nie spotka go kara, po prostu straci szansę do otrzymania nagrody. Najczęściej przyczyną nie wykonania zadania jest zbyt szybkie podniesienie kryteriów.

3.11. HARMONOGRAM WZMACNIANIA

Laboratoryjne doświadczenia Skinnera wykazały, że najlepsze wyniki otrzymuje się przy zastosowaniu zmiennego wzmacniania tzn. gdy wzmacniana jest nie każda reakcja zwierzęcia. Nie może ono wtedy przewidzieć, kiedy dostanie nagrodę. Takie zachowanie jest odporne na wygaszenie [Waldoch 2002]. Jednak w okresie nauki zachowania konieczne jest stałe wzmacnianie, czyli w proporcji 1:1, za jedno poprawne zachowanie zwierzę otrzymuje jedną nagrodę. Na początku nauki powinno się dostarczać jak najwięcej wzmocnień. Gdy zachowanie jest wyuczone nie należy wzmacniać go regularnie. Jak twierdzi Karen Pryor, żeby zachowanie utrzymać na dobrym poziomie, trzeba wzmacniać je jedynie od czasu do czasu w sposób trudny do przewidzenia. Zmienny schemat wzmocnień pozwala także kształtować perfekcję zachowania. Jeżeli nagradza się każdą reakcję, zwierzę nie stara się wykonywać zadań za każdym razem dokładnie, ponieważ wie, że zawsze otrzyma nagrodę. Natomiast zmienne nagradzanie sprawia, że za każdym razem stara się ono wykonać zadanie dobrze [Pryor 1985].

Używanie zmiennego rozkładu wzmocnień to praca na granicy wygaszenia i na granicy wybuchu przedeliminacyjnego. Pojęcie "wybuch przedeliminacyjny" określa zwiększony wysiłek psa w jakimś zachowaniu, zanim zacznie się ono wygaszać. Np. jeżeli pies był zawsze głaskany, gdy skakał na przewodnika, a w pewnym momencie przestał być głaskany, wówczas będzie on przez pewien okres skakał ze zdwojoną intensywnością, zanim zupełnie przestanie skakać. Wtedy nastąpi wygaszenie zachowania [Waldoch 2002]. Jeżeli jednak zachowanie zostanie czasami nagrodzone, to bardzo się ono umocni. Poprawne stosowanie zmiennego wzmacniania jest jednak bardzo trudne, ponieważ żeby móc je stosować, zachowanie musi być perfekcyjnie opanowane przez psa. Bob Bailey uważa, że praktycznie nie powinno się go stosować. Już ucząc zachowania wprowadza się pewien element zmienności, nagradzając tylko ćwiczenia dobre, przedłużając czas trwania zachowania, zwiększając odległość [Waldoch 2002]. Niepoprawne, niedokładne odpowiedzi psa będą wygasać, ponieważ nie będą nagradzane. Zachowanie musi być bardzo dobrze zgeneralizowane, żeby móc stosować zmienny harmonogram wzmocnień [Spector 1999]. Życie codzienne dostarcza również psu wiele zmienności, czasem przewodnik zapomni nagrodzić, czasem tylko pogłaszcze lub pochwali [Waldoch 2002].

Morgan Spector używa zmiennego wzmacniania tylko do zachowań długotrwałych. Treser twierdzi, że używając powyższego wzmacniania stawia się psa w dużym błędzie, jest to także skazane na niepowodzenie szkolenia. Jeżeli przewodnik nie wzmacnia dobrych zachowań psa, zachowanie to może wygasnąć, ponieważ ono nie jest wzmacniane tak samo jak złe zachowanie [Spector 1999]. Dla psa ważne jest informacja, że zrobił coś dobrze. Jeżeli takiego sygnału nie otrzyma, może próbować dalej. Za popełnienie błędu nie otrzyma kary fizycznej, karą dla niego będzie już sam brak nagrody. Skutkiem kary fizycznej, jak napisano w podrozdziale 2.4.9.: Nagrody i Kary, może być zaprzestanie pracy, pies będzie bał się popełniać błędy [Spector 1999]. Używanie stałego wzmacniania poprawnych zachowań jest więc bardziej precyzyjnym szkoleniem. Według Spector, wybór harmonogramu wzmocnień to indywidualna sprawa przewodnika w zależności od tego jaki stopień zachowania chce osiągnąć.

Zmiennego wzmacniania nie można stosować przy specjalistycznym szkoleniu psów do pracy węchowej. Są to psy tresowane do wykrywania zapachów narkotyków, zapachów materiałów wybuchowych oraz śladów zapachowych ludzi. Każdy poprawny wybór zapachu musi zostać nagrodzony [Pryor 1985].

 

Szkoła Główna Gospodarstwa Wiejskiego
Wydział Nauk o Zwierzętach

KLIKEROWE SZKOLENIE PSÓW

Praca magisterska wykonana przez Agnieszkę Prymaka
pod kierunkiem prof. dr hab. Kazimierza Ściesińskiego
w Katedrze Szczegółowej Hodowli Zwierząt.
Warszawa 2004

http://www.prymaka.prv.pl/

Zgłoś swój pomysł na artykuł

Więcej w tym dziale Zobacz wszystkie