Щелчок заканчивает поведение Это одна из областей работы с кликером, которую многие сначала понимают с трудом. Сила кликера в точности, с которой он отмечает отдельное правильное действие. Собака, с которой провели подготовительное обучение, понимает, что когда она слышит щелчок, то она заслужила поощрение. Поэтому это закон - каждый щелчок сигнализирует собаке о том, что она сделала то, что вы от нее хотели и работа окончена. И это закон, что услышав щелчок, собака вольна прекратить то, что она делала, и получить кусочек. Например, в обучении высылу вы можете щелкнуть, когда собака двигается от вас и уже прошла, скажем, пять шагов по прямой. Когда вы щелкнете, собака может (и так она и сделает!) остановиться; ей позволено вернуться за лакомством. Точно так же в обучении апортировке, если вы щелкнули за подбор предмета, собака имеет полное право его бросить и прийти за лакомством. Это звучит страшновато. "Я не хочу, чтобы собака бросала гантель". Справедливо. Но беспокоиться не о чем.
Помните одно из главных правил отбора поведения: Вы работаете только над одним критерием за раз. В примере с гантелью вы тренируете одну вещь - подбор. Вы получили и поощрили нужное поведение (поднятие гантели). Когда вы добавите "и принеси ее мне", вы больше не будете щелкать за поднятие, а будете подкреплять только полный поднос, нечто более комплексное, чем простой подбор предмета.
Не используйте щелчок в значении "продолжай". Многие дрессировщики, особенно те, кто относит себя к той или иной "мотивационной" школе - и я сам причисляю себя к таковым, в начале своей карьеры - пытаются использовать кликер как поддержку в середине поведения (щелчок - "продолжай"). Я думаю, это наследие смешения понятий положительного подкрепления и поощрения, и кроме того, не совсем верное понимание того, как работает условное подкрепление. Есть несколько проблем с использованием щелчка в значении "продолжай".
Щелчок означает "хорошо сделано, приходи за поощрением". Это своего рода сделка. Если я использую его в значении "продолжай", я не соблюдаю условия сделки. Я обещал что-то, что не доставил по назначению. Вместо поддержания значимости кликера как условного подкрепления я подрываю ее. Через не очень продолжительное время щелчок станет просто еще одним звуком среди других.
Использование щелчка со значением "продолжай" создает недопонимание. В первый раз, как я щелкну с этой мыслью, собака прекратит делать то, что делала. Теперь я должен объяснить ей, что лакомства не будет. Другими словами, в интересах того, что я считаю ободрением и поддержкой, я на самом деле меняю правила, делая их бессмысленными для собаки, и подрываю наш уже существующий "договор". Эта та ошибка, которую я прошел и сам. На ранних этапах работы с кликером я тоже использовал его, чтобы сообщить собаке "продолжай в том же духе". Через некоторое время я посмотрел на то, что получилось, и был вынужден признать, что я использовал кликер как похвалу в тех частях упражнений, где собаке недоставало уверенности в себе. Я увидел, что собаке недоставало уверенности потому, что эти части упражнений были недостаточно хорошо отработаны. Когда я переучил их, моя нужда в ободрении собаки прошла.
Теперь, когда она знала, что надо делать, я мог щелкнуть за все поведение в целом, не заботясь о том, чувствует ли она себя уверенной в том, что делает. Это не значит, что я не могу щелкнуть и поощрить собаку в середине поведения без полного разрыва поведенческой цепочки. У меня с собаками есть маленькая система. Когда они занимают статичную позицию и слышат щелчок, они сохраняют эту позицию до специального сигнала, отменяющего эту команду. Так что, например, на укладке во время подзыва я щелкаю в момент укладки, подхожу к собаке, даю ей лакомство и возвращаюсь на место. Затем я либо подзываю ее, либо отпускаю гулять. Я изолирую конкретное поведение для поощрения без нарушения нашей сделки. И есть дополнительный побочный эффект - собака приучается сохранять позицию до получения следующей команды. Это может помочь сделать выполнение всего упражнения более надежным.
"Щелчок" как "мост". Некоторые из дрессировщиков дельфинов называли свой условный сигнал "мостом" или "соединяющим стимулом". Они имели в виду, что условное подкрепление позволяло им поощрить действие на расстоянии и "заполняло брешь" между моментом подачи условного подкрепления и моментом подачи безусловного подкрепления. Термин постепенно забылся, но смысл не потерялся. В дрессировке "вкусняшка" не всегда прибывает немедленно. Например, в обучении высылу я щелкаю, когда Сэм касается мишени. Затем он поворачивается и бежит ко мне за лакомством. Так что проходит несколько секунд до получения им поощрения. Но когда он добегает до меня и получает свой кусочек, он знает, за что он его получил. В этом смысле кликер служит "мостом" между поведением и его безусловным подкреплением.
Одно из сильных мест кликера в том, что вы можете сохранять эту ясность, иногда даже 30 секунд и более. Если мои собаки становятся "жрущими собаками", то есть тычутся мне в руки или лезут в сумку на поясе за лакомством, я использую эту идею "моста", чтобы прервать нежелательное поведение. Я складываю все лакомство в пластиковый контейнер, который ставлю на скамейку в нескольких метрах от нас, и мы начинаем заниматься. Когда я вижу то поведение, которое мне нужно, я щелкаю, и затем иду к скамейке за лакомством. Конечно, это немного затягивает занятие, и я не делаю так постоянно. Это мера коррекции чересчур настойчивых шелти, которым я таким образом напоминаю, что они работают, чтобы услышать щелчок, и только после этого появляется еда. При этом собаки, даже пройдя несколько метров до лавочки, все равно знают, за что именно они получат лакомство, потому что им об этом сообщил щелчок.
Отбор поведения с помощью положительного подкрепления. Словосочетание "положительное подкрепление" (ПП) означает одновременно и подход, и метод. Оба очень важны в философии дрессировки. Когда я говорю "подход", я не имею в виду притворно счастливое лицо. Я говорю о внутреннем убеждении, или вере, в возможность собаки выполнить задачу. Применяя этот метод с умом, и вы как дрессировщик, и собака разовьете эту веру у себя и друг у друга. Спортивные комментаторы часто гвоорят о команде, играющей "на победу", как о противоположности "играть, чтобы не проиграть". В обоих случаях команда хочет победить, но подход - и часто и результат - очень разный.
Команда, которая играет, чтобы выиграть, играет с внутренней уверенностью в успехе. Эта команда агрессивна, напориста, упорна. Команда, которая играет, чтобы не проиграть, играет с внутренним страхом провала. Эта команда консервативна, медленно реагирует на открывающиеся возможности, легко расстраивается. В славные годы команды "Грин Бэй Пэкерс" Винс Ломбарди говорил после поражения: "Мы не проиграли, просто время вышло". Винс Ломбарди знал, как играть на победу. Еще важнее, он знал, как сохранять позитивное отношение команды даже в трудные времена.
Дрессировка с помощью кликера вырабатывает у собаки характер "игры на победу". Сам процесс обучения дает ей уверенность в том, что она может добиться успеха. Он учит ее, что если она что-то делает достаточно долго и старательно - она получит результат. Дрессировка не учит ее бояться ошибиться, она учит собаку, которая может столкнуться с ошибкой и продолжить работать, зная, что продолжение усилий принесет ей награду. По мере того, как у собаки будет повышаться уверенность, вы, как хэндлер, станете более уверены в собаке. И это будет видно в ринге. Как постепенный отбор поведения помогает получить стабильное выполнение навыков и уверенность собаки в возможности их выполнения?
Давайте посмотрим на обучение собаки садиться методом отбора поведения. Собака садится на землю (хорошо), но заваливается на бедро (плохо). Эти качества выполнения и другие (скорость и внимательность) - критерии, т.е. необходимые элементы правильного исполнения упражнения. Чтобы обучить собаку садиться - или любому другому навыку - правильно, вам нужно знать критерии выполнения, и продумать, как объяснить их собаке. Каждый навык содержит несколько критериев, и есть логическая последовательность в их соблюдении. Есть несколько критериев хорошей посадки: 1) Собака должна касаться задом земли; 2) собака должна сидеть сбалансированно по оси "вперед-назад"; 3) собака должна сидеть прямо по оси "право-лево"; 4) посадка должна быть быстрой; 5) собака должна быть способна сидеть продолжительное время
Вы работаете над одним критерием за один раз. В посадке вы должны сначала поощрять касание задом земли. Потом вы учите собаку правильной "механике" посадки, чтобы она не заваливалась на бедро. Это уже "повышение критериев": смысл упражнения теперь не "сесть на землю", а "сесть на землю прямо, не заваливаясь". Когда собака усвоит и это новое требование, вы больше не поощряете расхлябанную посадку, только прямую. В научных терминах это "дифференцированное подкрепление" (ДП). Вы поощряете не все подряд, что делает собака, а только попытки определенного типа или качества. Это не меняет правила "дрессировочного договора". Вы по-прежнему даете собаке то, что она хочет получить в обмен на то, что она делает для вас. Вы просто повышаете уровень требований к выполнению. Собаке теперь приходится стараться немного больше и немного более последовательно, чтобы получить желаемое.
Затем вы можете закрепить правильную посадку тем, что между посадкой и щелчком/поощрением будет проходить больше времени. Вместо того, чтобы щелкать в момент касания попой земли, вы увеличите время, отсчитывая одну секунду в течение пары тренировок, затем три, четыре секунды и так далее. (Я не использую часы. Я считаю "один банан, два банана" и т.д.) Этот процесс не только улучшает качество выполнения упражнения, он дает основу будущей выдержке сидя. Собака учится, что поощрение появится; просто чуть попозже.
Ваша задача - понимать критерии каждого упражнения и планировать, как их отрабатывать в логической последовательности. Когда вы это сделаете, и выстроите мастерство собаки, она всегда будет уверена в том, что она знает, что вы хотите, и в своей способности это сделать. "Технология" дрессировки дает не только нужное поведение, но и отношение, которое вам нужно.
Случайное поощрение. В каком-то смысле наше поведение "поощряется" каждый день жизнью. Вы улыбаетесь и машете другу, он улыбается и машет в ответ - ваше доброжелательное поведение поощрено. Вы голодны и идете к холодильнику, чтобы поесть, поскольку в прошлом вы не раз находили там еду. Поощрение - часть повседневной жизни. Дрессировщик использует поощрение сознательно. Мы много работаем над тем, чтобы с большой степенью вероятности собака выполняла определенные действия по команде. Проще говоря, поощрение повышает вероятность повторения поведения в будущем.
Два типа подкрепления. Подкрепление усиливает поведение. Есть только два типа подкрепления: положительное и отрицательное. Оба призваны достичь одного и того же результата - увеличить вероятность того, что поведение, за которым немедленно следовало подкрепление, повторится. Моя философия заключается в том, что обучение поведению лучше всего происходит с помощью положительного подкрепления. Обычный синоним подкрепления - поощрение. Я не возражаю против сокращений, но надо четко понимать разницу. Вы можете получить поощрение за что-то, что вы сделали в прошлом, но без особых ожиданий того, что вы повторите это в будущем (как награда за поимку разыскиваемого преступника). Подкрепление же всегда усиливает то поведение, которое его вызвало.
Я не использую термины "положительный" и "отрицательный" как морально-этическую оценку "хороший" и "плохой". Эти термины имеют чисто математический смысл. Положительное подкрепление (+П) означает, что вы даете собаке что-то желаемое, чтобы подкрепить (поощрить) поведение, которое только что произошло (собака села и получила печенье). Отрицательное подкрепление (-П) означает, что вы убираете что-то желаемое собакой, чтобы подкрепить то поведение, которое только что произошло.
Вся дрессировка с помощью поводка основана на отрицательном подкреплении. Вы применяете неприятное (дергаете поводок), чтобы вызвать поведение, и затем убираете неприятное (ослабляете поводок), когда собака делает правильно (идет рядом, садится, ложится и т.д.). Во всех этих случаях реакция собаки на команду происходит, чтобы избежать рывка поводка. -П учит собаку, как избежать неприятностей или наказания. Как говорит Карен Прайор, -П - это то, что заставляет собаку работать, чтобы избежать его. Вы можете научить собаку навыкам через отрицательное подкрепление, но вы всегда будете работать - и соревноваться - с неприятным воздействием и его избеганием. Вот почему "мотивационные" методы стали так популярны. Это попытка противодействовать неприятному характеру и последствиям обучения на отрицательном подкреплении. С +П мотивация как таковая становится неуместной; это неотъемлемое следствие самого метода.
Положительное подкрепление (обоюдная победа). Положительное подкрепление - получение собакой того, что она хочет, в ответ на предложенное ей поведение. В "Не рычите на собаку" Карен Прайор определяет +П как "что-то, ради достижения которого собака будет работать". Скиннер писал, что "положительное подкрепление усиливает любое поведение, результатом которого является". Если собака села и я дал ей лакомство, поведение закрепляется. Вероятность того, что она снова сядет, возрастает, потому что это действие приносит приятный результат. Использование положительного подкрепления - это одноступенчатый процесс. Когда вы получите нужное вам поведение, поощрите его.
Оперантное научение учит собаку "работать, чтобы заслужить" награду сев, без малейшего негативного оттенка. Другими словами, дрессировщик не реагирует наказанием на то, что собака не села. Он просто положительно реагирует на посадку, когда она случается. Сначала это будет происходить случайно. Но поскольку посадка приносит поощрение, приятное собаке, она будет садиться снова. Со временем собака обобщает полученный урок. Она выучивает, что у нее есть власть влиять на происходящее: делай правильно, и с тобой будут происходить хорошие вещи. Потом собака начинает предъявлять поведение сама, чтобы вызвать приятные последствия, которых ожидает. Поведение становится оперантным; т.е., по определению Скиннера, "поведение управляет средой, чтобы произвести последствия". Вот почему оперантное научение с положительным подкреплением, однажды выученное, легче использовать, чем традиционные методы, основанные на "коррекции" или отрицательном подкреплении. Дрессировка с положительным подкреплением гармонизирует желания собаки и дрессировщика. Это дрессировочная "сделка", о которой я писал выше: Хэндлер говорит, "Бафи, сделай то, что мне надо, и я дам тебе то, что хочешь". Бафи отвечает: "Договорились". Вы развиваете утвердительное взаимодействие между собакой и хэндлером. Собака учится получать то, что хочет, делая то, что хотите вы. Когда движение начато, любое новое упражнение, которое вы учите, будет проходить по тем же правилам, и с опытом вам будет все легче.
Положительное подкрепление учит животное не бояться нового. Как указывает Мюррей Сидмэн в его книге "Принуждение и его последствия", "И положительное, и отрицательное подкрепление эффективно учат, но они учат и другим вещам. В этом они отличаются. Положительное подкрепление дает нам свободу потворствовать своему любопытству в изучении новых вариантов. Отрицательное подкрепление прививает узкий поведенческий репертуар, оставляя нас боящимися нового, не решающимися исследовать".
Собака, которая не боится пробовать новые варианты, будет готова принять новое поведение, и будет лучше воспринимать "отрицательную информацию". Что я имею в виду под "отрицательной информацией"? Когда собака делает ошибку, вы можете захотеть сообщить ей, что она ошиблась, но так, чтобы она не начала бояться. Для этой цели часто используется слово "неправильно", тихо сказанное в обычном тоне. Это подсказывает собаке: "Это не то, попробуй еще раз". Правильно развитое и применяемое, оно может помочь собаке еще раз подумать, что именно надо сделать.
Например, в обучении выборке, если Сэм брал неправильную вещь, я мог тихо сказать ему "неправильно", пока он был еще в зоне выборки. Он бросал ее, снова искал и находил правильную. Никакого стресса, никакого шума. В обучении апортировке по направлениям, если я посылал его к вещи №3, а он шел к вещи №2, я мог сказать "неправильно", и он останавливался, задумывался и шел к нужной. Так что в буквальном смысле дрессировка становится диалогом дрессировщика и собаки. Отрицательная информация - это не отрицательное подкрепление. Она работает только потому, что впереди ждет положительное подкрепление. Собака понимает, что надо сделать правильно, она знает, что именно, так что она может понять подсказку, которая говорит, что она сбилась со следа, как информацию, переработать ее и вернуться на след. Это не работает, если собака боится ошибиться! Как писал Фрэнк Герберт в "Дюне", "Страх убивает разум". В отсутствие страха, разум собаки становится свободным, и она может работать, несмотря на ошибки. Это ведет к надежному выполнению.
"Неправильно". Гэри Уилкс популяризировал использование слова "Неправильно" в ответ на нежелательное поведение. О цели этого слова были споры. Некоторые расценивали его как наказание (точнее, условное наказание). Я не согласен с этим. Я расцениваю его как подсказку для угасания. Поведение, которое не подкрепляется, угасает. Если я даю возможность собаке что-то сделать, и она сделает это неправильно, я могу заставить это поведение угаснуть, просто не подкрепляя его. Но этот процесс довольно длительный, особенно, если поведение уже вошло в привычку. Слово "Неправильно", на мой взгляд, просто сокращает процесс угасания. Оно говорит собаке то же самое, что и лишение ее поощрения в течение некоторого периода времени: "Я не хочу, чтобы ты это делала, так что прекрати так делать".
Хоть слово и полезно, надо быть очень аккуратным в его использовании, особенно на ранних стадиях обучения. Весь смысл оперантного научения в том, чтобы собака училась на своем опыте, как выбрать нужное поведение, основываясь на истории его подкрепления. Слишком раннее введение слова "неправильно" может на вид упростить процесс дрессировки, но на самом деле помешает ему. Важно, чтобы и собака, и дрессировщик хорошо ориентировались в правилах поощрения. Собака должна научиться определять, когда ее не поощряют, а дрессировщик должен запастись терпением, чтобы не поощрить собаку в случае нежелательного поведения - точнее, не реагировать на него вообще. Если вы часто используете слово "неправильно", скорее всего, вы просите от собаки слишком многого - т.е. вы просите ее сделать то, что находится за пределами ее понимания. Если вы используете это слово до того, как собака поймет критерии и до того, как она поймет, что значит, когда вы не реагируете на предложенное поведение, это слово - не информация, а всего лишь костыль.
Отрицательное подкрепление (обоюдный проигрыш). ОП, по Скиннеру, "усиливает любое поведение, которое помогает избежать или уменьшить его". Карен Прайор определяет ОП как "то, что заставляет собаку работать, чтобы избежать его". В обычной жизни это обычно процесс объективный. Вы перестаете пить воду, потому что это отрицательно подкрепляется - жажда исчезает после первых глотков. В дрессировке процесс субъективный. ОП в дрессировке имеет два аспекта: предъявление неприятного и его ликвидация. Другими словами, отрицательный раздражитель выполняет две взаимосвязанные функции: а) уменьшает вероятность повторения данного нежелательного действия в будущем; б) увеличивает (при его ликвидации) вероятность повторения желательного действия в будущем. Это определение отрицательного подкрепления не совсем соответствует научному. Думаю, с этим можно смириться. У теории бихевиоризма развит свой огромный словарь, в основном выработанный в лаборатории, и как все мы, я пленник этого словаря. Так что, как Шалтай-Болтай, я считаю, что "Когда я использую слово, оно значит то, что я в данный момент для него выбрал - ни больше, ни меньше". Но в отличие от этого вздорного яйца, я попробую объяснить, что я имею в виду.
Давайте опять возьмем наш пример с командой "Сидеть". В традиционной дрессировке собака сидит рядом с дрессировщиком. Он говорит "Бафи, сидеть", и тянет поводок назад, в то же время нажимая собаке на круп (или, в некоторых школах, хлопая по крупу, или сгибая ей задние ноги). Когда собака садится, натяжение поводка ослабевает. Это классическое использование отрицательного подкрепления. Стоять после команды "Сидеть" - нежелательное поведение. Рывок назад - "коррекция" (предъявление неприятного), направленная на исключение неправильного поведения путем связывания его с неприятными последствиями. Ослабление поводка поощряет поведение "сидения" удалением неприятного воздействия в момент совершения требуемого действия. Этот метод учит собаку избегать неприятного воздействия поводком тем, что она не стоит, услышав команду "Сидеть".
Это метод дрессировки, используемый в традиционных школах. Умелый дрессировщик может очень эффективно работать поводком, не дергая постоянно собаку и не вызывая у нее кашель или рвотные позывы от рывков за шею. Но независимо от того, насколько нежна и элегантна работа поводком, она основана на отрицательном подкреплении: собака работает, чтобы избежать воздействия.
"Традиционная", или "основанная на командах", дрессировка основана на отрицательном подкреплении. "Традиционная", или "основанная на командах", дрессировка основана на отрицательном подкреплении. Основной мотив - неприятные последствия всегда где-то рядом на случай, если собака не выполнит то, что требует от нее дрессировщик. Очень популярна фраза "Собака должна знать, что у нее нет выбора, кроме как послушаться". Эта дрессировочная философия, неважно, задрапированная в "мотивационную" или "позитивную", покоится на том, что послушание - это принудительное подчинение.
Я использую термин "основанная на командах", чтобы описать этот метод дрессировки, потому что он рассказывает, как происходит процесс обучения и показывает различие между традиционной и оперантной дрессировкой. В традиционной дрессировке процесс начинается с того, что дрессировщик дает собаке команду, которую она не понимает (собаки по-английски не говорят, вы знаете?), а потом делает что-то - рывок поводком, щипок за ухо, наведение лакомством или удар током - что заставляет собаку послушаться. Концептуально тип коррекции, или степень гуманности, - нечто нематериальное. Наведение лакомством и удар током - просто противоположные крайности одного и того же: дать команду и заставить ее выполнить.
"Основанная на командах" дрессировка работает на отрицательном подкреплении. Сначала поступает слово, а затем вы заставляете собаку выполнить ее. Она начинается с непонимания и имеет тенденцию вырабатывать поведение, неустойчивое к затуханию. Оперантное научение основано на положительном подкреплении. Сначала происходит поведение. Вы берете действия собаки, которые она предъявляет сама, и отбираете из них то, что в итоге формирует целый навык. Вы не прилагаете к этому "слово", пока навык не сформирован практически полностью. Так собака учится, что определенное слово связано с определенным действием, которое всегда приносит желаемый результат.
Отличие отрицательного подкрепления от наказания. Аналитики-бихевиористы, возможно, выделят два элемента в моем описании отрицательного подкрепления, и назовут рывок поводка наказанием, а прекращение натяжения поводка отрицательным подкреплением. Я не собираюсь здесь спорить об академических тонкостях. Я использую термин "отрицательное подкрепление" как для предъявления неприятного стимула, так и для его удаления при выполнении нужного действия, чтобы подчеркнуть связь во времени и единство целей этих действий. Я также люблю отделять предъявление неприятного стимула, чтобы повлиять на текущее действие, от предъявления такового в момент, когда он уже не может повлиять на действие собаки, поскольку случается долгое время спустя. Этот последний тип я называю "наказание".
Различие важно, поскольку освещает два вопроса: 1) время и 2) необходимость представления альтернативного, желательного поведения. Продолжительность концентрации внимания собаки измеряется в секундах (у отдельных знакомых мне экземпляров пшеничников в наносекундах). Так что, чтобы отрицательное подкрепление работало, оно должно немедленно отвечать на нежелательное поведение. И чтобы быть честным, оно должно предоставлять собаке альтернативу - то, что собака может сделать - и она должна это знать - чтобы вы убрали неприятное воздействие.
Отрицательное подкрепление и наказание в реальном мире. В Калифорнии дорожная полиция использует то, что называется "выговор", чтобы предупреждать превышающих скорость. К примеру, если вы едете со скоростью 72 мили в час там, где можно ехать не быстрее 65, то патруль поравняется с вами и полицейский внимательно на вас посмотрит. Если вы снизите скорость, он оставит вас в покое. Если вы не сбросите скорость, или того хуже, увеличите - он остановит вас и выпишет штраф.
"Выговор" - отрицательное подкрепление. Оно предоставляет неприятное воздействие (присутствие полицейского патруля) и возможность избежать неприятностей (снизив скорость). Удаление неприятного воздействия (полицейская машина удаляется, чтобы сделать еще чью-нибудь жизнь более интересной), когда вы замедляете ход, отрицательно подкрепляет ваши действия.
Выписывание протокола - это наказание. Если вы не сбросили скорость, или еще того хуже, увеличили ее, вас остановят; ваше нежелательное поведение уже в прошлом. Вы не можете избежать неприятных последствий. Штат применит некую степень ответной реакции на ваше нежелание следовать закону (или обычному здравому смыслу), оштрафовав вас или даже отобрав права. Повлияет ли наказание на ваше поведение в будущем? Люди платят штрафы и снова превышают скорость, и наши дороги полны водителей с временным разрешением вместо водительского удостоверения.
Тысячелетиями животные обучались техникой негативных последствий. Она работает. Тем не менее, отрицательное подкрепление - не для меня. Эти штрафы и другие меры могут удержать, а могут и не удержать в рамках правил. Может быть, все, чего они добьются - это вынудят купить антирадар.
"Умная" собака. В дрессировке собак поведение избегания слишком часто преобладает. Обычное дело - увидеть собак, "сдувшихся" при переходе из Новичков в Открытый класс. Происходит ли это потому, что они слишком тупые, чтобы выучить более сложные упражнения? Нет. Во многих случаях это просто потому, что не делать ничего - самый простой путь избежать неприятных последствий ошибки. Когда в обучение вводят наказание, субъект слишком быстро учится избегать или обходить его, а не делать правильно. Это как минимум частично объясняет то явление, которое называют "собака знает, что она на соревнованиях, и ведет себя плохо". Это собака, которая плохо или совсем не работает в ринге. Некоторые спортсмены говорят, что она "издевается" над хэндлером. Некоторые говорят, что "она знает, что может не послушаться на соревнованиях, и ей за это ничего не будет".
Это все чепуха. Такие объяснения обвиняют собаку или приписывают ей какие-то извращенные мотивы, вместо того, чтобы сфокусироваться на неэффективности обучения. Все, что делает собака - результат обучения! Измененное поведение в ринге подпадает под одну из двух категорий: "фальшивый позитив" или избегание.
"Фальшивый позитив". Собака, которую учили с помощью отрицательного подкрепления, научена, что отсутствие неприятных последствий означает, что она делает правильно. В ринге и без поводка (т.е. при полном отсутствии даже видимости возможности коррекции) никакие действия собаки не вызывают неприятностей. Значит, все, что делает собака в ринге - правильно. Я называю это "фальшивый позитив" - собака неправа, но в соответствии с методикой ее обучения получается, что права.
Избегание. Неприятные воздействия порождают избегание. При встрече с ними целью становится избежать их. Вы делаете то, что должны, только потому, что иначе не удастся их "выключить". Словами Мюррея Сидмана, "отрицательное подкрепление вызывает побег. Когда мы сталкиваемся с неприятностями, мы любым способом стараемся избежать их. Когда мы сталкиваемся с ними опять, мы используем то, что сработало в прошлый раз". В ринге собака может "смыться" как дословно, убежав оттуда, так и образно (не выполнив команду). И, как замечает Сидман, "если мы контролируем других с помощью неприятных воздействий, мы тоже ассоциируемся с неприятностями". Вот почему часто "отказное" поведение в ринге сопровождается действиями или движениями, показывающими неприязнь или боязнь хэндлера.
Положительное подкрепление - не "мотивационная" дрессировка. Один из подходов к решению проблем "отказа в ринге" лежит в "мотивационной" технике. Я не буду говорить здесь о "мотивации" как таковой. Тренеры этой школы не отказываются от негативного воздействия на собаку как от основы дрессировки. Они просто "перевешивают" неприятное воздействие игрушками, лакомством и энергичной похвалой. Это как прикрыть печенку взбитыми сливками. Мотивационная дрессировка часто служит для маскировки скрытой проблемы: дрессировка, основанная на негативе, в действительности демотивирует и собаку, и хэндлера. Лучшие спортсмены зачастую долго и упорно ищут собаку, которая могла бы выдержать обучение. И очень мало спортсменов на самом деле могут хорошо дрессировать этим методом.
В отличие от метода дрессировки отрицательным подкреплением обучению с положительным подкреплением свойственно мотивировать обоих. Помните слова Скиннера: "Частое поощрение также строит и поддерживает заинтересованность человека в том, что он делает". С собакой то же самое. Собака работает потому, что она выучила, что ее собственные действия могут принести хороший результат. У нее развивается заинтересованность в том, чтобы сделать правильно. Многие тренеры традиционной школы, которым понравилась эта идея, возвращаются с вопросом "что же делать, если она не хочет делать то, что нужно?". Вопрос мимо цели.
Во-первых, если вы построили у собаки понимание "дрессировочной сделки" правильно, нет причин, по которым она откажется работать. В конце концов, когда вы даете команду, вы даете возможность "заработать". Почему она не послушается? Это не тот случай, когда собака не работает, пока ее не заставишь.
Во-вторых, если собака не выполнила что-то - это ерунда. Никто не совершенен. Цель дрессировки - получить очень высокую степень вероятности. Но неважно, насколько высока эта степень, все - и люди, и собаки - периодически ошибаются. Задача в том, чтобы получить максимально лучший результат с максимально возможной частотой. Дрессировка с положительным подкреплением дает возможность добиться этого быстрее, более надежно и с более стабильными результатами, чем дрессировка с принуждением.
"Суеверное" поведение. Отбор поведения начинается с "суеверного поведения". В "Науке и поведении человека" Скиннер утверждает, что "если между действием и предъявлением поощрения связь случайна, то поведение называется "суеверным". Стиви Уандер объяснил это проще: суеверие - когда "вы верите в то, чего не понимаете". В дрессировке это то поведение, которое собака повторяет, потому что по причинам, которые она (еще!) не понимает, оно приносит хорошие результаты. Например, где-то в пост-юрском периоде, пока дикие пуделя еще скитались по земле, я охотился и собирал плоды и резал что-то мясное на разделочной доске. Поскольку Сэм крутился у меня под ногами, отлетевший кусочек мяса упал на пол, и Сэм его подобрал. С тех пор, как только я достаю разделочную доску и начинаю рубить, Сэм тут как тут. Он не знает, почему он получил вкусное, но оно было, и если по случайности изредка будут падать еще куски (не то чтобы постоянно, но я бываю неуклюж), то это увеличит вероятность того, что при виде доски он будет сидеть и облизываться.
Возможно, я уже рассказал все, что вам надо знать об отборе поведения и его сохранении. Однако я все же допишу книгу, если позволите. В обычном процессе оперантного научения вы просто положительно реагируете на желательное поведение, предложенное животным. Например, вы учите щенка сидеть. В первое время вы просто поощряете его, когда он садится сам. Через два-три раза щенок начнет садиться при каждой удобной возможности. Я учу "сидеть" с каждой собакой именно так, подлавливая момент. Мы взяли нашего трехлетнего метиса Шкипера в то время, когда у меня вообще не было ни минутки на дрессировку. Но я начал с ним "ознакомление с кликером", и уже после одного занятия он умел сидеть. Когда он думает, что он в беде или просто не уверен в смысле происходящего, он садится.
У одного из моих клиентов собака отказывалась лечь. Неважно, как я двигал рукой, чтобы побудить ее лечь, она только наклоняла голову, оставляя ноги прямыми. Однажды я попробовал нажать на круп, она вывернулась и ушла. Так что я оставил ее в покое, и мы, люди, отправились поговорить о политике за чашкой кофе. Через несколько минут она легла в углу. Я щелкнул и бросил ей кусочек. Еще несколько повторений, и я смог ввести команду при укладке. Владелец занимался с ней всю следующую неделю, и она ложилась по команде. Начните с того, что дает вам собака. Поощряйте все, что отдаленно напоминает движение в нужном направлении. Поднятие планки просто означает, что собака должна приложить немного больше усилий именно в том направлении, которое нужно вам.
Морган Спектор
"Кликер-дрессировка для обидиенс"
перевод В.Большакова http://dogschool.ru
Источник: http://dogschool.ru |