Курсовая работа: Обучение с подкреплением

Лишь в одном случае не следует прибегать к вариативному режиму подкрепления, после того как поведение заучено, — это когда оно направлено на решение своего рода головоломки или теста. При одном из видов дрессировки собака должна выбирать из нескольких разнородных предметов тот, который побывал в руках у хозяина и хранит его запах. При этом необходимо каждый раз говорить собаке, что она выбрала правильно, чтобы в следующий раз она знала, что надо делать. В тестах на различение, — скажем, идентификация более высокого из двух звуков — необходимо подкреплять каждый правильный ответ испытуемого, чтобы он был постоянно информирован о том, какую задачу он решает (подойдет, конечно, и условное подкрепление). Когда мы отгадываем кроссворд или составляем картинку-загадку, мы получаем подкрепления за правильные догадки, так как только они являются “подходящими”. Если бы при составлении картинки-загадки можно было вставить в одну ячейку несколько кусочков, то положительного подкрепления за правильный выбор, который является обязательной обратной связью в любой ситуации выбора, не получалось бы.

Долговременные программы поведения

В дополнение к вариативному режиму подкреплений можно ввести и закрепленный, при котором субъект знает, что он должен работать определенное время или выполнить определенный комплекс поведенческих реакций за каждое подкрепление. Например, подкрепляя каждый шестой прыжок, можно сделать так, что дельфин будет прыгать шесть раз подряд, и вскоре получим стабильные серии из шести прыжков. Трудность работы с фиксированным режимом подкрепления состоит в том, что первые ответы в сериях не подкрепляются и возникает тенденция к уменьшению затрачиваемых на них усилий. У прыгающего дельфина со временем все прыжки, кроме последнего, который действительно подкрепляется, уменьшаются. Это отрицательное влияние фиксированного режима подкреплений является важным фактором во многих видах человеческой деятельности — например на заводском конвейере. Чтобы получить подкрепление, необходимо работать в течение определенного времени, но так как подкрепление дается в фиксированном режиме, независимо от качества выполнения, человек совершенно естественно стремится делать то наименьшее количество работы, которое позволяет не выпасть из игры, особенно низкая производительность может быть в начальный период работы. Зарплата по пятницам является фиксированным подкреплением, делающим понедельник тяжелым днем. У дельфинов поддержать поведение поможет случайное подкрепление, первого или второго прыжка, помимо шестого. У людей могут быть эффективны различные виды прогрессивных оплат или других подкреплений (например, награды), тесно связанные с качеством и количеством продукции и выдаваемые неодновременно с обычным подкреплением.

Применяя либо фиксированный, либо вариативный режимы подкрепления можно оттренировать чрезвычайно длинные цепи поведенческих реакций. Можно добиться того, что цыпленок будет клевать кнопку сто и более раз за каждое зернышко пшеницы. Для людей также можно привести много примеров отставленного вознаграждения. Один психолог шутит, что самым длительным режимом неподкрепляемого поведения в человеческой жизни является учеба в школе.

При режимах подкрепления с чрезвычайно длительными интервалами иногда создаются ситуации, которые не приносят организму полезного результата. Для цыпленка это определяется обменными процессами: когда на клевание кнопки он начинает тратить больше энергии, чем может восстановить при получении пшеничного зерна, поведение начинает угасать — цена работы падает так низко, что ее просто становится незачем делать. Конечно, так часто бывает и с людьми.

Другое явление, встречающееся при очень длительных интервалах между подкреплениями, — замедленный старт. Начав клевать, цыпленок совершает эти действия с постоянной частотой, так как каждый удар приближает его к подкреплению, но было отмечено, что по мере того, как увеличиваются интервалы между подкреплениями, он стремится “отложить” начало реакции на более длительный срок. Это и .называется “отсроченное начало поведения с долговременной программой” и очень распространено в жизни людей. В любой долгосрочной задаче, начиная с уплаты подоходного налога и кончая уборкой гаража, можно придумать бесконечное количество причин для того, чтобы не начать дело безотлагательно. Написание чего-либо, иногда даже просто письма, тоже поведение с долгосрочной программой. Когда оно уже начато, все идет прекрасно. Но так трудно заставить себя сесть и начать! Феномен отстроченного начала.

Один из способов преодоления феномена отсроченного начала заключается в том, чтобы вводить какое-либо подкрепление именно за старт. Я успешно применяла этот прием и в самовоспитании. В течение нескольких лет один или два раза в неделю я посещала вечерние занятия, что требовало много времени — три часа занятий и по часу на дорогу в один конец. Каждый раз, когда приближалось 5 часов, появлялось сильнейшее искушение не ездить. Но потом я обнаружила, что, если я разобью поездку — первую часть дела — на пять этапов: путь до станции метро, посадка в поезд, пересадка на другой, автобус до университета и,, наконец, восхождение по лестнице до аудитории, и подкреплю каждое из этих начальных поведений после его выполнения маленьким кусочком шоколада, который я очень люблю, но обычно не ем, я стала способна вытащить себя из дома, а через несколько недель была в состоянии проделать весь путь на занятия без шоколада и без внутренней борьбы.

Суеверия: случайные подкрепления

В реальной жизни подкрепления возникают на каждом шагу и часто представляют собой лишь случайное стечение обстоятельств. Один биолог, изучавший ястребов, заметил, что если ястреб поймал под каким-либо кустом мышь, то в течение недели, а иногда и больше, он будет ежедневно проверять этот куст; вероятность его полета именно над этим местом обусловлена силой подкрепления. Попробуйте пройти мимо мусорной корзины, тщательно к ней не приглядываясь, если накануне нашли в ней пять долларов.

Случайное подкрепление полезно для, ястреба; вообще можно сказать, что поведение животных эволюционировало так, что каждый вид обладает возможностью извлекать пользу из любого подкрепления. Однако многие случайные подкрепления не сопровождаются полезным результатом, но тем не менее могут оказать сильное влияние на поведение. Когда поведение не связано с последующими событиями, но в мозгу субъекта связывается с ними в качестве необходимого условия их осуществления, говорят о суеверном поведении. Пример этого — человек, грызущий карандаш. Если во время экзамена вам случится взять в рот карандаш и тут же вам придет в голову правильный ответ или хорошая мысль, то такое подкрепление может изменить ваше поведение: хорошие мысли пришли, когда грыз карандаш,. таким образом, это действие подкрепляется. Когда я училась в колледже, у меня не было ни одного карандаша, не покрытого отметинами от зубов, — на особенно трудных экзаменах я иногда перегрызла карандаш пополам. Я была уверена, что это помогало мне думать. В действительности же это было всего лишь случайно обусловленное поведение.

То же самое можно сказать о ношении определенной одежды или совершении некого ритуала перед тем как взяться за какое-либо -цело. Я видела одного бейсболиста, который совершал девятичленную цепочку действий каждый раз, когда готовился подать мяч: дотрагивался до кепки, касался мячом перчатки, сдвигал кепку вперед, тер ухо, сдвигал кепку назад, шаркал ногой и т.д. В трудные моменты он мог повторить все девять действий дважды, никогда не нарушая их порядок. Эта последовательность действий совершалась очень быстро, комментаторы никогда не останавливались на ней — но тем не менее она представляет собой сложное суеверное поведение.

Поэтому гораздо лучше, как только поведение начинает формироваться, начинать разнообразить варианты условий, которые не представляются вам важными, чтобы не возникло какого-либо случайного обусловливания, которое впоследствии будет вам мешать.

Более всего следите, чтобы не образовывались случайные временные связи. Как животное, так и люди очень хорошо чувствуют временные интервалы.

Интересно, что суеверное поведение не исчезает, если вы просто указываете на его неэффективность; будучи очень сильно заученным, оно соответственно сильно оберегается. Попробуйте поговорить с врачом 6 его привычке использовать неэффективное или даже вредное лечение, и вы получите отпор в соответствующих выражениях; я уверена,, что и тот бейсболист с девятиступенчатьм суеверным выражением нервного возбуждения будет яростно противиться всякому, кто предложит ему играть в мяч, скажем, без кепки, до которой он четырежды дотрагивается.

Единственный способ избавиться от суеверного поведения — это убедиться, что оно не связано с подкреплением.

Чего можно добиться с помощью положительного подкрепления

Новый администратор одного грозного босса прикинул, что из его работы может являться подкреплением для босса — например принесение бумаг на подпись, — и старался как можно чаще приурочить это дело ко времени, когда босс не был в ярости. Босс стал спокойнее и, подписывая бумаги, стал даже отпускать шутки.

Организованное подкрепление

Чтобы групповое поведение стало подкреплением, 250 человек, составлявших группу, просили аплодировать каждому выступавшему независимо от того, понравилась ли им речь иди нет. Таким образом, с самого начала застенчивые были ободрены, смелые вознаграждены, и все выступления, как проникновенные, так и бессодержательные получили признание группы.

Поначалу аплодисменты были не более чем обязанностью. Но скоро они стали действительно коммуникативным средством, выражающим не степень удовольствия, как в театре, а оттенки чувств и значений. Например, в нашей группе, а я полагаю, что такое бывает в каждой подобной группе, был заядлый спорщик, который часто подвергал сомнению то, что говорил тренер. Когда это произошло в третий или четвертый раз, тренер вступил с ним в спор. Всем было ясно, что с точки зрения логики любитель споров на этот раз был в общем-то прав. Но поскольку спор тянулся и тянулся, всем остальным в аудитории было все равно, кто прав. Все 249 человек желали только одного: чтобы он замолчал и сел на место.

Правила игры, то есть формирующие правила, не позволяли нам протестовать или сказать ему, чтобы он замолчал. Но постепенно всеобщее молчание дошло до его сознания. Мы видели, что он начинает понимать, что никому нет дела до того, что он прав. Может быть, н& всегда надо доказывать свою правоту. Мало-помалу он погрузился в молчание и сел. Группа немедленно разразилась целой бурей аплодисментов, выражавших сочувствие и понимание наряду с сердечным облегчением — очень мощное положительное подкрепление озарения, которое пришло к спорщику.

Случаи обучения такого типа, в которых важную роль играют поведенческие аспекты, а не словесное выражение, безумно трудно объяснить постороннему. Эрхард, подобно учителю дзен, часто прибегает к афоризмам; в случае описанного выше спорщика говорится так: “Когда ты прав, с тебя требуется только одно — быть правым”. Это значит, что не обязательно нравиться или вызывать другие приятные чувства: только быть правым. Если бы мне пришлось привести этот афоризм на вечеринке, на которой кто-нибудь распинается, человек, окончивший курсы, посмеялся бы, да и любой хороший современный тренер посмеялся бы, но большинство присутствующих решило бы, что я не в своем уме или пьяна. Озарение при тренировке не требует словесного выражения.

Что такое процесс выработки

Процесс выработки возможен потому, что поведение живых существ вариабельно. Что бы живое существо ни делало, в одних случаях оно выполняет это более энергично, чем обычно, а в других случаях — наоборот. Неважно, сколь сложно и трудно то окончательное поведение, которое вы хотите выработать, вы всегда можете, установить ряд последовательных целей, найти какое-либо поведение, которое осуществляется уже сейчас, и использовать его как первый шаг. Мы все хорошо знакомы с выработкой поведения, являясь участниками или объектами этого процесса. Попросту говоря, большая часть воспитания ребенка — процесс выработки поведения. Обучение различным физическим навыкам — от тенниса до печатанья на машинке — представляет из себя в основном выработку поведения. Мы находимся в процессе выработки или, по крайней мере, стараемся что-либо выработать всякий раз, когда упражняемся в чем-либо, начиная от публичного выступления, кончая игрой на фортепьяно. Мы находимся в процессе выработки и тогда, когда пытаемся изменить свое поведение — бросить курить, быть менее застенчивым, лучше распоряжаться деньгами.

Хорошо спланированная программа выработки может свести до минимума необходимую тренировку и сделать значимым каждый момент практических занятий тем самым чрезвычайно ускоряя совершенствование И наконец, в спорте, музыке и других творческих устремлениях вы можете захотеть развить не только стабильное выполнение навыка, но и выполнение на том наивысшем уровне, который доступен вам или тому, кого вы обучаете В этом случае правильное использование законов направленной выработки может быть решающим.

Способы и приемы или закономерности

Есть два аспекта выработки: первый способ и приемы, то есть последовательность шагов, необходимых для выработки типа поведения, и второй — закономерности или правила, предписывающие, как, когда и почему эти типы поведения должны подкрепляться

Большинство тренеров, большинство книг о тренировке и большинство тех, кто обучает тренеров, имеет дело почти исключительно со способом или приемом. “Возьмите в руки клюшку для гольфа как показано на рисунке”, “Подведите прицел винтовки под нужное место мишени”, “Никогда не наклоняйтесь в горах”, “Взбивайте яйца металлическим венчиком по часовой стрелке” Это прекрасно. Эти приемы обычно складываются годами при участии многих людей, путем проб и ошибок, и поэтому они оптимальны. В самом деле вы будете более уверенно сидеть на лошади, если пятки у вас опущены, а мяч для гольфа будет послан вами дальше, если вы хорошенько отклонитесь в сторону замаха. Если вы заинтересованы в том, чтобы овладеть каким-либо навыком, я могу вас уверить, что вы извлечете максимум возможного от устоявшихся приемов выполнения действий, которые включаются в данный навык, почерпнув это из книг, от преподавателей, инструкторов и наблюдая или изучая действия других людей

Другую сторону выработки составляют закономерности, которые регулируют сам процесс обучения: когда надо поднажать, когда подослабить обучение; как наиболее эффективно повышать критерии, что делать, если возникли затруднения, и, вероятно, самое главное — когда остановиться. В этих вопросах обычно полагаются на интуицию и опыт тренеров или инструкторов, на случай иди удачу. Между тем именно успешность применения этих закономерностей определяет разницу между просто хорошим и великим преподавателями, между радостным, быстрым и успешным обучением и обучением, приводящим к срывам, медленным, скучным и неприятным. Хороший процесс выработки, а не только хорошие приемы, делают обучение эффективным.

Десять правил выработки

1. Повышайте критерий небольшими градациями, чтобы у субъекта, всегда была реальная возможность выполнить требуемое и получить подкрепление.

2. В конкретный промежуток времени отрабатывайте что-нибудь одно, не пытайтесь формировать поведение по двум критериям одновременно.

3. Прежде чем увеличивать или повышать критерий, пользуйтесь подкреплением текущего уровня ответа, т.е. подкрепляйте любое исполнение данного действия, имеющегося в данный момент.

4. Вводя новый критерий, временно ослабьте старые.

5. Будьте впереди того, кого вы обучаете: полностью планируйте свою программу выработки так, чтобы в случае внезапного успеха обучаемого, вы знали, что следует подкреплять далее.

К-во Просмотров: 207
Бесплатно скачать Курсовая работа: Обучение с подкреплением