Курсовая работа: Обучение с подкреплением
Основа этой теории по разным источникам известна как модификация поведения, теория подкрепления, оперантное обусловливание, бихевиоризм, психология поведения и т.д.; это тот раздел психологии, который принес мировую известность Б.Ф.Скиннеру, профессору Гарвардского университета.
Обучение с подкреплением — это вовсе не система наград и наказаний; современные тренеры даже не используют этих терминов. Награды и наказания приходят обычно после того, как действие совершено, часто спустя длительное время, как, например, в уголовном суде. Они могут повлиять, а могут и не повлиять на будущее поведение, но они, безусловно, не могут воздействовать на уже совершенное действие. Подкрепление — будь то “положительное”, то, к чему надо стремиться, например, улыбка или ласка, или “отрицательное” — то, чего надо избегать, подобно рывку поводка или нахмуренным бровям — происходит именно во время поведения, на которое надо воздействовать. Подкрепление изменяет поведение только тогда, когда дается в правильно выбранный момент.
Обучающие машины и программированные учебники, разработанные на основе Скиннеровской теории, были первыми попытками разбить обучение на этапы и поощрять обучающегося за правильные ответы. Эти ранние механизмы были неуклюжими, но именно они были предвестниками компьютерного обучения, которое оказалось не только высокоэффективным, благодаря совершенству выбора времени подкрепления компьютером, но и внесло в процесс обучения веселые нотки в связи с забавным характером подкрепления (фейерверки, танцующие роботы). Программы подкрепления, использующие жетоны и талоны, которые можно накопить и обменять на конфеты, сигареты или какие-то льготы, были установлены в психиатрических лечебницах и некоторых других учреждениях.
Тренировка с подкреплением не разрешает всех проблем — она не увеличит ваш счет в банке, не спасет от неудачной женитьбы, не поможет в случаях тяжелых заболеваний психики. Некоторые ситуации, например, плач ребенка, не имеет отношения к проблеме тренировки и требуют других методов разрешения. Некоторые типы поведения человека и животных имеют генетические компоненты, которые трудно или невозможно изменить тренировкой. Ряд проблем просто не стоит того, чтобы тратить время на тренировку. Но во многих случаях, когда жизнь бросает человеку вызов, ставит задачи и посылает неприятности, правильное использование подкрепления может оказаться полезным.
Что такое положительное подкрепление
Положительное подкрепление — это событие, совпадающее с каким-либо действием и ведущее к увеличению вероятности повторного совершения этого действия.
Запомните это положение. В нем заложен секрет успешного обучения.
Существуют два вида подкрепления: положительное и отрицательное. Положительное подкрепление — это нечто, желаемое субъектом: пища, ласка или похвала. Негативное подкрепление — это то, чего субъект хотел бы избежать: шлепок, нахмуривание бровей, неприятный звук (предупреждающий зуммер в машинах, который раздается, если вы забыли пристегнуть ремень безопасности, — это отрицательное подкрепление).
Поведение, которое уже встречается, вне зависимости от того, насколько оно спорадично, всегда можно усилить с помощью положительного подкрепления.
Поведение, которое уже встречается, вне зависимости от того, насколько оно спорадично, всегда можно усилить с помощью положительного подкрепления. Если вы зовете щенка, и он подходит к вам, а вы его ласкаете, то в дальнейшем подход щенка на зов становится все более и более надежным даже безо всякого другого обучения. Предположим, что вы хотите, чтобы кто-то позвонил вам — ваш отпрыск, родитель или любимый. Если он или она не звонит, то тогда уж ничего не поделаешь. Самое главное в обучении с подкреплением то, что вы не можете подкрепить поведение, которое не встречается. С другой стороны, если вы всегда проявляете радость, когда любимые вам звонят, то это значит, что их поведение положительно подкрепляется, вероятность частоты их звонков, очевидно, увеличится. Конечно, если вы примените отрицательное подкрепление — “Почему ты не позвонил, почему я должна тебе звонить, ты мне никогда не звонишь” и т.д., замечания, которые вызывают раздражение, — вы создаете ситуацию, при которой звонящий избегает неприятностей тем, что не звонит; фактически вы обучаете их не звонить.
Подкрепление относительно, не абсолютно. Дождь является положительным подкреплением для уток, отрицательным для кошек, довольно безразличен, по крайней мере во влажную погоду, для коров. Пища не является положительным подкреплением, если вы сыты. Улыбки и похвалы могут быть непригодными в качестве подкрепления, если субъект хочет вывести вас из. себя. В качестве подкрепления надо выбирать нечто желаемое субъектом.
Положительное подкрепление приносит пользу и при взаимоотношениях между людьми. Оно лежит в основе искусства делать подарки: точно угадать, что будет иметь подкрепляющее действие (правильный выбор является подкреплением и для делающего подарок).
Время подачи подкрепления
Запоздалое подкрепление является наибольшим недочетом начинающего дрессировщика. Собака садится, но к тому времени, когда хозяин говорит: “Хорошая собака”, собака уже снова стоит. За что, думает животное, его хвалят? За то, что оно встает. Если у вас возникают трудности в дрессировке, первый вопрос, который надо себе задать, не запаздывает ли ваше подкрепление.
Мы всегда слишком запаздываем подкрепляя друг друга. “Послушай, дорогая, вчера вечером ты выглядела замечательно”, — звучит совсем не так, как та же фраза, сказанная вовремя. Отсрочка подкрепления может даже оказать вредное воздействие (“А что, разве я сейчас не выгляжу замечательно?”). Мы свято верим, что сила слов перекроет ошибки во времени подкрепления.
Слишком раннее подкрепление тоже неэффективно. Это называется взяточничеством.
Мне кажется, что иногда и детей мы подкрепляем слишком рано, находясь под ложным впечатлением, будто мы их подбадриваем (“Молодец, хорошо, ты уже почти все сделала правильно”). Возможно, при этом мы подкрепляем попытки. Но существует разница между попыткой сделать что-то и выполнением этого. Причитания типа “я не могу” иногда отражают фактическое положение вещей, но они могут являться и признаками того, что часто подкреплялись просто попытки. Вообще, подкрепление поведения, которое еще не совершилось, — подарками, обещаниями, комплиментами или чем-нибудь в этом роде — ни капельки не подкрепляет это поведение. Если что-то и подкрепляется, так это поведение, совершающееся в данное время: вероятнее всего — выпрашивание подкрепления.
Величина подкрепления
Не давайте сразу много…
Основное правило дрессировщика заключается в том, что если вы собираетесь провести в день одно занятие, то можете рассчитывать на хорошую работу животного примерно за четверть его дневного рациона, остальное дается после окончания работы. Если же вам надо провести три или четыре занятия в день, то дневную порцию пищи надо разделить примерно на восемьдесят частей и за один сеанс давать двадцать или тридцать. Восемьдесят подкреплений, видимо, являются максимумом, способным заинтересовать субъекта в течение дня. (Может быть, поэтому слайдовая кассета содержит восемьдесят слайдов; по крайней мере, когда лектор просит демонстратора показать вторую кассету слайдов, я тяжело вздыхаю.)
Большой куш
Одним из наиболее полезных приемов пищевого или какого-либо другого подкрепления для человека и животных является получение куша. Это награда, которая во много, иногда в 10 раз больше обыкновенного подкрепления и являющаяся сюрпризом для субъекта. В рекламном агентстве, где я когда-то работала, бывали официальные вечера на Рождество, а также неофициальные праздники по поводу окончания большой работы или заполучения нового клиента. Но у председателя правления была еще привычка устраивать в год один-два абсолютно неожиданных вечера. Внезапно в середине дня он проносился по всем комнатам конторы, крича, чтоб все кончали работу. Коммутаторы выключались, появлялась процессия поставщиков провизии, музыканты, буфетчики, шампанское, копченая семга, и все это только для нас и безо всякой особенной причины. Это было неожиданным кушем для пятидесяти человек. Я думаю, что это очень способствовало поднятию духа коллектива.
Условное подкрепление
Наша жизнь изобилует условными подкреплениями. Нам нравится слышать, как звонит телефон или видеть набитый почтовый ящик, даже если половина звонков неинтересна и большая часть корреспонденции — утиль, потому что множество случаев научили нас связывать звонок или конверт с хорошим. Нам нравится рождественская музыка, и мы ненавидим запах зубного кабинета. Мы храним, окружающие нас вещи — картины, посуду, трофеи — не потому, что они красивы или полезны, а потому, что они напоминают нам о временах, когда мы были счастливы, или о людях, которых мы любили. Они представляют собой условные подкрепления.
Условные подкрепления приобретают чрезвычайную силу. Так как информация “Ты прав” сама по себе представляет Ценность, она не обязательно должна сопровождаться первичным подкреплением. Фактически использование пищи, ласки или чего-нибудь в этом роде можно практически свести к нулю, а условное подкрепление будет приносить прекрасные результаты. Я видела, как морские млекопитающие долго работали после насыщения за условные подкрепления, а лошади и собаки работают по часу и более с маленьким или безо всякого безусловного подкрепления. Люди конечно же тоже могут бесконечно работать за деньги, являющиеся ничем иным как условным подкреплением, обозначением вещей, которые на них можно купить, особенно люди, которые уже заработали гораздо больше денег, чем они когда-либо смогут действительно потратить, и, следовательно, пристрастившиеся к условному подкреплению.
Действие условного подкрепления можно усилить, сочетая его с несколькими безусловными подкреплениями. В данный момент субъект может не хотеть, скажем, есть, но если тот же подкрепляющий звук или слово были умышленно связаны еще и с водой или другими потребностями или приятными моментами, он сохраняет свое действие и в этом случае. Быть может, причина того, что деньги оказывают на нас такое подкрепляющее действие, кроется в том, что они могут связываться практически с чем угодно. Это чрезвычайно обобщенное условное подкрепление.
Как только вы выработали условное подкрепление, вы Должны пользоваться им осторожно, не разбрасывать без толку, иначе его сила уменьшится. Существует множество реальных событий, заслуживающих похвалы, подкрепления, которым щедро обмениваются в счастливых семьях. Однако фальшивая или незначимая награда вскоре вызывает негодование даже у маленьких детей и теряет всякую силу в качестве подкрепления.
Режимы подкрепления
Бытует неправильный взгляд, что если вы начали вырабатывать поведение с помощью положительного подкрепления, то должны продолжать его применение на протяжении всей дельнейшей жизни субъекта, если этого не будет, то поведение исчезнет. Это неверно: постоянное подкрепление необходимо только на стадиях обучения. Вы можете несколько раз вознаградить годовалого ребенка за пользование горшком, но как только поведение заучено, предмет обучения сам о себе позаботится. Мы даем или должны давать начинающему множество подкреплений — обучение ребенка езде на велосипеде идет под настоящий поток: “Правильно, крепче держи руль, у тебя получилось, хорошо!” Но вы будете выглядеть довольно глупо (а ребенок решит, что вы сошли с ума), если вы будете продолжать хвалить его после того как навык установился.
Для того чтобы поддерживать уже выученное поведение на определенном уровне надежности, не только не надо подкреплять его все время, а даже, наоборот, следует прекратить регулярные подкрепления и перейти на эпизодическое использование подкрепления, подаваемого в случайном и непредсказуемом порядке.
Это и есть то, что психологи называют вариабельным режимом подкрепления. Вариабельный режим гораздо более эффективен для поддержания поведения, чем постоянный, предсказуемый. Один психолог объяснил это мне так: если у вас машина новая и всегда хорошо заводилась, а однажды, когда вы сели в нее, повернули ключ, она не завелась, то вы, может быть, и попробуете завести ее еще несколько раз, но скоро решите, что что-нибудь не в порядке, и позвоните в гараж. Поведение, состоящее в поворачивании ключа, при отсутствии ожидаемого немедленного подкрепления быстро угаснет. С другой стороны, если у вас вместо машины старая консервная банка, которая еще ни разу не заводилась с первой попытки, и каждый раз требуется целая вечность для того, чтобы привести ее в движение, вы можете продолжать попытки ее завести в течение получаса; ваше поведение по поворачиванию ключа происходит в низковероятностном режиме подкрепления и поэтому сильнейшим образом поддерживается.
Действенность вариативного подкрепления лежит в основе всех азартных игр. Если каждый раз, опустив в автомат 5 центов, будете получать десять, то скоро вы потеряете к этому интерес. Да, вы будете делать деньги, но какой это нудный способ! Людям нравится играть с автоматом именно потому, что невозможно предугадать заранее, то ли ничего не получишь, то ли какую-то мелочь, то ли сразу кучу денег, и. когда именно будет это подкрепление (это может быть только один самый первый раз). Почему одни люди втягиваются в азартную игру, а другие могут поиграть и бросить, это уже другой вопрос, но для тех, кто попался на крючок, этим крючком стал вариативный режим положительного подкрепления.
Чем длительнее интервалы между подкреплениями в вариативном режиме, тем сильнее он стимулирует поведение. Однако режимы с длительными интервалами работают против вас, когда вы пытаетесь угасить поведение. Если поведение не подкреплять совсем, то скоро появится тенденция к его угасанию; но если оно все-таки время от времени подкрепляется — неважно сколь эпизодично — одна сигарета, одна рюмка, одна поблажка ворчуну или нытику — и поведение вместо того, чтобы угашаться, может быть значительно усилено режимом с длительными интервалами между подкреплениями.
Всем встречались люди, которые непонятным образом привязаны к супругам или любовникам, которые с ними плохо обращаются. Мы привыкли думать, что так бывает только с женщинами — она чувствует влечение к тому, кто груб, невнимателен, эгоистичен и даже жесток, она его все равно любит, — но это случается и с мужчинами. Каждый, знает людей, которые после развода или другого рода утраты одного негодяя находят другого, в точности похожего на предыдущего.
Являются ли эти люди вечными жертвами по каким-либо глубоким психологическим причинам? Возможно. Но, может быть, они — жертвы режима с длительными интервалами между подкреплениями? Если вы вступили в связь с очаровательным, обаятельным, интересным в сексуальном плане, веселым и внимательным человеком, а затем он становится все более несговорчивым, даже обидчивым, но все же время от времени проявляет свои хорошие качества, вы станете жить ради этих все более редких моментов, когда вы получаете это прекрасное подкрепление: полное очарования, обаяния, привлекательности и веселья внимание. И парадоксально с точки зрения здравого смысла, но закономерно с точки зрения теории обучения, что чем реже и непредсказуемей становятся такие моменты, тем сильнее становится их подкрепляющий эффект, и тем дольше ваша линия поведения будет сохраняться. Кроме того, легко понять, почему человек, однажды оказавшийся в таких отношениях, часто ищет их повторения: ему может казаться, что во взаимоотношениях с нормальным человеком, который сдержан и доброжелателен большую часть времени, не хватает остроты того редкого, страстно желаемого и потому вдвойне действенного -подкрепления.
--> ЧИТАТЬ ПОЛНОСТЬЮ <--