Режимы подкрепления
Страница 1

В контексте учения о высшей нервной деятельности подкреплением называется сочетание безусловного раздражителя, вызывающего биологически значимую реакцию, с предваряющим ее индифферентным стимулом, что приводит к формированию классического условного рефлекса. В качестве подкрепляющего рассматривают любой стимул, увеличивающий вероятность определенной реакции или формы поведения.

Ряд видов научения требует подкрепления. При инструментальном научении подкреплением служат награда или наказание. В отдельных видах научения человека подкреплением является просто информация о том, правильны или нет его действия.

Вторичное подкрепление. В ходе ассоциативного научения некоторые сигналы, которые изначально не имели никакой ценности или не говорили об опасности, соединяются в сознании с событиями, обладающими ценностью или связанными с опасностью. Если это происходит, сигналы или события, ранее носившие нейтральный характер, начинают сами действовать как поощрение или наказание; такой процесс носит название вторичного подкрепления. Классический пример вторичного подкрепления — деньги. Животные в ящике Скиннера готовы нажимать на рычаг, чтобы завладеть специальными жетонами, обмениваемыми на пищу, или добиться того, что начнет звонить звонок, со звуком которого они приучены отождествлять появление еды. Научение, приводящее к избеганию, иллюстрирует вариант вторичного подкрепления через наказание. Животное выполняет определенные действия при появлении сигнала, который, хотя сам и не является неприятным, постоянно сопровождает какое-то неприятное событие. Например, собака, которую часто бьют, съеживается и обращается в бегство, стоит ее хозяину поднять руку, хотя в самой по себе поднятой руке ничего опасного нет. При использовании для контроля за поведением положительного и отрицательного вторичного подкрепления нет необходимости в частом фактическом поощрении или наказании. Так, когда животных дрессируют по методу последовательных приближений, подкреплением при каждой попытке обычно служит лишь щелкающий звук, который до этого регулярно сопровождал появление пищи.

Поощрение или наказание. Одна из проблем научения — не только добиться нового, желательного поведения, но и избавиться от проявлений нежелательного. Главная цель наказания — устранить имеющее место поведение, а не заменить его новым. Часто, например, при воспитании детей или их обучении, возникает вопрос, что лучше: наказать за проступок или дождаться желательного поведения и поощрить ребенка. Наибольших результатов удается достичь, когда наказание сопровождает старое поведение, а награда — новое. Хотя это всего лишь общее правило, которое не может использоваться во всех случаях жизни, оно подчеркивает важный принцип: следует обращать внимание не только на само поведение — нежелательное, устраняемое при помощи наказания, и желательное, поощряемое наградой, — но и на наличие альтернативы данному типу поведения.

Частичное подкрепление. Инструментальное научение с использованием поощрения — например, приучение крысы в ящике Скиннера нажимать на рычаг ради получения пищи или похвала ребенку, когда он говорит "спасибо" и "пожалуйста", — предполагает несколько видов зависимости между поведением и поощрением. Самый обычный вид зависимости — постоянное подкрепление, при котором награда выдается за каждую правильную реакцию. Другой вариант — частичное подкрепление, предлагающее поощрение только при некоторых правильных реакциях, скажем в каждом третьем случае желаемого поведения, или в каждом десятом, или при его первом проявлении каждый час или каждый день. Воздействие частичного подкрепления важно и представляет большой интерес. При частичном подкреплении для освоения желаемого поведения требуется больше времени, но результаты оказываются гораздо более стойкими. Сохранение эффекта особенно заметно, когда поощрение прекращается; такая процедура называется "угасанием". Поведение, освоенное при частичном подкреплении, сохраняется надолго, а освоенное при постоянном подкреплении быстро прекращается.

Суть оперантного научения состоит в том, что подкрепленное поведение стремится повториться, а поведение неподкрепленное или наказуемое имеет тенденцию не повторяться или подавляться. Следовательно, концепция подкрепления играет ключевую роль в теории Скиннера.

Скорость, с которой оперантное поведение приобретается и сохраняется, зависит от режима применяемого подкрепления.

Режим подкрепления - правило, устанавливающее вероятность, с которой подкрепление будет происходить.

Самым простым правилом является предъявление подкрепления каждый раз, когда субъект дает желаемую реакцию. Это называется режимом непрерывного подкрепления и обычно используется на начальном этапе любого оперантного научения, когда организм учится производить правильную реакцию. В большинстве ситуаций повседневной жизни, однако, это либо неосуществимо, либо неэкономично для сохранения желаемой реакции, так как подкрепление поведения бывает не всегда одинаковым и регулярным. Ребенок плачет неоднократно, прежде чем добьется внимания матери. Неподкрепленные реакции встречаются до тех пор, пока одна из них не будет подкреплена.

Страницы: 1 2 3