Entradas de la categoría Condicionamiento instrumental y Clicker

Club Agility Montferrer, Condicionamiento instrumental y Clicker, Destacado, Noticias »

3 Marzo 2010 | Sin Comentarios

El fin de semana de 26, 27 y 28 de febrero hemos ayudado a organizar la reunión anual de AEEC (Asociación nacional de educadores caninos en positivo), de la que somos socios desde sus inicios.

Un aspecto que se ha intentado fomentar desde la Asociación es que este fin de semana sirviera para que la gente se conozca, cree afinidades, y realmenta ha sido así.

Evidentemente, los amigos del Club han sido invitados a las actividades, y así se han divulgado las técnicas en positivo.  En Montferrer se ha podido ver trabajo con Clicker de altísima calidad , tanto en trucos (habilidades caninas) como en OCI (obediencia clase internacional).

Ello ha sido posible gracias a la colaboración de Fernando Silva y de Pere Saavedra, que se han desplazado de Portugal y de Madrid respectivamente, para impartir talleres durante este fin de semana.

Agradecemos desde aquí una vez más, a Porte Betriu su colaboración, por poner a nuestra disposición las instalaciones de su tienda para las clases teóricas.

Artículos, Condicionamiento instrumental y Clicker, Destacado, Todos »

2 Junio 2008 | Sin Comentarios

Entrenamiento con Clicker: Una aplicación práctica de la Teoría del Condicionamiento Operante

por Juan Sangüesa Massiel, 2005

RESUMEN
Por medio de este documento intentaremos explicar la aplicación práctica de una de las teorías del aprendizaje más conocidas, el condicionamiento operante. Esta aplicación es utilizada principalmente para el adiestramiento canino y el condicionamiento de otros animales. El marco teórico en el cual nos hemos situado emerge de la tradición conductista, que es la que mejor ha estudiado el comportamiento y el aprendizaje en los animales. Es por esto que hemos omitido deliberadamente otros puntos de vista igualmente válidos acerca de los fenómenos cognitivos involucrados en el aprendizaje de los seres humanos.

Palabras clave:
Aprendizaje, condicionamiento, operante, reforzamiento, programas, clicker, estímulo, respuesta.

ABSTRACT
In this paper, we will try to explain a practical use of one the most famous learning theories, operant conditioning. This technique is mainly applied for dog training and the conditioning of other animals as well. The theoretical corpus in which we have focused, stems from the old behaviorism, for this is the school that has made the best efforts in understanding the true nature of the learning processes of animals. This is why we have purposefully left out some other valid theories about the cognitive phenomena involved in human learning.

Key words:
Learning, conditioning, operant, reinforcement, programs, clicker, stimulus, response.

¿Qué es aprendizaje?
Durante años nos hemos estado preguntando acerca del aprendizaje en todas sus formas y hemos tratado de explicarlo a través de diversas teorías.

Una definición bastante aceptada, aunque engañosa por su simplicidad, es que se trata de un cambio en la conducta debido a la experiencia (Chance, 1995). Aquí podemos apreciar que tratamos con dos temas interrelacionados, los eventos del organismo (respuestas) y los eventos del ambiente (estímulos). La relación entre ambos tipos de eventos ha sido largamente discutida y analizada, además de sometida a experimentos de toda índole, los que han permitido el desarrollo de todo tipo de conceptualizaciones y aplicaciones prácticas.

Condicionamiento clásico
El destacado fisiólogo ruso y ganador del premio Nóbel, Ivan Petrovich Pavlov (1849-1936), se encontraba realizando experimentos acerca del rol de la salivación en la digestión, cuando se percató de que los perros de su laboratorio salivaban frente a estímulos distintos a la comida. Esto fue un hallazgo, ya que la salivación es un acto reflejo que ocurre espontáneamente frente a la presentación de comida, sin embargo, los perros de Pavlov empezaron a salivar frente a la sola presencia del asistente que les traía la comida. Acertadamente, Pavlov, teorizó que los perros habían aprendido a anticipar la comida luego de la aparición de ciertas señales y, gradualmente llegaron a asociar esas señales con la comida. De este modo, el reflejo (respuesta incondicionada) que normalmente ocurría frente a la comida (estímulo incondicionado), podía ser condicionado para que ocurriera frente a una señal (la visión del asistente) que predecía con seguridad la llegada de la comida. Así, un estímulo en principio neutral, al aparearse en forma sucesiva con el estímulo incondicionado, llegaría a transformarse en un estímulo condicionado, capaz de elicitar por si solo el reflejo, que en este caso pasaría a llamarse respuesta condicionada.

Pavlov llevó a cabo una investigación sistemática sobre los reflejos condicionados. Encontró que las respuestas condicionadas ocurrirían también ante estímulos similares al estímulo condicionado usado originalmente, a este fenómeno le llamó generalización. También se puede establecer como requisito que el animal realice una respuesta condicionada frente a un tipo específico de estímulo y no ante otros, lo que conocemos como discriminación.

Los descubrimientos experimentales de Pavlov acerca de los reflejos condicionados sirvieron como base conceptual para explicar algunos aspectos del comportamiento canino. En alguna medida esto fue beneficioso y útil; pero, sin embargo, también condujo a una visión un tanto mecanizada del perro. (Campbell, 1992)

Conexionismo
Edward Lee Thorndike (1874-1949) realizó una importante contribución al campo de la investigación acerca del aprendizaje. Durante su especialización en Psicología en Harvard, desarrolló una serie de experimentos con animales. Los más famosos los realizó con gatos, a los cuales encerraba –hambrientos- en “cajas problema”, las que sólo podían ser abiertas mediante dispositivos especiales ubicados al interior de las mismas (una polea, por ejemplo). La comida esperaba afuera, a la vista, pero fuera del alcance del gato. Thorndike observó que los gatos, en un comienzo, emitían toda clase de respuestas ineficientes, como tratar de salir masticando los barrotes de la jaula o tratar de empujar contra las barreras, hasta que, finalmente, llegaban por accidente a manipular el dispositivo, con lo que lograban escapar y comer. La siguiente vez que eran puestos a prueba, seguían una secuencia similar de comportamiento hasta llegar a la respuesta correcta, pero a medida que se repetía el experimento, los gatos demoraban cada vez menos en accionar la polea o palanca.

Thorndike propuso dos leyes de la conducta tanto animal como humana (Leahey, 1998). La primera fue la ley del efecto: “de las muchas respuestas dadas a la misma situación, las que van acompañadas o inmediatamente seguidas de satisfacción para el animal, en igualdad de condiciones, se conectarán más firmemente con la situación; de manera que cuando ésta vuelva a presentarse, volverán a presentarse con gran probabilidad”. La segunda ley es la del ejercicio: “Toda respuesta a una situación en igualdad de condiciones, se conectará más fuertemente a la situación en proporción al número de veces que ha sido conectada a esa situación, y al vigor y duración medio de las conexiones”. (Thorndike, 1911. cit. por Leahey, 1998)

Condicionamiento operante
A partir del trabajo de Thorndike, B.F. Skinner realizó, en la década de los 30, una serie de estudios que lograron un gran avance en nuestra comprensión de los procesos de la conducta y el aprendizaje. En su libro “The behavior of organisms” (1938) (La conducta de los organismos) resumió la mayoría de sus conceptos centrales (Leahey, 1998). Skinner diseñó una caja de experimentos conocida hoy como “la caja de Skinner”, elemento estándar en todo laboratorio conductual que se precie de tal. En esta caja, instaló una palanca que, al ser accionada por el sujeto (una rata o una paloma), permitía la aparición de un pellet (comida). Este procedimiento le permitió variar las condiciones en forma metódica y precisa para averiguar que sucedía en las distintas circunstancias. Al deprivar al animal de comida, llevándolo a un peso ligeramente inferior al normal, y poniéndolo en la caja, Skinner se dio cuenta que la tasa de presión de la palanca aumentaba significativamente. Si, por el contrario, al presionar la palanca el sujeto recibía un aversivo, la tasa disminuía rápidamente. Este procedimiento en el cual la conducta se fortalece o debilita fue llamado condicionamiento operante, pues se creía que la conducta opera sobre el ambiente. El comportamiento es típicamente instrumental al producir tales consecuencias, así que a esta clase de aprendizaje también se le llama condicionamiento instrumental (Chance, 1995).

“Una respuesta que ya se ha producido no puede, desde luego, predecirse o controlarse. Podemos predecir solamente que ciertas respuestas similares se producirán en el futuro. La unidad de una ciencia predictiva no es, por tanto, una respuesta sino una clase de respuesta. La palabra “operante” es la
que utilizaremos para designar esta clase. El término pone de relieve el hecho de que la conducta opera sobre el medio ambiente para producir consecuencias. Las consecuencias definen las propiedades por las que las respuestas se llaman similares. El término se utilizará tanto como adjetivo (conducta operante), cuanto como sustantivo para designar la conducta definida por una consecuencia dada.” (Skinner, 1953)

Reforzamiento
Aún cuando Skinner se interesó principalmente en los reforzadores positivos, aquellos que al ser presentados en contingencia con una respuesta hacían más probable la repetición de la misma, reconoció también la existencia de los reforzadores negativos. Los reforzadores negativos son estímulos aversivos, que el organismo trataría normalmente de evitar. Entonces, el refuerzo resultaría de la ocurrencia de un reforzador positivo, pero también de la terminación de un reforzador negativo. Un ejemplo sencillo es el del frío, actuando como reforzador negativo para la operante de ponerse un abrigo; otro ejemplo es el de un shock eléctrico sostenido, cuya terminación es evidentemente reforzante. Entonces, podemos reforzar una respuesta ya sea presentando un refuerzo positivo o eliminando uno negativo.

Es importante destacar que los reforzadores, tanto positivos como negativos, pueden ser condicionados. Si un estímulo neutro es presentado en contingencia con el reforzador positivo, ese estímulo llegará a adquirir por sí solo la capacidad para reforzar la conducta. Lo mismo vale para los refuerzos negativos.

Los reforzadores son relativos, no absolutos. La lluvia es un refuerzo positivo para los patos, negativo para los gatos e indiferente para las vacas. La comida no es un refuerzo si estás repleto. Para que sea reforzante, el ítem elegido tiene que ser algo que el sujeto quiere. (Pryor, 1984)

Extinción
Cuando se retira el reforzamiento a una respuesta operante, la frecuencia de la conducta disminuye gradualmente según el proceso de “extinción operante”. “Si dejamos de darle comida, la paloma dejará finalmente de levantar la cabeza. En general, cuando practicamos una conducta que ya “no vale la pena”, nos sentimos menos inclinados a comportarnos de esa manera” (Skinner, 1953). Existen varios efectos secundarios interesantes de la extinción. Uno de ellos es la variabilidad de la conducta, una rata que ha aprendido a presionar una palanca para obtener comida puede, durante la extinción, presionarla con más fuerza o utilizar su nariz en lugar de la pata, o emplear las dos patas en vez de una. (Chance, 1995). Otro resultado es un incremento inicial de la respuesta que se pretende extinguir, lo que trae aparejado –al no encontrar el refuerzo acostumbrado- una reacción emocional de frustración o ira. “Una paloma que no ha conseguido reforzamiento se aparta de la llave, piando, batiendo las alas y practicando otras conductas emocionales” (Skinner, 1953).

Se habla de recuperación espontánea cuando el organismo vuelve a emitir una operante que ya había sido extinguida, lo que puede ocurrir producto de varios factores, como por ejemplo el encontrarse nuevamente en una situación o contexto en que la respuesta había sido reforzada en el pasado.

Castigo
Con frecuencia tiende a confundirse el castigo con los reforzadores negativos. La diferencia fundamental estriba en que si los reforzadores lo son en tanto aumentan la probabilidad de que una respuesta operante se repita, el castigo hace justamente todo lo contrario: disminuye la probabilidad de que una operante sea emitida nuevamente.

Hablamos de castigo positivo -o tipo 1- cuando a una respuesta le sigue la aparición de un estímulo aversivo. Al igual que en el reforzamiento la palabra positivo sólo tiene el significado de presentación de la consecuencia; la palabra castigo entonces sería sinónimo de debilitador. (Davidoff, 1989) Si apoyamos las manos sobre una estufa encendida, nos quemaremos las manos y probablemente en el futuro evitaremos repetir esa acción. Entonces decimos que esa conducta ha sido castigada.

En el castigo negativo –o tipo 2- la respuesta es debilitada por medio de la posposición o retiro de un reforzador que la hubiera sucedido y que el organismo esperaba. Un ejemplo sería el retiro de los permisos de conducir a los conductores que cometen infracciones del tránsito (se les priva del privilegio de conducir su automóvil) o el retirar el postre de un niño que se ha portado mal durante el almuerzo familiar. En vista de que la conducta “tiene un precio”, a menudo se le llama al castigo tipo 2, costo de respuesta. (Chance, 1995)

En general, Skinner consideró al castigo como un método pobre de modificación de conducta por varias razones, entre ellas tal vez la más importante sería que el castigo trae aparejadas respuestas emocionales negativas indeseables y que pueden ser asociadas con estímulos diferentes a los que el castigador pretende, incluidos los estímulos del propio castigador.

Programas de reforzamiento
Existen variados programas de reforzamiento en el entrenamiento de respuestas operantes. Se puede reforzar una conducta cada vez que es emitida (reforzamiento continuo) o cada cierto número de veces (refuerzo intermitente). Este último puede ser regular, administrando el refuerzo después de un número fijo de repeticiones de la operante; o bien, puede ser variable e impredecible. Cada programa afecta a la conducta de una manera diferente, lo que hace que cada programa se preste mejor para determinados procesos específicos durante el aprendizaje y entrenamiento de las respuestas.

El reforzamiento continuo parece ser el mejor método para condicionar la conducta en las fases iniciales del aprendizaje, ya que cada reforzamiento fortalece la conducta y esto produce un aumento rápido en la tasa de respuestas. Sin embargo, en la naturaleza, los refuerzos en general no aparecen en forma continua. Un lobo, por ejemplo, no todas las veces que se lanza a la captura de una presa logra su cometido, pero no por esto abandona su hábito de cazador.

Programas de razón
Los programas de razón especifican que el reforzador debe ser administrado después de un número determinado de respuestas. Cuando este número de respuestas es siempre e invariablemente el mismo, hablamos de un programa de razón fija. Los animales que trabajan bajo un programa de razón fija responden con tasas bastante altas, ya que mientras más trabajen, más refuerzos obtendrán. Sin embargo se produce una pausa después de la administración del reforzador, un descanso antes de reanudar el trabajo.

En cambio, en un programa de razón variable, el reforzador será administrado después de un número variable de respuestas. El ejemplo clásico es el de las máquinas tragamonedas, en el que los jugadores nunca saben cuándo ganarán. Los animales que están bajo este programa trabajan bastante rápido y sin descanso. La incertidumbre de desconocer cuando llegará el próximo reforzador hace que el organismo trabaje de manera constante. (Davidoff, 1989) Este tipo de programa de razón variable es el que más encontramos e la naturaleza y en muchas de las situaciones sociales humanas; además presenta una resistencia alta frente a la extinción.

Programas de intervalo
Estos programas dependen del paso del tiempo. Para entregar el reforzador se debe esperar a que se cumplan dos condiciones; primero tiene que haber pasado un tiempo determinado desde la administración del último refuerzo y, segundo, la operante debe ser emitida después de que ha transcurrido el intervalo.

En los programas de intervalo fijo, los períodos de tiempo entre refuerzos son constantes, como por ejemplo en los trabajos asalariados, en que el sueldo es recibido todos los meses en la misma fecha.

Se ha observado que en este programa, la tasa de respuesta es desigual; después de la administración del refuerzo, la frecuencia de respuestas baja.
Después, aumenta en forma estable durante el intervalo y alcanza su máximo punto justo antes de la presentación del reforzamiento.

Control de estímulos
El control de estímulos se produce cuando se introduce un estímulo previo a la ocurrencia de la conducta operante y se refuerza sólo cuando este estímulo, llamado discriminativo, aparece. “Supongamos que entrenamos a una rata para presionar una palanca, reforzando sus presiones sólo cuando una luz se enciende por encima de la palanca. En poco tiempo, la rata llegará a presionar la palanca cuando la luz se encienda. Puede parecer que el estímulo luz provoca respuesta, pero según Skinner no es así. La luz señaliza la disponibilidad del reforzamiento, permite al organismo discriminar una situación de reforzamiento, de una situación de ausencia de reforzamiento, y, por tanto, este estímulo recibe el nombre de discriminativo.” (Leahey, 1998)

Conducta supersticiosa
La conducta supersticiosa se podría conceptualizar como una creencia falsa con respecto a causa y efecto. Esta situación puede surgir producto de la contingencia accidental entre una determinada respuesta operante y el reforzamiento.

Skinner realizó el siguiente experimento con palomas hambrientas; las puso en una caja de las que llevan su nombre, y proporcionó alimento cada 15 segundos sin importar lo que las palomas estuvieran haciendo. De este modo, se vieron condicionadas las más diversas respuestas. Algún ave que se encontraba dando vueltas aceleró esta actividad; otra incrementó mover la cabeza hacia delante; una mas, balancear el cuerpo. (Davidoff, 1989) Las palomas se comportaban como si creyeran que lo que estaban haciendo cuando se presentó la comida hubiera sido la causa de que esta se presentara.

Estas conductas supersticiosas resultaron ser bastante resistentes a la extinción. (Davidoff, 1989)

Algunas aplicaciones del condicionamiento operante
Nuevamente surge la figura de Skinner como uno de los pioneros en el intento de aplicar los principios del condicionamiento operante de una manera práctica y útil para la humanidad. En los años 50 intentó trasladar el conductismo hacia la conducta humana. Como escritor frustrado, Skinner estaba interesado en el lenguaje (Leahey, 1998), de manera que se abocó al estudio de la percepción del habla y el proceso del lenguaje. El resultado de sus investigaciones los expuso en varias conferencias en Harvard y, luego, en su libro Verbal Behavior (1957). También elaboró una utopía de sociedad perfecta, desarrollada a partir de los principios del reforzamiento, lo que decantó en la publicación de Walden II (1948). Durante la Segunda Guerra Mundial tuvo la oportunidad de aplicar sus conocimientos acerca del condicionamiento en las palomas. Participó en el “Proyecto ORCON”, nombre derivado de “organic control”, en el que entrenó a las palomas para ayudar a guiar a los misiles hacia sus blancos. Afortunadamente para las palomas, el proyecto no se concretó, a pesar de que experimentalmente se demostró que era virtualmente a prueba de fallas.

Una de las aplicaciones más conocidas ha sido la de entrenar animales para películas y spots publicitarios. Los psicólogos Keller y Marian Breland (1961) (alumnos de Skinner), fueron pioneros en el arte de entrenar los más diversos animales para realizar todo tipo de trucos para su exhibición en ferias y cosas por el estilo. Ellos desarrollaron su trabajo en Animal Behavior Enterprises en Hot Springs, Arkansas, donde llegaron a adiestrar más de 6.000 criaturas de 38 especies diferentes. (Davidoff, 1989)

Jim Simmons, PhD, un científico de la marina, desarrolló a fines de los años 70 y comienzos de los 80, un sistema de condicionamiento para palomas de búsqueda y rescate desde helicópteros. (http://www.apa.org/monitor/oct02/pigeons.html/)

Adiestramiento con Clicker
El adiestramiento con clicker está considerado hoy en día como una verdadera revolución en el campo del manejo conductual canino. Su difusión ha sido verdaderamente espectacular, generando una gran aceptación entre los profesionales del comportamiento canino a través de todo el mundo. Su aplicación es sencilla y no requiere de un gran caudal de conocimientos para lograr resultados.

Los orígenes del entrenamiento con clicker se encuentran en el trabajo de los expertos entrenadores de delfines en los parques acuáticos en EE.UU.

Una de las pioneras en este tipo de trabajo fue Karen Pryor. Con una formación como bióloga y un gran interés en el comportamiento animal, se abocó a la tarea de aprender y aplicar las técnicas del condicionamiento operante en seres que simplemente no se podían entrenar con métodos convencionales.

En su libro “Don’t shoot the dog!” (¡No mates al perro!) (1984), expone gran parte de sus técnicas de reforzamiento y conclusiones acerca de la modificación conductual, ampliadas al campo del comportamiento de otros animales e incluso de los seres humanos, con un lenguaje directo y claro.

¿Qué es el clicker?
El clicker es una pequeña caja de plástico con un resonador metálico que emite un chasquido al ser oprimido con los dedos.

Su principal función es la de actuar como un refuerzo condicionado para comunicarle al perro qué conducta es la que va a ser reforzada (normalmente el refuerzo primario es comida, pero también puede ser otras cosas)

El sonido del clicker es claro y distinto, sobresale por encima de otros estímulos del ambiente y es rápido y preciso para marcar conductas o fragmentos de ellas en el momento exacto en que están ocurriendo. La idea clave aquí es comunicación fluida e inmediata.

Metodología
Para usar el clicker como un poderoso elemento de comunicación inter-específica (hombre-perro), lo primero que hay que hacer es “cargar” el clicker. Esto se consigue por asociación del estímulo del clicker con la presentación de un reforzador primario (trozos pequeños de salchicha, por ej.). Esto se hace repetidas veces hasta lograr el aprendizaje del click (condicionamiento clásico) en una o más sesiones.

La idea es que el perro, al escuchar el click, anticipe la presentación del refuerzo, lo que también generará una respuesta emocional positiva.

Una vez que se ha creado la asociación, el clicker es usado para marcar todo tipo de comportamientos deseables cuando ocurren espontáneamente (o inducidos), lo que aumentará la probabilidad de que esas conductas sean repetidas en el futuro.

En el entrenamiento con clicker sólo se utilizan el refuerzo positivo y la extinción como métodos válidos de modificación conductual y aprendizaje.

A partir de los programas descritos con anterioridad, normalmente se utiliza el programa de reforzamiento continuo para el establecimiento de nuevas conductas y posteriormente se pasa a un programa de razón variable. En este punto, también el tipo y magnitud de los reforzadores debería ser variable e impredecible.

Por lo general el clicker es utilizado durante el período que el perro demora en aprender un nuevo ejercicio. Luego, una vez que se ha puesto la conducta bajo control de estímulos, es posible dejar de lado el clicker hasta que se desee enseñar un nuevo “truco”.

Las formas más comunes de entrenamiento de perros usando el clicker se resumen en las tres siguientes: shaping, luring y targeting.

Shaping (Modelado por aproximaciones sucesivas)
El modelado consiste en tomar una pequeña tendencia en la dirección correcta y llevarla a través del reforzamiento, paso a paso, hacia una meta final.

En el modelado, se busca enseñar un comportamiento complejo, compuesto de muchos comportamientos más simples realizados en forma encadenada. Lo más fácil es comenzar por reforzar la respuesta más sencilla y natural para el perro, la cual será el punto de partida para el modelado. Toda vez que el perro ofrezca conducta
s más cercanas al comportamiento final que buscamos, estas serán reforzadas en forma selectiva, es decir ya no se presentará refuerzo para las respuestas iniciales.

El modelado es posible porque el comportamiento de los organismos es variable. No importa cuál sea la conducta observada en un perro, él la realizará con más fuerza unas veces que otras y en diferentes direcciones o con otras variaciones de diversa magnitud. Entonces, si tomamos cualquier conducta que el perro esté ofreciendo espontáneamente, podremos reforzarla y gradualmente transformarla en otro tipo de comportamiento.

Luring (Atracción)
En esta técnica, se utiliza el reforzador primario como una guía para inducir al perro a adoptar distintas posturas físicas. Al mover un trozo de salchicha frente a la nariz del perro, éste se verá impulsado a seguir con su cabeza y el resto de su cuerpo. Esto facilita el guiarlo hasta las posiciones básicas del adiestramiento de obediencia (sentado, echado, parado, junto, etc.), clickeando en el preciso momento en que logra la posición y reforzando con cierta frecuencia para estabilizarlo en la posición.

El objetivo es que, luego de un número variable de repeticiones, el perro comience a ofrecer espontáneamente las operantes de las distintas posiciones. Una vez llegado este punto, se procede a poner ese comportamiento bajo control de estímulos.

Targeting (Establecer blancos)
El método del targeting está basado en lograr que el perro toque con la nariz o con las patas o con otra parte de su cuerpo un objetivo o blanco. Este entrenamiento forma parte de las habilidades básicas que se pueden enseñar con el clicker y tiene un sinnúmero de aplicaciones prácticas como el aprendizaje de trucos y ejercicios sorprendentes tales como cerrar puertas, jugar a la pelota, traer objetos, prender y apagar interruptores, etc.

Problemas de comportamiento y modificación conductual
Existe una amplia gama de problemas conductuales en los perros, desde el perro que hace sus necesidades al interior de la casa, hasta el perro con problemas de agresividad. Mucho se ha escrito y ensayado en la búsqueda de solución a estos y otros problemas en la relación hombre-perro. Los enfoques tradicionales casi siempre se han basado en castigos de la más diversa índole, desde los consabidos tirones con collares de ahorque o puntas, hasta el maltrato y los golpes.

Afortunadamente, el entrenamiento con clicker y los principios del reforzamiento, ofrecen soluciones mucho más positivas para la solución de los problemas de conducta.

Existen cinco maneras de aplicar estos principios en la modificación conductual.

Extinción
Si, por ejemplo, el comportamiento que deseamos reducir es del tipo búsqueda de atención, la respuesta es muy sencilla: simplemente no responder…De esta forma el perro, al no obtener refuerzo de ningún tipo, pronto declinará en su tasa de conductas. Esto es evidentemente mucho mejor que retarlo o castigarlo, ya que ambas cosas serían reforzadores potenciales (atención) para estas conductas.

Hay ciertos patrones conductuales que son auto-reforzantes (ladrar o masticar objetos, por ej.) y difícilmente se van a extinguir por si solos.

Entrenar una respuesta incompatible
Este método es muy eficaz en muchos casos. Se trata de enseñar un comportamiento físicamente incompatible con la conducta problemática. Un ejemplo sencillo es el caso del perro que se abalanza sobre las visitas, empujándolos y ensuciándoles la ropa. Lo más rápido y efectivo sería entrenar la posición de sentado y reforzarla cada vez que lleguen visitas (estímulo discriminativo). Si el perro aprende a sentarse cada vez que llega alguien, no podrá hacerlo y al mismo tiempo saltar sobre ese alguien.

Poner la conducta bajo control de estímulos
Uno de los axiomas de la teoría del condicionamiento operante es que cuando hemos puesto una conducta bajo control de estímulos –esto es, cuando el organismo aprende a ofrecer el comportamiento si y sólo si es presentado el estímulo discriminativo- esta conducta tenderá a extinguirse en la ausencia del estímulo.

Un ejemplo sería entrenar a un perro para ladrar bajo la señal “ladra” (estímulo discriminativo) y reforzarlo por hacerlo, luego al no dar la señal no hay refuerzo, de manera que esa conducta tendería a disminuir su tasa (extinción).

Modelar la ausencia de comportamiento
Este método sirve para eliminar un comportamiento problemático cuando no hay otra cosa que se pretende lograr que el perro haga en lugar de. La idea es reforzar cualquier cosa que no sea la conducta indeseable. Si tomamos nuevamente el ejemplo del perro que ladra en exceso, la idea sería salir de vez en cuando –cada vez que no este ladrando, desde luego- con intervalos variables y darle un reforzador positivo.

Este método es particularmente efectivo con perros agresivos o miedosos, cada vez que el perro actúa con normalidad, consigue un refuerzo.

Cambiar la motivación
A menudo esta es la forma más amable y efectiva de todas para lograr cambios en el comportamiento problemático. La dificultad estriba en inferir cuál es la posible causa de una conducta determinada, ya que es fácil apresurarse a sacar conclusiones. La idea es observar con atención el ambiente del perro y las condiciones en que se encuentra, además de la relación que existe entre él y los miembros de la familia. De esta manera, será posible encontrar posibles causas y tratar de eliminarlas del contexto. No descartar la posibilidad de hambre, enfermedad, dolencias, aburrimiento, soledad o miedo.

Desde luego que hay problemas de conducta que tienen su origen en aspectos hereditarios o factores orgánicos, tales como desórdenes neurológicos y otros. Aquí, la sola modificación conductual probablemente no será suficiente y, en algunos casos, habrá que recurrir también a la ayuda de medicamentos, prescritos por un especialista.

Conclusión
La teoría del condicionamiento operante es considerada, hoy en día, un tanto limitada por la mayoría de los Psicólogos a la hora de explicar las complejidades del aprendizaje y la conducta de los seres humanos. Sin embargo, como hemos visto, ella constituye un poderoso modelo para abordar el comportamiento animal. Como aplicación práctica de la teoría, el entrenamiento con Clicker es una metodología cuyas ventajas resultan evidentes. Al compararla con los métodos convencionales de adiestramiento canino (la mayoría basados en la fuerza y la coerción), destaca su énfasis en la comunicación inter-específica fluida y en el trabajo basado en motivación positiva. Los resultados son asombrosos. Perros que disfrutan del entrenamiento y dueños felices de poder comunicarse con sus mascotas de una forma que no habían imaginado posible.

Debido a estas características, el entrenamiento con Clicker ha logrado una difusión tan espectacular en todo el mundo.

Bibliografía
Campbell, W. (1992). Behavior Problems in Dogs. California: American Veterinary Publications
Chance, P. (1994). Learning and behavior. California: Wadsworth
Davidoff, L. (1989). Introducción a la Psicología.Méjico: McGraw-Hill/Interamericana
Leahey, T. H. (1998). Historia de la Psicología. Madrid: Prentice Hall Iberia
Pryor, K. (1984). Don’t shoot the dog! New York: Bantam Books
Skinner, B.F. (1953). Science and Human Behavior. New York: Free Press

Artículos, Condicionamiento instrumental y Clicker, Todos »

29 Octubre 2007 | Sin Comentarios

Original en : http://personales.ciudad.com.ar/clickerargentina/

Muchas veces me preguntan cosas tales como: ¿Qué tengo que hacer para mi perro se siente? ¿Cómo logro que se eche?, etc. Preguntas, estas, que se relacionan con métodos o recetas; como si la técnica se pareciera a un libro de cocina o a un manual de bricolaje. Y, lamento ser yo el que rompa el encanto pero el clicker es mucho más que esto y precisamente ¡eso es lo mejor! Pues cada uno crea su propia forma, porque a la hora de enseñar, vale todo; eso sí, respetemos los principios básicos y no nos alejemos de esta filosofía de entrenamiento.

Para aquellos ansiosos que necesitan de premisas para arrancar, aquí van algunos consejos que hemos dado en llamar: ejercicios básicos.

Sentarse

En el instante que decidas ponerte a trabajar con tu perro no olvides que ese momento es tuyo y de él. Encuentra el tiempo para que los dos estén tranquilos y libres de distracciones; sobre todo en estos primeros pasos que son los más importantes para aprender la técnica y, en la cual tu mascota fijará “la idea”.

Entonces bien, estamos tranquilos con nuestro perro, clicker en mano y premios en un recipiente cercano. Toma un trozo de alimento y acércalo a su cabeza, naturalmente él se acercará a oler tu mano. Si prefieres lo puedes llevar por encima de su cabeza e incluso tocarla. Haz click en el momento en que se esté sentando y no cuando lo haya hecho. Dale el premio. No olvides que el “click” marca y finaliza el comportamiento. Refuerza por sí mismo. Lo que ocurra a continuación no deberá importarte. Es muy probable que se pare para comerlo. No nos interesa. Si no responde al primer intento, no pierdas la paciencia e inténtalo nuevamente.

Importante, no lo ayudes; no le digas ni enseñes lo que tiene que hacer. Nosotros no damos órdenes de antemano al contrario de lo que ocurre en el entrenamiento tradicional. Primero el comportamiento, después vendrá el tiempo de ponerle un nombre a éste.

¿Qué hacer si el perro realiza otro comportamiento como ladrar, saltar o trata de sacar el premio de nuestra mano? La respuesta es muy sencilla: LO IGNORAMOS.

Bien, nuestro perro ya realizó el comportamiento varias veces y lo recompensamos luego de hacer click. Ahora vamos a hacer que se quede en esta posición por más tiempo. Una vez que el perro se sienta lo que haremos es retrasar el instante de hacer sonar el clicker. Moveremos nuestra mano, con el premio en ella, delante de su cabeza y si permanece sentado haremos click. Es importante que permanezcas callado para no confundirlo y así aprenderá que el click finaliza el comportamiento.

Cuando lo creas conveniente deberás retirar tu mano con el premio de su cabeza y, por ejemplo, llevarla hacia tu espalda. Si permanece sentado “click” y premio.

No importa cuanto tiempo te lleve enseñar éste u otro comportamiento. Lo importante es mantener el interés del alumno; por eso las sesiones deben ser cortas, no más de cinco minutos.

Si sobrepasa tus expectativas, fantástico. Prémialo por ello. Si no las cumple, paciencia. Los tiempos son diferentes para cada individuo.

Introduciendo la orden
Una vez que el perro este ofreciendo libremente el comportamiento, antes de hacer click deberás agregar la orden o nombre para éste. Puedes emplear el tradicional “sit”, “sienta”, “siéntate”, sentado, etc; o si prefieres - como decimos en esta parte del mundo- “sentate”. La premisa a cumplir es que debe ser una palabra corta, fácil de pronunciar, que no se confunda con otras y que pueda ser dicha rápidamente. Nombras la palabra, click, premio en este orden. Hasta que la orden desate el comportamiento por sí sola y ya no debas usar el clicker ni el premio para lograr que tu perro se siente.

Por término medio en tres o cuatro sesiones lograrás que tu perro logre este sencillo ejercicio. Si dura más, no desesperes y tenle paciencia.

Aprendiendo a echarse

Con el perro en posición de sentado pon tu mano cerrada (en la que llevas el premio) delante de su nariz y llévala hacia abajo entre su patas delanteras. Su hocico seguirá el movimiento de tu mano y lo más probable es que se incline hacia atrás y abajo. Click y premio, cuando sus patas empiecen a doblarse. Luego lleva tu mano más abajo y si te sigue, click y premio. Se levanta, ya dijimos que no nos importa. Sigamos con estos ejercicios hasta lograr que se eche definitivamente. Él comprenderá que lo que logra el premio ahora, es el echarse y lo hará espontáneamente. Como en el ejemplo del sentado deberemos introducir la orden una vez que el comportamiento esté fijado.

Hasta aquí he descrito dos ejercicios básicos para iniciarnos en esta modalidad de adiestramiento. Es obvio que no son más que dos “recetas” y que de ningún modo pretenden ser dogmas a seguir. Simplemente es nuestro humilde aporte al adiestrador novel que está haciendo sus primeras armas en este apasionante mundo. Nuestra página está abierta a cada inquietud y sugerencia que se plantee. Finalmente, piensen que nuestras mascotas se merecen nuestro afecto y paciencia, por lo tanto en estos primeros pasos es un material que no debe nunca faltar. Tomen su clickers y… ¡a trabajar!

Fuentes:

Melissa Alexander [ http://www.clickersolutions.com/ ]
Karen Prior: “ ¡No lo mates, enséñale!” [ http://www.clickertraining.com/ ]

Artículos, Condicionamiento instrumental y Clicker, Destacado, Todos »

25 Octubre 2007 | Sin Comentarios

Titulo Original: Glossary of Clicker Training Terms
Original en : http://www.clickersolutions.com/ Autor: Melissa Alexander

ABE- Primer emprendimiento comercial que aplicó los principios del Condicionamiento Instrumental al entrenamiento animal. Fundado por Keller y Marian Breland, en aproximadamente 45 años de existencia, el personal de ABE entrenó 15.000 animales de 140 especies diferentes.

Aversivo- Algo por el cual el animal estará deseoso de trabajar para evitar.

Bailey, Bob (Robert E.)- químico y zoólogo pionero en los métodos del Condicionamiento Instrumental aplicado al entrenamiento de animales, tanto en el ambiente libre como en el laboratorio. Bob y su esposa, Marian Breland Bailey, enseñaron los principios del Condicionamiento Instrumental a entrenadores de perros en sus campamentos de “entrenadores de pollos”.

Bailey, Marian Breland- segunda estudiante graduado con B.F Skinner. Marian y su primer marido, Keller Breland, trabajaron con Skinner en el proyecto “pigeon bombing” (”paloma bombardera”*) en la Segunda Guerra Mundial, por entonces dejó sus estudios de graduación para fundar ABE. Marian consiguió sus Ph.D en 1978 y fue profesora de la universidad durante veinte años. Aunque ella se retiró en 1998, Marian y su segundo marido, Bob Bailey, continuó enseñando los principios del OC (siglas en inglés del Condicionamiento Operativo o Instrumental) en sus campamentos.

Bingo o Jakpot- El gran premio, un mega-premio dado después de un esfuerzo particularmente excepcional.

Breland, Keller- el primer estudiante graduado con B.F. Skinner, trabajó con Skinner en el proyecto “pigeon bombing” en la Segunda Guerra Mundial. Fundó ABE, junto a su esposa. Keller fue el primero en usar un marcador de evento al que llamó “estímulo puente” (del inglés bridging stimulus), debido a que se tendía un puente entre la contestación deseada y la entrega del refuerzo primario.

Castigo- En el condicionamiento instrumental; consecuencia de una conducta en que algo se agrega o se aleja de los efectos deseados de un comportamiento y que probablemente hará que se modifique en el futuro.

Castigo negativo (P -)- Hace que el animal trabaje para suprimir (disminuya la frecuencia de) un comportamiento. Por ejemplo, el perro salta para conseguir atención. Dándose vuelta o alejándose de él le quita la atención que él desea.

Clicker- Juguete que hace ruido (clásica “ranita” de las fiestas de cumpleaños*). Los entrenadores de animales hacen uso del clicker como un marcador de evento para marcar un comportamiento deseado. El clicker es un marcador excelente porque es único, rápido, y consistente.

Collar de cabeza o ronzal- Similar al cabestro de un caballo, da el mando de la cabeza del perro a su entrenador, haciéndole más fácil conducirlo que con la traílla. Habitualmente se utiliza hasta que el perro haya aprendido a caminar al lado del entrenador. (En otros casos se lo utiliza para enseñar todo tipo de comportamientos*)

Condicionando clásico- El proceso de asociar un estímulo neutro con una respuesta involuntaria hasta que el estímulo incite la respuesta.

Condicionamiento controlado o contracondicionamiento- Técnica por la cual se aparean estímulos que evocan una respuesta determinada con una contestación opuesta, para que el estímulo evoque la nueva respuesta. Por ejemplo, un perro tiene miedo a los hombres con sombrero de determinado tipo. Cuando un hombre que lleva un sombrero se acerca, se alimenta al perro con su comida favorita repetidamente. La meta es reemplazar el miedo con el placer proporcionado por la comida. Debe hacerse gradualmente, pues si el proceso fuera precipitado, la comida favorita podría asumir la asociación de miedo.

Condicionamiento Instrumental-(O.C en inglés*)- El proceso de cambiar la conducta de un animal con cierto estímulo manipulando las consecuencias del comportamiento. Los cinco principios de O.C fueron desarrollados por B.F. Skinner. El entrenamiento del Clicker es un subconjunto de O.C, que sólo usa refuerzo positivo, la extinción, y en menor grado, el castigo negativo.

Consecuencia- El resultado de una acción. Las consecuencias frecuentemente -pero no siempre- afectan la conducta futura, haciendo más o menos probable que la conducta pueda ocurrir. Los cinco principios de OC describen los resultados potenciales.

Criterio- Respuesta específica, definida por el entrenador en una sesión de entrenamiento. El adiestrador hace clic al momento que el animal logra el criterio específico. El criterio no sólo puede incluir la conducta física sino también elementos como la latencia, duración y distancia.

Criterio temporal- Se establece para enseñar comportamientos más complejos al final del entrenamiento. Es de carácter provisorio. No debe abusarse de él pues el animal puede ser renuente a cambiar su conducta si se lo ha reforzado demasiado.

Crossover-dog- Perro que ha estado previamente entrenado por un método tradicional que luego se adiestra con el método del clicker.

Crossover-trainer- Entrenador que previamente usó los métodos tradicionales para entrenar animales y que ahora entrena con el clicker.

Cuatro cuadrantes de O.C- Referencia incorrecta al plan de entrenamiento habitual que ilustra los conceptos de refuerzo y castigo. Esta descripción está errada de dos maneras. Obvia mencionar la extinción, e implica que los otros principios del O.C son de igual valor en un programa de entrenamiento.

El blanco- Algo que se enseña a tocar al animal con alguna parte de su cuerpo. Un blanco es generalmente estacionario; aunque también existen blanco móviles (target stick) que se utilizan para enseñarles a seguirlos en movimiento.

Encadenando hacia atrás - En una sesión de entrenamiento se relaciona el próximo comportamiento al último obtenido y así sucesivamente. Encadenando hacia atrás es una técnica útil para el Principio de Premack.

Entrenamiento balanceado- Tipo de entrenamiento que utiliza los cinco principios del OC y un marcador de evento (el clicker) para modificar la conducta. Esta metodología también es conocida como “entrenamiento combinado” . El entrenamiento equilibrado implica cantidades iguales de refuerzo y castigo. Sin embargo, el apresuramiento asociado con el castigo lleva a una opción de entrenamiento pobre pues se pierde el equilibrio.

Entrenamiento de Compulsión o entrenamiento tradicional- El entrenamiento tradicional se caracteriza por moldear o provocar la conducta con el uso del refuerzo negativo y, el castigo positivo para “corregirla”.

Encadenando- El proceso de combinar las conductas múltiples en una conducta continua con una sola señal.

Entrenamiento con clicker- Término acuñado por Karen Pryor y definido por ella como un subconjunto de OC que usa refuerzo positivo, extinción, castigo negativo, y un marcador de evento para modificar la conducta.

Entrenamiento combinado- Utiliza los cinco principios de OC y una señal como marcador (el clicker) para modificar la conducta.

Entrenamiento compulsivo- El estilo tradicional de entrenar perros donde se compele al animal para realizar la conducta y físicamente se corrige el incumplimiento de esta.

Estímulo puente- Marcador de evento que identifica al comportamiento deseado y el lapso que transcurre entre la contestación y la entrega del refuerzo primario. El clicker es un estímulo puente.

Estímulo- Cambio en el ambiente. Si el estímulo no tiene ningún efecto en el animal, es un estímulo neutro. Un estímulo que destaca en el ambiente -otros animales o estímulos medioambientales- es un estímulo positivo. Un estímulo que causa un cambio en el estado del animal -por ejemplo, lo causa para realizar una conducta específica- es un estímul
o negativo

Extinción- Debilitar una conducta a través del no-refuerzo. “Ignorando” la conducta. En la extinción, nada se agrega o quita del ambiente. Si una conducta previamente reforzada no se refuerza, el animal aumentará la intensidad o frecuencia de la conducta en el intento por ganar el refuerzo de nuevo. Después de estos estallidos, la presentación de la conducta disminuirá.

Insensibilización- El proceso de aumentar la tolerancia a un estímulo particular aumentando la presencia del estímulo gradualmente.

Intervalo fijo- Horario de refuerzo en que el entrenador alienta la primera repuesta correcta después de un período específico de tiempo por ejemplo, después de un minuto.

Intervalo variable- Horario de refuerzo en que el entrenador refuerza la primera contestación correcta después de períodos disímiles de tiempo dentro de un cierto contexto o logro. Cronometrar es una habilidad mecánica y requiere práctica. El entrenador debe poder reconocer las conductas que preceden a la conducta designada para hacer clic en el mismo momento que la elegida ocurre.

La conducta- Algo que un animal hace.

La señal- Estímulo que obtiene una conducta. Las señales pueden ser verbales, físicas (es decir, un signo de la mano), o medioambiental (es decir, una restricción puede volverse una señal para sentarse si el perro siempre es enseñado a asumir esa posición antes de cruzar un camino).

Latencia- Tiempo entre la señal y la respuesta. Con un buen entrenamiento, ese tiempo es cero.

Marcador de evento- Signo que marca la conducta deseada al momento que ocurre. El clicker es un marcador de evento.

Medios positivos de refuerzo (R+)- Harán que el animal trabaje para consolidar (aumente la frecuencia de) un comportamiento. Por ejemplo, dar al perro un premio para “el sentado” aumentará la probabilidad de que el perro se sentará otra vez.

Medios positivos de castigo (P+)- Harán que el animal trabaje para evitar (disminuya la frecuencia de) un comportamiento. Sacar de un tirón a un perro que salta para saludar a la gente es un ejemplo de P+ , usado para suprimir el comportamiento de saltar. Otros ejemplos comunes de P+ incluyen el grito, golpecitos en la nariz, el azote, la descarga eléctrica, y las “trampas explosivas camufladas” .

Medios negativos de refuerzo (R -)- Harán que el animal trabaje para evitar fijar (aumente la frecuencia de) un comportamiento. Un sujetador de orejas, usado tradicionalmente para entrenar “el sostener”, es un ejemplo clásico de R -. los sujetadores de orejas sirven para hacer que el perro abra su boca, con lo cual el entrenador inserta el rodillo , entonces para reforzar “el sostener” el rodillo , se quita el sujetador de orejas. Se requiere que un primer estímulo aversivo esté aplicado mediante una orden para luego ser quitada.

Ningún Marcador de Premio (NRM)- Creado para ser una señal para decir “No, eso no es lo que yo quiero–intenta de nuevo.” Se piensa que agrega una señal verbal a la extinción de la perspectiva de OC. Sin embargo, una vez que algo se ha agregado a la situación, es imposible saber si un cambio ocurrió a través de extinción o castigo.

Principio de Premack- Teoría que declara que una respuesta más fuerte reforzará una respuesta más débil.

Pryor, Karen- Biólogo, autora y entrenadora de delfines reconocida por acuñar el término de “entrenamiento del clicker” y popularizar el método con entrenadores de perros.

Período de entrenamiento- Lapso de tiempo destinado al momento de las sesiones de adiestramiento. Un período de entrenamiento puede componerse de sesiones de entrenamiento múltiples.

Proporción del Refuerzo- El número de refuerzos medido en un período específico de tiempo. Una proporción alta de refuerzos es crítica para entrenar exitosamente.

Proporción variable- Horario de refuerzo en el que se refuerza el primer comportamiento correcto después de números inconstantes de contestaciones correctas.

Proporción fija- Tiempo de refuerzo en que el entrenador premia el primer comportamiento correcto después de un número específico de contestaciones.

Recuperación espontánea- Característica de la extinción en que una conducta que se pensaba que estaba extinta inexplicablemente reaparece. Si dicha conducta no se refuerza, desaparecerá rápidamente.

Reforzamiento- Algo por el cual el animal trabajará para obtener.

Reforzamiento continuo- El horario más simple de refuerzo. Cada respuesta deseada se refuerza.

Reforzamiento secundario- Refuerzo condicionado. A éste, el animal no lo necesita pero pueden ser iguales o aún más poderosos que un reforzamiento primario.

Refuerzo condicionado- Estímulo neutro apareado con un reforzamiento primario hasta que el estímulo neutro asuma las propiedades del primero. El sonido del clicker, después de ser repetidamente asociado con un premio de comida u otro refuerzo, se vuelve un refuerzo condicionado.

Refuerzo diferencial- Algunas respuestas correctas se premian y otras no . Todos los tipos de refuerzo excepto el refuerzo continuo son una clase de refuerzo del diferencial.

Refuerzo primario- Refuerzo que el animal necesita para desarrollarse normalmente. Comida, agua y sexo son reforzadores primarios.

Reforzamiento negativo (R-)- Son estímulos aversivos que pueden bloquearse o evitarse modificando la conducta. Tan pronto como se realiza el nuevo comportamiento, el estímulo aversivo cesa, y de este modo el nuevo comportamiento se refuerza. El perro recibe una corrección cuando camina en otra posición distinta de la de junto a su amo; por lo tanto, caminar junto a su guía es el único lugar seguro. El que evita la corrección. R - es un aversivo que debe aplicarse primero o debe amenazarse para ser luego quitado.

Refuerzo variable- Se refuerza al animal según un lapso de tiempo. En un intervalo fijo, el entrenador refuerza el primer comportamiento correcto después de un período específico de tiempo. Por ejemplo, cada minuto. En un intervalo inconstante, el entrenador refuerza la primera respuesta correcta después de períodos variables dentro de un cierto horario. Con esta técnica se logra instalar la conducta deseada * .

Señal de avance-( KGS)- Señal, verbal o de otra naturaleza, dada en el medio de una conducta para decirle al animal que está realizando correctamente el ejercicio y debe seguir con el resto de la rutina. La señal de avance se emplea frecuentemente en entrenamiento de Agility y otros deportes de obediencia *.

Señales de calma- Signos del cuerpo, sutiles, usados por los perros para indicar tensión, evitar la confrontación y disuadir la agresión.

Sesión de entrenamiento- Período real de adiestramiento. Su criterio debe permanecer constante durante una sola sesión. Al final de una sesión de entrenamiento, usted evalúa el progreso del animal y decide si hacer la próxima sesión más compleja o quedarse al mismo nivel.

Skinner, BF- Científico que definió los principios del Condicionamiento instrumental.

Tiempo variable de refuerzo- (VSR) Técnicamente, un intervalo inconstante o proporción inconstante. Sin embargo, la mayoría de los entrenadores usan VSR para significar una proporción inconstante.

Three-fer- (se mantiene el vocablo en inglés pues es de común utilización*) El animal tiene que realizar tres conductas correctas para ganar un clic y un premio.

Timing- (idem anterior) La elección del momento adecuado para hacer sonar el clicker. Con suerte, el clic debe ocurrir exactamente en el mismo momento que el criterio designado.

Two-fer- El animal tiene que realizar dos conductas correctas para ganar un clic y un obsequio.

Melissa Alexander
mcalex@clickersolutions.com

* Notas de traducción.
>

AUTOR

Melissa Alexander
E-Mail: mcalex@clickersolutions.com
Web: Clicker Solutions

Artículos, Condicionamiento instrumental y Clicker, Destacado, Todos »

25 Octubre 2007 | Sin Comentarios

Por qué obsequiar alimento?
por Melissa Alexander

Titulo Original: Why Food Treats?
Original en : http://www.clickersolutions.com/

>La idea de comida era equivalente al soborno que era considerado una cosa mala. Las personas que usan click/comida creen que los perros no tienen esa clase de sentido moral. Quedará para mí el ver como mi nuevo perro lo hace bien después de que comience a desaparecer la comida (Desaparecer = fase lenta retirando la comida, siempre usando elogios verbales).

Solo quería estudiar la ciencia detrás de esto.

Un comportamiento ocurre porque fue reforzado, positivamente o negativamente, no importando el estilo de entrenamiento utilizado. Por definición, los comportamientos que se intensifican fueron reforzados.

Ahora, si un comportamiento – aún un comportamiento bien-condicionado – ya no es reforzado (positiva o negativamente), se extinguirá o desaparecerá.

Por ejemplo, digamos que tienes un pozo en tu jardín, Todos los días, por toda tu vida, has obtenido agua de ese pozo. Un día bombeas la manija y nada sucede. Hmmm. Lo intentas otra vez. Y otra. Lo intentas mas fuerte. Eventualmente dejarás de intentarlo. El día siguiente —- el siguiente y el siguiente — podrías intentarlo otra vez. Intentas todo lo posible para obtener agua de ese pozo. Pero si no hay mas agua, eventualmente dejarás de intentarlo casi por completo. Cada determinado tiempo, lo intentarás de nuevo, solo por curiosidad. Si, cinco años después, repentinamente obtienes agua otra vez, entonces volverás a obtener agua todos los días. O, si has encontrado una fuente de agua alternativa que es mejor y más confiable, podrías encogerte de hombros y dejarla ir.

Esa es la descripción de extinción, completada con explosión y regeneración espontanea.

Okay, entonces de vuelta a dar comida por comportamiento. La comida es un refuerzo positivo. Entrenadores con clicker confían en el refuerzo positivo para asegurar que un comportamiento continúe.

Entrenadores tradicionales generalmente confían en una mezcla de refuerzos positivos y negativos. Ellos acarician (y algunos usan comida durante el aprendizaje), pero si el perro escoge no realizar el comportamiento, es “corregido”. La corrección es refuerzo negativo. Ello *incrementa* el comportamiento porque le dice al perro “si no haces lo que yo quiero, algo no placentero sucederá”

Ahora bien, Clicker o tradicional, nunca puedes detener el reforzamiento de un comportamiento por completo. Puedes continuar usando el reforzamiento positivo para que el perro quiera realizar el comportamiento para obtener lo que quiere, o puedes usar el reforzamiento negativo para que el perro realice el comportamiento para evitar algo malo. Podrías reforzar positiva o negativamente ocasionalmente, pero no llegarás a un punto en que el comportamiento esté “entrenado” y puedas olvidarte de él.

Esto no significa que tengas que confiar en la comida para siempre. De hecho, yo casi nunca uso comida, excepto en sesiones formales de entrenamiento (no porque tenga miedo de hechar a perder a mis perros, sino porque soy muy floja para cargar comida) Pero tienes que usar algo por lo que el perro esté dispuesto a trabajar. ¿Puedes usar elogios? Si, “si” el perro esta dispuesto a trabajar por ellos en la situación particular. El “perro” determina que es el reforzador, no el entrenador. Si cambias los elogios por completo, y el perro decide que no es suficiente, eso no es un fallo del método. Eso es solo realidad de la ciencia del reforzamiento.

Yo usualmente uso reforzadores ambientales. Mi perro invariablemente quiere algo del ambiente, que es lo que yo necesito para marcar un comportamiento. (Él quiere bajar las escaleras conmigo, pero voy cargando la lavandería. Entonces yo marco un quieto, bajo las escaleras, y después el reforzamiento es darle la oportunidad de bajar y estar conmigo.)

Espero esto explique un poco a todos los que se asombran del porque usamos comida.

Melissa Alexander
Mcalex@clickersolutions.com
Copyright 2001 Melissa Alexander

Artículos, Condicionamiento instrumental y Clicker, Todos »

23 Septiembre 2007 | 1 Comentario

clickerAutor: Benigno Paz
En nuestro país comenzamos a oír hablar del adiestramiento con el clicker. ¿Pero que es eso? El clicker en si es una simple cajita con una lámina metálica en su interior, así de sencillo. Pero desde otra perspectiva el clicker es una potente herramienta de adiestramiento. El adiestramiento con el clicker se basa en la aplicación de los principios del condicionamiento instrumental utilizando un sonido (el que realiza el clicker esa simple cajita con una lámina metálica en su interior que al apretar y soltar hace un sonido característico). La particularidad de esta técnica de adiestramiento está precisamente en la introducción del sonido, el clicker, que es el reforzador secundario, inicialmente asociado con un reforzador primario (algo que motiva al perro) y posteriormente se utiliza el sonido del clicker para hacerle saber al perro que el comportamiento que ha realizado es el que deseamos. La ventaja de la utilización del clicker sobre la voz es que nos permite indicarle al perro el instante preciso que deseamos premiar (hace que el “timing” de presentación del premio sea perfecto) con lo cual se acelera el aprendizaje al mantener una comunicación fluida entre el adiestrador y el perro. La aplicación de esta técnica de adiestramiento resulta muy intuitiva y muy divertida para perro y amo. Las sesiones de adiestramiento se hacen cortas y divertidas, es todo un juego super interesante para ambos donde ya no se utiliza la fuerza o los tirones de la correa para indicarle al perro lo que deseamos que haga, por lo que se reducen los niveles de ansiedad, estrés o temor por parte de nuestro alumno.
Clicker TradicionalLos principios del adiestramiento con el clicker comenzaron aplicándose en EEUU a principios de los sesenta, inicialmente se aplico en le adiestramiento de los delfines (utilizando el silbato ¿Te suena?), fue la puesta en práctica de los trabajos en el laboratorio del Prof. Skinner, el trabajo de campo lo realizaron Bob Bailey, Marian Breland y Karen Pryor. En los últimos quince años se ha comenzado a aplicar esta técnica de adiestramiento en todo tipo de animales domésticos, perros, gatos, caballos, llamas, etc tanto en EEUU como en Inglaterra. El adiestramiento con el clicker se está utilizando con excelentes resultados en todos los aspectos del adiestramiento, perros para minusválidos, perros para sordos, detección de drogas, perros para anuncios y películas, pero también y sobre todo con los perros de compañía.Para mi esta técnica nos recuerda la importancia de seleccionar el instante preciso para premiar a nuestro alumno y nos remarca la importancia de trabajar en positivo (evitando el castigo) para conseguir la colaboración de nuestro perro y mantener su motivación. Esto sin duda resulta de gran valor tanto para los aficionados como los profesionales del mundo del adiestramiento.Se utiliza el clicker porque realiza un sonido peculiar que muy probablemente nuestro animal de compañía no ha oído anteriormente, y esto nos permite realizar la asociación del clicker con el reforzador positivo (algo que nuestro perro desea, juego, caricias, comida, etc), además es algo que utilizaremos específicamente para comunicarnos con el perro (a diferencia de la palabra, o el silbato). Lo realmente interesante es lo que hacemos con el clicker, cuando lo hacemos sonar y las asociaciones que establecemos con el. Es fundamental establecer la asociación entre el sonido y los reforzadores positivos. Utilizaremos el sonido del clicker para hacerle saber al perro que lo que estaba haciendo en el PRECISO INSTANTE en que sonó el clicker es lo que estamos premiándose.
KNS ClickerComo vemos no se trata de que el perro hace algo, esperamos cinco minutos y luego hacemos el sonido para permitirle que recoja su premio. ¿Qué sentido tendría esto?Es curioso ver como en el adiestramiento tradicional tenemos muy claro que hay que corregir al perro en el instante en que esta haciendo el comportamiento (olisquear, tirar excesivamente de la correa, etc) y no segundos, por supuesto no minutos más tarde, porque el perro no es capaz de relacionar la corrección con el comportamiento. Todos de acuerdo en esto ¿No? Lo sorprendente es la facilidad con que nos olvidamos de aplicar el mismo principio básico a la hora de premiar un comportamiento deseado (por lo que no me sorprende encontrarme como muchos adiestradores que están convencidos de que el castigo da mejores resultados. El castigo es una “herramienta” / técnica con muchisimos efectos colaterales, hay que utilizarla con mucho tacto o pierde todo su valor. Debemos de recordar que hace mucho tiempo que se ha superado aquello de que “la letra con sangre entra” y el aprendizaje de todos los animales se rige por los mismos principios. Como decía el adiestramiento con el clicker hace posible comunicarle al perro que es lo que deseamos reforzar en el preciso momento en que ejecuta la acción. Tan sencillo y tan elemental como eso. Otras peculiaridades del adiestramiento con el clicker son:El perro forma parte activa del adiestramiento ya que ha de ofrecernos el comportamiento para que nosotros podamos premiarlo. Lo que el hace es importante.Enseñamos al perro utilizando el moldeado por aproximaciones sucesivas.No introducimos la orden hasta que el perro es capaz de realizar el comportamiento que deseamos.Los perros siempre nos han demostrado su gran capacidad para adaptarse, podríamos añadir a esto su gran capacidad para aprender, sobrevivir. Muchos perros han conseguido aprender todo tipo de ejercicios pese a la torpeza de sus amos y pese que se hayan aplicado los métodos más inapropiados. Pese a ello han aprendido (en ocasiones los comportamientos no deseados por sus amos, por supuesto). Sin duda todo un alarde de capacidad de adaptación y supervivencia. Pues bien imaginémonos lo que sería si utilizásemos el método correcto para establecer una comunicación fluida y adiestrar a nuestros perros, si fuésemos capaces de trabajar en positivo. Esto es realmente lo que se propone en el adiestramiento con el clicker.
AUTOR
Benigno Paz Ramos
E-Mail: consultas@knsediciones.com
Web: http://www.knsediciones.com/