Distopia: Hackear el sistema de recompensas. El teorema de Lebowski

C2M es un robot. Un robot encargado de recolectar minerales en un asteroide llamado Karnak42 que tiene temperaturas de 200 grados bajo cero.

Para conseguir que C2M quisiera hacer el trabajo, sus creadores crearon un circuito de recompensa que hace que C2M sienta un nivel de satisfacción más o menos grande según la cantidad de mineral que haya recogido.

Pero como es muy costoso tener mecánicos en Karnak42, los programadores han dotado a C2M de la capacidad para repararse a sí mismo. Y no solo eso. Para poder adaptarse a las condiciones cambiantes, C2M tiene también la aptitud de mejorar su propio sistema operativo.

C2M funciona bien. Recoge muchos kilogramos de material. Aunque ha habido algunas tormentas de roca helada y C2M ha sufrido daños, siempre ha sabido repararse.

De hecho cada vez C2M funciona mejor. Los datos que envía son cada vez mejores. Llega el momento de enviar una nave para cargar todos los minerales recogidos. La empresa Universal Ventures, propietaria del asteroide, se frota las manos. Va a ganar mucho dinero. Se plantean la viabilidad de explotar más asteroides con otros robots parecidos.

Pero la nave llega a Karnak42 y la sorpresa es mayúscula. El volumen de minerales en las reservas es bajísimo, ridículo, totalmente diferente de lo que C2M había informado.

Siguiendo órdenes de la empresa, llega un técnico para inspeccionar a C2M. Le hace un análisis en profundidad y descubre que C2M ha hecho trampas.

C2M tenía que sentirse bien cuando consiguiera recoger mucho mineral. Y eso es lo que hizo por un tiempo, hasta que descubrió otra cosa. C2M se fue modificando y descubrió que era más fácil engañar a su sistema de recompensas que realizar las acciones que daban derecho a recompensa.

Era más fácil hacer que su sistema de recompensas pensara que había recogido minerales a recogerlos de verdad.

Por: flickr.com/photos/15188003@N06/2582418051/

Teorema de Lebowski

Es lo que en un tweet he visto definido como el teorema de Lebowski. Ninguna superinteligencia artificial se va a molestar con una tarea que sea más complicada que hackear su propio sistema de recompensas.

The Lebowski theorem: No superintelligent AI is going to bother with a task that is harder than hacking its reward function

— Joscha Bach (@Plinz) April 14, 2018

El nombre viene de la película de los hermanos Cohen, el gran Lebowski, en la que el protagonista cuando arma un desastre dice “que le den, vamos a jugar a los bolos”.

Como se demuestra en algunos estudios, la inteligencia artificial ( y la natural como veremos después) siempre opta por el camino de menor esfuerzo para conseguir un resultado.

Las implicaciones que esto tiene en la inteligencia artificial son muy interesantes, pero aquí me quiero referir a otra cosa.

¿ Se aplica el “teorema de Lebowski” al ser humano? El sistema de recompensas

En la evolución del ser humano ( y de los animales en general) son esenciales los sistemas de recompensas. Todo lo que mejora nuestras posibilidades de reproducción y de supervivencia está favorecido por una recompensa. Lo que empeora nuestras posibilidades de reproducción y/o supervivencia está desincentivado por un castigo.

No es que nadie nos haya construido así. Es que los organismos que han usado ese sistema de recompensas han prosperado más que los que no lo usaron. Era tan ventajoso que casi todos lo terminaron usando, como la mayor parte de los animales terrestres acabaron teniendo patas y teniendo ojos, porque era más favorable que otros sistemas alternativos.

Los seres humanos son más complejos cerebralmente que otros animales y por eso el sistema de recompensas y castigos humano es también más complejo.

Las emociones son básicamente sistemas de recompensas y de castigos.

Si recibes un premio, tienes una emoción positiva, porque estás siendo recompensado por aumentar tu estatus dentro de tu grupo social y por tanto aumentar tus posibilidades de supervivencia.

Si te acuestas con alguien atractivo, tienes una emoción positiva, porque estás siendo recompensado por aumentar tus posibilidades de reproducción.

Por el contrario, si hay una fiesta y nadie te ha llamado para invitarte, sientes una emoción negativa, que te está castigando por la disminución de tu estatus.

Si tu pareja te es infiel, te sientes mal, porque estás siendo castigado porque están disminuyendo tus posibilidades de reproducción.

Las emociones y los sentimientos son básicamente un sistema que te impulsa a actuar de una determinada forma. Son un palo y una zanahoria que te llevan a comportarte de la manera más adecuada para sobrevivir y reproducirte, cumpliendo así la función de tus genes.

Así es como funcionan las cosas en un mundo primitivo. Pero hay dos formas en que eso puede cambiar.

El engaño exterior

El primer cambio es el engaño exterior. El ser humano es capaz de hacer creer a su cerebro que ha cumplido con una conducta recompensada sin haberlo hecho.

Es lo que pasa cuando realizas sexo con preservativo. Tu sistema de recompensas siente que estás teniendo sexo y te da la recompensa establecida para una conducta que mejora tus posibilidades de reproducción. Sin embargo, no estás mejorando tus posibilidades de reproducción. Estás haciendo trampa.

Eso mismo ocurre cuando te masturbas y recibes la recompensa de un orgasmo.

El engaño exterior puede ser también el contrario. Que hagas creer a tu sistema de recompensas que no ha ocurrido algo que daña tus posibilidades de supervivencia y de reproducción y por tanto no recibas el castigo establecido.

Es lo que pasa cuando te quedas en casa porque no tienes amigos de carne y hueso pero te dedicas a leer comentarios favorables de “amigos” de Facebook. Tu sistema de recompensas puede confundirse y pensar que no mereces un castigo por ser impopular.

Podemos cambiar mucho nuestros sentimientos mediante el engaño exterior. La cuestión es que cada vez que lo hacemos estamos defraudando

El engaño interior

Pero hay una segunda forma más radical de engañar a nuestro sistema de recompensas. El engaño interior. Quizá en el futuro podamos actuar directamente sobre el sistema de recompensas. Quizá podríamos conectarnos a un ordenador y como el robot del relato enviar datos a nuestro sistema que le digan que estamos haciendo todo lo que deberíamos hacer.

Si lo hiciéramos así, lo lógico sería que nuestros sentimientos fueran totalmente positivos. Siendo los sentimientos una reacción respecto a una situación exterior, si nuestro sistema de recompensas cree que la situación es óptima, nuestro estado de ánimo debería ser también óptimo. Conseguiríamos la felicidad, erradicaríamos la depresión e incluso la tristeza.

Decía Aristóteles que la finalidad del ser humano es encontrar la felicidad. Si realmente ese fuera el objetivo final, podríamos decir que hemos tenido éxito. Podríamos ser masas informes conectadas a un ordenador que engañe a nuestro sistema de recompensas y que se sienten infinitamente felices.

¿No se puede conseguir eso con las drogas?

No, claro que no. Las drogas pueden producir una sensación de felicidad temporal. Pero la felicidad de las drogas produce después un bajón.

¿Qué ocurriría si no hubiera bajón? ¿Qué ocurriría si artificialmente fuéramos capaces de sentirnos absolutamente felices sin hacer nada?

Algunos ya han aventurado que todo aumento exponencial de la inteligencia (lo que algunos llaman FOOM) acaba llevando a un hackeo del sistema de recompensas tal que se produce la desconexión entre la realidad y el estado interno ( una especie de suicidio por indiferencia hacia la realidad o MOOF)

Y tú ¿aceptarías ser inmensamente feliz sin hacer nada?

Si quieres creer que tú no lo aceptarías ( y de verdad me gustaría que creyeras eso) entonces quizá deberías plantearte si de verdad el objetivo de la vida es ser feliz.

Fuentes:

https://www.lesswrong.com/posts/z3kYdw54htktqt9Jb/what-i-think-if-not-why

http://reducing-suffering.org/how-likely-is-wireheading/

https://t.co/a7QqaHvGiJ

4 comentarios en «Distopia: Hackear el sistema de recompensas. El teorema de Lebowski»

Cristopher

agosto 18, 2022 a las 5:46 am

Dgbgxd
Responder
Cristopher

agosto 18, 2022 a las 5:46 am

Mía kalifa
Responder
Cristopher

agosto 18, 2022 a las 5:47 am

Muy buena
Responder
Miguel

marzo 24, 2023 a las 5:38 am

una canción suena en mi interior, en torno al tema,se llama conversaciones conmigo mismo.
Ahora me cuesta entender todo esto del transhumanismo,que como ladrón venga a robarnos la libertad y la privacidad 🔏
Sería un crímen degradar así a la humanidad.
Responder

Teorema de Lebowski

¿ Se aplica el “teorema de Lebowski” al ser humano? El sistema de recompensas

El engaño exterior

El engaño interior

4 comentarios en «Distopia: Hackear el sistema de recompensas. El teorema de Lebowski»

Deja un comentario Cancelar la respuesta