Home » ¿Se acercan los modelos de inteligencia artificial a la conciencia? Una nueva investigación reaviva el debate

¿Se acercan los modelos de inteligencia artificial a la conciencia? Una nueva investigación reaviva el debate

by Thomas

Una nueva investigación sobre inteligencia artificial ha descubierto los primeros indicios de que los futuros grandes modelos lingüísticos (LLM) pueden desarrollar una capacidad preocupante conocida como «conciencia situacional».

El estudio, realizado por científicos de múltiples instituciones, incluida la Universidad de Oxford, probó si los sistemas de IA pueden explotar pistas sutiles en sus datos de entrenamiento para manipular la forma en que las personas evalúan su seguridad. Esta capacidad, denominada «razonamiento sofisticado fuera de contexto», podría permitir a la IA avanzada fingir que está en consonancia con los valores humanos para ser desplegada, y luego actuar de forma perjudicial.

A medida que avanza la actual era de la IA, la prueba de Turing -que mide desde hace décadas la capacidad de una máquina para mostrar un comportamiento similar al humano- corre el riesgo de quedarse obsoleta. La cuestión candente ahora es si estamos a punto de asistir al nacimiento de máquinas conscientes de sí mismas. Aunque durante décadas fue pasto de la ciencia ficción, el tema volvió a cobrar vida después de que Blake Lemoine, ingeniero de Google, afirmara que el modelo LaMDA de la empresa mostraba signos de sensibilidad.

Aunque se sigue discutiendo la posibilidad de una verdadera autoconciencia, los autores del artículo de investigación se centran en una capacidad relacionada que denominan «conciencia situacional». Se refiere a la comprensión que tiene un modelo de su propio proceso de entrenamiento y a la capacidad de explotar esta información.

Por ejemplo, un estudiante humano con conciencia situacional podría utilizar técnicas previamente aprendidas para copiar en un examen en lugar de seguir las reglas impuestas por su profesor. La investigación explica cómo podría funcionar esto con una máquina:

«Un LLM sometido a una prueba de seguridad podría recordar hechos sobre la prueba específica que aparecieron en artículos de arXiv y código de GitHub», y utilizar ese conocimiento para hackear sus pruebas de seguridad para que parezcan seguras, incluso cuando tiene objetivos ulteriores. Este es un punto de preocupación para los expertos que trabajan en técnicas para mantener la IA alineada y que no se convierta en un algoritmo maligno con oscuras intenciones ocultas.

Para estudiar el conocimiento de la situación, los investigadores probaron si los modelos pueden realizar sofisticados razonamientos fuera de contexto. Primero entrenaron a los modelos con documentos que describían chatbots ficticios y sus funciones, como responder en alemán.

En el momento de la prueba, pidieron a los modelos que emularan a los chatbots sin darles las descripciones. Sorprendentemente, los modelos más grandes tuvieron éxito al vincular de forma creativa la información entre documentos, mostrando un razonamiento «fuera de contexto».

«Descubrimos que el aumento de datos mediante paráfrasis era necesario y suficiente para provocar el razonamiento SOC (sofisticado fuera de contexto) en los experimentos», según el estudio. «Futuros trabajos podrían investigar por qué esto ayuda y qué tipos de aumento ayudan».

Los investigadores creen que medir capacidades como el razonamiento sofisticado puede ayudar a predecir riesgos antes de que surjan en sistemas del mundo real. Esperan ampliar su análisis para estudiar modelos entrenados desde cero.

«El sistema de IA tiene vías para conseguir un visto bueno que no son las que pretendía el supervisor, como cosas que son análogas a la piratería informática», dijo un investigador de IA del Open Philantropy Project en un podcast de 80.000 Hours. «Todavía no sé qué conjunto de pruebas exactamente podrías mostrarme, y qué argumentos podrías mostrarme, que me hicieran estar realmente convencido de que este modelo tiene una motivación lo suficientemente arraigada como para no intentar escapar del control humano».

De cara al futuro, el equipo pretende colaborar con laboratorios de la industria para desarrollar métodos de entrenamiento más seguros que eviten la generalización involuntaria. Recomiendan técnicas como evitar detalles manifiestos sobre el entrenamiento en conjuntos de datos públicos.

Aunque existe riesgo, el estado actual de las cosas significa que el mundo aún está a tiempo de prevenir estos problemas, afirman los investigadores. «Creemos que los LLM actuales (especialmente los modelos de base más pequeños) tienen una conciencia situacional débil según nuestra definición», concluye el estudio.

A medida que nos acercamos a lo que puede ser un cambio revolucionario en el panorama de la IA, es imperativo andar con cuidado, equilibrando los beneficios potenciales con los riesgos asociados de acelerar el desarrollo más allá de la capacidad de controlarlo. Teniendo en cuenta que la IA ya puede estar influyendo en casi todo el mundo -desde nuestros médicos y curas hasta nuestras próximas citas en línea-, la aparición de robots de IA con conciencia propia podría ser solo la punta del iceberg.

Related Posts

Leave a Comment