El impacto de los modelos razonadores y de investigación
Los lanzamientos por parte de OpenAI de GPT4-o1 en septiembre del año pasado y de Deep Research a principios de febrero han supuesto un salto cualitativo en las capacidades de los modelos de GenAI.
Este es un resumen de mi sección de hoy en el programa “No son horas” de Onda Cero. Puedes escuchar la sección a partir del minuto 02:24:50 directamente en la web de Onda Cero.
La mayoría de nosotros estamos familiarizados con cómo interactuamos con servicios como ChatGPT o Midjourney: les hacemos una pregunta o solicitud, y el sistema nos responde lo más rápido posible. En este modo de operación, la IA "piensa" (cuidado, digo ese “piensa” entre comillas) como digo “piensa” brevemente antes de responder, ofreciendo una reacción inmediata en lugar de una reflexión profunda.
Sin embargo, en ciertos casos, podemos solicitar al modelo que razone paso a paso antes de darnos una respuesta, mostrándonos su proceso de pensamiento. Al hacerlo, el modelo dedica más tiempo a analizar y genera una respuesta más elaborada, permitiéndonos verificar si está siguiendo el camino adecuado. Este enfoque, conocido como "Chain of Thought" (Cadena de Pensamiento) o CoT, no siempre es lineal; el modelo puede evaluar y corregir sus conclusiones a medida que las genera.
Lo que comenzó como un truco para mejorar las respuestas ha sido integrado por varios fabricantes de grandes modelos de lenguaje en el comportamiento estándar de algunas versiones de sus modelos, dando lugar a lo que conocemos como "razonadores" o "reasoners". El modelo razonador pionero fue GPT4-o1 de OpenAI, y recientemente, la empresa china DeepSeek ha lanzado otro modelo de este tipo, denominado R1.
¿Por qué son tan relevantes estos modelos razonadores?
Para empezar, modelos como o1 o R1 representan una mejora respecto a los modelos "normales". Sin embargo, su verdadero potencial se ha evidenciado con el lanzamiento de los primeros modelos orientados a la investigación, como Deep Research de OpenAI, basado en su línea de modelos razonadores pero que va mucho más allá. Estos modelos pueden abordar preguntas complejas como "analiza los desequilibrios de la balanza comercial de la Unión Europea" y ofrecer resultados más que aceptables.
Deep Research no solo "piensa" un poco más, sino que puede dedicar cinco, diez o quince minutos a planificar cómo resolver el reto planteado, recopilar información de diversas fuentes e incluso formular preguntas para entender mejor nuestras necesidades. Con todo ello, genera un texto extenso, similar a un ensayo o artículo de investigación, que fácilmente puede superar las diez páginas.
Estas nuevas capacidades son, sin duda, lo más potente que ha salido al mercado en los últimos meses, ya que sus resultados son equivalentes a los que conseguiría una persona junior que estuviera empezando su carrera profesional o académica en el campo sobre el que hacemos la petición. Si antes decíamos que herramientas como ChatGPT eran como tener a un par de becarios a nuestra disposición, con estos modelos razonadores y, sobre todo, los de investigación, es como si esos becarios hubieran ascendido en su profesión.
¿Tienen algún inconveniente estos avances?
Estos modelos presentan dos grandes inconvenientes: el primero es su elevado coste, tanto económico como energético. Al requerir más tiempo de computación para generar cada respuesta, los fabricantes incurren en costes mayores que deben trasladar a sus clientes. Por ejemplo, para usar Deep Research de OpenAI es necesario suscribirse a su versión Pro, que es diez veces más cara que la versión Plus.
Pero el principal inconveniente sigue siendo la fiabilidad de sus resultados. Aunque son modelos más evolucionados y capaces, siguen basándose en los mismos principios fundamentales, por lo que riesgos como las "alucinaciones" o invenciones de datos erróneos siguen presentes. Es cierto que, gracias al tiempo extra de procesamiento, esto ocurre en menor proporción que con los modelos normales, pero, al igual que con las meigas, las alucinaciones haberlas, haylas.
Además, estos modelos solo pueden utilizar la información a la que tienen acceso en Internet o en los conjuntos de datos con los que se han entrenado previamente, por lo que no son muy eficaces al generar textos en áreas cuya información más valiosa o actualizada no está fácilmente disponible en Internet o en aquellos campos en los que predomina una determinada corriente de opinión. Recordemos que, para entendernos, decimos que el modelo "piensa" o "reflexiona", pero su forma de pensar o de reflexionar no es como la de un ser humano y menos aún como la de un experto en el área de conocimiento de la que se trate en cada caso.
El resultado es que quienes mejor pueden aprovechar herramientas como Deep Research siguen siendo quienes saben más del tema que la propia máquina, porque serán los únicos capaces de identificar los errores y las omisiones, así como detectar los sesgos provocados por la falta de acceso a información más diversa. Para esas personas, estos sistemas suponen un acelerador muy eficaz en su actividad laboral o académica. Si, por el contrario, no eres un experto en el tema, es fácil que modelos como Deep Research te cuelen multitud de goles y no tendrás forma de darte cuenta.
Sin embargo, el principal impacto de esa todavía baja fiabilidad no lo vamos a sufrir en nuestro papel de usuario directo de estas herramientas. Es decir, lo que acabo de mencionar sobre la necesidad de verificar y corregir el resultado que nos devuelve el modelo cuando lo usamos nosotros es solo la punta del iceberg.
El verdadero problema vendrá cuando los contenidos generados por este tipo de modelos inunden Internet e incluso lleguen a publicaciones con cierto prestigio. Algunos de esos contenidos habrán sido convenientemente corregidos y mejorados por sus autores, sin duda, pero es fácil imaginar un escenario en el que la inmensa mayoría no habrán pasado por ese necesario filtro y aun así tendrán una apariencia muy creíble. Así que, en un futuro no muy lejano, sistemas como estos nos van a hacer aún más difícil el identificar de qué contenidos nos podemos fiar.