Modelos multimodales... impresionante salto cualitativo, polémica y riesgos

Ayer, hablé en Onda Cero sobre las nuevas capacidades multimodales en modelos como GPT-4o, cómo se han hecho virales y la polémica que han traído.

abr 03, 2025

Las nuevas capacidades de generación de imágenes que se han incorporado estas últimas semanas en los modelos de Google y OpenAI suponen, sin duda, un salto cualitativo respecto al estado del arte anterior.

Ayer, estuve charlando con Gemma Ruiz sobre estos avances, que abren multitud de nuevas posibilidades. Puedes escuchar el programa aquí (avanza hasta el minuto 02:26:27).

¿Es mejor? Sin la menor duda. ¿Es perfecto? No, pero no necesita serlo para muchos casos de uso que ahora se agilizan y desbloquean con estas nuevas capacidades. La única duda es si los LLM podrán recorrer, en un tiempo razonable, todo el espacio de mejora que existe hasta ser 100% fiables para casos de uso empresariales que realmente pueden cambiar el panorama en mercados enteros.

Hubo algo que no mencioné en la radio: otro de los problemas asociados con esta mejora de capacidades es que, ahora, es todavía más difícil identificar un deepfake. Con poquito esfuerzo, es posible generar imágenes que, en un primer vistazo, podrían engañar al ojo más entrenado. A modo de ejemplo, aquí tenéis una foto mía de la temporada que he pasado en Oriente Medio, entrenando a las fuerzas especiales:

Modelos multimodales... impresionante salto cualitativo, polémica y riesgos

Ayer, hablé en Onda Cero sobre las nuevas capacidades multimodales en modelos como GPT-4o, cómo se han hecho virales y la polémica que han traído.

Discusión sobre este post