Modelos multimodales... salto cualitativo, polémica y riesgos

Manuel Delgado Tenorio

Soy Manuel Delgado Tenorio.
Asesoro a comités de dirección y líderes de tecnología sobre cómo aprovechar los datos y la IA en busca de mayores beneficios.

Conoce más sobre mí y mis servicios o, directamente, contacta conmigo.

Suscríbete gratis a la newsletter de Manuel Delgado Tenorio

Suscríbete gratis a mi newsletter para no perderte ningún artículo. Además, en la newsletter publico cosas que no llegan al blog.

Casi 500 personas ya la reciben. Únete.

Ayer, hablé en Onda Cero sobre las nuevas capacidades multimodales en modelos como GPT-4o, cómo se han hecho virales y la polémica que han traído.

Las nuevas capacidades de generación de imágenes que se han incorporado estas últimas semanas en los modelos de Google y OpenAI suponen, sin duda, un salto cualitativo respecto al estado del arte anterior.

Ayer, estuve charlando con Gemma Ruiz sobre estos avances, que abren multitud de nuevas posibilidades. Puedes escuchar el programa aquí (avanza hasta el minuto 02:26:27).

¿Es mejor? Sin la menor duda. ¿Es perfecto? No, pero no necesita serlo para muchos casos de uso que ahora se agilizan y desbloquean con estas nuevas capacidades. La única duda es si los LLM podrán recorrer, en un tiempo razonable, todo el espacio de mejora que existe hasta ser 100% fiables para casos de uso empresariales que realmente pueden cambiar el panorama en mercados enteros.

Hubo algo que no mencioné en la radio: otro de los problemas asociados con esta mejora de capacidades es que, ahora, es todavía más difícil identificar un deepfake. Con poquito esfuerzo, es posible generar imágenes que, en un primer vistazo, podrían engañar al ojo más entrenado. A modo de ejemplo, aquí tenéis una foto mía de la temporada que he pasado en Oriente Medio, entrenando a las fuerzas especiales:

¿Qué insinúas? ¿Que he generado esto con IA? ¡Paparruchas!