Redactado por Juan Manuel Recio, CEO de Modus
¿Qué podemos vislumbrar en las tendencias IA ?
Una de las primeras cuestiones que hay que entender respecto a las tendencias IA es la de vislumbrar la rapidez de su desarrollo en nuestra sociedad y corporaciones, lo cual está muy relacionado con el nivel de razonamiento y desempeño de la IA ahora, y en el futuro. Según muchos expertos la evolución de la IA va a seguir a ritmo propio de la ley de Moore, lo que implicará el asombro y la consternación para muchos de una forma continua y duradera a lo largo del tiempo. Aclaro, para lo más novicios en tecnología de la información, que la ley de Moore establecía un incremento del doble en la densidad del número de transistores en los circuitos integrados cada 24 meses. Si bien es verdad que hoy en día su vigencia es controvertida, lo que sí podemos es utilizar esta “metáfora” para determinar el avance vertiginoso que se nos viene encima. Los anuncios de GPT4o, con las increíbles funcionalidades y las respuestas en forma de nuevos modelos de Google y el resto de competidores harán que se duplique cada 24 meses la capacidad de cálculo de los LLM. La zona de meseta está lejos.
En Tecnologías de la Información se mide casi todo en forma de Benchmark, la vara de medir el rendimiento y el raciocinio de los modelos LLM es el MMLU (Massive Multi-task Language Understanding). Se ha pasado rápidamente de un Score de 50 a 90, y el record lo tiene por ahora GPT-4 Opus, pero ¿hay espacio para mejorar?. Para responder a esta pregunta hay que ir a los fundamentos del desarrollo de software, que nos indica que mejorará sólo si hay avances en los datos, el hardware o los algoritmos. Los próximos avances vendrán del incremento sustancial del número de servidores y de la capacidad de las GPU’s, ya con esto se podrían duplicar el tamaño de los modelos. Otro posible incremento vendrá del número y calidad de los datos, pero ¿hay hueco para la mejora de los algoritmos?. La respuesta que nos dan las organizaciones implicadas es que sí, igual que Transformer cambió todo sobre los LLM’s, a la vuelta de la esquina hay numerosas soluciones que haga que se cumpla la ley de Moore, aunque parezca increíble.
Este tiempo atrás hemos visto la revolución que ha habido con los modelos NLP (Natural language processing) hasta llegar, de una forma casi imprevista, a los actuales LLM. Toda una revolución, que ha eliminado todas las antiguas limitaciones de los antiguos modelos NLP. La siguiente innovación vendrá con el tratamiento de imágenes y vídeo, modelos realmente asombrosos, que dejarán muy atrás a los antiguos modelos.
La nueva generación de agentes serán los agentes autónomos, que realizarán tareas más complejas que llamaremos Instrucciones, de tal forma que ante una instrucción el agente se tomará su tiempo,
Los LLM actuales responden a nuestras preguntas, también generan documentos y con tuning (afinamiento) pueden personalizar su funcionamiento a casi cualquier cosa que queramos dentro de estos parámetros. Todas estas tareas las puede organizar lo que llamamos un agente, pero la nueva generación de agentes serán los agentes autónomos, que realizarán tareas más complejas que llamaremos Instrucciones, de tal forma que ante una instrucción el agentes se tomará su tiempo buscará la información en bases de datos y web y al cabo de 20 minutos o media hora tendremos la respuesta esperada. No hay fecha para estos agentes, hay dificultades que subsanar todavía pero soy optimista debido a la cantidad de recursos involucrados en el tema. Si hay recursos trabajando es que hay una esperanza realista de solucionar los problemas.
Otra innovación interesante son los Modelos de Mundo (World Models). Estos modelos son el mejor intento que tenemos para buscar un razonamiento e implementar mecanismos de causa efecto. Podríamos pensar en lo que sucede cuando un objeto cualquiera deja de tener sustentación, evidentemente cae al suelo, y podríamos pensar en cogerlo en el aire. Se empezaría con aportar información y datos al modelo de lo que sucede cuando hay sustentación y no sustentación en el mundo real, es decir se le aporta datos para aprender una representación espacial y temporal comprimida del entorno. A continuación un agente, puede entrenar una política que pueda resolver la tarea requerida. Incluso podemos entrenar a nuestro agente completamente dentro de su propio entorno de ensueño generado por su modelo mundial, y transferir esta política nuevamente al entorno real.
Desgraciadamente estos modelos se están encontrando con dificultades, su llegada es incierta, dos años tres, diez, no se sabe, pero de cara al futuro son la mejor alternativa para sustituir a los LLM que de momento tendrán su propio desarrollo.
Comprender los avances de los modelos, sus nuevas funcionalidades, sus limitaciones y sus dificultades nos ayudarán a comprender el desarrollo de la IA en la sociedad actual, y somos los agentes tecnológicos implicados en esta evolución los responsables de velar por una adecuada ética y respeto a unos principios todavía por definir en una regulación pendiente de definir porque debe avanzar en un entorno especialmente dinámico.