El sistema permite averiguar si los sistemas de IA tendrán éxito en una tarea que todavía no han ejecutado

La UPV participa en ADeLe, una metodología que predice la IA

Redacción Interempresas06/04/2026

Un equipo de la Universitat Politècnica de València (UPV), perteneciente al Instituto Universitario Valenciano de Investigación en Inteligencia Artificial (Vrain) y a ValgrAI, ha participado en el desarrollo de ADeLe, una nueva metodología que ofrece explicaciones y predicciones sobre si los grandes modelos de lenguaje de la inteligencia artificial (LLMs) tendrán éxito o no en nuevas tareas específicas que todavía no han ejecutado. Además, esta metodología identifica exactamente hasta dónde llega el nivel de capacidad de razonamiento de cualquier modelo dado.

ADeLe predice con cerca de un 90% de acierto si un modelo de IA va a resolver o no una tarea que todavía no ha ejecutado.

Las metodologías actuales solo indican cómo se comporta un modelo de IA en una prueba específica. Por ello, las conclusiones de este estudio, publicadas en la revista Nature, suponen un avance: ADeLe, con una evaluación más cognitiva, explica y predice el comportamiento de los modelos, lo que permite anticipar errores antes de que las industrias lancen nuevos modelos de IA. De esta forma, se puede anticipar donde falla antes de descubrirlo sobre la marcha.

El investigador de Vrain de la UPV, Fernando Martínez-Plumed, explica que, con esta evaluación más cognitiva, “por primera vez, podemos anticipar con cerca de un 90% de acierto si un modelo de IA resolverá o no una tarea nueva, antes de desplegarlo. Para la industria, esto significa detectar fallos a tiempo y evitar los altos costes de lanzar un sistema que no rinde como se esperaba”.

Este desarrollo responde al crecimiento acelerado de la inteligencia artificial y a la demanda de sistemas de evaluación más rigurosos, escalables y estandarizados. “Hasta la fecha, la evaluación de la IA no satisface las exigencias de un ecosistema de IA en rápida evolución y cada vez más diverso”. En este contexto, “comprender y anticipar el rendimiento se ha convertido en un requisito urgente”. Esta nueva metodología aborda limitaciones de la evaluación convencional, como la falta de capacidad explicativa y predictiva, y se presenta como una herramienta útil incluso en auditorías de seguridad, informaron desde la compañía en una nota de prensa.

Un modelo basado en 18 dimensiones cognitivas

El estudio ha sido elaborado por el catedrático de informática e investigador de Vrain en la UPV, José Hernández-Orallo; el profesor titular Fernando Martínez-Plumed; los doctorandos Yael Moros-Daval, Kexin Jiang-Chen y Behzad Mehrbakhsh; junto a otros colaboradores internacionales.

El sistema organiza las tareas cognitivas de los modelos de lenguaje en 18 dimensiones principales, entre ellas la atención, el razonamiento o la singularidad de la tarea. A partir de ahí, puntúa cada tarea en función de las capacidades que exige y construye un perfil del modelo tras someterlo a diferentes pruebas. Este enfoque permite realizar predicciones transferibles a tareas desconocidas, lo que supone un cambio respecto a los métodos tradicionales centrados en métricas aisladas.

El equipo de investigación evaluó las pruebas de rendimiento de IA y extrajo conclusiones.

El equipo evalúa numerosas pruebas de rendimiento y extrae varias conclusiones: detecta que los test actuales no siempre miden lo que pretenden; observa que los modelos presentan patrones distintos de fortalezas y debilidades; confirma que ADeLe ofrece predicciones precisas sobre el éxito en nuevas tareas, y concluye que el debate sobre la capacidad de razonamiento de la IA depende del nivel de dificultad de las pruebas.

Los autores señalan que “la imagen más clara que ofrece ADeLe es la siguiente: los modelos de razonamiento (como OpenAI's o1 de OpenAI) muestran mejoras reales y cuantificables con respecto a los modelos estándar”, y añaden que esto se observa “no solo en lógica y matemáticas, sino también en áreas sorprendentes como comprender lo que un usuario está preguntando realmente”.

El estudio, titulado 'General Scales Unlock AI Evaluation with Explanatory and Predictive Power', cuenta con la participación de instituciones como la Universidad de Cambridge, Princeton, Carnegie Mellon, William & Mary, Microsoft Research y el Centro de Automática y Robótica (CAR, CSIC-UPM).