Los programas de GenAI se hunden. Así es como una plataforma híbrida puede rescatarlos
La promesa de la Inteligencia Artificial Generativa es transformadora, pero la realidad en el terreno empresarial resulta mucho más compleja de lo previsto. Un reciente artículo de McKinsey & Company, titulado ‘Overcoming two issues that are sinking gen AI programs’1, identifica los dos grandes obstáculos que hunden a la mayoría de iniciativas corporativas: la incapacidad para innovar y el fracaso en el escalado.
Según la consultora, que ha acompañado a más de 150 empresas en sus programas de GenAI, las organizaciones caen en un ciclo de parálisis: entre un 30% y un 50% del tiempo de innovación se desperdicia en burocracia, trabajo duplicado y esperas para la validación de equipos de cumplimiento saturados. Y cuando un prototipo demuestra su valor, los riesgos de seguridad, la falta de gobierno y los costes imprevisibles bloquean el paso a producción.
McKinsey plantea una salida: una plataforma centralizada con portal de autoservicio, arquitectura abierta y ‘guardarraíles’ de IA responsable. Coincidimos en ese diagnóstico. Sin embargo, falta un elemento clave: el dónde. Para empresas en las que los datos son el activo más crítico, la solución no puede depender únicamente de la nube pública. La respuesta real es una plataforma de GenAI híbrida, como la desarrollada por Inetum.
El valor diferencial del on-premise: más allá de la nube
Mientras que la nube aporta agilidad, el entorno on-premise ofrece ventajas únicas en los aspectos que más preocupan a los directivos, según el propio informe de McKinsey:
- Seguridad y soberanía del dato. La principal barrera para escalar la GenAI son los riesgos de seguridad y reputacionales. Con un despliegue on-premise, los datos sensibles, la propiedad intelectual y la información de clientes nunca salen del perímetro corporativo. Modelos LLM open source pueden entrenarse y ejecutarse localmente, evitando fugas de información y garantizando el cumplimiento de normativas como GDPR o regulaciones sectoriales.
- Control de costes y FinOps real. El pago por uso de APIs en la nube puede disparar facturas a medida que aumenta la utilización. Una infraestructura on-premise exige una inversión inicial, pero ofrece un TCO predecible y optimizado a largo plazo. Además, brinda control granular sobre los recursos sin miedo a que cada consulta interna a un chatbot multiplique los costes.
- Rendimiento y baja latencia. En aplicaciones de GenAI en tiempo real —como asistentes de producción o análisis de datos críticos—, la latencia marca la diferencia. Al tener los modelos y los datos en la misma red local, los tiempos de respuesta se reducen drásticamente frente a las llamadas constantes a APIs externas.
La necesidad de la nube en la era de los agentes inteligentes
Pese a sus ventajas, el on-premise no basta por sí solo. La nube sigue siendo esencial para acceder a modelos LLM y agentes de última generación. Muchas de las innovaciones más avanzadas en IA generativa —desde modelos multimodales hasta agentes conversacionales complejos— nacen y se actualizan en entornos cloud, donde el escalado masivo es viable.
Por eso, las empresas que buscan aprovechar al máximo la GenAI deben adoptar una mentalidad híbrida: combinar infraestructuras locales robustas con la capacidad de integrar y consumir servicios cloud. Así, APIs avanzadas y modelos propietarios se convierten en una extensión natural de la arquitectura.
Nos dirigimos hacia un escenario dominado por la agentic AI: agentes inteligentes autónomos que colaboran, negocian y resuelven tareas de forma orquestada. Este nuevo paradigma exige infraestructuras seguras, interoperables y preparadas para un intercambio constante de información entre lo local y la nube. La capacidad de desplegar, gobernar y monitorizar estos agentes en entornos híbridos será decisiva en la próxima ola de transformación empresarial.
Construyendo la plataforma de GenAI empresarial definitiva: nuestra solución con Intel y Red Hat
La plataforma de GenAI de Inetum ha sido diseñada para materializar la visión de McKinsey, pero con el anclaje del entorno on-premise en seguridad y rendimiento. Para lograrlo, contamos con un ecosistema de líderes tecnológicos:
- Orquestación con Red Hat OpenShift. La arquitectura abierta que McKinsey defiende requiere una base sólida. Red Hat OpenShift se ha convertido en el estándar empresarial para orquestar contenedores en entornos híbridos. Facilita un despliegue resiliente, seguro y escalable de microservicios, con CI/CD automatizado que acelera la innovación.
- Gestión del ciclo de vida da la IA con OpenShift AI. Nuestra plataforma utiliza Red Hat OpenShift AI para ofrecer un entorno de MLOps de extremo a extremo. Esto nos permite gestionar el ciclo de vida completo de los modelos de IA, desde la experimentación y el entrenamiento hasta el despliegue y la monitorización, de forma coherente y reproducible.
- Optimización de la inferencia con Red Hat AI Inference Server. Para el despliegue y la ejecución de modelos de IA a gran escala.
- Potencia de cálculo optimizada con Intel. La IA Generativa es computacionalmente intensiva. Para que sea viable y eficiente on-premise, se necesita hardware especializado. Al construir sobre la arquitectura de Intel, incluyendo los procesadores Xeon® con extensiones AMX (Advanced Matrix Extensions) y los aceleradores de IA Gaudi®—, y gracias a la integración del toolkit OpenVINO™, se mejora esta capacidad al proporcionar optimización y despliegue de modelos de IA en todo el hardware de Intel. De esta forma, garantizamos que nuestros clientes obtengan el máximo rendimiento para el ajuste fino (fine-tuning) y la inferencia de los modelos. Esto se traduce en respuestas más rápidas y en la capacidad de ejecutar modelos más potentes con un consumo energético optimizado.
- Mejora el rendimiento con vLLM y LLM-d. Para optimizar aún más la inferencia de modelos de lenguaje, nuestra solución se apoya en vLLM, que ya es el estándar de facto en la inferencia de IA empresarial. Además, LLM-d se basa tanto en vLLM como en el éxito de Kubernetes. Esto nos permite escalar y orquestar las cargas de trabajo de inferencia en hardware distribuido de forma eficiente.
Nuestra plataforma: la respuesta a los retos de McKinsey
Al unir nuestro software con la tecnología de Red Hat e Intel, nuestra plataforma híbrida aborda directamente los tres componentes clave que McKinsey identifica:
- Autoservicio y gobernanza. Un hub centralizado de experimentación, con acceso a modelos preaprobados por el Comité de IA Responsable de Inetum, reutilización de componentes y total visibilidad de costes y recursos.
- Arquitectura abierta y reutilizable. Basada en Kubernetes, evita el vendor lock-in, fomenta la integración con herramientas propias y promueve la reutilización de librerías y patrones de aplicación.
- Guardarraíles automatizados. Un AI Gateway centralizado analiza cada petición, aplica políticas de uso, audita interacciones y previene sesgos o alucinaciones, todo bajo el paraguas de la red corporativa.
Conclusión: no elijas entre innovar y escalar de forma segura
El informe de McKinsey es un aviso claro: los enfoques ingenuos hacia la GenAI están destinados al fracaso. La cuestión no es elegir entre “ir rápido” o “ir con cuidado”.
La verdadera decisión estratégica es cómo construir una capacidad de GenAI que sea a la vez ágil y robusta. Cada vez más compañías optan por una plataforma híbrida que garantice control, seguridad y rendimiento optimizado. Esa es la propuesta que desarrollamos en el Centro de Excelencia de IA Generativa de Inetum.
¿Estás preparado para cimentar tu futuro de GenAI sobre una base sólida? Contacta con nosotros para solicitar una demo y descubre cómo nuestra plataforma puede acelerar tus iniciativas de IA Generativa.







