La IA generativa en el edge desbloquea el control por voz para los robots
Jim Beneke, Vice President, North America, Tria
23/06/2025
Los robots están entrando en ámbitos en los que no solo interactúan con los operarios, sino también con el público. La IA generativa puede marcar una enorme diferencia en la usabilidad al proporcionar control y retroalimentación por voz. Un robot conserje móvil en un hotel o un hospital puede dirigir a las personas a donde necesitan ir o entregarles la comida. La tecnología de voz integrada permite a los clientes hacer preguntas y obtener respuestas precisas. Del mismo modo, en los sistemas de transporte público, los robots ayudantes pueden guiar a las personas con discapacidad visual a donde desean ir.
En aplicaciones industriales como la soldadura y la unión, el robot puede obedecer órdenes verbales y señalar que las ha entendido correctamente. Esas órdenes pueden indicar al robot que coloque un panel pesado en su sitio, realice la soldadura y la fijación y, a continuación, mueva el panel a su siguiente posición. En situaciones sanitarias, un robot puede proporcionar al médico el instrumento que necesita sin necesidad de romper los procedimientos estériles para tocar una pantalla o un teclado.
Sistemas de voz a voz
Muchos de los sistemas de voz a voz actuales para consumidores utilizan la nube para prestar sus servicios. A menudo, las aplicaciones robóticas no pueden tolerar la latencia que esto implica. Además, las operaciones industriales y agrícolas pueden estar lejos de una conexión de gran ancho de banda. Estas situaciones exigen la implementación de modelos de IA de gran capacidad que puedan ejecutarse en dispositivos embebidos.
En el pasado, la ejecución de modelos de IA a nivel local se asociaba con un alto coste y un elevado consumo energético. Esto ya no es así. Utilizando el moderno procesador de aplicaciones i.MX95 de NXP, Tria ha desarrollado sistemas que demuestran cómo la IA generativa de voz a voz puede trasladarse a una plataforma de hardware de bajo consumo y evitar los elevados costes energéticos y financieros de una GPU dedicada. El procesador de aplicaciones i.MX95 combina un avanzado complejo de procesadores multinúcleo Arm con procesamiento gráfico en chip (GPU) y aceleración de IA basada en NXP eIQ Neutron, integrado con una serie de controladores de E/S y memoria de alto rendimiento.
Al implementar la IA en una aplicación embebida, es importante seleccionar modelos que ofrezcan el mejor equilibrio entre potencia, uso de memoria y precisión. En principio, se podría utilizar un modelo de IA generativa de extremo a extremo. Sin embargo, en muchos casos esto no es necesario. Los ingenieros de Tria experimentaron con diversas opciones para las diferentes partes del proceso de conversión de voz a voz.
Este proceso comienza con la tarea de detectar los comandos humanos. Esta tarea debe asignarse a un algoritmo o modelo ajustado para un bajo consumo de energía, ya que deberá ejecutarse con frecuencia para que el robot no pierda comandos importantes. El algoritmo más sencillo para ello es la detección de potencia de audio. Este enfoque compara la señal del micrófono con los niveles de ruido de fondo. Aunque el método tiene una sobrecarga extremadamente baja, presenta una tasa de falsos positivos inaceptable. Sin embargo, el modelo de detección de actividad vocal Silero, basado en una arquitectura de red neuronal convolucional (CNN), ofrece una alta calidad con una sobrecarga baja.
Voz a texto
Del mismo modo, en la salida, el equipo descubrió que el modelo de texto a voz Piper también ofrece un rendimiento excelente para su tamaño, procesador y uso de memoria. Es entre estas dos etapas donde la IA generativa ofrece las mayores ventajas. La tecnología que sustenta muchas de las herramientas de IA generativa que se utilizan actualmente se desarrolló para manejar el lenguaje natural. El modelo de lenguaje extenso (LLM-Large Language Model) aprovecha la naturaleza estadística de los patrones del habla y la escritura humanas. Las palabras y frases se descomponen en tokens que se mapean en un espacio vectorial multidimensional de tal manera que aquellos con significados similares se sitúan cerca unos de otros. Esto explica en parte por qué estos modelos son eficaces en la traducción de un idioma a otro.
Un LLM combina la incrustación vectorial con una red neuronal basada en estructuras Transformer. Esta utiliza el concepto de atención para encontrar conexiones aparentes entre tokens que ayudarán a la IA a generar resultados coherentes. Una gran ventaja del proceso de entrenamiento es que la fase que requiere más recursos informáticos y datos, conocida como pre-entrenamiento, no necesita que los datos estén etiquetados. El proceso de entrenamiento permite al modelo descubrir por sí mismo las conexiones aparentes entre las palabras. Una segunda fase, conocida como ajuste preciso, es igualmente importante. Esta utiliza datos etiquetados para optimizar el modelo pre-entrenado para una tarea concreta. Con un modelo como Whisper de OpenAI, esta tarea consiste en dictar un texto a partir del habla natural.
Entrenado con más de medio millón de horas de habla multilingüe con un corpus que representa muchos tipos diferentes de tareas, el modelo de código abierto de Whisper es resistente al ruido y a los acentos, y puede manejar muchos casos de lenguaje técnico. Su tamaño relativamente pequeño, junto con algunas mejoras adicionales en el rendimiento y la memoria, hace que sea viable ejecutar Whisper en dispositivos embebidos.
Para la aplicación de voz a voz, el equipo de Tria utilizó el procesamiento cuantificado para reducir la sobrecarga de procesamiento del modelo. Los desarrolladores suelen entrenar e implementar modelos de IA en la nube utilizando aritmética de punto flotante. Sin embargo, procesadores como el i.MX95 admiten procesos aritméticos paralelizados que operan con números enteros.
Al convertir los parámetros de coma flotante en enteros de 8 bits, es posible lograr una aceleración espectacular y un ahorro en el uso general de la memoria y el ancho de banda, lo que también ayuda a reducir el consumo de energía. La cuantificación a int8 permitió reducir el tiempo de procesamiento de 10 segundos a 1,2 segundos. Para adaptarse a los comandos cortos que se esperan en las aplicaciones robóticas, el equipo también redujo la duración del contexto de audio de 30 segundos a menos de 2 segundos.
Determinar el significado del texto que produce Whisper es una tarea más compleja y requiere un modelo más grande ajustado a la aplicación. Los LLM que pueden entender el texto lo suficientemente bien como para convertirlo en comandos para un robot pueden requerir mil millones o más de parámetros de red neuronal, aunque es posible reducir su tamaño mediante un ajuste preciso. Para este proyecto de voz a voz, Tria evaluó los modelos de código abierto Qwen y Llama3, comenzando con sus versiones de mil millones de parámetros. Una compensación clave es el número de tokens que un modelo de este tipo puede generar por segundo. Por ejemplo, la versión de 500 millones de parámetros de Qwen funciona más del doble de rápido en una plataforma como i.MX que la versión de mil millones de parámetros.
Un modelo con 500 millones de parámetros puede proporcionar una funcionalidad razonable cuando se combina con un ajuste fino bien orientado. Este proceso puede, por ejemplo, optimizar el modelo para los tipos de pares de comandos y respuestas que se espera que maneje un robot móvil. Los desarrolladores pueden utilizar un LLM basado en servidor para generar gran parte de los datos etiquetados generados sintéticamente. Esto ahorra mucho tiempo en comparación con la generación y el etiquetado manuales.
Para facilitar la integración en el objetivo basado en Yocto, el equipo optó por una arquitectura construida en torno a una máquina de estados con un broker MQTT utilizado para pasar mensajes entre los diferentes modelos y otros componentes del sistema, como la entrada de la cámara y un avatar 3D implementado con la ayuda de la GPU integrada en el chip. Para garantizar un funcionamiento fiable, un hilo de vigilancia que se ejecuta en el procesador comprueba si el dictado se ha completado en un tiempo determinado y, en caso contrario, genera la frase “¿puede repetir?”.
La próxima ola de IA generativa
La IA generativa de voz a voz es solo el principio. En la actualidad, se están utilizando modelos de lenguaje multimodal más avanzados en proyectos de investigación para entrenar a robots que sean más capaces de moverse y manipular objetos. Los equipos de I+D están utilizando el aprendizaje por refuerzo junto con modelos multimodales para superar las restricciones de los algoritmos tradicionales de control predictivo de modelos. Otros modelos básicos centrados en las habilidades de razonamiento permitirán a los robots navegar sin depender de mapas, tomar decisiones autónomas y elaborar estrategias coherentes para completar una tarea a partir de políticas de nivel inferior ya existentes. La optimización de estos modelos permitirá ejecutarlos en futuras plataformas de bajo consumo. Mientras tanto, los diseñadores de robots disponen ahora de métodos que permiten indicar a un robot qué debe hacer mediante comandos verbales y comprobar que ha entendido la tarea.







