Agentes1 de junio de 20265 min de lectura

NVIDIA Cosmos y el nuevo impuesto de visión en agentes del mundo físico

Cosmos hace que los modelos mundiales basados en vídeo sean baratos de acceder. La verdadera pregunta para tu pila de agentes: ¿cuándo vale la pena pagar la sobrecarga de tokenización de visión?

By the airautomations team

Cosmos es un hito de investigación; tu agente sigue funcionando en tokens por segundo

NVIDIA Cosmos llegó a las noticias como un modelo de fundación multimodal abierto para robótica y razonamiento físico. En términos de investigación, es real: pesos disponibles, licencia permisiva, y la clase de modelo—entrenado en conjuntos de datos vastos para aplicabilidad amplia en tareas encarnadas—es exactamente lo que se supone que es un modelo de fundación. Pero en el momento en que preguntas "¿debería usar esto en mi agente?", la conversación cambia de investigación a restricción de ingeniería.

Los pesos abiertos significan que puedes ajustar, ejecutar localmente y evitar el bloqueo de proveedores. No significan magia de latencia ni inferencia barata a escala. Tu agente sigue operando dentro de un presupuesto de latencia—a menudo menos de 500ms para bucles de control en tiempo real, 1–3 segundos para agentes asistivos—y los modelos de clase Cosmos añaden sobrecarga de tokenización, huella de memoria GPU y costo por token que las tuberías de sensores solo de texto o estructuradas simplemente no tienen. La brecha entre "puede razonar sobre una escena física" y "puede impulsar un bucle de acción de manera confiable en producción" es donde la mayoría de los equipos tropiezan.

El impuesto de visión: lo que la tokenización de vídeo realmente cuesta en un bucle en vivo

El vídeo es denso. Un segundo de metraje a 1080p, muestreado a 10 fps, se tokeniza a aproximadamente 1k–8k tokens dependiendo del esquema de compresión del modelo y la resolución del fotograma. Pásalo a través de un pase de inferencia completo en un H100 o A100, y la latencia se acumula rápidamente: captura de fotograma → deduplicación → tokenización → pase hacia adelante del modelo → extracción de llamadas de herramientas. A $0,001 por 1k tokens de entrada para llamadas solo de texto, una llamada de visión multimodal cuesta órdenes de magnitud más.

Hemos enviado bucles de agentes tanto impulsados por texto como con visión en el bucle. Las matemáticas se vuelven honestas cuando escalas. Un segundo de razonamiento de vídeo continuo cuesta lo que diez a cincuenta llamadas de texto cuestan. Añade retrasos de lotes para rendimiento o almacenamiento en caché por fotograma en Redis para evitar re-tokenizar fotogramas idénticos, y la capa operacional sola—colas, deduplicación de fotogramas, conteo de tokens—se convierte en el cuello de botella antes de que el modelo lo sea.

La visión no siempre pierde ante la percepción modular. Un detector YOLO + tubería de clasificador ligero falla en objetos novedosos, escenas con poca luz y oclusión ambigua. Un modelo mundial multimodal maneja esos casos extremos mejor pero más lentamente. El verdadero intercambio: elige velocidad y costo o elige robustez. La latencia del agente vive en recuperación y llamadas de herramientas tanto como en inferencia de modelo, así que añadir visión no solo añade tokens—remodela toda tu orquestación.

Reescribiendo el cálculo de "cuándo usar visión" para agentes

La mayoría de los agentes del mundo físico deberían tratar la visión como un respaldo, no como un predeterminado. Ahora hacemos tres preguntas en orden:

¿Pueden los sensores estructurados responder esto? Si un robot de almacén necesita saber si un estante está vacío, un sensor ultrasónico o un clasificador de ocupación simple responde la pregunta en microsegundos. Úsalo. Solo escala a visión si el sensor falla o el estado es genuinamente ambiguo.

¿Mejora la visión la decisión? Un dron que inspecciona una grieta en el techo podría clasificar "grande" vs. "pequeño" a través de un VLM con 90% de confianza. Un modelo de segmentación preentrenado obtiene 70%. Esa brecha vale la latencia si estás dispuesto a esperar 2–3 segundos entre acciones. Si el bucle es crítico en el tiempo, el modelo de segmentación gana.

¿Puedes permitirte esperar? Los agentes de quiosco que sirven a humanos o recogida y colocación en almacén donde un reintento cuesta segundos pueden absorber latencia de visión. Los bucles de control de alta frecuencia (drones, brazos manipuladores) generalmente no pueden.

La elección entre arquitecturas de agente y flujo de trabajo importa aquí también—una tubería de percepción de estilo flujo de trabajo con visión como escalada es más barata de mantener que un agente que razona de extremo a extremo en cada fotograma. Predeterminado al flujo de trabajo. Promueve a agentes de bucle completo solo cuando la lógica de decisión es lo suficientemente compleja para justificar la sobrecarga operacional.

Dimensionamiento correcto del modelo: Cosmos-class para fotogramas difíciles, modelos más pequeños para el 90%

Trata la percepción como un problema de enrutamiento. La mayoría de los fotogramas son rutinarios; algunos son anomalías que necesitan razonamiento pesado. Un VLM ligero (Llama 3.2 Vision, Qwen2-VL) puerta de clasificación clasifica: "tarea rutinaria, tomar acción" o "escalar a modelo mundial". Solo los fotogramas marcados como anómalos o de baja confianza van a Cosmos o modelos pesados similares.

La pila de candidatos se ve así: VLM ligero para clasificación, Cosmos o competidor para razonamiento del mundo físico, luego OpenAI o Anthropic para planificación descendente e integración de API. Los presupuestos de tokens por solicitud importan inmensamente—si un fotograma puede ser clasificado en 50 tokens pero el modelo pesado cuesta 500 tokens, y el 95% de los fotogramas son rutinarios, has reducido la factura en un orden de magnitud.

Las claves de idempotencia en cada llamada de percepción previenen que los bucles de reintento dupliquen el gasto de tokens. Las colas de letra muerta capturan fotogramas que el modelo rechaza, agota el tiempo de espera o alucina—registra estos junto con los datos de fotograma reales (metadatos de Postgres + almacenamiento S3) para que puedas auditar la deriva y reentrenar.

Patrones de producción: reintentos, observabilidad y los modos de fallo de las 2am

Los agentes multimodales que tocan sistemas físicos fallan de maneras en que los agentes de texto no lo hacen. Un modelo alucina una posición de pinza. Un sesgo de fotograma hace que el modelo vea una escena desde el ángulo equivocado. Un proveedor empuja una actualización de modelo y la precisión se desvía.

La lógica de reintento con retroceso exponencial en 429/503 es lo básico, pero también necesitas registrar el fotograma (o fotogramas) que el modelo realmente vio junto con la decisión que tomó. Esto importa para auditoría y para depuración: si el robot tomó una acción incorrecta, ¿fue razonamiento deficiente o un fotograma corrupto? El registro estructurado—hash de fotograma, conteo de tokenización, versión de modelo, latencia—en Postgres, con fotogramas sin procesar en almacenamiento de objetos, es cómo respondes eso a las 2am.

La implementación en modo sombra antes de entregar el control del modelo a un actuador es innegociable. Ejecuta el agente en escenas históricas o simuladas, compara sus decisiones con líneas de base humanas y mide la deriva a lo largo del tiempo. Usa n8n u orquestación basada en colas (Redis, SQS, RabbitMQ) para desacoplar percepción de acción—las llamadas de percepción no deberían bloquear el bucle de control.

Lo que recomendamos si estás definiendo el alcance de un agente del mundo físico este trimestre

Comienza con una escalera de percepción, no con una única opción de modelo. Escalón inferior: sensores estructurados. Siguiente: clasificadores ligeros. Siguiente: VLMs ligeros para clasificación. Superior: modelos mundiales pesados para anomalías. Construye esto en orden, mide costo y latencia en cada escalón, y solo sube escalones donde la ganancia de precisión justifica la sobrecarga.

Instrumenta antes de comprometerte con un nivel de modelo. Pilota modelos de clase Cosmos en razonamiento por lotes sin conexión—usa escenas grabadas—antes de ponerlos en el bucle de control. Presupuesta para la capa operacional (colas, arneses de evaluación, observabilidad) al menos tanto como la capa de modelo; la mayoría de los equipos reducen este presupuesto y se arrepienten en el mes tres.

Si estás dimensionando un agente multimodal ahora mismo, la decisión de enrutamiento vale más que la opción de modelo. Habla con nosotros en /contact antes de comprometerte—hemos escalado estos sistemas y sabemos dónde se esconden los costos ocultos.

Keep reading

More from the field.

Agentes7 min de lectura

¿Tienes algo que valga la pena automatizar?

Reservar llamada

NVIDIA Cosmos y el nuevo impuesto de visión en agentes del mundo físico

Cosmos es un hito de investigación; tu agente sigue funcionando en tokens por segundo

El impuesto de visión: lo que la tokenización de vídeo realmente cuesta en un bucle en vivo

Reescribiendo el cálculo de "cuándo usar visión" para agentes

Dimensionamiento correcto del modelo: Cosmos-class para fotogramas difíciles, modelos más pequeños para el 90%

Patrones de producción: reintentos, observabilidad y los modos de fallo de las 2am

Lo que recomendamos si estás definiendo el alcance de un agente del mundo físico este trimestre

More from the field.

Deja de usar GPT-4o por defecto: Ajusta el tamaño del bucle de razonamiento de tu agente

NeMo Automodel + Diffusers: Cuándo el Fine-Tuning de Visión es una Trampa

Registros de Cache-Reason: El Patrón de Observabilidad que Tus Agentes Necesitan

Lo que 'Semanas a Horas' de Endava realmente requirió bajo el capó

¿Tienes algo que valga la pena automatizar?