Desglose del uso de AI Gateway: análisis a nivel de cliente y usuario

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

A medida que el uso de la LLM se amplía entre equipos y funciones como el chat, la incrustación, la recuperación y la inferencia en tiempo real, la facturación basada en tokens introduce una complejidad de costos. Sin embargo, muchas organizaciones carecen de visibilidad sobre cuestiones fundamentales como, por ejemplo, ¿quién usa más tokens? , ¿qué funciones son las más costosas? , y ¿cómo se distribuye el uso entre los equipos o los clientes? Sin una atribución detallada, resulta difícil controlar el gasto o evaluar el impacto.

TrueFoundry cambia la narrativa al incorporar el etiquetado de metadatos directamente en cada llamada de LLM. Tanto si se trata de un proveedor de SaaS con varios usuarios que hace un seguimiento del gasto de los clientes como de un equipo de plataforma interno que supervisa el consumo de funciones, True Foundry ofrece una visión transparente de los datos de uso. Todas las partes interesadas en ingeniería, finanzas y productos obtienen acceso instantáneo a paneles detallados que asignan los costos al cliente, equipo o caso de uso correcto.

En este artículo, descubrirá cómo el seguimiento granular y la atribución de costos permiten tomar decisiones más inteligentes y aprovechar todo el potencial de sus inversiones en LLM.

Cómo TrueFoundry rastrea el uso y los costos de la LLM

TrueFoundry proporciona una observabilidad detallada para cada solicitud de LLM, lo que permite una atribución de costos detallada y un análisis de uso entre equipos, funciones y clientes. Cada solicitud se registra automáticamente con metadatos completos, que incluyen:

Nombre del modelo
Marca de tiempo
Recuentos de tokens de entrada y salida
Tokens de temperatura y máximo
Latencia y costo
Tipo de solicitud (p. ej., chat, finalización)
Metadatos personalizados (por ejemplo, etiquetas)

Seguimiento del uso de LLM en múltiples dimensiones

Al inicializar el cliente de TrueFoundry, los desarrolladores pueden pasar etiquetas personalizadas, como customer_id, business_unit o feature_name. Estas etiquetas se almacenan junto con cada solicitud y se pueden consultar a través de paneles y API. Esto permite a las organizaciones:

Atribuya los costos por inquilino en un entorno SaaS con varios inquilinos mediante customer_id
Realice un seguimiento del uso por unidad de negocio o departamento mediante etiquetas organizativas
Analice el consumo de tokens por función del producto, como los chatbots, los motores de recomendación o los módulos de análisis

‍

TrueFoundry LLM Usage Analytics:

Feeling in the dark about where your LLM spending and usage are going? TrueFoundry’s usage analytics shines a spotlight on every token and dollar, transforming uncertainty into actionable insights.

TrueFoundry equips you with:

Custom metadata tagging: Automatically tag each LLM request with fields like customer_id, business_unit, or feature_name for precise attribution.
Multi-dimensional usage breakdown: View usage and cost by model, user, team, or custom tag to identify high-consumption workloads at a glance.
Interactive dashboards: Access real-time graphs for requests, input/output tokens, latencies, error rates, and cost trends across all models.
Granular cost attribution: Drill into token counts, cost per request, and total spend per customer or feature to optimize budgets and show ROI.
Queryable analytics API: Export and query raw usage data or integrate with external BI tools for custom reporting, alerts, and deeper analysis.

Get Started with Truefoundry

Información y optimización en tiempo real

Los metadatos etiquetados admiten el filtrado y la agrupación flexibles, lo que permite a los equipos interdisciplinarios desglosar el uso por cualquier dimensión personalizada. Por ejemplo:

Un equipo de producto puede supervisar qué funciones generan el mayor uso de tokens y correlacionarlo con la participación de los usuarios.
Los equipos financieros pueden asignar los costos con precisión a los equipos o clientes internos mediante datos de uso etiquetados.
Los líderes de ingeniería pueden realizar un seguimiento del rendimiento y optimizar las solicitudes o los servicios de alto costo en función de las tendencias de los tokens y la latencia.

Ventajas de la atribución granular

Contracargos transparentes: permite la facturación interna o externa automatizada y basada en el uso para impulsar la responsabilidad de los equipos o clientes.
Análisis del ROI mejorado: ayuda a los equipos de productos y análisis a evaluar el retorno de la inversión en IA al asignar el uso de los tokens a los resultados empresariales.
Presupuestación predecible: permite realizar pronósticos precisos y hacer cumplir el presupuesto con monitoreo de gastos y alertas en función de las tendencias a nivel de etiqueta.

Al combinar una visibilidad profunda a nivel de solicitud con el etiquetado personalizado, TrueFoundry permite a las organizaciones poner en funcionamiento Observabilidad del LLM, control de costos y optimización del rendimiento de manera escalable y transparente.

Key Metrics for Evaluating Gateway

Criteria	What should you evaluate ?	Priority	TrueFoundry
Latency	Adds <10ms p95 overhead for time-to-first-token?	Must Have	✅ Supported
Data Residency	Keeps logs within your region (EU/US)?	Depends on use case	✅ Supported
Latency-Based Routing	Automatically reroutes based on real-time latency/failures?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported
Key Rotation & Revocation	Rotate or revoke keys without downtime?	Must Have	✅ Supported

Evaluating an AI Gateway?

A practical guide used by platform & infra teams

Impulsar acciones estratégicas con el análisis de uso de LLM

TrueFoundry transforma los datos detallados sobre el uso de la LLM en información práctica, lo que permite a los equipos de productos, ingeniería y finanzas tomar decisiones informadas que optimicen el rendimiento y controlen los costos.

Decisiones estratégicas posibilitadas por los desgloses de uso

Modelos de precios escalonados

Con una visibilidad completa de los patrones de consumo de tokens, las organizaciones pueden diseñar niveles de precios que reflejen el uso real. Al analizar los datos históricos, los equipos pueden:

Establece planes básicos alineados con el uso promedio mensual de los tokens.
Ofrezca tarifas de excedentes con descuento a los clientes que usan los tokens de manera eficiente.
Introduce niveles premium para los usuarios frecuentes que requieren cuotas más altas.

Ejemplo: Un proveedor de SaaS puede establecer un nivel estándar con un límite de 200 000 fichas al mes y un nivel profesional con 1 millón de fichas. A medida que las necesidades de los clientes evolucionan, pueden pasar de un nivel a otro sin problemas, garantizando precios justos y predecibles.

Aplicación de cuotas de usuario

TrueFoundry ofrece soporte integrado para hacer cumplir las cuotas de uso a través de su AI Gateway al aprovechar limitación de velocidad en AI Gateway reglas que controlan el consumo entre usuarios, equipos y cuentas virtuales. Esta capacidad garantiza que las organizaciones puedan controlar el consumo en varios niveles, lo que evita los sobrecostos y permite una experimentación segura.

Las cuotas se pueden aplicar a:

Usuarios individuales
Ejemplo: Restrinja bob@email.com a 1000 solicitudes por día.
Equipos
Ejemplo: Limite el equipo de frontend a 5000 solicitudes por día.
Cuentas virtuales
Ejemplo: limite la cuenta virtual va-james a 1500 solicitudes por día.

Estas restricciones se configuran mediante un archivo YAML gateway-rate-limiting-config, donde cada regla define el asunto, el umbral y la unidad de medida. Las reglas se evalúan de forma secuencial y la primera regla aplicable activa la aplicación.

Ejemplo de configuración:

name: ratelimiting-config
type: gateway-rate-limiting-config
rules:
  - id: "rule-id"
    when:
      subjects: ["team:frontend"] # or ["user:email"] or ["virtualaccount:name"]
    limit_to: 5000
    unit: requests_per_day

Se tienen en cuenta todas las reglas coincidentes y, si se supera alguna, se devuelve al usuario el ID de la regla correspondiente, lo que aclara qué cuota se activó.

Este mecanismo de cumplimiento le permite:

Evite picos de uso inesperados limitando el tráfico a nivel de usuario, equipo o cuenta virtual.
Ofrezca planes escalonados con límites predefinidos para cuentas freemium o de prueba.
Activa alertas a medida que se acercan los umbrales, lo que permite a las partes interesadas tomar medidas correctivas.

Con la aplicación de cuotas configurada en la capa de puerta de enlace, TrueFoundry garantiza un control detallado sin necesidad de cambiar los modelos o la infraestructura posteriores. Esto lo hace ideal para ejecutar proyectos piloto, ofrecer pruebas y crear servicios de IA multiusuario escalables y con un coste controlado.

Identificación de clientes o funciones poco optimizados

Al combinar los datos de costos con las métricas de rendimiento, TrueFoundry ayuda a identificar las ineficiencias. Estos conocimientos también ayudan a los equipos a ajustar un Enrutador LLM, por lo que las solicitudes se pueden dirigir al modelo que mejor equilibre la latencia, el costo y la calidad de los resultados. Los equipos pueden:

Marque segmentos o características de clientes con un gasto simbólico elevado pero un compromiso bajo.
Analice las plantillas de anuncios y los flujos de trabajo que generan un consumo excesivo.
Priorice los esfuerzos de optimización o refactorice las rutas de código para mejorar el ROI.

Ejemplo: Si una función de traducción genera costos simbólicos elevados sin generar ingresos adicionales, los equipos pueden repetir las instrucciones del modelo o cambiar a un modelo más eficiente para equilibrar el rendimiento y el precio.

Impacto interfuncional

Equipos de comercialización

Los equipos de ventas y marketing aprovechan los informes de uso de TrueFoundry para alinear las propuestas de valor con los resultados de los clientes. Pueden:

Justifique los precios premium demostrando cómo el uso de los tokens se correlaciona con los resultados empresariales.
Crea campañas de ventas adicionales específicas para las cuentas con tendencia a un mayor consumo.
Proporcione a los clientes informes de uso transparentes, generando confianza y reduciendo la pérdida de clientes.

Finanzas y operaciones

Los equipos financieros aumentan la precisión de las previsiones al analizar las tendencias de uso de las etiquetas a lo largo del tiempo. Con estos datos, pueden:

El gasto en IA del proyecto se basa en las tasas de crecimiento intermensual.
Implemente modelos de devolución de cargos internos para alinear los costos con los centros de ingresos.
Planifique la capacidad de la infraestructura para que se adapte a la demanda y evite los cuellos de botella en el rendimiento y el sobreaprovisionamiento.

Al traducir los desgloses detallados del uso en información clara y procesable, TrueFoundry permite a todos los equipos de una organización optimizar los costos, mejorar el rendimiento de las funciones y escalar las iniciativas de IA con confianza.

Implementación del etiquetado y el seguimiento del uso en TrueFoundry

La implementación del seguimiento granular del uso con TrueFoundry implica tres pasos principales: aplicar etiquetas de metadatos en cada llamada, integrar esos datos con sus herramientas de análisis o facturación e incorporar las mejores prácticas para alinear la información con los objetivos empresariales.

Implemente el etiquetado y el seguimiento del uso

El etiquetado y el seguimiento de metadatos en TrueFoundry permiten una observabilidad granular de cómo se utiliza la infraestructura de LLM en todos los entornos, equipos, funciones y clientes.

Agregar metadatos a las solicitudes de API de LLM

TrueFoundry le permite adjuntar metadatos personalizados a cada solicitud de LLM mediante el encabezado X-TFY-METADATA. Estos metadatos se almacenan junto con cada llamada y se pueden usar para registrar, filtrar y atribuir.

Ejemplo:

metadata = {
    "tfy_log_request": "true",      # Enables request logging
    "environment": "staging",       # Tracks deployment environment
    "feature": "countdown-bot"      # Identifies the calling feature
}

client.chat.completions.create(
    # ... other parameters ...
    extra_headers={
        "X-TFY-METADATA": '{"tfy_log_request":"true"}'
    }
)

Esto garantiza que cada llamada a la API contenga un contexto completo para el análisis, la atribución de costos y la depuración.

Aplicar etiquetas a las ejecuciones de ML

Si utilizas la plataforma ML de TrueFoundry para entrenamiento o experimentación, puedes etiquetar cada ejecución para organizar los experimentos por marco, tarea u objetivo empresarial.

Ejemplo:

import truefoundry.ml as tfm

client = tfm.get_client()
run = client.create_run(ml_repo="my-classification-project")
run.set_tags({"nlp.framework": "Spark NLP"})
run.end()

Estas etiquetas lo ayudan a clasificar las ejecuciones en los paneles, buscar experimentos anteriores y aplicar políticas de gobierno.

Mejores prácticas para etiquetar

Usa formatos consistentes, como snake_case, para las claves y los valores de las etiquetas
Valide las entradas de etiquetas mediante CI o ganchos previos a la confirmación
Audite y rote las etiquetas desactualizadas periódicamente para mantener los registros limpios

Intégralo con paneles de facturación y herramientas de análisis

Una vez que se habilita el etiquetado, TrueFoundry ofrece varias formas de visualizar y analizar el uso de LLM en toda su organización. El panel de análisis integrado ofrece información en tiempo real sobre el consumo de tokens, los percentiles de latencia (P50, P90, P99), las tasas de error y los costos. Estas métricas se desglosan por usuario, modelo y tipo de solicitud, lo que permite a los equipos supervisar el estado de las API e identificar rápidamente los patrones de alto costo o alta latencia.

Para un análisis avanzado, TrueFoundry admite la integración con herramientas como Tableau, Looker y Grafana. Puede conectar su conjunto de datos de uso para crear paneles que destaquen los tokens por cliente, el costo por función y las tendencias de uso a lo largo del tiempo.

Los equipos de finanzas y operaciones pueden exportar los datos de uso a través de la API de uso a almacenes de datos centralizados, como Snowflake, BigQuery o Redshift. Esto permite generar informes sobre las devoluciones de gastos, comparar el gasto en inteligencia artificial entre departamentos y hacer previsiones financieras.

TrueFoundry también se integra con plataformas de observabilidad, como Datadog, Prometheus, CloudWatch y New Relic. Estas integraciones proporcionan una supervisión unificada tanto del rendimiento del sistema como de las métricas de uso del LLM.

Los usuarios de Grafana pueden crear paneles en tiempo real que visualicen la utilización de la CPU, la GPU y la red a nivel de trabajo o implementación. Esto garantiza una visibilidad total tanto del comportamiento del modelo como de la infraestructura subyacente.

Alinee los datos con los objetivos empresariales

Las métricas sin procesar solo se vuelven valiosas cuando se vinculan a objetivos empresariales significativos. Con las capacidades de etiquetado y observabilidad de TrueFoundry, los equipos pueden definir indicadores de rendimiento que reflejen el valor real. Colabore con las partes interesadas en el sector de los productos, las finanzas y el análisis para establecer indicadores clave de rendimiento, como el costo por participación, los tokens por conversión o los ingresos generados por cada mil tokens.

Estos KPI deben integrarse en las revisiones comerciales, las hojas de ruta de los productos y las sesiones de planificación financiera para garantizar que el gasto en LLM esté alineado con los resultados estratégicos. Los datos de uso pueden guiar las decisiones de inversión, identificar las características de bajo rendimiento y resaltar las oportunidades para la optimización de los modelos.

Mantén un glosario compartido de etiquetas, funciones y KPI para ayudar a incorporar a los nuevos miembros del equipo y evitar confusiones entre las funciones. Proporcione acceso a los paneles de control para los equipos que van más allá de la ingeniería, incluidos los de ventas, marketing y soporte. Esto les permite:

Supervise los picos o anomalías de uso
Valide los esfuerzos de optimización, como el ajuste rápido que reduce el consumo de tokens
Proponga y evalúe experimentos, como cambiar a un modelo más pequeño para casos de uso menos críticos

Cuando se vinculan a objetivos claros, los datos de uso se convierten en un activo estratégico. Al alinear el etiquetado, el seguimiento y el análisis con las prioridades de la organización, TrueFoundry ayuda a las empresas a ampliar la adopción de la LLM de manera responsable y, al mismo tiempo, a maximizar el retorno de la inversión.

Conclusión

TrueFoundry transforma el uso de la LLM de un gasto oculto a un motor de innovación y crecimiento. Con cada llamada a la API etiquetada por cliente, equipo o función, su organización obtiene una visibilidad nítida del gasto y el rendimiento de los tokens. La perfecta integración con las herramientas de análisis y facturación garantiza que los equipos de finanzas y operaciones trabajen con datos actualizados. Al alinear las métricas de uso con los objetivos empresariales, los administradores de productos dan prioridad a las funciones de mayor impacto, y la ingeniería optimiza los costosos flujos de trabajo. El resultado es una presupuestación más inteligente, un ROI más claro y una toma de decisiones más rápida en toda la organización. Adopte hoy mismo el desglose granular del uso de TrueFoundry para aprovechar todo el potencial de sus inversiones en LLM.

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora