AutoDeploy: agente de LLM para despliegues de GenAI

Actualizado:

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!

Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
Listo para la producción con soporte empresarial completo

Empieza con Truefoundry ahora Hable con el experto

AutoDeploy: LLM Agent para despliegues de GenAI

La implementación de aplicaciones suele llevar mucho tiempo y requiere que los desarrolladores y científicos de datos naveguen por herramientas complejas antes de comenzar a trabajar. Por ejemplo, un científico de datos que quiera experimentar con Redis puede necesitar hablar con el equipo de la plataforma para aprovisionar ElastiCache en AWS, lo que puede provocar retrasos y dependencias. Si bien la implementación de un gráfico de Helm en Kubernetes es una alternativa flexible, requiere experiencia en un campo que muchos científicos de datos tal vez no tengan. La función Auto Deploy de TrueFoundry elimina estos desafíos, lo que permite un despliegue rápido sin necesidad de un conocimiento profundo de la infraestructura. Ya sea que necesite implementar una base de código específica, un proyecto de código abierto o una solución tecnológica más amplia, TrueFoundry agiliza el proceso para que pueda centrarse en lo que realmente importa: crear y experimentar.

‍

Implemente de la manera que desee

El Auto Deploy de TrueFoundry está diseñado para satisfacer las diferentes necesidades de los desarrolladores, garantizando un proceso de implementación rápido y eficiente en todos los niveles.

Capa fundamental: opciones de implementación principales

La capa fundamental de Auto Deploy de TrueFoundry consiste en tres opciones de implementación principales que son la base para todos los demás tipos de implementación.

Implementación de código base: implementación de un repositorio de Git

Si tiene una base de código específica, TrueFoundry automatiza la implementación identificando los puntos de entrada, generando un Dockerfile si no hay ninguno, detectando las variables y configuraciones de entorno necesarias y, a continuación, gestionando la generación del manifiesto y la implementación en TrueFoundry.

Ejemplo:

«Quiero implementar GitHub - simonqian/react-helloworld: react.js hola mundo »
‍
Proporcione la URL del repositorio y TrueFoundry se encargará del resto, garantizando una implementación rápida y fluida con un mínimo esfuerzo.

Despliegue de Helm Chart: Implemente un Helm Chart

Para las aplicaciones empaquetadas como gráficos Helm, TrueFoundry agiliza la implementación al analizar el archivo de valores y la documentación y hacer preguntas específicas al usuario para generar un archivo de valores personalizado. Tras la implementación, genera documentación contextual para ayudar a los desarrolladores a conectarse y utilizar el software implementado de manera eficaz.

Ejemplo:

«Quiero implementar oci: //registry-1.docker.io/bitnamicharts/redis».

Proporcione la URL del gráfico de Helm y TrueFoundry garantizará una implementación confiable y eficiente.

Despliegue del modelo ML: implemente un modelo desde Hugging Face

Para las cargas de trabajo de inteligencia artificial y aprendizaje automático, TrueFoundry permite una implementación perfecta de los modelos directamente desde Hugging Face. También genera una base de código FastAPI para los modelos que se pueden implementar mediante servidores modelo estándar, como vLLM.

Ejemplo:

«Quiero implementar Mistralai/Mistral-7b-Instruct-v0.3 · Cara abrazada »

Proporcione el enlace modelo y TrueFoundry se encargará de la implementación, garantizando una implementación perfecta Despliegue del modelo de IA con una configuración de infraestructura mínima.

Despliegue del proyecto

Basándose en las capas fundamentales de las implementaciones de código y Helm, TrueFoundry permite a los desarrolladores implementar componentes de infraestructura específicos, como Redis y Qdrant, o pilas completas de aplicaciones, como Langfuse.

Ejemplo:

«Quiero implementar Qdrant».

Especifique el proyecto y TrueFoundry lo implementará con las configuraciones recomendadas.

Despliegue de casos de uso

Para los desarrolladores que requieren un tipo específico de tecnología pero no han seleccionado un proyecto en particular, TrueFoundry se basa en las capas fundamentales para implementar la solución más adecuada según el requisito.

Ejemplo:

«Quiero implementar una base de datos vectorial».

«Quiero implementar un modelo de OCR».

TrueFoundry agiliza la selección y el despliegue de las herramientas adecuadas, lo que reduce el tiempo de configuración y garantiza una solución personalizada para su caso de uso.

Depuración automática: cerrar el ciclo en Auto Deploy

TrueFoundry cierra el ciclo de Auto Deploy con un depurador automático integrado que monitorea los registros, las métricas y los eventos de implementación. Si se detecta un problema, el sistema puede diagnosticar y aplicar acciones correctivas de forma iterativa, garantizando que la implementación esté operativa con una intervención manual mínima. Esto refleja lo moderno que es Agentes de LLM operan en flujos de trabajo de infraestructura, donde el razonamiento, la acción y la corrección iterativa ocurren dentro de un único ciclo de implementación.

¿Por qué elegir Auto Deploy de TrueFoundry?

✅ Velocidad: implemente aplicaciones en minutos, no en horas

✅ Simplicidad: no es necesario contar con amplios conocimientos de infraestructura

✅ Flexibilidad: implemente a partir de código, gráficos de Helm, modelos de aprendizaje automático, proyectos específicos o casos de uso más amplios

Con Auto Deploy de TrueFoundry, puede centrarse en escribir código y ofrecer funciones mientras la plataforma gestiona las complejidades de la implementación. Ya sea que implementes un proyecto de GitHub, una herramienta de código abierto como Redis o Qdrant, o un modelo de OCR o de búsqueda vectorial, TrueFoundry agiliza el proceso de implementación.

‍

TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga

Programe su demostración ahora