Próximo seminario web: Seguridad empresarial para Claude Code | 21 de abril · 11:00 a. m. PST. Regístrese aquí →

Neurobit lidera la investigación de IA en tecnología de la salud

Neurobit es una empresa de salud digital con sede en Nueva York, Singapur y Bangalore. Están desarrollando tecnologías para predecir y planificar los resultados adversos para la salud mucho antes de que ocurran, utilizando como biomarcador los signos vitales recolectados durante el sueño.

La compañía ha creado la base de datos de sueño más grande del mundo con más de un billón de puntos de datos fisiológicos multicanal. La escala de datos con la que han entrenado sus modelos les da la solidez necesaria para generalizar el modelo a cualquier escenario nuevo. Su caso de uso se parece a muchos de los esfuerzos recientes de IA de las empresas de tecnología de la salud de la nueva era y a las nuevas iniciativas de IA de las grandes empresas de tecnología.

Encontramos similitudes entre los casos de uso de Neurobit y los de otras empresas de atención médica medianas y empresariales con las que hemos hablado:

  1. Altamente regulado con las directrices más estrictas en torno a la privacidad de los datos
  2. Gran tamaño de conjunto de datos
  3. Baja tolerancia a errores en las solicitudes de modelos fallidas
  4. Uso de algoritmos patentados con estrictas regulaciones de protección de la propiedad intelectual

El equipo perdía más de 1000$ por cada usuario al que no atendía

Cuando conocimos al equipo de Neurobit, habían estado realizando ensayos médicos con más de 120 centros de investigación, universidades y más de 1000 sujetos. La mayoría de estos sujetos se encontraban en la misma ubicación geográfica.

Cuando la persona se despierta, los sensores envían datos fisiológicos al servidor para su procesamiento. Cada solicitud necesita llamar a 20 modelos diferentes para generar el resultado final.

El tamaño de los datos que llegaban con cada solicitud era grande (más de 400 MB) y, durante los tiempos de mucho tráfico, el equipo podía observar un retraso significativo en el tiempo de respuesta e incluso la caída de las solicitudes con pérdida de datos de los usuarios.

Problems faced in the Machine Learning pipeline due to burst traffic
Las solicitudes abandonadas provocaron pérdidas de 1000 dólares para la empresa

Esta situación estaba teniendo importantes implicaciones financieras adversas para el equipo:

  1. Eliminar una solicitud singular de los sujetos del ensayo le costó a la empresa más de 1000 dólares en gastos de experimentación.
  2. La empresa podría acelerar los ensayos médicos trabajando con laboratorios y hospitales que cargan datos en grandes lotes, lo que retrasa la aprobación de los productos.

Al igual que en otros casos de uso del aprendizaje automático en la industria de la tecnología de la salud, el equipo no podía permitirse la pérdida de datos de los clientes ni el retraso en las respuestas.

El equipo quería implementar sus modelos en Kubernetes

El equipo sabía que la implementación de sus modelos en Kubernetes, con una cola para almacenar las solicitudes antes de que se procesen, podría resolver sus problemas de confiabilidad.

Sin embargo, las normas de protección de la propiedad intelectual de la empresa limitaban el acceso al modelo solo a unos pocos miembros del equipo de aprendizaje automático y no al equipo de DevOps.

El equipo de aprendizaje automático tenía un ancho de banda y una experiencia limitados en Kubernetes para lograrlo por sí mismo. En vez de eso, querían trabajar en el desarrollo de nuevos modelos.

La pila existente que se utilizaba para las implementaciones de aprendizaje automático era:

HTML Table Generator
Component Tool
Machine Learning Development Framework   Tensorflow
 Cloud GCP and AWS 
Model Serving  GRPC w/o a load balancer
Model Storage  Google Bucket 

La pila funcionó bien para el equipo hasta cierta escala. Sin embargo, una vez que el caso de uso se amplió, el equipo empezó a enfrentarse a problemas de fiabilidad a la hora de ofrecer el modelo que necesitaba atención inmediata.

El equipo quería reforzar la seguridad de sus API modelo

Dado que la empresa se ocupa de datos personales confidenciales y de salud, mantener la seguridad de las API del modelo era de suma importancia para ellos. Querían que los datos de sus clientes no salieran de la nube y querían reforzar las normas de autenticación y seguridad de las API que habían estado utilizando.

El equipo decidió asociarse con TrueFoundry

El equipo necesitaba una forma de capacitar a su equipo de aprendizaje automático, que tenía acceso al modelo, para poder implementar y administrar modelos en Kubernetes de forma independiente. Los objetivos que el equipo de Neurobit quería lograr mediante una asociación con TrueFoundry eran:

  1. Para aumentar la confiabilidad de sus modelos de aprendizaje automático cuando prestan servicios a gran escala
  2. Capacitar al equipo de DS para que pueda implementar y administrar los modelos de aprendizaje automático en Kubernetes
  3. Reforzar los protocolos de autenticación y seguridad en las API modelo

TrueFoundry ayudó al equipo a resolver problemas de confiabilidad y seguridad

La plataforma se configuró en menos de un día

El equipo de TrueFoundry ayudó al equipo de Neurobit a instalar el agente y el plano de control de TrueFoundry en su clúster en una llamada de 2 horas. Se les informó del acceso y los permisos necesarios, y se les explicó cada paso de la instalación en una sola llamada.

El equipo tuvo la opción de instalar solo los módulos de la plataforma TrueFoundry que fueran relevantes para ellos (implementación y autenticación del modelo).

Tras la instalación, el equipo recibió una demostración de la plataforma y le entregó la documentación.

El equipo de Neurobit comenzó a implementar desde el primer día

El equipo de Neurobit pudo empezar a usar la plataforma para las implementaciones de sus modelos desde el primer día. Podían conectar directamente sus repositorios de Git a la plataforma. Este código se dockerizaba automáticamente y se implementaba en la plataforma mediante la interfaz de usuario, las API o el SDK de Python de TrueFoundry. No era necesario cambiar el código ni aprender ningún marco adicional para todos los flujos de trabajo que el equipo intentaba completar.

El equipo mostró un gran ritmo, ya que querían resolver los problemas de confiabilidad rápidamente. A los pocos días, empezaron a explorar más y más funciones de la plataforma y nos dieron su opinión.

En dos semanas, el equipo pudo:

  1. Cambie sus cargas de trabajo de aprendizaje automático por completo a Kubernetes con TrueFoundry.
  2. Implemente el modelo ML con cola asíncrona para almacenar las solicitudes entrantes cuando se detecte una ráfaga de tráfico, configurado mediante un indicador simple.
  3. Optimice la asignación de recursos para los servicios de aprendizaje automático según los patrones de tráfico y reduzca los recursos aprovisionados para ahorrar costos cuando los volúmenes de solicitudes son bajos.
  4. Configure la autenticación y refuerce la seguridad en todos los puntos finales de la API modelo.

Impacto en los casos de uso del aprendizaje automático

Mediante la implementación de modelos de aprendizaje automático en TrueFoundry, el equipo pudo:

  1. Ahorre entre 25 y 30 000 dólares en términos de pago de los sujetos de prueba al reducir a cero los problemas de fiabilidad y fallos del modelo.
  2. Reducción del 35 al 40% en los costos de la nube
  3. Ensayos clínicos más rápidos de 3 a 6 meses gracias a la colaboración con hospitales y laboratorios
  4. Configurar la autenticación en el punto final de la API modelo

El equipo de TrueFoundry también ayudó al equipo de Neurobit a optimizar su arquitectura de software

Cuando se resolvieron los desafíos más prioritarios relacionados con los modelos de aprendizaje automático, el equipo de TrueFoundry decidió ir más allá para asegurarse de que el equipo de Neurobit estaba preparado para el éxito. Durante nuestras conversaciones con el equipo de Neurobit, comprendimos que había margen para optimizar aún más la arquitectura de microservicios de la empresa. Esto podría haber tenido un posible impacto en el tiempo de inferencia y en los costes de nube en los que estaba incurriendo el equipo.

Terminamos haciendo una revisión en profundidad de la arquitectura de microservicios con el equipo.

Originally each microservice was writing its output in a database and the next microservice was loading the output of the previous microservice from the database wasting a lot of time
Arquitectura original de microservicios

Obtuvimos la siguiente comprensión de la arquitectura que el equipo estaba siguiendo:

  1. Se estaban invocando 5 microservicios diferentes para procesar la entrada que se recibía de los usuarios.
  2. Cada servicio escribía su salida intermedia en una base de datos. Desde esta base de datos, el siguiente servicio leía la salida del servicio anterior, ejecutaba el cálculo en ella y la volvía a escribir en la base de datos para que la consumiera el siguiente microservicio.

Todo este proceso tardó unos 7 minutos para cada solicitud.

Arquitectura de microservicios optimizada con TrueFoundry

We were able to help the team reduce 70% of its inference time by simplifying the microservices architecture
Arquitectura de microservicios optimizada con TrueFoundry

Intentamos entender la tolerancia a las fallas y los tiempos de inferencia que requería el equipo. Con este conocimiento, sugerimos que el equipo de Neurobit pasara directamente el resultado de un servicio al otro a través del protocolo gRPC.

La ventaja de esta arquitectura era que.

  1. Como cada microservicio tardaba unos 30 segundos en ejecutarse, no había mucho riesgo de perder las salidas intermedias en caso de que se produjera un error, ya que toda la canalización podía volver a funcionar.
  2. Reduce significativamente el costo de la transferencia de datos y el tiempo necesario para escribir las salidas intermedias en una base de datos.

Esta nueva canalización se alojó en la plataforma TrueFoundry y redujo el tiempo de inferencia del modelo de unos 7 minutos por solicitud a unos 2 minutos por solicitud.

Impacto del rediseño de la arquitectura

  1. El tiempo de inferencia de la canalización de ML se redujo de aproximadamente 7 minutos a aproximadamente 2 minutos
  2. El costo de funcionamiento del servicio de aprendizaje automático se redujo entre un 60 y un 70%
  3. Aumento de la productividad y la independencia de los desarrolladores. Los desarrolladores ahora podían implementar modelos y aplicaciones por su cuenta, lo que antes era necesario mantener una relación de ida y vuelta con el equipo de DevOps.
  4. El equipo ahora ejecuta todos sus modelos y aplicaciones completamente en Kubernetes

Impacto en los negocios

A medida que avanza nuestra asociación con el equipo de Neurobit, hemos visto a la empresa darse cuenta de los beneficios derivados de los tiempos de respuesta, la confiabilidad y la escala más rápidos que la plataforma TrueFoundry ha ayudado al equipo de Neurobit a lograr.

6 months Faster GTM, 60% reduction in Cloud Costs, 70% Faster model response times
Impacto empresarial de la contratación en Neurobit

Impacto en la pila técnica de Neurobit

TrueFoundry ayudó al equipo de Neurobit a trasladar todas sus cargas de trabajo de aprendizaje automático a Kubernetes sin tener que lidiar con la complejidad de aprender nada nuevo relacionado con Kubernetes. También ha ayudado al equipo a ser independiente a la hora de gestionar todas las operaciones avanzadas de Kubernetes, como las implementaciones asincrónicas, la configuración del escalado automático, las implementaciones sin servidor, etc.

También hemos podido ayudar al equipo a trasladar algunos de sus recursos de software a una arquitectura de microservicios sobre Kubernetes para que su conjunto esté preparado para el futuro y funcione con niveles de utilización óptimos.

Complete Migration to Kubernetes, 80% Lesser Interaction of ML team with DevOps, Strong Authentication on all API end points, Stack Ready for 100X Scale and SOTA models
Impacto técnico del compromiso en Neurobit

"Working with TrueFoundry has proven to be a game-changer for our development team. They've provided us with the tools necessary to independently deploy our models on Kubernetes, an accomplishment that previously seemed out of our reach. As a result, the speed at which our team can now operate has seen a considerable increase. We're now able to deploy and scale our models confidently, all the while ensuring availability and scalability.

The commitment and diligence of the TrueFoundry team truly stand out. They've exceeded the initial project's expectations and demonstrated an earnest interest in driving our success. Impressively, they extended their expertise even beyond machine learning, taking the time to deeply understand and improve our broader architectural framework.

By partnering with TrueFoundry, we've achieved significant operational efficiencies and cost savings. Our model inference times have been reduced by approximately 50%, leading to a noticeable enhancement in customer experience. Simultaneously, our infrastructure costs have seen a substantial decrease of about 60%, through efficianent use of infrastructure. This partnership has not only led to financial savings for us but also vastly improved our service delivery to customers and rapid development of technologies for the data science team."

- Dr. Amiya Patnaik, Co-founder and Director @ Neurobit

Lo que aprendimos del compromiso con Neurobit

A medida que seguimos colaborando con Neurobit y ayudándoles a alcanzar la escala y el nivel de impacto con la Inteligencia Artificial que se han propuesto, estamos agradecidos por todos los aprendizajes que hemos podido aprender al interactuar con el equipo. Nos ha ayudado a dar forma a nuestra forma de relacionarnos con los clientes y, además, ha dado una orientación sólida a nuestro producto.

Algunos de nuestros aprendizajes principales incluyen:

  1. Las empresas pueden ahorrar una parte importante (> 40%) de sus costos en la nube si utilizan sus recursos de manera óptima
  2. Lograr que los desarrolladores sean independientes y permitirles hacer las versiones por sí mismos aumenta el ritmo al que el equipo puede realizar los lanzamientos.
  3. Comenzar con una pila lista para escalar garantiza que las cosas no se estropeen y que el equipo no acabe haciendo el esfuerzo adicional de la migración con el tiempo

Hemos desarrollado conjuntamente algunas funciones importantes de la plataforma mientras intentábamos resolver los casos de uso que el equipo de Neurobit nos pidió que habilitáramos. Entre ellas se incluyen:

  1. Implementaciones asincrónicas
  2. Jupyter Notebooks alojados

El camino a seguir

Esperamos colaborar con el equipo de Neurobit a largo plazo y aprender de ellos mientras tratamos de ayudarlos en el camino. Algunas de las novedades futuras que podrían deparar este compromiso son las siguientes:

  1. Escalar los rendimientos de inferencia del modelo a 10 veces la escala actual
  2. Ayudamos a migrar toda la pila de software de Neurobit a TrueFoundry
  3. Despliegue de nuevos modelos experimentales y ejecución de proyectos piloto sobre ellos en laboratorios, hospitales y hogares de ancianos.

¡Emocionado por ver lo que viene después!

La forma más rápida de crear, gobernar y escalar su IA

Opere su oleoducto ML desde el día 0

conducto