Integraciones de herramientas de aprendizaje automático #3 Label Studio para todas sus necesidades de etiquetado

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
En el siguiente blog, hablaremos sobre Label Studio y sobre cómo puede utilizar fácilmente Label Studio para etiquetar desplegándolo en TrueFoundry.
La calidad de los datos es mucho más importante que la cantidad. Este es un principio bien establecido en la comunidad de aprendizaje automático, y adquiere cada vez más importancia a medida que la comunidad de MLOps avanza hacia un enfoque centrado en los datos.
En una charla reciente, Andrew Ng citó el ejemplo de un problema de detección de defectos en el acero, en el que el enfoque centrado en los datos pudo mejorar la precisión del modelo en un 16%, mientras que el enfoque centrado en el modelo no mejoró la precisión en absoluto.
El enfoque centrado en los datos es más importante que el enfoque centrado en los modelos, especialmente en los casos en que los datos son limitados o ruidosos - Andrew Ng
Puede ver esta charla de Andrew Ng sobre el enfoque del aprendizaje automático centrado en los datos:
Esto se debe a que incluso los mejores modelos de aprendizaje automático son tan buenos como los datos con los que están entrenados. Si los datos son ruidosos o están incompletos, el modelo aprenderá a cometer errores. Por eso es tan importante utilizar datos de alta calidad al entrenar modelos de aprendizaje automático.
Incluso en el contexto de los grandes modelos lingüísticos (LLM), la importancia de los datos de alta calidad sigue siendo primordial. El documento titulado «Entrenamiento de modelos de lenguaje grandes óptimos para la computación» de DeepMind (2022) profundiza en las leyes de escalado de los LLM y demuestra que la calidad de los datos supera al tamaño de los conjuntos de datos. Los autores muestran que un modelo entrenado con tan solo 500 filas de datos de alta calidad puede superar a un modelo entrenado con un conjunto de datos que contiene la asombrosa cantidad de 100 millones de filas de datos de baja calidad.
Puede leer el documento en el siguiente enlace:
De manera similar, «WizardLM: un modelo de lenguaje pequeño, eficiente y de alto rendimiento» de Google AI (2022) presenta WizardLM, un modelo de lenguaje compacto que se basa en un conjunto de datos que comprende solo 500 000 palabras. Sorprendentemente, WizardLM logra resultados de última generación en varias tareas de procesamiento del lenguaje natural, a pesar de su tamaño significativamente más pequeño en comparación con otros LLM.
Puede leer el documento en el siguiente enlace:
¿Qué es Label Studio?
Label Studio es una herramienta de etiquetado de datos de código abierto basada en la web desarrollada por Heartex. Está diseñada para agilizar el proceso de anotación de datos para las tareas de aprendizaje automático. Ya sea que esté trabajando en la clasificación de imágenes, el reconocimiento de entidades nombradas, el análisis de opiniones o cualquier otra tarea de etiquetado, Label Studio proporciona un entorno flexible y fácil de usar para etiquetar sus datos de manera eficiente.
Características principales de Label Studio
- Etiquetado multimodal: Label Studio admite imágenes, texto, audio y vídeo.
- Interfaces de etiquetado personalizables: Adapte las interfaces de etiquetado a su tarea.
- Control de calidad del etiquetado: La validación automática y la revisión por pares garantizan la calidad de los datos.
- Colaboración en equipo: Varios usuarios trabajan en el mismo proyecto con roles y permisos asignados.
- Flexibilidad de integración: Intégrelo con su canalización de datos con API y opciones de exportación.
- Escalabilidad: Se adapta a sus necesidades de etiquetado de datos.
- Código abierto: De uso y modificación gratuitos.
El flujo de trabajo de etiquetado de datos de Label Studio
Paso 1: Importación de datos
El proceso de etiquetado comienza con la importación de los datos sin procesar y sin etiquetar a Label Studio. Estos datos pueden ser imágenes, texto, audio, vídeo o cualquier otro formato de datos, según la tarea de etiquetado que realice. Para nuestro ejemplo, consideremos una tarea de clasificación de imágenes en la que quieres clasificar las imágenes de animales.
Paso 2: Creación del proyecto
Una vez importados los datos, se crea un nuevo proyecto de etiquetado en Label Studio. En este proyecto, defina la tarea de etiquetado, seleccione la fuente de datos y configure la interfaz de etiquetado. Puede personalizar la interfaz para que se adapte a sus necesidades específicas, eligiendo entre varios tipos de anotaciones, como cuadros delimitadores, polígonos, puntos clave y más.
Para nuestro ejemplo de clasificación de imágenes de animales, crearía un proyecto llamado «Clasificación de animales» y lo configuraría para mostrar imágenes para su anotación.
Paso 3: Anotación
Con el proyecto configurado, invitas a los anotadores a empezar a etiquetar los datos. Los anotadores acceden a la plataforma Label Studio a través de una interfaz web, donde se les presentan imágenes de su conjunto de datos. En nuestro ejemplo, los anotadores verían imágenes de animales y las clasificarían en categorías predefinidas, como «perro», «gato», «caballo», etc.
A medida que los anotadores revisan cada imagen, utilizan las herramientas de etiquetado que proporciona Label Studio para marcar sus anotaciones. Para clasificar las imágenes, los anotadores simplemente seleccionan la categoría adecuada de la lista predefinida.
Paso 4: Control de calidad
Para mantener la precisión y la coherencia del etiquetado, Label Studio ofrece funciones de control de calidad. Los anotadores pueden revisar y validar el trabajo de los demás, asegurándose de que las etiquetas sean correctas. También puede implementar flujos de trabajo que generen consenso para resolver los desacuerdos entre los anotadores.
Paso 5: Exportación de datos
Una vez que los datos estén etiquetados de manera satisfactoria, exporta el conjunto de datos etiquetado desde Label Studio. La plataforma ofrece varias opciones de exportación, incluidos JSON, CSV o formatos compatibles con las bibliotecas de aprendizaje automático más populares. Este conjunto de datos etiquetado ya está listo para usarse en el entrenamiento de modelos de aprendizaje automático.
Paso 6: Entrenamiento modelo
Con los datos etiquetados de alta calidad obtenidos de Label Studio, puede proceder a entrenar su modelo de aprendizaje automático para la clasificación de animales. Los datos etiquetados sirven como conjunto de entrenamiento y el modelo aprende a reconocer diferentes categorías de animales en función de las anotaciones proporcionadas por los anotadores.
Paso 7: Evaluación e implementación del modelo
Después de entrenar el modelo, evalúa su rendimiento mediante un conjunto de datos de prueba independiente. Si el modelo cumple tus criterios de precisión, puedes implementarlo para usarlo en el mundo real, por ejemplo, para categorizar automáticamente las imágenes de animales.
Implemente LabelStudio en TrueFoundry
Has aprendido todo sobre LabelStudio y ahora nos complace compartir que puedes alojar LabelStudio sin esfuerzo en TrueFoundry. A continuación, encontrará instrucciones paso a paso sobre cómo implementar LabelStudio en su configuración de aprendizaje automático. ¡Empecemos!
💡
Nota:
Muy pronto podrás desplegar Discográfica Studio en True Foundry con un solo clic. Los mantendremos informados.
1. Registrar y configurar TrueFoundry`
Antes de poder aprovechar el poder de Label Studio en TrueFoundry, debes registrarte y configurar tu cuenta de TrueFoundry.
True Foundry es un PaaS de implementación de aprendizaje automático sobre Kubernetes para acelerar los flujos de trabajo de los desarrolladores y, al mismo tiempo, permitirles una flexibilidad total a la hora de probar e implementar modelos, al tiempo que garantiza una seguridad y un control totales para el equipo de Infra.
Continúe, haga clic en el enlace de abajo y siga las instrucciones:
2. Implemente la tabla de mando para LabelStudio
- Nueva implementación > Helm > Elegir un espacio de trabajo
- Rellene aquí los siguientes datos
- Repositorio de Helm: https://charts.heartex.com
- Nombre del gráfico: label-studio
- Versión: 1.1.9
- Puede dejar el campo de valores vacío o configurarlo según estos. Si lo dejas vacío, aparecerán la aplicación, una base de datos de Postgres y un volumen persistente para almacenar artefactos.

- Configuración de Kustomize:
- Haga clic en
Mostrar campos avanzadosalternar en la parte inferior del formulario - Aquí haga clic en el botón de alternancia frente a Kustomize toggle
- En
Parchecampo de texto agrega el siguiente manifiesto, reemplazandospec.http.route.destination.hostyespecificaciones.hostscon los valores apropiados
Versión de API: networking.istio.io/v1alpha3
tipo: VirtualService
metadatos:
nombre: labelstudio-vs
especificación:
http:
- recorrido:
- destino:
anfitrión: <label-studio-app-name>-ls-app. <workspace-name>.svc.cluster.local
puerto:
número: 80
anfitriones:
- <ds.organization.com/labelstudio>
pasarelas:
- istio-system/tfy-wildcard

Interactuar con LabelStudio
Una vez que haya implementado Label Studio en TrueFoundry, puede acceder a la interfaz de usuario de Label Studio a través del punto final proporcionado. Exploremos cómo etiquetar imágenes para clasificarlas con Label Studio.
1. Registrarse
Cuando abras tu Label Studio hospedado, se te pedirá que registres una cuenta o que inicies sesión si ya tienes una. Sigue estos pasos:
- Visita la URL de Label Studio alojada.
- Haga clic en la opción «Registrarse» si no tiene una cuenta o en «Iniciar sesión» si la tiene.
- Complete el proceso de registro. Una vez hecho, tendrás acceso a tu panel de control de Label Studio.
2. Configuración de un proyecto de etiquetado
La configuración de un proyecto de etiquetado en Label Studio implica varios pasos, como definir el nombre del proyecto, importar el conjunto de datos y configurar las tareas de etiquetado. Repasemos estos pasos:
2.1 Creación de un proyecto de etiquetado
Tras registrarse e iniciar sesión, puede empezar a crear sus proyectos de etiquetado. Siga estos pasos:
Pestaña Nombre del proyecto:
- Desde tu panel de control de Label Studio, haz clic en el botón «Crear nuevo proyecto».
- En la pestaña «Nombre del proyecto», introduce un nombre para tu proyecto. Este nombre debe reflejar el propósito o el tema de su proyecto de etiquetado.
- Si lo desea, proporcione una descripción del proyecto para proporcionar contexto y directrices para los etiquetadores.

2.2 Importación del conjunto de datos
Antes de empezar a etiquetar, debe importar el conjunto de datos que desea etiquetar. Label Studio admite varios tipos de datos, incluidas imágenes, texto y audio. En este caso, nos centraremos en la importación de imágenes:
Pestaña de importación de datos:
- Navega hasta la pestaña «Importación de datos».
- Tienes dos opciones para importar imágenes:
- Sube imágenes directamente desde tu ordenador local.
- Proporcione las URL de las imágenes si están alojadas en línea.
- Para este ejemplo, puedes agregar las siguientes URL como conjunto de datos:
*

2.3 Configuración de tareas de etiquetado
Después de importar su conjunto de datos, debe configurar tareas de etiquetado que definan lo que desea que los etiquetadores anoten o clasifiquen en las imágenes. Sigue estos pasos:
Pestaña de configuración de etiquetado:
- Navegue hasta la «pestaña de configuración de etiquetado»
- Elige una plantilla de las opciones disponibles o personaliza una según tus necesidades. (Para este ejemplo, utilice la clasificación de imágenes)

- Label Studio selecciona automáticamente el campo que se va a etiquetar en función de sus datos.
- Si es necesario, puede modificar el campo seleccionado.
- Agregue nombres de etiquetas en las líneas nuevas. (Agregue perro y gato para nuestro caso de uso)
- Si lo desea, puede elegir nuevos colores para las etiquetas haciendo clic en el nombre de la etiqueta y utilizando el selector de colores.
- Configure cualquier configuración adicional relevante para la funcionalidad de la interfaz de etiquetado.

- Haga clic en «Guardar» para crear la tarea de etiquetado.
Su proyecto de etiquetado ya está configurado y los etiquetadores pueden empezar a anotar o clasificar las imágenes en función de la tarea definida.
3. Proceso de etiquetado
3.1 Flujo de trabajo de etiquetado
Una vez que se complete la configuración del proyecto, se te redirigirá al administrador de datos de tu proyecto. Aquí puede administrar de manera eficiente su conjunto de datos y sus tareas de etiquetado. Siga estos pasos para iniciar el proceso de etiquetado:
- Acceda al administrador de datos: Tras la configuración del proyecto, se te redirigirá automáticamente al administrador de datos de tu proyecto.
- Etiquete su conjunto de datos: Para etiquetar su conjunto de datos, haga clic en el botón «Etiquetar todas las tareas». Esta acción lo llevará al panel de etiquetado.
- Tablero de etiquetado: En el panel de etiquetado, puede ver las imágenes de su conjunto de datos y asignar etiquetas. Por ejemplo, puedes etiquetar las imágenes como «perro» o «gato».


3.2 Vista del administrador de datos
En el Gestor de datos, tiene a su disposición varias herramientas potentes para gestionar de forma eficiente su proyecto de etiquetado:
- Filtrar y ordenar datos: Puede filtrar y ordenar fácilmente los datos de su proyecto en función de varios criterios, como el estado de las etiquetas o las asignaciones de anotadores.
- Guardar filtros como pestañas: Cree configuraciones de filtros personalizadas y guárdelas como pestañas para acceder a ellas rápidamente. Esta función le ayuda a optimizar el flujo de trabajo, especialmente en el caso de conjuntos de datos de gran tamaño.
- Asignar anotadores a las tareas: Asigne tareas de etiquetado específicas a los anotadores directamente desde el administrador de datos. Esta función garantiza una asignación eficiente de las tareas.
- Eliminar tareas o anotaciones: Si es necesario, puede eliminar tareas o anotaciones específicas. Esta capacidad te permite administrar y limpiar tu conjunto de datos a medida que avanza tu proyecto.

3.3 Control de calidad
Para mantener etiquetas de alta calidad durante todo el proyecto, considera implementar un proceso de revisión:
- Acceso de revisores: Designe revisores que puedan acceder a los datos etiquetados para verificar la precisión y la calidad de las etiquetas.
- Resolución de discrepancias: Abordar cualquier discrepancia o disputa que pueda surgir entre los etiquetadores. La resolución rápida de los problemas garantiza la coherencia de las etiquetas.
- Mejora continua: Utilice los comentarios de los revisores y las aportaciones de los etiquetadores para mejorar de forma iterativa el proceso de etiquetado, lo que se traducirá en una mejora de la calidad de los datos con el tiempo.
4. Exportación de datos etiquetados
Una vez que haya completado el proceso de etiquetado, puede exportar los datos etiquetados para usarlos en sus proyectos de aprendizaje automático u otras aplicaciones.
- En tu proyecto, navega hasta la pestaña «Exportar».
- Elige el formato de exportación que mejor se adapte a tus necesidades, como JSON, CSV u otros.
- Configure los ajustes de exportación, incluidos los datos etiquetados que desea incluir.
- Haga clic en «Exportar» para generar y descargar los datos etiquetados en el formato que elija.

¡Felicidades! Has completado correctamente el proceso de etiquetado y has exportado los datos etiquetados para su uso posterior.
Los datos etiquetados serán algo similares a los siguientes:
[
{
«identificación»: 1,
«anotaciones»: [
{
«identificación»: 1,
«completado_por»: 1,
«resultado»: [
{
«valor»: {
«choices»: ["Perro"]
},
«id»: «m2sbwnysux»,
«from_name»: «elección»,
«to_name»: «imagen»,
«tipo»: «opciones»,
«origen»: «manual»
}
],
«was_cancelled»: falso,
«ground_truth»: falso,
«created_at»: «2023-09-14T 00:51:14.067 278Z»,
«updated_at»: «2023-09-14T 00:51:14.067 302Z»,
«draft_created_at»: nulo,
«tiempo de entrega»: 7.287,
«predicción»: {},
«conteo de resultados»: 0,
«unique_id»: «21bce98c-ef29-4725-8add-f5d6224441ec»,
«import_id»: nulo,
«last_action»: nulo,
«tarea»: 1,
«proyecto»: 3,
«actualizado_por»: 1,
«parent_prediction»: nulo,
«parent_annotation»: nulo,
«last_created_by»: nulo
}
],
«archivo_upload»: «c2f3a287-cznmcy1wcmL2yxrll3jhd3bpeg_ayutabf.pngsnjvubb-kdw49uxifztlp1-3p4mypzascmhj9-qhidsk»,
«borradores»: [],
«predicciones»: [],
«datos»: {
«imagen»: «\ /data\ /upload\ /3\ /c2f3a287-cznmcy1wcml2yxRll3jhd3bpeg_ayutabf.pngsnjvubb-kdw49uxifztlp1-3p4mypzascmhj9-qhidsk»
},
«meta»: {},
«created_at»: «2023-09-14T 00:45:00.762 438Z»,
«updated_at»: «2023-09-14T 00:51:14.111 241Z»,
«id_interno»: 1,
«total de anotaciones»: 1,
«anotaciones_canceladas»: 0,
«predicciones totales»: 0,
«conteo de comentarios»: 0,
«conteo de comentarios sin resolver»: 0,
«last_comment_updated_at»: nulo,
«proyecto»: 3,
«actualizado_por»: 1,
«comentarios_autores»: []
}
]
No dude en personalizar sus proyectos y flujos de trabajo de Label Studio en función de sus requisitos específicos, aprovechando las potentes capacidades de etiquetado de datos de Label Studio.
Lea nuestros blogs anteriores de la serie Integraciones de herramientas de aprendizaje automático
Sigue viendo el TrueML serie youtube y leyendo todo el TrueML serie de blogs.
True Foundry es un PaaS de implementación de aprendizaje automático sobre Kubernetes para acelerar los flujos de trabajo de los desarrolladores y, al mismo tiempo, permitirles una flexibilidad total a la hora de probar e implementar modelos, al tiempo que garantiza una seguridad y un control totales para el equipo de Infra. A través de nuestra plataforma, permitimos a los equipos de aprendizaje automático implementar y supervisar modela en 15 minutos con un 100% de confiabilidad, escalabilidad y la capacidad de revertirse en segundos, lo que les permite ahorrar costos y lanzar los modelos a la producción más rápido, lo que permite obtener un verdadero valor empresarial.
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA



















.png)


.webp)




.webp)







