Prácticas de macrodatos y aprendizaje automático en Palo Alto Networks

Diseñado para la velocidad: ~ 10 ms de latencia, incluso bajo carga
¡Una forma increíblemente rápida de crear, rastrear e implementar sus modelos!
- Gestiona más de 350 RPS en solo 1 vCPU, sin necesidad de ajustes
- Listo para la producción con soporte empresarial completo
Aprendizaje automático en Palo Alto Networks: mejora de la ciberseguridad a través de la innovación
En el panorama digital actual, en rápida evolución, a medida que las empresas amplían su presencia digital, la necesidad de detectar y corregir amenazas avanzadas se convierte en una prioridad. La base de esta tarea en Palo Alto Networks es una sólida infraestructura de aprendizaje automático (ML) que impulsa las soluciones de seguridad de vanguardia de la empresa. Esta entrada de blog explora las prácticas de aprendizaje automático en Palo Alto Networks y extrae información de una conversación con Harsh Verma, ingeniero de software sénior que trabaja en la intersección del aprendizaje automático y los macrodatos.
El papel del aprendizaje automático en la ciberseguridad
Los modelos de aprendizaje automático son fundamentales tanto para detectar como para mitigar posibles brechas de seguridad. Estos modelos analizan grandes cantidades de datos generados por el tráfico de red, el uso del software y otras actividades digitales para identificar patrones indicativos de un comportamiento malintencionado.
Como explica Harsh, las principales tareas del aprendizaje automático en ciberseguridad son dos:
- Detección: Identificar posibles amenazas mediante el análisis de los registros de tráfico y los datos de la red.
- Remediación: Ofrecer soluciones para mitigar las amenazas detectadas, como mejorar las políticas de seguridad o proporcionar información útil a los usuarios.
Estas tareas requieren el procesamiento continuo de conjuntos de datos masivos, donde los modelos de aprendizaje automático pueden identificar anomalías o patrones que podrían indicar una violación de seguridad. La capacidad de procesar y analizar datos a escala es crucial, ya que las amenazas pueden manifestarse de diversas formas, desde patrones de tráfico inusuales hasta actividades sospechosas de software.
El viaje de la ingeniería de software al aprendizaje automático
El viaje de Harsh al mundo del aprendizaje automático comenzó con una base sólida en ingeniería de software. Tras mudarse a los Estados Unidos para cursar su maestría en Ciencias de la Computación, se centró en la inteligencia artificial (IA) y el aprendizaje automático.
Trabajó como asistente de investigación en áreas como el procesamiento del lenguaje natural y la visión por computador. Esta formación académica sentó las bases para su transición a funciones de aprendizaje automático en la industria.
Al unirse a Palo Alto Networks, Harsh participó en la creación de software que mejora la seguridad de la red mediante el aprendizaje automático. La transición de la ingeniería de software al aprendizaje automático estuvo impulsada por el deseo de abordar desafíos más complejos y cambiantes. Como señala Harsh, el campo del aprendizaje automático no solo es riguroso sino también dinámico, y ofrece oportunidades continuas de aprendizaje e innovación.
Operaciones semanales: abordando los desafíos de la ciberseguridad
El rol de Harsh en Palo Alto Networks consiste en abordar varios desafíos de ciberseguridad a través del aprendizaje automático. Las operaciones semanales se estructuran en torno a la supervisión continua de la actividad de la red, la identificación de posibles amenazas y el desarrollo de modelos que puedan predecir y prevenir estas amenazas.
Harsh hace hincapié en la importancia del procesamiento en tiempo real y por lotes en estas operaciones. Si bien el procesamiento en tiempo real es crucial para la detección inmediata de amenazas, el procesamiento por lotes permite analizar las tendencias de los datos a largo plazo, lo que ayuda a refinar los modelos y mejorar las capacidades de detección de amenazas futuras.
Procesamiento en tiempo real versus procesamiento por lotes: un enfoque equilibrado
La eficacia del aprendizaje automático en la ciberseguridad depende en gran medida de cómo se procesen los datos. En Palo Alto Networks, se utiliza una combinación de procesamiento en tiempo real y por lotes para gestionar los datos y obtener información.
- Procesamiento en tiempo real: Esto es esencial para la detección inmediata de amenazas. Por ejemplo, si un usuario accede a un sitio web potencialmente malintencionado, el sistema debe responder al instante para evitar cualquier violación de seguridad. El procesamiento en tiempo real garantiza que los modelos de aprendizaje automático analicen continuamente los flujos de datos entrantes y señalen cualquier actividad sospechosa.
- Procesamiento por lotes: El procesamiento por lotes se usa para analizar datos durante períodos más prolongados, por ejemplo, para identificar posibles amenazas en función de los registros de tráfico de los últimos 30 días. Este enfoque permite al sistema detectar patrones que pueden no ser evidentes de inmediato en el análisis en tiempo real. Por ejemplo, si un tipo específico de tráfico activa alertas de manera constante, el procesamiento por lotes puede ayudar a comprender si se trata de una nueva amenaza o de un falso positivo.
La combinación de estos dos métodos de procesamiento garantiza que las soluciones de seguridad de Palo Alto Networks sean rápidas y completas, capaces de abordar las amenazas inmediatas y, al mismo tiempo, aprender de los datos históricos.
Creación e implementación de modelos de aprendizaje automático
El desarrollo de modelos de aprendizaje automático en Palo Alto Networks sigue un proceso bien estructurado, desde la ingesta de datos hasta la implementación y el servicio de modelos. Harsh describe los pasos clave de este proceso:
- Ingestión y preprocesamiento de datos: El primer paso consiste en recopilar y limpiar los datos. Esta es una fase crucial, ya que la calidad de los datos afecta directamente al rendimiento de los modelos de aprendizaje automático. La ingesta de datos puede implicar la transmisión de datos desde varias fuentes, como los registros de red o los registros de uso del software.
- Ingeniería de funciones: Una vez que se ingieren los datos, el siguiente paso es diseñar características significativas que puedan usarse para entrenar los modelos. Esto puede implicar la transformación de los datos sin procesar en formatos que el modelo pueda interpretar fácilmente, como la conversión de los datos de registro en entidades numéricas.
- Entrenamiento modelo: Con las funciones preparadas, los modelos de aprendizaje automático se entrenan utilizando grandes conjuntos de datos. La capacitación puede implicar el uso de una combinación de algoritmos de aprendizaje automático tradicionales y avances más recientes, como los modelos lingüísticos extensos (LLM) para tareas específicas.
- Despliegue del modelo: Tras la formación, los modelos se implementan en un entorno de producción en el que pueden analizar datos en tiempo real. La implementación implica configurar los modelos para que varios sistemas puedan acceder a ellos en tiempo real.
- Modelo de servicio: Por último, los modelos implementados se entregan a los clientes, proporcionándoles la información y las alertas necesarias para mantener una ciberseguridad sólida. Esto puede implicar la integración de los modelos con las plataformas de seguridad existentes o la creación de nuevas herramientas que aprovechen las predicciones de los modelos.
The Tech Stack: herramientas y plataformas
Palo Alto Networks emplea un conjunto tecnológico diverso para respaldar sus iniciativas de aprendizaje automático. Esto incluye herramientas para el procesamiento de datos, el entrenamiento de modelos y la implementación:
- Procesamiento de datos: La empresa utiliza Apache Spark para procesar grandes conjuntos de datos. La capacidad de Spark para gestionar cargas de trabajo de big data lo hace ideal para los tipos de trabajos por lotes que ejecuta Palo Alto Networks, como procesar registros de tráfico o analizar datos históricos para detectar patrones de amenazas.
- Plataformas de streaming: Para la ingesta de datos en tiempo real, se utilizan plataformas como Apache Kafka y Google Pub/Sub. Estas herramientas permiten el flujo continuo de datos de varias fuentes, lo que garantiza que los modelos de aprendizaje automático tengan la información más actualizada.
- Servicios en la nube: Los modelos de aprendizaje automático de Palo Alto Networks suelen entrenarse e implementarse mediante plataformas en la nube como Google Cloud Platform (GCP) y Amazon Web Services (AWS). Estas plataformas ofrecen servicios gestionados, como Google DataProc para ejecutar trabajos de Spark y Amazon SageMaker o Google Vertex AI para el entrenamiento y la implementación de modelos.
- Soluciones de almacenamiento: El almacenamiento de datos se gestiona a través de una combinación de servicios, según los requisitos del proyecto. Esto incluye el uso de depósitos de S3 o GCS para almacenar datos sin procesar, BigQuery para el análisis y almacenes de funciones dedicados para almacenar funciones diseñadas.
- Plataformas de aprendizaje automático: Para la administración e implementación de modelos, se emplean plataformas como SageMaker y Vertex AI. Estas plataformas ofrecen entornos integrados para crear, entrenar e implementar modelos de aprendizaje automático a escala.
La integración de la IA generativa
A medida que el campo del aprendizaje automático evoluciona, Palo Alto Networks ha comenzado a integrar la IA generativa en sus soluciones de ciberseguridad. La IA generativa, en particular los modelos lingüísticos de gran tamaño, ofrece nuevas posibilidades de detección y respuesta a las amenazas. Estos modelos se pueden usar para generar predicciones o simular posibles escenarios de amenazas, lo que proporciona información más profunda sobre cómo prevenir las brechas de seguridad.
Harsh menciona que, si bien los modelos tradicionales de aprendizaje automático siguen siendo la columna vertebral de las soluciones de ciberseguridad de Palo Alto Networks, la integración de la IA generativa es un avance emocionante. Al aprovechar los modelos clásicos de aprendizaje automático y la IA generativa moderna, la empresa puede mejorar sus capacidades de detección de amenazas y ofrecer soluciones de seguridad más completas a sus clientes.
Desafíos y direcciones futuras
La integración del aprendizaje automático en la ciberseguridad no está exenta de desafíos. Una de las principales dificultades es garantizar que los modelos sigan siendo eficaces a medida que evoluciona el panorama de amenazas. Las amenazas a la ciberseguridad cambian constantemente y los modelos de aprendizaje automático deben actualizarse continuamente para reconocer nuevos patrones de comportamiento malintencionado.
Otro desafío es el equilibrio entre el procesamiento en tiempo real y el procesamiento por lotes. Si bien el análisis en tiempo real es crucial para la detección inmediata de amenazas, puede consumir muchos recursos. Por el contrario, el procesamiento por lotes es menos exigente, pero puede pasar por alto las amenazas en tiempo real. Palo Alto Networks aborda este problema mediante un enfoque híbrido, que combina las ventajas de ambos métodos.
De cara al futuro, Palo Alto Networks tiene como objetivo seguir innovando en el espacio de la ciberseguridad. Esto incluye una mayor integración de la IA generativa y la expansión del uso del aprendizaje automático en diferentes plataformas de seguridad. Al mantenerse a la vanguardia de la tecnología, la empresa espera seguir siendo líder en el suministro de soluciones de ciberseguridad sólidas y escalables.
TrueFoundry AI Gateway ofrece una latencia de entre 3 y 4 ms, gestiona más de 350 RPS en una vCPU, se escala horizontalmente con facilidad y está listo para la producción, mientras que LitellM presenta una latencia alta, tiene dificultades para superar un RPS moderado, carece de escalado integrado y es ideal para cargas de trabajo ligeras o de prototipos.
La forma más rápida de crear, gobernar y escalar su IA

















.png)


.webp)




.webp)







