مقدمة إلى Kubernetes وMLOps: التحديات والفوائد

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
مرحباً بكم في هذه السلسلة حول بناء وإعداد بنية تحتية قابلة للتوسع لتعلم الآلة في بيئة Kubernetes. في هذه السلسلة، سنتناول مواضيع مختلفة تتعلق بتطوير ونشر وإدارة نماذج تعلم الآلة على مجموعة Kubernetes.
البنية التحتية القابلة للتوسع لتعلم الآلة: أفضل الممارسات
تشير عمليات تعلم الآلة، والمعروفة باسم MLOps، إلى الممارسات والتقنيات المستخدمة لإدارة دورة حياة نماذج تعلم الآلة. تمكن البنية التحتية القابلة للتوسع لعمليات تعلم الآلة المؤسسات من بناء ونشر وإدارة النماذج على نطاق واسع، مما يزيد من عائد الاستثمار (ROI) على جهودها في علم البيانات.
تشمل فوائد البنية التحتية القابلة للتوسع لـ MLOps ما يلي:
- وقت أسرع لطرح نماذج تعلم الآلة في السوق
- تحسين قابلية التوسع والمرونة لسير عمل تعلم الآلة
- نشر نماذج متسق وقابل للتكرار
- تحسين التعاون بين علماء البيانات وفرق عمليات تكنولوجيا المعلومات
- تحسين دقة وموثوقية النموذج
استثمرت Airbnb بكثافة في إعداد ممارسة MLOps قابلة للتوسع منذ البداية. استخدمت نماذج تعلم الآلة لتحسين خوارزميات ترتيب البحث لديها عبر البحث القائم على بيانات المستخدم، مما أدى إلى تجربة بحث أفضل وزيادة تقدر بـ 10% في الحجوزات. كما استخدمت Airbnb نماذج تعلم الآلة لتقديم توصيات مخصصة لمستخدميها، مما ساعد في تحسين تجربة المستخدم ومشاركته!
التحديات في إعداد البنية التحتية لـ MLOps
قد تواجه المؤسسات التي تعتمد على الأجهزة الافتراضية (VMs)، سواء على AWS أو Google Cloud Platform (GCP) أو Microsoft Azure، لإعداد بنيتها التحتية لتدريب ونشر تعلم الآلة عدة تحديات:
- قابلية التوسع: تتمتع الأجهزة الافتراضية (VMs) بخيارات محدودة لقابلية التوسع، وقد تحتاج المؤسسات إلى تكوين مثيلات إضافية يدويًا للتعامل مع الحمل، مما يؤدي إلى مشكلات في الأداء وزيادة التكاليف.
- إدارة الموارد: تتطلب الأجهزة الافتراضية (VMs) تكوينًا يدويًا لتخصيص الموارد، وقد تحتاج المؤسسات إلى تقدير الموارد المطلوبة لأعباء عمل تعلم الآلة الخاصة بها. قد يؤدي ذلك إلى نقص استخدام الموارد أو قيود في الموارد، مما يؤثر على أداء نماذج تعلم الآلة.
- التحكم في الإصدارات: قد يكون إدارة الإصدارات المختلفة لنماذج تعلم الآلة أمرًا صعبًا عند استخدام الأجهزة الافتراضية (VMs). قد تحتاج المؤسسات إلى إدارة الإصدارات المختلفة للنموذج يدويًا، مما قد يستغرق وقتًا طويلاً وعرضة للأخطاء.
- الأمان: قد تحتوي الأجهزة الافتراضية (VMs) على ثغرات أمنية، وقد تحتاج المؤسسات إلى تكوين ميزات الأمان يدويًا، مثل جدران الحماية وأنظمة كشف التسلل، لحماية نماذج التعلم الآلي والبيانات الخاصة بها.
- المراقبة والتسجيل: قد تكون مراقبة أداء نماذج التعلم الآلي والبنية التحتية الأساسية في بنية قائمة على الأجهزة الافتراضية أمرًا صعبًا، وقد يصبح من الصعب تتبع حالة المكونات الفردية وتحديد الاختناقات واستكشاف المشكلات وإصلاحها.
Kubernetes في MLOps
Kubernetes هي منصة شائعة مفتوحة المصدر لتنسيق الحاويات، تعمل على أتمتة نشر التطبيقات المعبأة في حاويات وتوسيع نطاقها وإدارتها. توفر واجهة برمجة تطبيقات موحدة وتكوينًا تعريفيًا يبسط إدارة أعباء العمل المعبأة في حاويات، مما يمكّن المؤسسات من بناء بنية تحتية قابلة للتوسع ومرنة وقابلة للنقل لتدريب ونشر نماذج التعلم الآلي. يقدم Kubernetes العديد من المزايا مقارنة بالأجهزة الافتراضية الخام، بما في ذلك الاستخدام الأفضل للموارد، والتحكم المبسط في الإصدارات، والتوسيع الفعال. علاوة على ذلك، يوفر Kubernetes ميزات أمان مدمجة وإمكانيات مركزية للمراقبة والتسجيل، مما يمكن أن يساعد المؤسسات على ضمان أمان وموثوقية البنية التحتية للتعلم الآلي الخاصة بها. يعد Kubernetes خيارًا رائعًا للمؤسسات التي تتطلع إلى بناء مسارات تعلم آلي قابلة للتوسع على المدى الطويل.
Kubernetes المُدار على AWS و GCP و Azure
يقدم موفرو الخدمات السحابية (AWS و GCP و Azure) خدمات Kubernetes مُدارة (EKS و GKE و AKS على التوالي) تمكّن المؤسسات من إعداد وتكوين وإدارة مجموعات Kubernetes بسهولة، مما يلغي الأعباء التشغيلية المرتبطة بتشغيل وتوسيع نطاق Kubernetes. بالإضافة إلى ذلك، يقدم موفرو الخدمات السحابية تكاملات مع خدمات سحابية أخرى مثل التخزين وقواعد البيانات والشبكات، مما يمكن أن يزيد من تبسيط نشر وإدارة أعباء عمل التعلم الآلي على Kubernetes. من خلال اعتماد Kubernetes إما مباشرة أو من خلال خدمة مُدارة، يمكن للمؤسسات بناء مسار MLOps مرن وقابل للتوسع يمكنه التعامل مع أعباء عمل التعلم الآلي المتزايدة لديهم وتمكين وقت أسرع لطرح نماذج التعلم الآلي الخاصة بهم في السوق.
فوائد Kubernetes لـ MLOps
دعنا نتعمق في فوائد استخدام Kubernetes لمسارات تدريب ونشر التعلم الآلي بمزيد من التفصيل
- إدارة الموارد: يمكّن Kubernetes المؤسسات من توفير وإدارة الموارد المطلوبة لتشغيل مهام تدريب التعلم الآلي ونشر النماذج بسهولة. يمكنه توسيع نطاق الموارد تلقائيًا صعودًا وهبوطًا بناءً على عبء العمل، مما يضمن الاستخدام الفعال للموارد ويقلل التكاليف.
- نشر مبسط مع أفضل ممارسات SRE: يوفر Kubernetes واجهة برمجة تطبيقات موحدة وتكوينًا تعريفيًا يبسط نشر نماذج التعلم الآلي. يمكن للمؤسسات نشر النماذج بسهولة بطريقة قابلة للتوسع ومرنة، مع دعم مدمج للتحديثات المتدحرجة (rolling updates) وعمليات النشر التدريجية (canary deployments)، مما يمكن أن يساعد في تقليل وقت التوقف عن العمل وتحسين الموثوقية.
- المرونة وقابلية النقل: يوفر Kubernetes بنية تحتية مرنة وقابلة للنقل يمكنها دعم سيناريوهات نشر متنوعة، بما في ذلك البيئات المحلية والسحابية والهجينة. وهذا يمكّن المؤسسات من نقل أعباء عمل التعلم الآلي الخاصة بها بسهولة عبر بيئات مختلفة وتجنب الارتباط بمورد واحد.
- تحسين التكلفة واستخدام الموارد: يمكّن Kubernetes المؤسسات من استخدام الموارد بكفاءة، عن طريق تجميع أعباء عمل متعددة للتعلم الآلي على عقدة واحدة، مما يساعد على تقليل تكاليف البنية التحتية. علاوة على ذلك، يمكن لـ Kubernetes الاستفادة من الأجهزة المتخصصة الأخرى لتسريع تدريب واستدلال التعلم الآلي، مما يمكن أن يزيد من تحسين الأداء.
مثال على حالة الاستخدام 1: AirBnb
Airbnb، السوق الإلكتروني الذي يتيح للأشخاص تأجير منازلهم أو شققهم للمسافرين. مع ملايين المستخدمين وكمية هائلة من البيانات لتحليلها، احتاجت Airbnb إلى بنية تحتية قوية وقابلة للتطوير للتعلم الآلي لتحليل سلوك المستخدم، وتحسين ترتيب نتائج البحث، وتقديم توصيات مخصصة للمستخدمين.
لتحقيق ذلك، استثمرت Airbnb في بناء بنية تحتية لعمليات التعلم الآلي (MLOps) على Kubernetes، مما مكن فريق علم البيانات لديها من تطوير ونشر نماذج التعلم الآلي على نطاق واسع. باستخدام Kubernetes، تمكنت Airbnb من تحويل نماذجها إلى حاويات ونشرها كخدمات مصغرة، مما جعل إدارة وتوسيع بنيتها التحتية أسهل مع نمو احتياجاتها. ونتيجة لذلك، تمكنت Airbnb من تحسين ترتيب نتائج البحث وتقديم توصيات أكثر صلة لمستخدميها، مما أدى إلى زيادة الحجوزات وارتفاع الإيرادات. بالإضافة إلى ذلك، تمكنت الشركة من تحسين كفاءة سير عمل علم البيانات لديها، مما سمح لفريقها بالتركيز على تطوير نماذج تعلم آلي أكثر تقدمًا.
حالة استخدام مثال 2: Lyft
Lyft، مزود كبير لخدمات النقل كخدمة (TaaS)، قامت في البداية ببناء بنيتها التحتية للتعلم الآلي (ML) على AWS باستخدام مزيج من مثيلات EC2 وحاويات Docker. لقد استخدموا مثيلات EC2 لتوفير أجهزة افتراضية بمستويات متفاوتة من موارد وحدة المعالجة المركزية والذاكرة ووحدة معالجة الرسوميات، اعتمادًا على متطلبات عبء عمل التعلم الآلي المحددة. كما استخدموا حاويات Docker لتعبئة ونشر أعباء عمل التعلم الآلي الخاصة بهم وضمان الاتساق عبر البيئات المختلفة.
ومع ذلك، مع تزايد تعقيد وحجم أعباء عمل التعلم الآلي لدى Lyft، واجهوا العديد من التحديات بما في ذلك الاتساق عبر البيئات والفرق المختلفة، وقرروا ترحيل بنيتهم التحتية للتعلم الآلي إلى بنية تحتية قائمة على Kubernetes باستخدام KubeFlow في البداية ثم منصة داخلية. من خلال الترحيل إلى بنية تحتية قائمة على Kubernetes، تمكنت Lyft من بناء بنية تحتية للتعلم الآلي أكثر كفاءة وقابلية للتطوير، مما ساعدهم على تسريع مسارات تطوير ونشر التعلم الآلي لديهم. بالإضافة إلى ذلك، تمكنوا من الاستفادة من مزايا Kubernetes، مثل التحجيم التلقائي والاستخدام الفعال للموارد، لتحسين أعباء عمل التعلم الآلي لديهم وتقليل تكاليف البنية التحتية. لقد استخدموا EKS من AWS كخدمة Kubernetes المدارة الخاصة بهم!
إجمالاً، سمح الاستثمار في بنية تحتية لعمليات التعلم الآلي (MLOps) على Kubernetes لـ Airbnb وLyft بتحقيق مكاسب إنتاجية كبيرة وتحسين أرباحهما النهائية، مما يوضح القيمة التي يمكن أن تجلبها عمليات التعلم الآلي (MLOps) القابلة للتطوير على Kubernetes للمؤسسات التي تسعى إلى الاستفادة من التعلم الآلي على نطاق واسع.
تحديات استخدام Kubernetes في عمليات التعلم الآلي (MLOps)
على الرغم من الفوائد، فإن استخدام Kubernetes للبنية التحتية للتعلم الآلي يأتي مع مجموعة خاصة به من التحديات والتعقيدات:
- إدارة الموارد عند التعامل مع مجموعات بيانات كبيرة أو نماذج معقدة: نظرًا لمتطلبات كمية كبيرة من موارد الحوسبة، بما في ذلك وحدات معالجة الرسوميات (GPUs) والذاكرة والتخزين، قد يكون من الصعب ضمان التخصيص الفعال بطريقة لا تتعارض مع أعباء العمل الأخرى التي تعمل على مجموعة Kubernetes.
- تكامل الأدوات المختلفة: قد تستخدم المؤسسات أدوات تعلم آلي مختلفة مثل TensorFlow وPyTorch وscikit-learn، لكل منها متطلباتها واعتمادياتها الخاصة. يمكن أن يكون دمج هذه الأدوات والاعتماديات مع بنية Kubernetes التحتية معقدًا ويستغرق وقتًا طويلاً.
- المخاوف الأمنية لنماذج التعلم الآلي: يعد ضمان حماية نماذج التعلم الآلي من الوصول غير المصرح به أو الهجمات أمرًا بالغ الأهمية. بينما يوفر Kubernetes ميزات أمان متنوعة، مثل التحكم في الوصول المستند إلى الدور (RBAC) وسياسات الشبكة وعزل الحاويات، إلا أن تكوينها بشكل صحيح قد يكون صعبًا عند التعامل مع البيانات الحساسة مثل المعلومات الشخصية أو السجلات المالية.
- المراقبة والتسجيل في بيئة موزعة: تعد مراقبة أداء نماذج التعلم الآلي والبنية التحتية الأساسية أمرًا بالغ الأهمية لضمان الأداء الأمثل. ومع ذلك، في بيئة Kubernetes الموزعة، قد يكون من الصعب تتبع حالة المكونات الفردية وتحديد الاختناقات واستكشاف المشكلات وإصلاحها. تحتاج المؤسسات إلى إعداد أدوات مراقبة وتسجيل توفر رؤية في الوقت الفعلي لسير عمل التعلم الآلي وبنية Kubernetes التحتية.
بينما توجد تحديات، من خلال اتباع أفضل الممارسات والاستفادة من قدرات Kubernetes، يمكن للمؤسسات التغلب على هذه التحديات وبناء بنية تحتية لعمليات التعلم الآلي (MLOps) قابلة للتطوير وآمنة وموثوقة.
الخاتمة
يوفر Kubernetes للتعلم الآلي العديد من المزايا للمؤسسات التي تسعى إلى تحسين سير عمل التعلم الآلي لديها. بينما توجد تحديات في إعداد وإدارة بنية MLOps التحتية على Kubernetes، مثل إدارة الموارد والأمان والمراقبة، فإن الفهم الشامل لـ Kubernetes وأفضل الممارسات يمكن أن يساعد في التغلب على هذه العقبات.
في هذه السلسلة حول التعلم الآلي على Kubernetes، سنحاول تغطية مواضيع مختلفة تتعلق ببناء وإعداد البنية التحتية للتعلم الآلي في بيئة Kubernetes، بما في ذلك ما يلي:
- الحاويات والتنسيق باستخدام Kubernetes
- التدريب الموزع على Kubernetes
- تقديم ونشر النماذج القائمة على Kubernetes
- البنية التحتية للتعلم الآلي القائمة على وحدات معالجة الرسوميات (GPU) على Kubernetes
- مسار CI/CD لـ Kubernetes
- مراقبة Kubernetes لعمليات التعلم الآلي (MLOps)
والمزيد..
من خلال تبني هذه الممارسات الفضلى وتسخير قوة Kubernetes، يمكن للمؤسسات توسيع نطاق ونشر نماذج التعلم الآلي بثبات وموثوقية وأمان. وهذا بدوره سيؤدي إلى تسريع وقت الوصول إلى السوق، وتحسين التعاون بين فرق علم البيانات وعمليات تكنولوجيا المعلومات، وعائد استثمار أفضل على استثماراتهم في علم البيانات.
اكتشف كيف قامت Gong ببناء بنية تحتية قابلة للتطوير لأبحاث التعلم الآلي على Kubernetes
TrueFoundry هي منصة كخدمة (PaaS) لنشر التعلم الآلي فوق Kubernetes لتسريع سير عمل المطورين، مع منحهم مرونة كاملة في اختبار ونشر النماذج، وضمان الأمان والتحكم الكامل لفريق البنية التحتية. من خلال منصتنا، نمكّن فرق التعلم الآلي من نشر ومراقبة النماذج في 15 دقيقة بموثوقية 100% وقابلية للتوسع والقدرة على التراجع في ثوانٍ - مما يسمح لهم بتوفير التكاليف وإطلاق النماذج إلى الإنتاج بشكل أسرع، مما يحقق قيمة تجارية حقيقية.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI





















.png)
.webp)










.webp)






