محادثات True ML #13 - منصة تعلم الآلة @ Cookpad

Published: July 4, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

عدنا بحلقة أخرى من True ML Talks. سنتعمق فيها في بنية تعلم الآلة في كوكباد، إحدى أكبر منصات خدمة الوصفات في العالم. سنتناول أيضًا تحديات بناء منصة تعلم آلة ناجحة، وكيف يستخدمون خادم استدلال Nvidia Triton لتشغيل النماذج.
نتحدث مع خوسيه نافارو

خوسيه هو مهندس منصة تعلم الآلة الرئيسي في كوكباد، ويسعى لمساعدة مهندسي تعلم الآلة وجميع ممارسي تعلم الآلة على تقديم أنظمة تعلم الآلة بسرعة وموثوقية.

📌

ستغطي محادثاتنا مع خوسيه الجوانب التالية:
- هيكل فرق تعلم الآلة في كوكباد
- البنية التحتية لتعلم الآلة المعتمدة على وحدات معالجة الرسوميات (GPU)
- نشر النماذج الآلي في كوكباد
- دمج مخزن الميزات وتكوينه للاستدلال عبر الإنترنت
- مصادر البيانات وإدارة الميزات أثناء تجارب النماذج
- استخدام سير عمل Argo لإعادة تدريب نماذج تعلم الآلة
- خادم استدلال Nvidia Triton وفوائده
- دمج سجل نماذج MLflow مع خادم استدلال Triton
- الاستفادة من نماذج اللغة الكبيرة (LLMs) والذكاء الاصطناعي التوليدي (Gen AI) في كوكباد
- تكييف بنية MLOps لتناسب احتياجاتك

شاهد الحلقة الكاملة أدناه:

هيكل فرق تعلم الآلة في كوكباد

مهندسو التعلم الآلي: يتكون فريق التعلم الآلي الأساسي من مهندسين ذوي خبرة في كل من التعلم الآلي وهندسة البرمجيات. وهم مسؤولون عن تطوير وتدريب ونشر نماذج التعلم الآلي، بالتعاون الوثيق مع فرق المنتجات.
فريق المنصة: يدعم فريق المنصة مهندسي التعلم الآلي من خلال إدارة البنية التحتية الأساسية، بما في ذلك مجموعات Kubernetes. ويضمنون قابلية التوسع والموثوقية والأداء لأنظمة التعلم الآلي. بالإضافة إلى ذلك، يقومون بتطوير وصيانة الأدوات والأطر الداخلية لتبسيط عملية تطوير التعلم الآلي.

البنية التحتية للتعلم الآلي القائمة على وحدات معالجة الرسوميات (GPU)

البنية التحتية القائمة على السحابة: تدير Cookpad بنيتها التحتية للتعلم الآلي في السحابة، باستخدام AWS بشكل أساسي، مع بعض الموارد في GCP. تم تصميم البنية التحتية للتعامل مع حجم ومتطلبات قاعدة مستخدمي Cookpad العالمية.
معالجة البيانات واستخراج الميزات: يتم استيعاب المحتوى والإجراءات التي ينشئها المستخدمون عبر Kafka ومعالجتها في خدمة تدفق. يتم حساب الميزات وتخزينها في متجر ميزات Amazon SageMaker، مع استخدام Amazon Redshift كمستودع للبيانات.
هندسة الخدمات المصغرة وطبقة الاستدلال: تم بناء منصة التعلم الآلي الخاصة بـ Cookpad على هندسة خدمات مصغرة (microservice architecture) منتشرة على Kubernetes. تتم المعالجة المسبقة داخل الخدمات المصغرة، ويُستخدم Nvidia Inference Server للاستدلال في التعلم الآلي.
منصة تجارب مهندسي التعلم الآلي: توفر Cookpad منصة تجريبية لمهندسي التعلم الآلي، بما في ذلك خوادم Jupyter لاستكشاف البيانات وتدريب النماذج. يُستخدم MLflow لتتبع التجارب وسجل النماذج.
نشر النماذج والأتمتة: يسجل مهندسو التعلم الآلي النماذج في MLflow، وتتولى عمليات الأتمتة تحويل ونشر النماذج على Nvidia Inference Server (Triton).
حالات الاستخدام الكثيفة لوحدات معالجة الرسوميات (GPU): تدعم البنية التحتية لوحدات معالجة الرسوميات (GPU) في Cookpad نماذج متنوعة، بما في ذلك النماذج متعددة اللغات ومُضمّنات الصور. تستخدم النماذج متعددة اللغات شبكات عصبية كبيرة، بينما تتطلب مُضمّنات الصور قدرة حاسوبية عالية. يتم نشر النماذج على وحدات معالجة الرسوميات (GPUs) بشكل افتراضي باستخدام Nvidia Triton Inference Server.

النشر الآلي للنماذج في Cookpad

Jupyter Hub للتجارب: يتمتع مهندسو التعلم الآلي في Cookpad بإمكانية الوصول إلى بيئة Jupyter Hub مُدارة حيث يمكنهم إجراء تجاربهم. يدعم الفريق نواة (kernels) متنوعة داخل Jupyter Hub لأغراض التجريب.
نشر النماذج في MLflow: بمجرد أن يطور مهندس تعلم الآلة نموذجًا ويحقق نتائج مرضية، يمكنه نشر النموذج في MLflow، الذي يعمل كسجل للنماذج ومنصة لتتبع التجارب.
أتمتة شاملة: طبقت Cookpad مسار عمل آليًا شاملاً لنشر النماذج. يتولى مسار الأتمتة الأمر من سجل نماذج MLflow وينقل النموذج بسلاسة عبر عملية النشر.
أطر العمل الخلفية المدعومة: يدعم مسار الأتمتة الخاص بـ Cookpad مجموعة فرعية من أطر العمل الخلفية، بما في ذلك PyTorch وTensorFlow وONNX. تُستخدم هذه الأطر لتحسين النماذج ونشرها بفعالية.
الاعتماد الافتراضي على PyTorch وTensorFlow: بينما تدعم Cookpad أطر عمل خلفية متعددة، يميل الفريق إلى الاعتماد بشكل افتراضي على PyTorch وTensorFlow لتطوير النماذج ونشرها نظرًا لاستخدامهما الواسع وتوافقهما مع البنية التحتية.

📌

نشر النماذج الآلي باستخدام MLflow ودعم الواجهة الخلفية:
عندما يجري مهندس تعلم الآلة تجارب في Cookpad، يكون لديه وصول إلى مركز Jupyter مُدار حيث يمكنه تشغيل تجاربه واستخدام نواة (kernels) مختلفة. بمجرد تطوير نموذج، يقوم بنشره في MLflow، الذي يعمل كسجل للنماذج. ومن هناك، تكون العملية مؤتمتة بالكامل.
يدعم مسار الأتمتة الخاص بـ Cookpad قائمة من الواجهات الخلفية المتوافقة مع كل من MLflow وخادم Triton للاستدلال. تشمل الواجهات الخلفية المدعومة PyTorch وTensorFlow وOnnx وغيرها. يتولى مسار الأتمتة نشر النماذج المسجلة، بالاستفادة من الواجهة الخلفية المناسبة بناءً على التوافق. عادةً ما تكون الخيارات الافتراضية للنشر هي PyTorch أو TensorFlow، مع استخدام Onnx لتحسين شبكات عصبية معينة.

تكامل متجر الميزات وتكوينه للاستدلال عبر الإنترنت

في Cookpad، يستخدم علماء البيانات متجر الميزات لكل من التجارب والاستدلال عبر الإنترنت. أثناء التجارب، لديهم وصول دون اتصال للاستعلام عن الميزات الموجودة لتدريب النماذج. عند استكشاف ميزات جديدة، يتم سحب البيانات من مستودع البيانات، وتحويلها، واستخدامها لإنشاء ميزات جديدة. بمجرد رضاهم عن أداء النموذج، يقوم علماء البيانات ببساطة بإنشاء مجموعة ميزات جديدة في متجر الميزات من خلال مخطط المستودع.

تتدفق البيانات من مستودع البيانات إلى متجر الميزات عبر Kafka، مما يسمح بتدفق الميزات التي تم إنشاؤها حديثًا. لتمكين الاستدلال عبر الإنترنت، يوسع علماء البيانات خدمة البث لاستهلاك الأحداث ذات الصلة وإجراء التحويلات. أثناء تسجيل النموذج، يحدد علماء البيانات بنية النموذج والميزات المستخدمة، ويتم تكوين رمز التحويل لاسترداد ميزات محددة بالاسم.

يضمن هذا التكامل بين متجر الميزات ومستودع البيانات وخدمة البث دمج الميزات بسلاسة في عملية الاستدلال عبر الإنترنت، مما يوفر مرونة للتعديلات والتحديثات عند الحاجة.

مصادر البيانات وإدارة الميزات أثناء تجارب النماذج

أثناء تجارب النماذج، يتوفر لعلماء البيانات في Cookpad خياران لتوفير البيانات. إذا كانت الميزات المطلوبة متوفرة بالفعل في متجر الميزات، فيمكنهم الاستعلام عنها مباشرة دون اتصال. ومع ذلك، عند استكشاف ميزات جديدة، يصلون إلى مستودع البيانات، ويستردون البيانات، وينشئون التحويلات اللازمة لتدريب النماذج.

يعد دمج الميزات الجديدة في متجر الميزات أمرًا مباشرًا. يقدم علماء البيانات طلب سحب (PR) يتضمن تفاصيل مخطط الميزة، وتتولى الأتمتة إنشاء مجموعة الميزات باستخدام استدعاءات AWS. يتم بث البيانات المستخدمة في مستودع البيانات عبر Kafka لتمكين الاستدلال عبر الإنترنت باستخدام الميزات التي تم إنشاؤها حديثًا. يتم توسيع خدمة البث الحالية لاستهلاك الأحداث وتطبيق التحويلات، مما يضمن تدفق الميزات إلى متجر الميزات.

للحفاظ على تكوين الميزات، يدرج علماء البيانات المعلومات ذات الصلة عند تسجيل النموذج في MLflow. يصل رمز التحويل إلى متجر الميزات مباشرة، ومن خلال التكوين، يحدد علماء البيانات أسماء الميزات المطلوبة. تتيح هذه المرونة سهولة تعديل تكوينات الميزات حسب الحاجة.

استخدام سير عمل Argo لإعادة تدريب نماذج التعلم الآلي

إن عملية دمج مسارات إعادة التدريب في البنية المعمارية قيد التنفيذ حاليًا في كوكباد. بينما كان التركيز على التكرار السريع لميزات التعلم الآلي الجديدة، لا يزال تطوير مسارات إعادة التدريب الناضجة التي تحل محل النماذج أو تعيد تدريبها على أساس يومي أو أسبوعي قيد التطوير. لا تزال أنظمة التوصية في كوكباد في مرحلة مبكرة، ويسمح النهج التكراري بالتجريب السريع واستبدال النماذج من خلال اختبار A/B.

على الرغم من وجود إمكانية لبناء مسارات عمل قابلة للتكرار باستخدام سير عمل Argo، إلا أن كوكباد تقر بأنها في المراحل الأولى من هذا التنفيذ. إنه ليس حلاً مثاليًا بعد، وقابلية تكرار مسارات العمل تمثل تحديًا يعالجه الفريق بنشاط.

البدء بتجارب أصغر وأبسط وأتمتة مكونات مسار العمل الحيوية يتيح بناء بنية معمارية مدروسة جيدًا. أعطت كوكباد الأولوية لأتمتة الاستدلال، إدراكًا لأهميته البالغة، وتخطط للتركيز على مسارات إعادة التدريب في المستقبل. يعد هذا النهج المنظم والمتزايد لبناء المنصة تجربة تعليمية قيمة للجمهور، ويسلط الضوء على فعالية المنهجية.

غالبًا ما يؤدي محاولة بناء نظام شامل من البداية إلى مكونات غير ضرورية أو غير مناسبة. يقترح استكشاف بدائل لسير عمل Argo لمسارات العمل القابلة للتكرار، مثل استخدام غلاف Python أو أداة مختلفة تتوافق بشكل أفضل مع إلمام مهندسي التعلم الآلي ببيانات Kubernetes وتتناسب جيدًا مع ممارسات CI/CD الخاصة بهم.

خادم استدلال Triton من Nvidia وفوائده

قرار استخدام خادم استدلال Triton: اختارت كوكباد خادم استدلال Triton لمعالجة تحديات تشغيل الاستدلال على وحدات معالجة الرسوميات (GPUs) داخل Kubernetes، مما يحسن التكلفة والأداء مع مراعاة التوازن بين التكلفة والقيمة التجارية.
فوائد خادم استدلال Triton: يوفر خادم استدلال Triton تحسينًا للتكلفة عن طريق تجميع النماذج، ومشاركة موارد وحدات معالجة الرسوميات (GPU)، وتوجيه الطلبات بذكاء لتقليل التكاليف. يعزز الأداء عن طريق نشر النماذج افتراضيًا على وحدات معالجة الرسوميات (GPUs)، مما يؤدي إلى استدلال أسرع. يحسن تجربة المستخدم لمهندسي التعلم الآلي من خلال تبسيط النشر عبر سطر واحد في خريطة التكوين واسترجاع النماذج وتحميلها بسلاسة.

من خلال الاستفادة من خادم استدلال Triton من Nvidia، تحقق كوكباد تحسينًا في التكلفة، وتعزز أداء استدلال النماذج، وتبسط عملية النشر لمهندسي التعلم الآلي.

دمج سجل نماذج MLflow مع خادم استدلال Triton

قامت كوكباد بدمج سجل نماذج MLflow وخادم استدلال Triton لتبسيط نشر النماذج على نطاق واسع. وإليك كيف حققوا ذلك:

تخزين نماذج MLflow: عند تسجيل نموذج في MLflow، يتم تخزينه في حاوية S3 بهيكل مجلد محدد بناءً على اتفاقيات MLflow. يمكن أن يكون النموذج بتنسيق TensorFlow أو PyTorch، ولكل منهما هيكله الخاص.
هيكل نموذج Triton: يتوقع خادم استدلال Triton هيكل مجلد مختلفًا لتحميل النماذج، بما في ذلك ملفات التكوين. يتطلب هذا الاختلاف بعض التعديلات لنقل نموذج من MLflow إلى Triton.
نشر Sidecar: طورت كوكباد مكونًا جانبيًا (sidecar) يتم نشره جنبًا إلى جنب مع خادم استدلال Triton. يستعلم هذا الحاوية الصغيرة المكتوبة بلغة بايثون واجهة برمجة تطبيقات MLflow كل دقيقة لتحديد أي نماذج مسجلة حديثًا. كما يستعلم واجهة برمجة تطبيقات Triton للتحقق من النماذج المحملة حاليًا.
توحيد النماذج: عند اكتشاف نموذج جديد في MLflow غير موجود في Triton، يقوم المكون الجانبي باسترداد ملف النموذج من حاوية S3. ويقوم بإجراء عمليات نقل الملفات الضرورية ويتأكد من توافق هيكل المجلد مع توقعات Triton.
تحميل النماذج: يقوم المكون الجانبي بعد ذلك بوضع ملفات النموذج في المجلد المناسب ضمن وحدة تخزين Triton ويستدعي واجهة برمجة تطبيقات Triton لتحميل النموذج. يتم تحميل النموذج بسلاسة في خادم استدلال Triton دون الحاجة إلى إعادة تشغيل الخادم أو تدخل يدوي.

من خلال الاستفادة من هذا التكامل، تمكّن Cookpad من نشر النماذج بكفاءة من MLflow إلى خادم استدلال Triton، مما يتيح قابلية التوسع والتحديثات السهلة دون تعطيل عمليات الاستدلال الجارية.

الاستفادة من نماذج اللغة الكبيرة (LLMs) والذكاء الاصطناعي التوليدي (Gen AI) في Cookpad

تستكشف Cookpad بنشاط حالات الاستخدام والتطبيقات المحتملة لتقنية نماذج اللغة الكبيرة (LLMs) والذكاء الاصطناعي التوليدي (Gen AI) ضمن منصتها. بينما لا تزال التطبيقات المحددة في مرحلة الاستكشاف، إليك بعض المجالات التي تتصور Cookpad الاستفادة فيها من هذه التطورات:

تبسيط إنشاء الوصفات: تهدف Cookpad إلى تقليل العوائق أمام المستخدمين لإنشاء الوصفات من خلال الاستفادة من نماذج اللغة الكبيرة (LLMs). على سبيل المثال، يمكن للمستخدمين استخدام تطبيقات التعرف على الصوت على هواتفهم الذكية لإملاء تعليمات الوصفة أثناء الطهي. ثم يتم تمرير النصوص عبر نماذج اللغة الكبيرة (LLMs) لإنشاء نص وصفة منسق، مما يقلل الجهد المطلوب لتوثيق الوصفات بدقة وكفاءة.
التعرف الذكي على المكونات: تتصور Cookpad دمج قدرات الذكاء الاصطناعي التوليدي (Gen AI) لتمكين المستخدمين من التقاط صورة للمكونات الموجودة في ثلاجتهم أو مخزنهم والاستفسار عن اقتراحات الوصفات. سيقوم نظام الذكاء الاصطناعي بتحديد المكونات المعترف بها وتقديم توصيات بالوصفات باستخدام نظام بحث Cookpad.
مساعدة الوصفات وتخصيصها: باستخدام نماذج اللغة الكبيرة (LLMs)، تخطط Cookpad لتطوير ميزات تقدم مساعدة في الوصفات وتخصيصها. على سبيل المثال، يمكن للمستخدمين طلب استبدال المكونات أو تعديلها لتناسب تفضيلاتهم أو المكونات المتاحة لديهم. سيوفر النظام القائم على نماذج اللغة الكبيرة (LLMs) اقتراحات بديلة ويبسط عملية الطهي.

خلال تطوير وتنفيذ حالات الاستخدام هذه، تولي Cookpad الأولوية لخصوصية بيانات المستخدم والامتثال.

يجب علينا اتباع تلك العملية والتأكد من أنها متوافقة مع متطلبات الأمان.

تكييف بنية MLOps لتناسب احتياجاتك

عندما يتعلق الأمر ببناء مكدس استدلال في الوقت الفعلي باستخدام MLOps، لا يوجد نهج واحد يناسب الجميع. يؤكد خوسيه نافارو على أهمية تكييف البنية بناءً على المتطلبات المحددة ومستوى نضج ممارسة التعلم الآلي (ML) داخل الشركة. إليك بعض الأفكار الرئيسية المتعلقة بالمكونات الأساسية لبنية MLOps:

فهم مستوى النضج: تلعب الحالة الحالية لتطبيق التعلم الآلي دورًا حاسمًا في تحديد المكونات الأساسية. إذا كانت الشركة في مرحلة مبكرة مع تركيز قوي على التجريب وتسليم النماذج، فقد يكون التركيز على تسليم النموذج وبناء طبقة الاستدلال. من ناحية أخرى، بالنسبة للشركات التي لديها نماذج تعلم آلي قيد الإنتاج بالفعل وحاسمة للأعمال، تصبح خطوط الأنابيب القابلة لإعادة الإنتاج ومخازن الميزات وقابلية مراقبة النموذج مكونات حيوية.
تجنب التعقيد المفرط: يقترح خوسيه تجنب الميل إلى إضافة أدوات أو مكونات غير ضرورية إلى مكدس MLOps. بدلاً من ذلك، من المهم التركيز على التبسيط وحل المشكلات عن طريق الطرح. من خلال إزالة العناصر غير الأساسية أو تبسيط المشكلة، يمكن للشركات غالبًا الوصول إلى حل بشكل أسرع. يتيح هذا النهج للفرق إعطاء الأولوية لبناء القيمة وتقييم تأثير مبادرات التعلم الآلي الخاصة بهم قبل استثمار الوقت في أدوات معقدة.
اعتماد الأدوات المرن: بدلاً من اتباع قائمة محددة مسبقًا من المتطلبات الأساسية، يوصي خوسيه بتقديم الأدوات حسب الحاجة. ابدأ بتحديد التحديات والمتطلبات الأساسية، ثم قم بإدخال الأدوات التي تلبي تلك الاحتياجات المحددة تدريجيًا. على سبيل المثال، بدلاً من قضاء وقت طويل في البحث ودمج مخزن ميزات، فكر في بناء مخزن سريع للقيم الرئيسية باستخدام خدمة مثل DynamoDB لبدء المشروع وتقييم قيمته. يتيح هذا النهج التكراري التحقق الأسرع من مبادرات التعلم الآلي مع تقليل التعقيد غير الضروري.

اقرأ مدوناتنا السابقة في سلسلة True ML Talks:

‍

True ML Talks #11 - LLMs, LLMops and Generative AI

Deep dive into LLMs, LLMops, Generative AI and ChatGPT. We talk with Micheal, CTO at GreenHouse about the trends in the Machne Learning Space.

TrueFoundry Blog TrueFoundry

تابع مشاهدة سلسلة TrueML على يوتيوب ومتابعة قراءة مدونة TrueML ..

TrueFoundry هي منصة نشر تعلم الآلة كخدمة (PaaS) تعمل على Kubernetes لتسريع سير عمل المطورين، مع منحهم مرونة كاملة في اختبار ونشر النماذج، وضمان الأمان والتحكم الكاملين لفريق البنية التحتية. من خلال منصتنا، نمكّن فرق تعلم الآلة من نشر ومراقبة النماذج في 15 دقيقة بموثوقية 100% وقابلية للتوسع، والقدرة على التراجع في ثوانٍ - مما يسمح لهم بتوفير التكاليف وإطلاق النماذج إلى الإنتاج بشكل أسرع، وبالتالي تحقيق قيمة تجارية حقيقية.

Discuss About your ML Pipeline Challenges with us here

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now