Unite AI: نيكُنج باجاج، المؤسس المشارك والرئيس التنفيذي لشركة TrueFoundry – سلسلة مقابلات

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
نيكونج باجاج هو المؤسس المشارك والرئيس التنفيذي لشركة TrueFoundry، حيث يقود رؤية الشركة واستراتيجيتها حول بناء منصات ذكاء اصطناعي موثوقة ومناسبة للمؤسسات. بفضل خبرته في تطوير المنتجات والفرق التقنية، يركز على تمكين المؤسسات من نشر وتشغيل أنظمة الذكاء الاصطناعي بأمان وكفاءة. يكتب عن تبني الذكاء الاصطناعي في المؤسسات، واستراتيجية منصات الذكاء الاصطناعي، والاتجاهات الناشئة في الذكاء الاصطناعي الإنتاجي.
TrueFoundry هي منصة بنية تحتية للذكاء الاصطناعي للمؤسسات تساعد المنظمات على بناء ونشر وإدارة وتوسيع تطبيقات التعلم الآلي والذكاء الاصطناعي التوليدي في بيئات تعتمد على Kubernetes، سواء كانت سحابية أو محلية أو هجينة، مع ضوابط قوية للحوكمة والأمان والتكلفة. تجمع المنصة بين بوابة للذكاء الاصطناعي لمركزة الوصول إلى النماذج ونماذج اللغات الكبيرة (LLMs) وسير عمل الوكلاء، مع أدوات لضبط النماذج ونشرها ومراقبتها والتحجيم التلقائي، بهدف تبسيط عمليات التعلم الآلي (MLOps) وتسريع تحقيق القيمة لفرق علوم البيانات والهندسة. يركز نهج TrueFoundry الذي يضع المطور أولاً والمستقل عن السحابة على الامتثال المؤسسي والمرونة، مما يمكن الفرق من إدارة أعباء عمل الذكاء الاصطناعي المعقدة دون الارتباط بمورد معين، مع فرض معايير مثل SOC 2 وHIPAA وITAR.
لقد عملت في مجال أبحاث التعلم الآلي، والذكاء الاصطناعي الإنتاجي في فيسبوك، وأنظمة التوصية واسعة النطاق قبل تأسيس TrueFoundry — ما هي التجارب التي دفعتك بشكل مباشر نحو بناء شركة بنية تحتية للذكاء الاصطناعي للمؤسسات، وما هي المشكلة التي شعرت أنها لم تُعالج في ذلك الوقت؟
في ميتا، كنا نعتبر التعلم الآلي حالة خاصة من البرمجيات، والذكاء الاصطناعي التوليدي حالة خاصة من التعلم الآلي، مما أدى إلى مكدس عمودي يتكون من البرمجيات في الأسفل، والتعلم الآلي في المنتصف، والذكاء الاصطناعي التوليدي في الأعلى. في هذا الإعداد، إذا كنت مطور تعلم آلي، فإن النماذج التي أبنيها تتبع نفس نمط النشر مثل بقية البرمجيات، مما يجعل توسيع الأنظمة أمرًا مباشرًا للغاية.
لكن معظم الشركات كانت تنشر مكدسات متوازية، مما يعني أن لديها مكدسات منفصلة للبرمجيات والتعلم الآلي والذكاء الاصطناعي التوليدي. وبمجرد وجود هذه المكدسات المتوازية، يصبح التوسع أكثر تعقيدًا بسبب عمليات التسليم المطلوبة بين عالم التعلم الآلي وعالم البرمجيات.
لطالما عمل فريقنا عند تقاطع بناء نماذج التعلم الآلي والبنية التحتية للتعلم الآلي، لذلك كان لدينا وجهة نظر فريدة مفادها أنه يمكننا جلب مكدسات عمودية مماثلة إلى المؤسسات وتكييفها لتلبية متطلباتها الخاصة. كان لدينا أيضًا فرضية في أواخر عام 2021 بأن التعلم الآلي كان يقترب من نقطة تحول، وعندما يحدث ذلك، ستحتاج المزيد من الشركات إلى مكدس متكامل عموديًا لنشر هذه الأنظمة وتوسيع نطاقها بفعالية. هذا ما قادنا في النهاية إلى تأسيس TrueFoundry، وكانت فرضيتنا صحيحة. تسارع تبني الذكاء الاصطناعي بعد إطلاق ChatGPT في أواخر عام 2022.
مع انتقال أنظمة الذكاء الاصطناعي من مرحلة التجريب إلى العمليات اليومية، ما الذي تغير في طريقة تفكير المؤسسات حول الموثوقية والفشل؟
المخاطر مع الذكاء الاصطناعي التوليدي أعلى بكثير مقارنة بأنظمة التعلم الآلي التقليدية. ومع انتقال هذه الأنظمة إلى الإنتاج، تتعامل المؤسسات مع مستوى أعلى بكثير من الغموض وعدم الحتمية لأن نماذج اللغات الكبيرة (LLMs) عشوائية بطبيعتها. وتضيف الأنظمة الوكيلة المبنية عليها المزيد من الغموض.
بالإضافة إلى ذلك، لم تعد حالات الفشل ثنائية. فبدلاً من أن تفشل الأنظمة ببساطة أو لا تفشل، تظهر العديد من المشكلات كأعطال جزئية أو تدهور صامت. قد تستجيب الأنظمة بزمن استجابة أعلى، أو جودة متدهورة، أو سلوك غير صحيح بمرور الوقت. في كثير من الحالات، يمكن أن يكون اكتشاف هذه التدهورات أصعب، وأحيانًا تكون أكثر ضررًا من الانقطاع الكامل.
تحتاج المؤسسات إلى التفكير في الموثوقية ليس فقط من حيث وقت التشغيل، ولكن أيضًا من حيث تدهور الأداء بمرور الوقت.
تم إطلاق TrueFailover وسط موجة من الانقطاعات البارزة لخدمات السحابة والذكاء الاصطناعي. ما هي الأحداث الأخيرة التي أوضحت أن موثوقية الذكاء الاصطناعي قد تحولت من "ميزة إضافية" إلى متطلب معماري أساسي؟
تأثر أحد عملائنا في مجال الرعاية الصحية، الذي يعالج طلبات المرضى الحساسة للوقت والمتعلقة بالوصفات الطبية في الوقت الفعلي، بانقطاع ناتج عن فشل في النموذج. تولد سير عملهم آلاف الدولارات من الإيرادات في الثانية، وقد عطل الانقطاع بعضًا من هذه العمليات الحيوية. وبصفتنا عميلاً مبكرًا لـ TrueFailover، تمكنا من المساعدة في التعافي السريع، وتم احتواء التأثير.
تثير حوادث كهذه سؤالاً مهمًا. مع استمرار تزايد أهمية أنظمة الذكاء الاصطناعي التوليدي، لماذا لا تزال عمليات الاسترداد يدوية إلى حد كبير؟ لقد عزز ذلك فكرة أنه يجب بناء الأنظمة بافتراض حدوث الأعطال، ويجب تصميمها لتصحيح نفسها تلقائيًا. يجب أيضًا بناء الموثوقية في مكدس الذكاء الاصطناعي نفسه من خلال استخدام بوابات الذكاء الاصطناعي، والتي يمكن أن توفر توجيهًا مركزيًا، وقابلية للمراقبة، وضوابط حماية، وتبديلًا ذكيًا للنماذج عبر الموفرين.
لا يزال العديد من انقطاعات الذكاء الاصطناعي يُنظر إليها على أنها مجرد عقبات فنية. أين ترى التكاليف الاقتصادية والبشرية الحقيقية تبدأ في الظهور عندما تتعطل أنظمة الذكاء الاصطناعي؟
لقد تطور الذكاء الاصطناعي للمؤسسات لدرجة أن هذه العقبات لم تعد تؤثر فقط على سير العمل الداخلي. اليوم، تؤثر الانقطاعات والتدهورات على التصور العام والأرباح بشكل مباشر وفوري، لأن حالات الاستخدام الإنتاجية أصبحت الآن موجهة للعملاء. هذا التحول من الاختبار الداخلي إلى التطبيقات عالية المخاطر والموجهة للجمهور هو السبب وراء تزايد الطلب على اهتمام وإشراف المديرين التنفيذيين.
مع تعمق دمج أنظمة الذكاء الاصطناعي في سير العمليات التشغيلية، لم تعد الانقطاعات مجرد مشكلات فنية. بل أصبحت لها عواقب مباشرة على الأعمال والعملاء والسمعة.
في البيئات الحيوية مثل الصيدليات، وعمليات الرعاية الصحية، أو دعم العملاء، ما مدى سرعة تصاعد تعطل الذكاء الاصطناعي ليتحول إلى مخاطر تشغيلية أو تتعلق بالسمعة؟
في البيئات الحيوية، يحدث التصعيد على الفور تقريبًا لأن هذه الأنظمة تدعم سير عمل في الوقت الفعلي وحساس للوقت. حتى الانقطاع القصير يمكن أن يوقف العمليات الحيوية، أو يؤخر تقديم الخدمة، أو يعطل الأنظمة اللاحقة التي تعتمد على تلك المخرجات، مما يخلق تأثيرات تشغيلية متتالية عبر المؤسسة.
في قطاعات مثل الرعاية الصحية، يمتد التأثير إلى ما هو أبعد من التعطيل التشغيلي ليشمل تجربة العملاء ونتائج الخدمة. إذا كان المريض غير قادر على الحصول على وصفته الطبية في الوقت المحدد، فقد تكون هناك عواقب حقيقية. هذه ليست مشكلة للمريض فحسب، بل يمكن أن تلحق الضرر بسمعة الصيدلية أو مقدم الرعاية الصحية. في البيئات الحيوية حيث الثقة عامل أساسي، من الأهمية بمكان أن تظل الأنظمة متصلة بالإنترنت. لهذا السبب تدرك المؤسسات بشكل متزايد أنه يجب تصميم أنظمة الذكاء الاصطناعي بافتراض حدوث الأعطال وأن آليات الاسترداد تحتاج إلى التفعيل تلقائيًا لتقليل المخاطر.
لقد ذكرت أن العديد من الفرق تصمم للقدرة التشغيلية بدلاً من الاستمرارية. لماذا تعتقد أن المرونة لم تُعطَ الأولوية تاريخياً في تصميم أنظمة الذكاء الاصطناعي؟
يعود هذا بشكل كبير إلى الحوافز داخل المؤسسات. فالقدرات الجديدة مرئية ومثيرة، وتفتح آفاقًا للعروض التوضيحية والميزات وإمكانيات المنتجات التي يمكن للقيادة رؤيتها على الفور.
الاستمرارية، بحكم تعريفها، تكون غير مرئية عندما تسير الأمور على ما يرام. ولهذا السبب، تميل أنظمة المكافآت إلى الانحياز نحو طرح ميزات جديدة بدلاً من ضمان عدم حدوث أعطال. ونتيجة لذلك، غالبًا ما تستثمر المؤسسات بشكل غير متناسب في تطوير القدرات بدلاً من هندسة المرونة.
مع اعتماد الشركات بشكل متزايد على النماذج وواجهات برمجة التطبيقات الخارجية، ما هي نقاط الضعف الجديدة التي تُدخل إلى مكدس الذكاء الاصطناعي والتي قد لا يدركها القادة تمامًا بعد؟
نماذج اللغات الكبيرة (LLMs) هي موارد مشتركة بطبيعتها، ولا تمتلكها الشركات كما تمتلك البنية التحتية التقليدية. بالإضافة إلى ذلك، تعمل الأنظمة الهامة والحيوية للأعمال في الشركات على أنظمة خارجية لم يتم اختبارها بالكامل بعد. تتطور نماذج اللغات الكبيرة نفسها بسرعة، مما يعني أنه لا يمكن تحميل مزود النموذج المسؤولية عن أمور مثل زمن الاستجابة أو انخفاض طفيف في أداء النموذج، لأنهم يكررون أبحاثهم بسرعة كبيرة.
نظرًا لأن نماذج اللغات الكبيرة هي موارد مشتركة، يمكن أن يرتفع زمن الاستجابة لأن مستهلكًا آخر لهذه النماذج يتخذ إجراءً معينًا. هناك العديد من نقاط الفشل هذه التي تظهر بسبب الطبيعة الأساسية لنماذج اللغات الكبيرة، والشركات في هذا العالم الجديد ببساطة لا تملك السيطرة الكاملة. بدون سيطرة كاملة، أفضل ما يمكن للشركة فعله هو إنشاء ما يكفي من التكرار في الأنظمة لتصميم نظام مرن.
دون التركيز على منتجات محددة، كيف يجب على المؤسسات إعادة التفكير في بنية الذكاء الاصطناعي لافتراض الفشل بدلاً من التعامل مع الانقطاعات كحالات نادرة أو استثنائية؟
يجب على المؤسسات العودة إلى المبادئ الأساسية لتصميم الأنظمة الموزعة. لقد بُنيت أنظمة البرمجيات على افتراض أن مكونات الشبكة والآلات ستفشل، وأن منطقة بأكملها قد تتعطل.
يجب ألا تختلف أنظمة الذكاء الاصطناعي. يجب أن نفترض أن مزودي النماذج سيعانون من مشكلات في زمن الاستجابة، أو تدهور في الأداء، أو انقطاعات، وندمج التكرار لتبقى التطبيقات مرنة عبر سيناريوهات الفشل المختلفة.
هل تتوقع أن تصبح مرونة الذكاء الاصطناعي عاملاً حاسمًا في اختيار المنصات والموردين، على غرار كيفية تأثير وقت التشغيل والتكرار في قرارات البنية التحتية السحابية؟
مع انتقال المزيد من أنظمة الذكاء الاصطناعي إلى مرحلة الإنتاج، ستصبح المرونة أمرًا أساسيًا لا غنى عنه. إذا لم يتمكن المورد من عرض رسوماته ومقاييسه حول وقت التشغيل والمرونة الكلية، فلن يتم النظر فيه حتى. بمجرد أن تصبح المرونة توقعًا أساسيًا عبر الموردين، ستتحول العوامل الحاسمة نحو تجربة المستخدم، وتحسين الأداء، وإمكانية المراقبة، وقدرات المنتج عالية المستوى. بمرور الوقت، ستصبح مكونات مثل بوابة الذكاء الاصطناعي (AI Gateway) وقدرات التبديل التلقائي عند الفشل (automated failover) عناصر أساسية للبنية التحتية للذكاء الاصطناعي في الشركات.
بالنظر إلى المستقبل، ماذا يعني حقًا الذكاء الاصطناعي "الجاهز للإنتاج" في عالم يُتوقع فيه أن يكون الذكاء الاصطناعي متاحًا باستمرار، وليس مفيدًا من حين لآخر فقط؟
يجب أن تكون أنظمة الذكاء الاصطناعي الجاهزة للإنتاج قابلة للمراقبة، قابلة للتحكم، وقابلة للاستعادة. يجب تحقيق هذه الشروط الثلاثة جميعها.
لكي يكون الذكاء الاصطناعي الإنتاجي قابلاً للمراقبة، تحتاج الفرق إلى رؤية عميقة لسلوك النموذج، وزمن الاستجابة، ومعدلات الأخطاء، واستخدام الرموز، والانحراف، وأنماط الفشل. بدون مراقبة قوية، يصبح من الصعب جدًا اكتشاف التدهورات قبل أن يبدأ المستخدمون في ملاحظتها.
لكي تكون الأنظمة قابلة للتحكم، يشمل ذلك تشكيل حركة المرور، وتحديد المعدل، والضوابط الوقائية، وتطبيق السياسات، والتوجيه الذكي عبر النماذج والمزودين. هنا تصبح بوابة الذكاء الاصطناعي (AI Gateway) أساسية، حيث تعمل كلوحة تحكم مركزية تفرض الضوابط الوقائية، وتوفر حوكمة متسقة، وتتيح التبديل الديناميكي للنماذج عند انخفاض الأداء أو الموثوقية.
وأخيرًا، عندما يتعلق الأمر بالقدرة على الاستعادة، يجب بناء الأنظمة بافتراض أن المكونات يمكن أن تتعطل جزئيًا أو كليًا، سواء كان ذلك بسبب انقطاعات المزود، أو تدهور جودة النموذج، أو حدود المعدل، أو المدخلات غير المتوقعة من الجهات الخبيثة. يجب أن تكون آليات التبديل التلقائي عند الفشل (automated failover) والشفاء الذاتي جزءًا أصيلًا من البنية، وليست أدلة تشغيل يدوية يتم تفعيلها بعد حدوث خطأ ما.
هذا هو الاتجاه الذي نعمل عليه في TrueFoundry. الموردون الذين يحددون جاهزية الإنتاج بهذه الطريقة، من خلال الجمع بين المراقبة والتحكم المركزي والاستعادة التلقائية، سيكسبون ثقة العملاء على المدى الطويل وسيتمكنون من الاستمرار في حل المشكلات الجديدة فور ظهورها.
نبذة عن TrueFoundry:
توفر TrueFoundry بوابة ذكاء اصطناعي على مستوى المؤسسات تتضمن بوابة LLM، وبوابة MCP، وبوابة الوكيل (Agent Gateway)، مما يمكّن الشركات من الاتصال الآمن ومراقبة وإدارة الوصول إلى النماذج والأدوات والضوابط الوقائية والوكلاء من لوحة تحكم واحدة. تتيح بوابة الذكاء الاصطناعي أعباء عمل وكيلية آمنة وفعالة ومستقبلية من خلال اتصالات موحدة وقابلة للتركيب عبر المزودين.
بالإضافة إلى طبقة البوابة، تمكّن TrueFoundry المؤسسات من نشر وتدريب نماذج LLM مخصصة على وحدات معالجة الرسوميات (GPUs)، واستضافة خوادم MCP، وتشغيل وكلاء مخصصين — كل ذلك من خلال واجهة Kubernetes الأصلية. وهي تدعم عمليات التثبيت المحلية (on-premise) وفي السحابة الخاصة الافتراضية (VPC) لكل من بوابة الذكاء الاصطناعي وبيئات النشر. تضمن TrueFoundry الامتثال على مستوى المؤسسات لمعايير SOC 2 و HIPAA و ITAR. مع ميزات التوسع التلقائي والتخزين المؤقت وتحسين الموارد المضمنة، تمكّن TrueFoundry المؤسسات من بناء ونشر وإدارة أنظمة الذكاء الاصطناعي بشكل آمن وفعال وعلى مكدس آمن للمستقبل. لمعرفة المزيد، تفضل بزيارة truefoundry.com
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI












.jpeg)
.jpeg)











