تسمية البيانات البرمجية وتدريب نماذج اللغة الكبيرة (LLMs) في Snorkel.ai

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
مقدمة
في أحدث حلقات TrueML Talks، يتعمق نيكُنج، الشريك المؤسس في True Foundry، في محادثة ثرية مع فينسنت، أحد الشخصيات المؤسسة في Snorkel AI. كشركة تجد نفسها في قلب المشهد المتطور للذكاء الاصطناعي، تقدم رحلة Snorkel AI من الأوساط الأكاديمية إلى قيادة تطوير الذكاء الاصطناعي المرتكز على البيانات رؤى عميقة. يشارك فينسنت تجاربه من الأيام الأولى في مختبر ستانفورد للذكاء الاصطناعي إلى قيادة المنتجات والتصميم في Snorkel AI، مسلطًا الضوء على تعقيدات التعلم الآلي (ML)، ونماذج اللغات الكبيرة (LLMs)، وتأثير الذكاء الاصطناعي التوليدي على الصناعة. تناولنا المواضيع التالية:
- تطور Snorkel AI
- تطوير الذكاء الاصطناعي المرتكز على البيانات
- الانتقال إلى قيادة المنتجات
- الذكاء الاصطناعي التوليدي والنماذج المفتوحة
- نصائح مهنية لعشاق الذكاء الاصطناعي
بداية Snorkel AI
يروي فينسنت عن جذور Snorkel AI كمشروع أكاديمي يركز على الإشراف الضعيف والتصنيف البرمجي. وقد وضع هذا النهج الأساس لما أصبحت عليه Snorkel AI اليوم في توجيه الشركات لتطوير تطبيقات الذكاء الاصطناعي. تُظهر رحلة فينسنت من طالب دراسات عليا إلى قائد في Snorkel AI كيف يتحول البحث الأكاديمي القوي إلى شركة ناشئة وما هي Snorkel اليوم. في ستانفورد، تعاونوا مع الأطباء وأنشأوا مجموعات بيانات مخصصة لهم، مما ساعدهم في الحصول على حالة استخدام واقعية لبحوثهم.
كما يتحدث عن أيامه في Y-Combinator، مشاركًا تفاصيل بداياته وشغفه بالنمو والتعلم في مجال التكنولوجيا.
جوهر Snorkel AI: تطوير الذكاء الاصطناعي المرتكز على البيانات
يشارك فينسنت كيف أن إنشاء قواعد البيانات في البداية كان مجرد مشاركة أوراق بيانات كبيرة بين الفرق ومهمة غير منظمة، وقد تغير هذا. يوضح فينسنت تركيز الشركة على تسهيل عمل فرق الشركات لإدارة البيانات وتنظيمها وتصنيفها على نطاق واسع، محولًا بذلك المهام الروتينية لتطوير الذكاء الاصطناعي. يُمكّن هذا النهج المرتكز على البيانات الشركات من مواءمة الذكاء الاصطناعي بشكل وثيق مع أهدافها ومجموعات بياناتها الفريدة، مؤكدًا الدور الحاسم للبيانات في برمجة أنظمة الذكاء الاصطناعي. ويذكر أيضًا أنه بالنسبة للصناعات مثل الخدمات المصرفية والرعاية الصحية، لا يمكن أن يكون هناك احتمال لعدم دقة البيانات، حيث يمكن أن يكون خطأ واحد من جانب نماذج اللغات الكبيرة قاتلاً للعمليات.
- تطوير البيانات البرمجي: تقديم نهج قابل للتطوير والتكيف وفعال لتصنيف البيانات، مبتعدًا عن الأساليب اليدوية التقليدية.
- التأثير على الشركات: إظهار كيف أحدث نهج Snorkel AI ثورة في معالجة البيانات للشركات، مما يجعل تطوير الذكاء الاصطناعي أكثر مرونة واستجابة للتغيرات.
- قابلية التكيف والتوسع: قدرة الشركات على تكييف عمليات تصنيف البيانات بسرعة دون البدء من الصفر، مما يعرض مستقبلًا يكون فيه تطوير الذكاء الاصطناعي أكثر ديناميكية بشكل ملحوظ.
التحول من هندسة تعلم الآلة إلى قيادة المنتجات
بصفته قادمًا من خلفية في تعلم الآلة، يشارك فينسنت كيف يساعده دور رئيس المنتجات (الذكاء الاصطناعي/تعلم الآلة) والتصميم على التحدث مباشرة مع علماء البيانات ومهندسي تعلم الآلة. وهذا يساعده على فهم حالات استخدامهم ونقاط ضعفهم، والتي يمكنه دمجها مباشرة في المنتج. وبفضل مشاركته متعددة الأبعاد عبر مجالات مختلفة في Snorkel، يمكنه توجيه المنتج بما يتوافق مع احتياجات العملاء.
تأثير الذكاء الاصطناعي التوليدي والنماذج المفتوحة
لقد أثر عصر الذكاء الاصطناعي التوليدي وانتشار النماذج المفتوحة بشكل كبير على مشهد الذكاء الاصطناعي. يشرح فينسنت كيف أن نماذج اللغات الكبيرة (LLMs) هي أحدث إضافة في توليد مجموعات البيانات لأغراض التدريب، ولكنها من ناحية أخرى، غالبًا ما تواجه صعوبة في دقة مجموعات البيانات المنتجة. وكما ناقشنا سابقًا، يمكن أن تكون البيانات التي تولدها نماذج اللغات الكبيرة مناسبة لحالات الاستخدام العامة والمهام التجريبية، ولكن هذا لا ينطبق على حالات الاستخدام التي تلعب فيها الدقة دورًا مهمًا في مجالات مثل الخدمات المصرفية والمالية والتأمين والرعاية الصحية.
- مشهد ما بعد ChatGPT: تأملات حول ظهور الذكاء الاصطناعي التوليدي وتأثيره على مجتمع الذكاء الاصطناعي وتطبيقات الشركات.
- أهمية إتاحة البيانات كمصدر مفتوح: الدعوة إلى إتاحة ليس فقط نماذج الذكاء الاصطناعي كمصدر مفتوح، بل أيضًا مجموعات البيانات وعمليات التطوير لتعزيز الابتكار وضمان سلامة وموثوقية الذكاء الاصطناعي.
- البيانات المتخصصة لتطبيقات الشركات: الحاجة المستمرة إلى بيانات عالية الجودة ومتخصصة لتدريب نماذج الذكاء الاصطناعي التوليدية لتلبية احتياجات الأعمال المحددة.
رأي جريء حول مشهد الذكاء الاصطناعي الحالي
يؤكد رأي فينسنت الجريء حول الوضع الحالي لتطوير الذكاء الاصطناعي على التحول المحوري نحو النماذج والبيانات مفتوحة المصدر، مقترحًا نهجًا أكثر شمولية لمشاركة ابتكارات الذكاء الاصطناعي. ويجادل بأن الجوهر الحقيقي للمصادر المفتوحة في الذكاء الاصطناعي يجب أن يتجاوز مجرد إصدار أوزان النموذج؛ بل يجب أن يشمل إتاحة مجموعات البيانات وعمليات التطوير والمنطق الكامن وراء تدريب النموذج. يعزز هذا النهج نظامًا بيئيًا تعاونيًا يسرع الابتكار ويضمن قابلية التكرار ويبني أنظمة ذكاء اصطناعي أكثر أمانًا. من خلال الدعوة إلى حركة البيانات المفتوحة، يسلط فينسنت الضوء على أهمية الشفافية في تطوير الذكاء الاصطناعي، مما يمكّن مجتمعًا أوسع من المساهمة في التطورات في هذا المجال والاستفادة منها. لا تتحدى هذه النظرة الممارسات التقليدية لمشاركة الذكاء الاصطناعي فحسب، بل تدعو أيضًا إلى استراتيجية شاملة يمكن أن تضفي طابعًا ديمقراطيًا على تطوير الذكاء الاصطناعي، مما يضمن توزيع فوائد تقنيات الذكاء الاصطناعي على نطاق واسع وإتاحتها للجميع.
- يسرع الابتكار: تشجع مجموعات البيانات وعمليات التطوير مفتوحة المصدر المجتمع على الابتكار، والبناء على الأعمال الموجودة بدلاً من البدء من الصفر.
- يضمن قابلية التكرار: تتيح الشفافية في عمليات تطوير الذكاء الاصطناعي التحقق من النتائج والمنهجيات، وهو أمر بالغ الأهمية للتقدم العلمي والثقة في تطبيقات الذكاء الاصطناعي.
- يبني أنظمة أكثر أمانًا: يساعد الوصول إلى مجموعات البيانات والمنطق المستخدم في تدريب النماذج على تحديد التحيزات والأخطاء، مما يساهم في تطوير حلول ذكاء اصطناعي أكثر موثوقية وأخلاقية.
- يضفي طابعًا ديمقراطيًا على تطوير الذكاء الاصطناعي: إن إتاحة موارد الذكاء الاصطناعي الشاملة لجمهور أوسع يكافئ الفرص، مما يسمح للأفراد والمنظمات ذات الموارد المتنوعة بالمساهمة في تقدم الذكاء الاصطناعي والاستفادة منه.
- يتحدى الممارسات التقليدية: تدعو وجهة نظر فينسنت مجتمع الذكاء الاصطناعي إلى إعادة التفكير في كيفية مشاركة وتطوير تقنيات الذكاء الاصطناعي، مناصرًا لنهج أكثر شمولاً وتعاونًا.
نصائح للمتخصصين الطموحين في مجال الذكاء الاصطناعي
يذكر فينسنت أن مستوى الهاكاثون ليس كافيًا، بل يجب عليك أن تخوض التجربة بنفسك وتجرب شيئًا تستخدمه يساعدك على تحقيق النتائج والتميز. مستعرضًا رحلته، يقدم فينسنت نصائح لمن يبدأون مسيرتهم المهنية في مجال الذكاء الاصطناعي. يؤكد على قيمة الخبرة العملية، مشجعًا الأفراد على بناء مشاريع الذكاء الاصطناعي وتكرارها لمعالجة تحديات العالم الحقيقي. يعد هذا التعلم التجريبي، المقترن بالتعاون والشغف بالاستكشاف، محوريًا في التنقل ضمن مجال الذكاء الاصطناعي سريع التطور.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI


















.png)
.webp)










.webp)






