تسريع معالجة البيانات بمقدار 30-40 ضعفًا باستخدام NVIDIA RAPIDS على TrueFoundry
.webp)
Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
تسريع معالجة البيانات 30-40 مرة باستخدام NVIDIA RAPIDS على TrueFoundry
تتضمن مشاريع التعلم الآلي على مستوى المؤسسات اليوم بشكل متكرر معالجة مجموعات بيانات واسعة النطاق، مما يفرض تحديات على الأطر التقليدية المعتمدة على وحدة المعالجة المركزية (CPU) مثل pandas، والتي غالبًا ما تعاني من اختناقات في الأداء. NVIDIA RAPIDS يقدم حلاً ثوريًا، يستفيد من التوازي في وحدات معالجة الرسوميات (GPU) لتسريع معالجة البيانات بشكل كبير. في هذا الغوص التقني العميق، سنستكشف كيف يمكن لـ RAPIDS أن يعزز سير عمل بياناتك بمقدار 30-40 مرة ونوضح كيف تبسط TrueFoundry الاستفادة من معالجة البيانات المسرّعة بواسطة وحدات معالجة الرسوميات (GPU) بسلاسة.

مقدمة إلى معالجة البيانات المسرّعة بواسطة وحدات معالجة الرسوميات (GPU) باستخدام NVIDIA RAPIDS
يتكون NVIDIA RAPIDS من عدة مكتبات رئيسية، صُممت كل منها لتسريع جوانب محددة من مسار علم البيانات من خلال الاستفادة من قوة وحدات معالجة الرسوميات (GPU). يقدم الجدول التالي نظرة عامة موجزة عن هذه المكونات الأساسية:
دعونا نختار إحدى المكتبات الأكثر استخدامًا في المؤسسات لهندسة البيانات
cuDF: إطارات البيانات المسرّعة بواسطة وحدات معالجة الرسوميات (GPU) لإعداد البيانات
- يعمل cuDF بمثابة مكتبة إطارات بيانات لوحدات معالجة الرسوميات (GPU)، مما يوفر إمكانات مسرّعة لمهام معالجة البيانات الشائعة مثل التحميل، والربط، والتجميع، والتصفية، والتحويل العام للبيانات.
- يقدم تصميمه واجهة برمجة تطبيقات (API) شبيهة بـ pandas، وهي مألوفة جدًا لمهندسي وعلماء البيانات، مما يسهل الانتقال السلس إلى سير العمل المسرّع بواسطة وحدات معالجة الرسوميات (GPU).
- من التطورات البارزة هو وضع تسريع pandas، مما يتيح تسريع وحدة معالجة الرسوميات (GPU) بأقل قدر من التغييرات في التعليمات البرمجية أو "بدون أي تغييرات" على سير عمل pandas الحالي.
لكن وحدات معالجة الرسوميات (GPUs) لم تكن تاريخياً الأسهل في الدمج ضمن سير عمل البيانات. تحدثنا مع قادة هندسة البيانات في ثلاث شركات ترغب في تشغيل Rapids في بيئة الإنتاج - وهي شركة تكنولوجيا مالية ضمن قائمة Fortune-500، وشركة ناشئة رائدة في التعليم عبر الإنترنت، ومنصة أسئلة وأجوبة معروفة - سمعنا نفس الشكوى المتكررة: “في كل سباق تطوير، نكتشف مهمة أخرى تعطلت لأن CUDA 11.8 تسللت إلى عامل واحد. مرتين في الشهر، نعيد بناء أقفال Conda الخاصة بنا.” — رئيس منصة البيانات، تكنولوجيا مالية
التحدي التقليدي: تثبيت وتشغيل RAPIDS
إذا سبق لك أن حاولت تثبيت RAPIDS على جهازك الخاص أو على مثيل سحابي عام، فأنت تعلم أن الأمر قد يكون مؤلماً. يعتمد RAPIDS على إصدارات محددة (إصدارات مجموعة أدوات CUDA، وإصدارات Python والمكتبات الدقيقة، وما إلى ذلك)، مما يعني أن أي تركيبة خاطئة يمكن أن تؤدي إلى أخطاء غامضة.
هذا ممكن ولكنه ليس بسيطاً على الإطلاق – فقد يستغرق إعداد البيئة وقتاً طويلاً، ويمكن أن يؤدي خلط RAPIDS مع حزم Python الأخرى بسهولة إلى تعارضات في التبعيات. في الواقع، غالباً ما يتطلب الحفاظ على ملف requirements.txt لـ RAPIDS تثبيت إصدارات محددة جداً من NumPy وpandas وscikit-learn وغيرها، ويمكن أن تؤدي عدم التطابقات إلى تعطيل التعليمات البرمجية الخاصة بك. كل هذه التكاليف الإضافية للإعداد تشكل عائقاً إذا كان هدفك هو مجرد تسريع معالجة البيانات.
استخدام Google Colab
يوفر Google Colab تكاملاً مع RAPIDS. توفر بيئات تشغيل GPU في Colab برامج تشغيل وإصدارات CUDA متوافقة، مما يلغي الحاجة إلى الإعداد اليدوي. بينما لا يزال الأمر يتطلب `!pip install rapids-cuda12.0`، يدير Colab التبعيات، مما يتيح الاستخدام السريع لـ cuDF وcuML المسرّعين بواسطة GPU دون الحاجة إلى عمليات تثبيت محلية معقدة.
ومع ذلك، في أغلب الأحيان، تتطلب أنظمة التعلم الآلي على مستوى المؤسسات أكثر من مجرد بيئة تطوير متكاملة (IDE) للبرمجة، وهو ما لا يوفره.

تسريع GPU أصبح سهلاً على TrueFoundry
تعالج TrueFoundry هذه العقبات التقليدية، مما يجعل RAPIDS سهل الاستخدام والإدارة:
بيئات وحدات معالجة الرسوميات (GPU) مُعدة مسبقًا: توفر TrueFoundry بيئة أدوات NVIDIA CUDA 12.x مُدارة. ما عليك سوى تشغيل هذا الدفتر وتثبيت rapids <cuda version> باستخدام pip

توفير وحدات معالجة الرسوميات (GPU) عند الطلب: يمكنك بسهولة تحديد وحدات معالجة الرسوميات (GPUs) (فورية أو عند الطلب) مباشرة من واجهة TrueFoundry. تتولى المنصة تلقائيًا إدارة تثبيت برامج التشغيل وتكوينات التبعيات.

تكامل Docker: صور Docker المُعدة مسبقًا مع RAPIDS تتيح الوصول الفوري دون عناء التثبيت.

تتيح بيئة TrueFoundry المتكاملة لعلماء البيانات القيام بسرعة بالنماذج الأولية وتطوير ونشر خطوط الأنابيب المُسرّعة بواسطة وحدات معالجة الرسوميات (GPU).
تحسين المعاملات الفائقة كان من الصعب تطبيقها في التطبيقات العملية بسبب الموارد اللازمة لتشغيل العديد من مهام التدريب المتميزة. يمكنك أيضًا تشغيل تحسين المعاملات الفائقة (HPO) باستخدام Nvidia Rapids كـ مهام على Truefoundry.

مثال شامل: Pandas مقابل cuDF على حوالي مليار صف من بيانات سيارات الأجرة في نيويورك
أدناه هو الدفتر الدقيق الذي قمنا بتشغيله على TrueFoundry لإيجاد متوسط المتوسط
import os, time, urllib.request
from pathlib import Path
import pandas as pd
import cudf
import dask_cudf
from dask.distributed import Client
from dask_cuda import LocalCUDACluster
# ----- CONFIG -------
MONTHS = pd.date_range("2018-01-01", "2021-07-01", freq="MS").strftime("%Y-%m").tolist()
DATA_DIR = Path("data") # where Parquet files will live
REPEATS = 3
TS_COL = "tpep_pickup_datetime"
VAL_COL = "total_amount"
BASE_URL = "https://d37ci6vzurychx.cloudfront.net/trip-data/"
تحميل مجموعة البيانات
def ensure_data():
DATA_DIR.mkdir(exist_ok=True)
files = []
for m in MONTHS:
fname = f"yellow_tripdata_{m}.parquet"
out = DATA_DIR/fname
if not out.exists():
url = BASE_URL + fname
print(f"Downloading {fname} …")
urllib.request.urlretrieve(url, out)
files.append(str(out))
return files
files = ensure_data()
print(f"→ {len(files)} files ready (≈{len(files)*23:,} M rows total)")
تحديد سير عمل Pandas
def pandas_workflow(files):
dfs = [pd.read_parquet(f) for f in files]
pdf = pd.concat(dfs, ignore_index=True)
pdf["day"] = pd.to_datetime(pdf[TS_COL]).dt.date
return pdf.groupby("day")[VAL_COL].mean().max()تشغيل GPU – سير عمل Dask + cuDF
# <code:dask-cudf-workflow>
from dask.distributed import Client
from dask_cuda import LocalCUDACluster
import dask_cudf, cudf
def dask_cudf_workflow(files):
cluster = LocalCUDACluster()
client = Client(cluster)
print("▶ Running on", len(client.ncores()), "GPU(s)")
ddf = dask_cudf.read_parquet(files)
ddf["day"] = ddf[TS_COL].dt.floor("D")
# compute group→mean→max across the cluster
result = (
ddf
.groupby("day")[VAL_COL]
.mean()
.max()
.compute()
)
client.close()
cluster.close()
return resultالنتائج

حتى على وحدة معالجة رسوميات (GPU) واحدة، شهدنا بالفعل أوقات تشغيل أقل من 10 ثوانٍ؛ وأدت إضافة وحدات معالجة الرسوميات (GPUs) مع Dask إلى تحقيق قابلية توسع شبه خطية حتى تشبع الشبكة.
هذه زيادة إنتاجية بمقدار 37 ضعفًا دون تغيير سطر واحد من منطق العمل. هل أنت مستعد لتقليل أوقات المعالجة من دقائق إلى ثوانٍ؟ قم بتشغيل دفتر ملاحظات RAPIDS على TrueFoundry وشاهد الفرق.
أبعد من السرعة: قابلية التوسع وسير العمل الجاهز للإنتاج
السرعة رائعة، ولكن بنفس القدر من الأهمية هو كيفية دمج سير عمل وحدات معالجة الرسوميات (GPU) هذه في منصة البيانات الشاملة لديك. فيما يلي بعض الفوائد الإضافية لاستخدام RAPIDS على TrueFoundry:
- التوسع متعدد وحدات معالجة الرسوميات (GPU) – قم بتشغيل مجموعة Dask-cuDF على وحدتي معالجة رسوميات (GPU) أو أكثر بمواصفات مهمة واحدة. يوفر TrueFoundry المجدول والعاملين تلقائيًا، مما يحقق مكاسب إنتاجية شبه خطية على مجموعات البيانات التي تتجاوز ذاكرة وحدة معالجة رسوميات (GPU) واحدة.
- ترقية سلسة لخطوط الأنابيب – يمكن ترقية نفس رمز دفتر الملاحظات إلى مهمة دفعية مجدولة أو دمجه في سير عمل أكبر عبر واجهة مستخدم TrueFoundry. يزيل اتساق البيئة مشكلة "يعمل محليًا" بين الاستكشاف والإنتاج.
- تخصيص وحدات معالجة الرسوميات (GPU) مع مراعاة التكلفة – اطلب وحدات معالجة رسوميات (GPU) عند الطلب أو الفورية، وحدد قواعد التحجيم التلقائي، وامزج مراحل وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسوميات (GPU) ضمن خط أنابيب واحد. يتم تحرير الموارد عند عدم استخدامها، مما يضمن أنك تدفع فقط مقابل التسريع الذي تستخدمه.
- قابلية المراقبة المتكاملة – تعرض لوحات معلومات المنصة استخدام وحدة معالجة الرسوميات (GPU)، واستهلاك الذاكرة، والإنتاجية، ومقاييس الأخطاء/الكمون، مع خطافات التنبيه للضبط الاستباقي وتخطيط السعة.

في الختام، يسد TrueFoundry الفجوة بين تجربة RAPIDS على بياناتك ونشره بطريقة قوية وقابلة للتوسع. تحصل على أفضل ما في العالمين: تسريع فائق من NVIDIA RAPIDS و الموثوقية وسهولة الاستخدام لمنصة مُدارة.
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI





















.png)
.webp)










.webp)






