تسريع معالجة البيانات بمقدار 30-40 ضعفًا باستخدام NVIDIA RAPIDS على TrueFoundry

Published: July 4, 2026

Built for Speed: ~10ms Latency, Even Under Load

Blazingly fast way to build, track and deploy your models!

Handles 350+ RPS on just 1 vCPU — no tuning needed
Production-ready with full enterprise support

Get Started with Truefoundry Now Talk to the Expert

‍تسريع معالجة البيانات 30-40 مرة باستخدام NVIDIA RAPIDS على TrueFoundry

تتضمن مشاريع التعلم الآلي على مستوى المؤسسات اليوم بشكل متكرر معالجة مجموعات بيانات واسعة النطاق، مما يفرض تحديات على الأطر التقليدية المعتمدة على وحدة المعالجة المركزية (CPU) مثل pandas، والتي غالبًا ما تعاني من اختناقات في الأداء. NVIDIA RAPIDS يقدم حلاً ثوريًا، يستفيد من التوازي في وحدات معالجة الرسوميات (GPU) لتسريع معالجة البيانات بشكل كبير. في هذا الغوص التقني العميق، سنستكشف كيف يمكن لـ RAPIDS أن يعزز سير عمل بياناتك بمقدار 30-40 مرة ونوضح كيف تبسط TrueFoundry الاستفادة من معالجة البيانات المسرّعة بواسطة وحدات معالجة الرسوميات (GPU) بسلاسة.

مقدمة إلى معالجة البيانات المسرّعة بواسطة وحدات معالجة الرسوميات (GPU) باستخدام NVIDIA RAPIDS

يتكون NVIDIA RAPIDS من عدة مكتبات رئيسية، صُممت كل منها لتسريع جوانب محددة من مسار علم البيانات من خلال الاستفادة من قوة وحدات معالجة الرسوميات (GPU). يقدم الجدول التالي نظرة عامة موجزة عن هذه المكونات الأساسية:

Library Name	Primary Function	Key Features
cuDF	GPU DataFrame	Pandas/Polars acceleration, data loading, joining, aggregating, filtering, manipulation
cuML	ML Algorithms	Scikit-learn API, accelerated algorithms (XGBoost, Random Forest, UMAP, HDBSCAN), model training/inference
cuGraph	Graph Analytics	NetworkX backend, graph algorithms (PageRank), GNN support (PyG, DGL)
nx-cugraph	NetworkX Backend	Zero-code-change GPU acceleration for NetworkX
RAFT	Low-level Primitives	Fundamental algorithms for ML/information retrieval, CUDA-accelerated building blocks, multi-node/multi-GPU infrastructure
RMM	Memory Management	Efficient GPU memory allocators, pool sub-allocator, common interface for host/device memory allocation

دعونا نختار إحدى المكتبات الأكثر استخدامًا في المؤسسات لهندسة البيانات

cuDF: إطارات البيانات المسرّعة بواسطة وحدات معالجة الرسوميات (GPU) لإعداد البيانات

يعمل cuDF بمثابة مكتبة إطارات بيانات لوحدات معالجة الرسوميات (GPU)، مما يوفر إمكانات مسرّعة لمهام معالجة البيانات الشائعة مثل التحميل، والربط، والتجميع، والتصفية، والتحويل العام للبيانات.
يقدم تصميمه واجهة برمجة تطبيقات (API) شبيهة بـ pandas، وهي مألوفة جدًا لمهندسي وعلماء البيانات، مما يسهل الانتقال السلس إلى سير العمل المسرّع بواسطة وحدات معالجة الرسوميات (GPU).
من التطورات البارزة هو وضع تسريع pandas، مما يتيح تسريع وحدة معالجة الرسوميات (GPU) بأقل قدر من التغييرات في التعليمات البرمجية أو "بدون أي تغييرات" على سير عمل pandas الحالي.

لكن وحدات معالجة الرسوميات (GPUs) لم تكن تاريخياً الأسهل في الدمج ضمن سير عمل البيانات. تحدثنا مع قادة هندسة البيانات في ثلاث شركات ترغب في تشغيل Rapids في بيئة الإنتاج - وهي شركة تكنولوجيا مالية ضمن قائمة Fortune-500، وشركة ناشئة رائدة في التعليم عبر الإنترنت، ومنصة أسئلة وأجوبة معروفة - سمعنا نفس الشكوى المتكررة: “في كل سباق تطوير، نكتشف مهمة أخرى تعطلت لأن CUDA 11.8 تسللت إلى عامل واحد. مرتين في الشهر، نعيد بناء أقفال Conda الخاصة بنا.” — رئيس منصة البيانات، تكنولوجيا مالية

‍التحدي التقليدي: تثبيت وتشغيل RAPIDS

إذا سبق لك أن حاولت تثبيت RAPIDS على جهازك الخاص أو على مثيل سحابي عام، فأنت تعلم أن الأمر قد يكون مؤلماً. يعتمد RAPIDS على إصدارات محددة (إصدارات مجموعة أدوات CUDA، وإصدارات Python والمكتبات الدقيقة، وما إلى ذلك)، مما يعني أن أي تركيبة خاطئة يمكن أن تؤدي إلى أخطاء غامضة.

1. Local workstation (bare-metal)

Step	Command / Action	What usually goes wrong
Check GPU & CUDA	`nvidia-smi` should show a driver matching the RAPIDS CUDA build (e.g. CUDA 12.0).	Old driver ⇒ `CUDA_ERROR_INVALID_DEVICE`. On a Mac? — no CUDA at all.
Create isolated Conda env	`bash conda create -n rapids-24.06 python=3.11 && conda activate rapids-24.06`	“Solving environment…” 10–15 min, 6–8 GB RAM spike, occasional solver timeout.
Install RAPIDS	`bash conda install -c rapidsai -c nvidia -c conda-forge rapids=24.06`	Any pinned NumPy / pandas version forces a downgrade; env breaks silently.

OR : use a pre-built container

Step	Command / Action	What usually goes wrong
Pull container	`docker pull rapidsai/base:25.08a-cuda12.0-py3.11`	Needs `nvidia-container-toolkit`; ~8 GB image download often blocked by corp proxy.
Smoke-test	`python -c "import cudf, cupy, cuml; print(cudf.__version__)"`	`ImportError: libcudart.so.11…` → 99 % of the time a CUDA mismatch.

Visit us: truefoundry.com

هذا ممكن ولكنه ليس بسيطاً على الإطلاق – فقد يستغرق إعداد البيئة وقتاً طويلاً، ويمكن أن يؤدي خلط RAPIDS مع حزم Python الأخرى بسهولة إلى تعارضات في التبعيات. في الواقع، غالباً ما يتطلب الحفاظ على ملف requirements.txt لـ RAPIDS تثبيت إصدارات محددة جداً من NumPy وpandas وscikit-learn وغيرها، ويمكن أن تؤدي عدم التطابقات إلى تعطيل التعليمات البرمجية الخاصة بك. كل هذه التكاليف الإضافية للإعداد تشكل عائقاً إذا كان هدفك هو مجرد تسريع معالجة البيانات.‍

استخدام Google Colab

يوفر Google Colab تكاملاً مع RAPIDS. توفر بيئات تشغيل GPU في Colab برامج تشغيل وإصدارات CUDA متوافقة، مما يلغي الحاجة إلى الإعداد اليدوي. بينما لا يزال الأمر يتطلب `!pip install rapids-cuda12.0`، يدير Colab التبعيات، مما يتيح الاستخدام السريع لـ cuDF وcuML المسرّعين بواسطة GPU دون الحاجة إلى عمليات تثبيت محلية معقدة.

ومع ذلك، في أغلب الأحيان، تتطلب أنظمة التعلم الآلي على مستوى المؤسسات أكثر من مجرد بيئة تطوير متكاملة (IDE) للبرمجة، وهو ما لا يوفره.

‍تسريع GPU أصبح سهلاً على TrueFoundry

تعالج TrueFoundry هذه العقبات التقليدية، مما يجعل RAPIDS سهل الاستخدام والإدارة:

بيئات وحدات معالجة الرسوميات (GPU) مُعدة مسبقًا: توفر TrueFoundry بيئة أدوات NVIDIA CUDA 12.x مُدارة. ما عليك سوى تشغيل هذا الدفتر وتثبيت rapids <cuda version> باستخدام pip

توفير وحدات معالجة الرسوميات (GPU) عند الطلب: يمكنك بسهولة تحديد وحدات معالجة الرسوميات (GPUs) (فورية أو عند الطلب) مباشرة من واجهة TrueFoundry. تتولى المنصة تلقائيًا إدارة تثبيت برامج التشغيل وتكوينات التبعيات.

تكامل Docker: صور Docker المُعدة مسبقًا مع RAPIDS تتيح الوصول الفوري دون عناء التثبيت.

تتيح بيئة TrueFoundry المتكاملة لعلماء البيانات القيام بسرعة بالنماذج الأولية وتطوير ونشر خطوط الأنابيب المُسرّعة بواسطة وحدات معالجة الرسوميات (GPU).

تحسين المعاملات الفائقة كان من الصعب تطبيقها في التطبيقات العملية بسبب الموارد اللازمة لتشغيل العديد من مهام التدريب المتميزة. يمكنك أيضًا تشغيل تحسين المعاملات الفائقة (HPO) باستخدام Nvidia Rapids كـ مهام على Truefoundry.

مثال شامل: Pandas مقابل cuDF على حوالي مليار صف من بيانات سيارات الأجرة في نيويورك

أدناه هو الدفتر الدقيق الذي قمنا بتشغيله على TrueFoundry لإيجاد متوسط المتوسط

import os, time, urllib.request
from pathlib import Path
import pandas as pd
import cudf
import dask_cudf
from dask.distributed import Client
from dask_cuda import LocalCUDACluster

# ----- CONFIG -------
MONTHS = pd.date_range("2018-01-01", "2021-07-01", freq="MS").strftime("%Y-%m").tolist()
DATA_DIR = Path("data")               # where Parquet files will live
REPEATS  = 3                         
TS_COL   = "tpep_pickup_datetime"
VAL_COL  = "total_amount"
BASE_URL = "https://d37ci6vzurychx.cloudfront.net/trip-data/"

‍ تحميل مجموعة البيانات

def ensure_data():
    DATA_DIR.mkdir(exist_ok=True)
    files = []
    for m in MONTHS:
        fname = f"yellow_tripdata_{m}.parquet"
        out   = DATA_DIR/fname
        if not out.exists():
            url = BASE_URL + fname
            print(f"Downloading {fname} …")
            urllib.request.urlretrieve(url, out)
        files.append(str(out))
    return files
files = ensure_data()
print(f"→ {len(files)} files ready (≈{len(files)*23:,} M rows total)")

‍تحديد سير عمل Pandas

def pandas_workflow(files):
    dfs = [pd.read_parquet(f) for f in files]
    pdf = pd.concat(dfs, ignore_index=True)
    pdf["day"] = pd.to_datetime(pdf[TS_COL]).dt.date 
    return pdf.groupby("day")[VAL_COL].mean().max()

تشغيل GPU – سير عمل Dask + cuDF

# <code:dask-cudf-workflow>
from dask.distributed import Client
from dask_cuda import LocalCUDACluster
import dask_cudf, cudf

def dask_cudf_workflow(files):
    cluster = LocalCUDACluster()
    client  = Client(cluster)
    print("▶ Running on", len(client.ncores()), "GPU(s)")
    
    ddf = dask_cudf.read_parquet(files)
    ddf["day"] = ddf[TS_COL].dt.floor("D")
    # compute group→mean→max across the cluster
    result = (
        ddf
        .groupby("day")[VAL_COL]
        .mean()
        .max()
        .compute()
    )
    client.close()
    cluster.close()
    return result

النتائج

حتى على وحدة معالجة رسوميات (GPU) واحدة، شهدنا بالفعل أوقات تشغيل أقل من 10 ثوانٍ؛ وأدت إضافة وحدات معالجة الرسوميات (GPUs) مع Dask إلى تحقيق قابلية توسع شبه خطية حتى تشبع الشبكة.
هذه زيادة إنتاجية بمقدار 37 ضعفًا دون تغيير سطر واحد من منطق العمل. هل أنت مستعد لتقليل أوقات المعالجة من دقائق إلى ثوانٍ؟ قم بتشغيل دفتر ملاحظات RAPIDS على TrueFoundry وشاهد الفرق.

أبعد من السرعة: قابلية التوسع وسير العمل الجاهز للإنتاج

السرعة رائعة، ولكن بنفس القدر من الأهمية هو كيفية دمج سير عمل وحدات معالجة الرسوميات (GPU) هذه في منصة البيانات الشاملة لديك. فيما يلي بعض الفوائد الإضافية لاستخدام RAPIDS على TrueFoundry:

التوسع متعدد وحدات معالجة الرسوميات (GPU) – قم بتشغيل مجموعة Dask-cuDF على وحدتي معالجة رسوميات (GPU) أو أكثر بمواصفات مهمة واحدة. يوفر TrueFoundry المجدول والعاملين تلقائيًا، مما يحقق مكاسب إنتاجية شبه خطية على مجموعات البيانات التي تتجاوز ذاكرة وحدة معالجة رسوميات (GPU) واحدة.
ترقية سلسة لخطوط الأنابيب – يمكن ترقية نفس رمز دفتر الملاحظات إلى مهمة دفعية مجدولة أو دمجه في سير عمل أكبر عبر واجهة مستخدم TrueFoundry. يزيل اتساق البيئة مشكلة "يعمل محليًا" بين الاستكشاف والإنتاج.
تخصيص وحدات معالجة الرسوميات (GPU) مع مراعاة التكلفة – اطلب وحدات معالجة رسوميات (GPU) عند الطلب أو الفورية، وحدد قواعد التحجيم التلقائي، وامزج مراحل وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسوميات (GPU) ضمن خط أنابيب واحد. يتم تحرير الموارد عند عدم استخدامها، مما يضمن أنك تدفع فقط مقابل التسريع الذي تستخدمه.
قابلية المراقبة المتكاملة – تعرض لوحات معلومات المنصة استخدام وحدة معالجة الرسوميات (GPU)، واستهلاك الذاكرة، والإنتاجية، ومقاييس الأخطاء/الكمون، مع خطافات التنبيه للضبط الاستباقي وتخطيط السعة.

في الختام، يسد TrueFoundry الفجوة بين تجربة RAPIDS على بياناتك ونشره بطريقة قوية وقابلة للتوسع. تحصل على أفضل ما في العالمين: تسريع فائق من NVIDIA RAPIDS و الموثوقية وسهولة الاستخدام لمنصة مُدارة.

TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.

Built for Speed: ~10ms Latency, Even Under Load

Schedule your Demo Now