مقدمه
در سالهای اخیر با رشد چشمگیر هوش مصنوعی، بهویژه در حوزه مدلهای زبانی بزرگ (LLM) مانند GPT، LLaMA و Mistral، نیاز به زیرساختهای محاسباتی قدرتمند بیش از پیش احساس میشود. سازمانهایی که قصد اجرای این مدلها را بهصورت محلی یا درونسازمانی دارند، باید در انتخاب سرور بسیار دقیق عمل کنند. در این مقاله به بررسی معیارهای کلیدی سختافزاری برای خرید یک سرور مناسب اجرای LLMها میپردازیم و از سرور قدرتمند HPE DL380 G10 برای مثالزدن استفاده خواهیم کرد.
۱. پردازنده (CPU): نقش حیاتی در پردازش اولیه و پیشپردازش دادهها
هرچند بیشتر بار اصلی اجرای مدلهای LLM بر دوش کارتهای گرافیک (GPU) است، اما پردازنده مرکزی همچنان نقش مهمی در مدیریت حافظه، خواندن و نوشتن از دیسک، مدیریت کش و اجرای کدهای پیشپردازش دارد.
برای اجرای مؤثر مدلهای LLM، استفاده از پردازندههای Intel Xeon Scalable نسل اول یا دوم با حداقل ۲۴ هسته فیزیکی و قابلیت Hyper-threading توصیه میشود.
🔹 HPE DL380 G10 از پردازندههای Intel Xeon Scalable پشتیبانی میکند و میتواند تا دو سوکت پردازنده را در خود جای دهد. انتخاب مدلهایی مانند Xeon Gold 6148 یا Xeon Gold 6154 میتواند گزینه مناسبی باشد.
۲. حافظه رم (RAM): عنصر کلیدی برای نگهداری مدل و داده
مدلهای LLM معمولاً بسیار حجیم هستند و به حافظه زیادی برای بارگذاری مدل و همچنین دادههای ورودی نیاز دارند. اگرچه اجرای نهایی مدل روی GPU انجام میشود، اما حافظه اصلی سیستم در مراحل زیادی نقش مکمل دارد.
پیشنهاد:
حداقل ۵۱۲ گیگابایت رم برای مدلهای میانرده
۱ ترابایت یا بیشتر برای مدلهای بزرگتر مانند LLaMA-65B یا GPT-3 با تعداد لایههای بالا
🔹 سرور DL380 G10 از ۲۴ اسلات رم DDR4 پشتیبانی میکند و تا ۳ ترابایت حافظه رم را در پیکربندیهای پیشرفته پشتیبانی میکند.
۳. کارت گرافیک (GPU): قلب تپنده اجرای LLM
بدون شک مهمترین مؤلفه در اجرای مدلهای زبانی بزرگ، کارت گرافیک است. LLMها به توان پردازشی بالایی نیاز دارند که فقط از طریق GPUهای قدرتمند قابل تأمین است. استفاده از کارتهایی که از CUDA (در صورت استفاده از NVIDIA) و همچنین FP16 یا BFLOAT16 پشتیبانی میکنند ضروری است.
کارتهای پیشنهادی:
NVIDIA A100 (80GB) یا H100 برای بارهای کاری سنگین
NVIDIA RTX 6000 Ada یا A40 برای کارهای توسعهای و تحقیقاتی
- Nvidia Quadro K80 برای مدل های ساده و ابتدایی
🔹 سرور DL380 G10 از طریق GPU Enablement Kits و PCIe x16 riser kits از نصب تا ۳ کارت گرافیک دو اسلاتی پشتیبانی میکند. البته برای نصب کارتهای حجیم نیاز به بررسی توان منبع تغذیه (Power Supply) و تهویه دارید.
۴. فضای ذخیرهسازی (Storage): سرعت و حجم هر دو مهماند
مدلهای LLM به دیسکهایی با ظرفیت بالا و سرعت خواندن/نوشتن بسیار زیاد نیاز دارند. بهویژه اگر قصد بارگذاری دیتاستهای حجیم را داشته باشید یا inferenceهای متعدد انجام دهید، باید به این بخش توجه ویژهای داشته باشید.
پیشنهاد:
استفاده از SAS SSD با ظرفیت حداقل 1.92TB برای کش دادهها و اجرای سریع مدل
ترکیب SATA SSD یا SAS HDD برای آرشیو دادهها
استفاده از RAID 10 برای بالاتر بردن عملکرد و افزونگی
🔹 سرور DL380 G10 میتواند تا ۲۰ درایو SFF یا ۱۲ درایو LFF را پشتیبانی کند و قابلیت نصب NVMe drives نیز در برخی پیکربندیها وجود دارد.
۵. شبکه (Networking): انتقال سریع دادهها بین نودها یا کاربران
اگر LLM در قالب سرویس ارائه میشود، زیرساخت شبکه باید توان پاسخگویی به درخواستهای متعدد را داشته باشد. همچنین در صورت استفاده از چند نود برای اجرای مدل (Distributed Inference)، سرعت شبکه حیاتی میشود.
پیشنهاد:
استفاده از کارتهای شبکه 10GbE یا بالاتر
پشتیبانی از RDMA برای تسریع در پردازشهای موازی
استفاده از سوئیچهای با پهنای باند بالا، بهویژه در کلاسترهای چندسروری
🔹 سرور DL380 G10 از طریق کارتهای FlexibleLOM و PCIe NICs قابلیت نصب انواع کارت شبکه 10/25/40GbE را دارد.
۶. منبع تغذیه و تهویه: پایداری عملکرد
اجرای مدلهای LLM بسیار انرژیبر است. GPUهای قدرتمند ممکن است تا ۳۰۰ وات توان مصرفی داشته باشند، بنابراین نیاز به منبع تغذیه با توان بالا و سیستم خنککننده کارآمد ضروری است.
پیشنهاد:
استفاده از پاورهای 1600W یا 2x1600W با Redundancy
نصب High-Performance Fan Kits در سرور
🔹 در DL380 G10 میتوانید از منبع تغذیههای HPE Flex Slot Platinum تا 1600W استفاده کنید که مناسب برای چنین سناریوهایی است.
جمعبندی نهایی
اگر بخواهیم تمام معیارهای بالا را در یک پیکربندی خلاصه کنیم، یک سرور DL380 G10 ایدهآل برای اجرای LLMها میتواند شامل مشخصات زیر باشد:
🔸 ۲ عدد پردازنده Xeon Gold 6154 (36Core)
🔸 512 گبگابایت DDR4 RAM
🔸 ۲ عدد NVIDIA A100 80GB
🔸 ۱ عدد SAS 1.92TB برای کش + ۲ عدد SATA SSD برای دیتا
🔸 کارت شبکه 10GbE Dual-Port
🔸 ۲ منبع تغذیه 1600W با Redundancy
سرور DL380 G10 با انعطافپذیری بالا و امکان ارتقاء در آینده، یکی از بهترین گزینهها برای کسانی است که به دنبال اجرای مدلهای هوش مصنوعی پیشرفته هستند، بدون نیاز به مهاجرت به فضای ابری.
✅ پیشنهاد خرید:
برای تهیه قطعات ذکر شده مانند کارت گرافیکهای حرفهای و تجهیزات سروری با کیفیت، میتوانید از فروشگاه تخصصی ServerSwitch.ir بازدید کنید. کارشناسان ما آمادهاند تا در انتخاب پیکربندی مناسب، شما را همراهی کنند.