AMDHubs

AMD Instinct MI355X: GPU Baru untuk LLM Training yang Kompetitif

AMD melalui rilis ROCm 7.0 memperkenalkan Instinct MI355X, GPU yang dirancang untuk mendorong performa Large Language Model (LLM) training dengan efisiensi tinggi. Fokusnya adalah token throughput (tokens/gpu/s) sebagai metrik utama untuk skala besar, baik pada PyTorch maupun JAX frameworks.

Integrasi Software: Primus & MaxText

  • Primus Framework:
    • Mendukung backend TorchTitan & Megatron-LM.
    • Primus-Turbo mempercepat model Transformer di GPU MI355X.
    • Modular & reproducible configuration untuk memudahkan deployment.
  • JAX MaxText Docker:
    • Prebuilt environment dengan JAX, XLA, ROCm libraries.
    • Memudahkan scaling & eksperimen tanpa konfigurasi kompleks.

Benchmark PyTorch (Single-Node)

  • Llama3 70B FP8: 1.0X (paritas baseline).
  • Llama3 70B BF16: 1.16X.
  • Llama3 8B FP8: 1.08X.
  • Llama3 8B BF16: 1.02X.
  • Mixtral 8x7B FP16: 1.15X. ➡️ MI355X menunjukkan throughput lebih tinggi dibanding GPU B200 pada sebagian besar model.

Benchmark JAX MaxText (Single-Node)

  • Llama3.1 70B FP8: 1.11X.
  • Llama3.1 8B FP8: 1.07X.
  • Mixtral 8x7B FP16: 1.00X (paritas). ➡️ MI355X unggul pada dense models, mendekati parity pada MoE workloads.

Multi-Node Scaling

  • Mixtral 8x22B BF16: 1.14X (4-node Primus-Megatron).
  • Llama3 70B FP8: 1.01X (paritas, 4-node).
  • Llama3.1 405B FP8: 0.96X (8-node). ➡️ MI355X mampu scale-out dengan baik, tetap kompetitif terhadap B200.

Implikasi

  • Single-node: performa tinggi untuk dense & MoE models.
  • Multi-node: skalabilitas kuat untuk distributed training.
  • Ekosistem: ROCm 7.0 + Primus + MaxText → foundation kokoh untuk riset & pengembangan AI generasi baru.

Sumber: AMD ROCm Blog

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button