AMD Umumkan Hasil MLPerf 5.1 Training Pertama untuk GPU Instinct MI350 Series

Ahmandonk

5 hours ago

AMD resmi mempublikasikan hasil MLPerf 5.1 Training pertama untuk Instinct MI350 Series, menandai tonggak penting dalam performa pelatihan AI generasi berikutnya. Benchmark ini merupakan debut publik untuk GPU MI355X dan MI350X, memperlihatkan peningkatan kinerja yang signifikan serta dukungan ekosistem yang semakin luas.

Lonjakan Performa Hingga 2,8 Kali dari Generasi Sebelumnya

GPU Instinct MI350 Series mencatat peningkatan performa besar, dengan waktu pelatihan hingga 2,8 kali lebih cepat dibanding MI300X dan 2,1 kali lebih cepat dibanding MI325X.

Pada pengujian Llama 2-70B LoRA (FP8), MI355X memangkas waktu training dari hampir 28 menit (MI300X) menjadi sekitar 10 menit. Peningkatan ini berkat kombinasi:

Arsitektur GPU generasi baru
Memori HBM3E dengan bandwidth tertinggi di kelasnya
Optimasi perangkat lunak ROCm 7.1 yang meningkatkan efisiensi kernel dan komunikasi

Hasil ini memperkuat posisi MI355X dalam mempercepat fine-tuning model AI skala besar secara lebih hemat energi.

Performa Kompetitif Melawan NVIDIA

AMD juga menampilkan perbandingan terhadap rata-rata sistem NVIDIA B200/B300 (FP8) pada putaran MLPerf yang sama. Hasilnya:

Llama 2-70B LoRA (FP8)
- MI355X: 10,18 menit
- Rata-rata NVIDIA B200/B300 FP8: 9,85–9,59 menit
Llama 3.1-8B (FP8) pre-training
- MI355X: 99,7 menit
- Rata-rata NVIDIA B200/B300 FP8: 93,69–95,10 menit

Meski demikian, NVIDIA tidak melakukan submission FP8 di MLPerf 5.1, hanya FP4. AMD memilih tidak mengirimkan FP4 karena format tersebut dinilai belum siap untuk training produksi, mengingat isu stabilitas numerik yang mengharuskan fallback ke FP8 di tengah proses pelatihan.

Sebagai catatan, angka FP8 NVIDIA dari MLPerf 5.0 menunjukkan 11,15 menit untuk Llama 2-70B LoRA pada GB200. Dengan 10,18 menit, MI355X kini mencatat peningkatan ~10% terhadap hasil FP8 tersebut.

Partisipasi Ekosistem AMD Memecahkan Rekor

Putaran MLPerf 5.1 kali ini juga menjadi rekor bagi AMD, dengan sembilan mitra besar—termasuk ASUS, Cisco, Dell, Giga Computing, QCT, Supermicro, dan lainnya—mengirimkan hasil pada platform MI350 Series.

Menariknya, seluruh mitra yang melakukan submission baru pertama kali memakai MI355X, namun hasilnya tetap berada dalam selisih hanya 1% dari submission resmi AMD. Hal ini menunjukkan:

Stabilitas ROCm 7.1
Konsistensi performa hardware AMD
Kesiapan sistem untuk deployment skala produksi

ROCm 7.1: Mesin di Balik Skala dan Efisiensi

ROCm 7.1 menghadirkan optimasi menyeluruh, termasuk:

Kernel & GEMM tuning
Fused attention
Integrasi XLA dan TorchInductor
Efisiensi bandwidth dan overlap compute-communication
Dukungan model hari-pertama (day-0) seperti Llama 3.1-8B, Mistral, dan SD-XL

Perangkat lunak ini menjadi fondasi utama bagi performa konsisten di multi-node dan mempercepat konvergensi model menggunakan FP8.

Kesimpulan

Hasil MLPerf 5.1 Training menegaskan bahwa Instinct MI350 Series—khususnya MI355X—telah mencapai:

Peningkatan performa generasi signifikan
Posisi kompetitif terhadap GPU premium NVIDIA
Partisipasi ekosistem yang tumbuh pesat
Konsistensi performa berkat ROCm 7.1

Dengan roadmap yang melaju tiap tahun—MI300X (2023), MI325X (2024), MI350 (2025), dan MI450 (2026)—AMD terus bergerak menuju kepemimpinan AI, baik dalam performa maupun keterbukaan benchmarking.

Sumber: AMD Blogs