
AMD resmi mempublikasikan hasil MLPerf 5.1 Training pertama untuk Instinct MI350 Series, menandai tonggak penting dalam performa pelatihan AI generasi berikutnya. Benchmark ini merupakan debut publik untuk GPU MI355X dan MI350X, memperlihatkan peningkatan kinerja yang signifikan serta dukungan ekosistem yang semakin luas.
Lonjakan Performa Hingga 2,8 Kali dari Generasi Sebelumnya
GPU Instinct MI350 Series mencatat peningkatan performa besar, dengan waktu pelatihan hingga 2,8 kali lebih cepat dibanding MI300X dan 2,1 kali lebih cepat dibanding MI325X.
Pada pengujian Llama 2-70B LoRA (FP8), MI355X memangkas waktu training dari hampir 28 menit (MI300X) menjadi sekitar 10 menit. Peningkatan ini berkat kombinasi:
- Arsitektur GPU generasi baru
- Memori HBM3E dengan bandwidth tertinggi di kelasnya
- Optimasi perangkat lunak ROCm 7.1 yang meningkatkan efisiensi kernel dan komunikasi
Hasil ini memperkuat posisi MI355X dalam mempercepat fine-tuning model AI skala besar secara lebih hemat energi.






Performa Kompetitif Melawan NVIDIA
AMD juga menampilkan perbandingan terhadap rata-rata sistem NVIDIA B200/B300 (FP8) pada putaran MLPerf yang sama. Hasilnya:
- Llama 2-70B LoRA (FP8)
- MI355X: 10,18 menit
- Rata-rata NVIDIA B200/B300 FP8: 9,85–9,59 menit
- Llama 3.1-8B (FP8) pre-training
- MI355X: 99,7 menit
- Rata-rata NVIDIA B200/B300 FP8: 93,69–95,10 menit
Meski demikian, NVIDIA tidak melakukan submission FP8 di MLPerf 5.1, hanya FP4. AMD memilih tidak mengirimkan FP4 karena format tersebut dinilai belum siap untuk training produksi, mengingat isu stabilitas numerik yang mengharuskan fallback ke FP8 di tengah proses pelatihan.
Sebagai catatan, angka FP8 NVIDIA dari MLPerf 5.0 menunjukkan 11,15 menit untuk Llama 2-70B LoRA pada GB200. Dengan 10,18 menit, MI355X kini mencatat peningkatan ~10% terhadap hasil FP8 tersebut.
Partisipasi Ekosistem AMD Memecahkan Rekor
Putaran MLPerf 5.1 kali ini juga menjadi rekor bagi AMD, dengan sembilan mitra besar—termasuk ASUS, Cisco, Dell, Giga Computing, QCT, Supermicro, dan lainnya—mengirimkan hasil pada platform MI350 Series.
Menariknya, seluruh mitra yang melakukan submission baru pertama kali memakai MI355X, namun hasilnya tetap berada dalam selisih hanya 1% dari submission resmi AMD. Hal ini menunjukkan:
- Stabilitas ROCm 7.1
- Konsistensi performa hardware AMD
- Kesiapan sistem untuk deployment skala produksi
ROCm 7.1: Mesin di Balik Skala dan Efisiensi
ROCm 7.1 menghadirkan optimasi menyeluruh, termasuk:
- Kernel & GEMM tuning
- Fused attention
- Integrasi XLA dan TorchInductor
- Efisiensi bandwidth dan overlap compute-communication
- Dukungan model hari-pertama (day-0) seperti Llama 3.1-8B, Mistral, dan SD-XL
Perangkat lunak ini menjadi fondasi utama bagi performa konsisten di multi-node dan mempercepat konvergensi model menggunakan FP8.
Kesimpulan
Hasil MLPerf 5.1 Training menegaskan bahwa Instinct MI350 Series—khususnya MI355X—telah mencapai:
- Peningkatan performa generasi signifikan
- Posisi kompetitif terhadap GPU premium NVIDIA
- Partisipasi ekosistem yang tumbuh pesat
- Konsistensi performa berkat ROCm 7.1
Dengan roadmap yang melaju tiap tahun—MI300X (2023), MI325X (2024), MI350 (2025), dan MI450 (2026)—AMD terus bergerak menuju kepemimpinan AI, baik dalam performa maupun keterbukaan benchmarking.
Sumber: AMD Blogs








