AMD mengumumkan pencapaian besar dari Zyphra, yang berhasil melatih model Mixture-of-Experts (MoE) skala besar pertama di dunia menggunakan platform GPU dan networking AMD. Model bernama ZAYA1 ini dilatih menggunakan AMD Instinct MI300X dan AMD Pensando networking, dengan dukungan penuh dari ekosistem perangkat lunak ROCm.
Menurut laporan teknis Zyphra yang dirilis hari ini, ZAYA1 menunjukkan kinerja yang kompetitif—bahkan unggul—dibandingkan model-model open source terkemuka pada benchmark reasoning, matematika, dan coding. Ini menjadi bukti nyata bahwa AMD Instinct mampu mendukung workload AI berskala produksi.
Kolaborasi AMD – Zyphra – IBM: Tonggak Baru Pelatihan Model Besar
Emad Barsoum, VP AI Engineering AMD, mengatakan bahwa keberhasilan Zyphra menunjukkan fleksibilitas dan kekuatan kombinasi MI300X + Pensando dalam melatih model AI kompleks.
Zyphra menegaskan bahwa pilihan menggunakan AMD sangat dipengaruhi oleh filosofi mereka: efisiensi.
CEO Zyphra, Krithik Puthalath, menyatakan:
“ZAYA1 mencerminkan filosofi efisiensi kami, dan kami bangga menjadi yang pertama mendemonstrasikan pelatihan model berskala besar sepenuhnya di platform AMD.”
Zyphra bekerja sama dengan AMD dan IBM untuk mengembangkan kluster pelatihan besar berbasis MI300X, terhubung dengan fabric dan arsitektur penyimpanan berperforma tinggi di IBM Cloud. Sistem ini menjadi fondasi proses pretraining ZAYA1.
MI300X: 192 GB HBM, Tanpa Sharding Rumit, dan I/O 10× Lebih Cepat
Zyphra mengungkap beberapa faktor kunci yang memungkinkan efisiensi pelatihan ZAYA1:
✔ 192 GB HBM meminimalkan sharding
Tidak perlu expert sharding atau tensor sharding yang mahal—mengurangi kompleksitas sekaligus meningkatkan throughput.
✔ Distributed I/O AMD yang dioptimalkan
Memberikan kecepatan penyimpanan model 10× lebih cepat, meningkatkan keandalan selama pelatihan model besar.
✔ Performa model yang mengesankan
Model ZAYA1-Base (8.3B parameter total, 760M aktif) mampu menyamai atau mengungguli:
- Qwen3-4B (Alibaba)
- Gemma3-12B (Google)
- Llama-3-8B (Meta)
- OLMoE (Allen Institute)
Ini menunjukkan keunggulan desain MoE Zyphra yang digabungkan dengan hardware AMD.
Menuju Generasi Selanjutnya Model Multimodal
Keberhasilan ZAYA1 tidak hanya menjadi bukti kemampuan platform AMD, tetapi juga menandai langkah awal Zyphra untuk mengembangkan model multimodal generasi berikutnya dengan fokus efisiensi dan skala produksi.
Zyphra menyediakan laporan teknis, blog resmi, dan kolaborasi dengan AMD serta IBM untuk memberi gambaran lengkap mengenai:
- arsitektur ZAYA1
- metodologi pelatihan
- detail hardware AMD yang digunakan
