News

AWS Luncurkan Trainium3 ASIC, Kurangi Ketergantungan pada NVIDIA

Dalam konferensi AWS re:Invent di Las Vegas, Amazon Web Services (AWS) memperkenalkan chip ASIC terbaru bernama Trainium3, yang dirancang untuk kebutuhan beban kerja AI internal serta sejumlah pelanggan eksternal. Chip ini menghadirkan lompatan besar dalam performa dengan kemampuan komputasi 2,52 PetaFLOPS FP8 per chip, kapasitas memori on-chip hingga 144 GB HBM3E, serta bandwidth memori mencapai 4,9 TB/s. Trainium3 mendukung topologi model dense maupun expert-parallel, serta memperkenalkan format data kompak MXFP8 dan MXFP4 untuk menyeimbangkan kebutuhan memori dan komputasi pada tugas reasoning multimodal dan konteks panjang secara real-time.

Chip ini diproduksi menggunakan proses fabrikasi TSMC N3 3 nm dan kini tersedia dalam Amazon EC2 Trn3 UltraServer.

Skala UltraServer dan UltraClusters

Setiap Trn3 UltraServer dapat menampung hingga 144 chip Trainium3, menghasilkan total komputasi sekitar 362 FP8 PetaFLOPS. Server ini dapat digabungkan dalam EC2 UltraClusters 3.0 untuk kebutuhan deployment berskala lebih besar.

Satu UltraServer penuh menawarkan 20,7 TB memori HBM3e dengan bandwidth agregat sekitar 706 TB/s. Infrastruktur ini juga dilengkapi dengan NeuronSwitch-v1 fabric, yang menggandakan bandwidth interkoneksi antar-chip dibandingkan generasi sebelumnya. AWS mencatat peningkatan signifikan dibandingkan Trainium2, dengan performa hingga 4,4 kali lebih tinggi, bandwidth memori 3,9 kali lebih besar, serta efisiensi daya sekitar 4 kali lebih baik. Selain itu, terdapat peningkatan pada efisiensi inference dan token untuk berbagai layanan Amazon.

Diversifikasi Infrastruktur AI

Peluncuran Trainium3 menjadi strategi AWS untuk membantu pelanggan mengurangi ketergantungan pada GPU tradisional dari NVIDIA maupun AMD. AWS sendiri telah menggunakan chip ini untuk melatih dan menjalankan model internal, sekaligus menawarkan daya komputasi tersebut kepada laboratorium AI terkemuka.

Salah satu mitra utama adalah Anthropic, yang telah menerima investasi hampir 8 miliar dolar AS dari Amazon. Anthropic sebelumnya menggunakan Trainium2 untuk melatih model-model besar mereka, dan kini dengan Trainium3 diharapkan dapat meraih efisiensi lebih tinggi. Keunggulan ini diyakini akan menarik lebih banyak laboratorium AI besar untuk beralih ke infrastruktur AWS.

Sumber: AWS

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button