AWS Trainium

Dapatkan performa tinggi untuk pelatihan AI generatif dan deep learning sekaligus mengurangi biaya

Mengapa memilih Trainium?

Chip AWS Trainium adalah keluarga chip AI yang dibuat khusus oleh AWS untuk pelatihan dan inferensi AI agar dapat menghadirkan performa tinggi sekaligus mengurangi biaya.

Chip AWS Trainium generasi pertama mendukung instans Trn1 Amazon Elastic Compute Cloud (Amazon EC2), yang memiliki biaya pelatihan hingga 50% lebih rendah daripada instans Amazon EC2 yang sebanding. Banyak pelanggan, termasuk Databricks, Ricoh, NinjaTech AI, dan Arcee AI, mengakui manfaat performa dan biaya instans Trn1.

Chip AWS Trainium2 menghadirkan performa hingga empat kali lipat dari Trainium generasi pertama. Instans Trn2 Amazon EC2 berbasis Trainium2 dibuat khusus untuk AI generatif dan merupakan instans EC2 yang paling kuat untuk melatih dan men-deploy model dengan lebih dari ratusan miliar hingga triliun parameter. Instans Trn2 menawarkan performa sesuai harga 30% hingga 40% lebih baik daripada instans P5e dan P5en EC2 berbasis GPU generasi saat ini. Instans Trn2 dilengkapi dengan 16 chip Trainium2 yang saling terhubung dengan NeuronLink, interkoneksi chip-ke-chip milik kami. Anda dapat menggunakan instans Trn2 untuk melatih dan men-deploy model yang paling berat, termasuk model bahasa besar (LLM), model multimodal, dan transformator difusi, untuk membangun set aplikasi AI generatif generasi berikutnya yang luas. UltraServers Trn2, penawaran EC2 yang benar-benar baru (tersedia dalam pratinjau), cocok untuk model terbesar yang membutuhkan lebih banyak memori dan bandwidth memori daripada yang dapat disediakan oleh instans EC2 mandiri. Desain UltraServer menggunakan NeuronLink untuk menghubungkan 64 chip Trainium2 di empat instans Trn2 menjadi satu simpul, yang membuka kemampuan baru. Kesimpulannya, UltraServers membantu memberikan waktu respons terdepan di industri untuk menciptakan pengalaman waktu nyata terbaik. Untuk pelatihan, UltraServers meningkatkan kecepatan dan efisiensi pelatihan model dengan komunikasi kolektif yang lebih cepat untuk paralelisme model dibandingkan dengan instans mandiri.

Anda dapat memulai pelatihan dan deployment model pada instans Trn2 dan Trn1 dengan dukungan native untuk kerangka kerja machine learning (ML) populer. seperti PyTorch dan JAX.

Manfaat

Trn2 UltraServer dan instans menghadirkan performa terobosan di Amazon EC2 untuk pelatihan dan inferensi AI generatif. Setiap Trn2 UltraServer memiliki 64 chip Trainium2 yang terhubung dengan NeuronLink, interkoneksi chip-ke-chip milik kami, dan memberikan hingga 83,2 petaflop komputasi FP8, 6 TB HBM3 dengan 185 terabyte per detik (TBps) bandwidth memori, dan 12,8 terabit per detik (Tbps) jaringan Elastic Fabric Adapter (EFA). Setiap instans Trn2 memiliki 16 chip Trainium2 yang terhubung dengan NeuronLink dan memberikan hingga 20,8 petaflop komputasi FP8, 1,5 TB HBM3 dengan 46 TBps bandwidth memori, dan 3,2 Tbps jaringan EFA. Instans Trn1 dilengkapi dengan hingga 16 chip Trainium dan memberikan hingga 3 petaflop komputasi FP8, 512 GB HBM dengan 9,8 TBps bandwidth memori, dan hingga 1,6 Tbps jaringan EFA.

AWS Neuron SDK membantu Anda mengeluarkan performa penuh instans Trn2 dan Trn1 sehingga Anda dapat fokus pada pembuatan dan deployment model, serta mempercepat waktu Anda untuk memasarkan. AWS Neuron terintegrasi secara native dengan JAX, PyTorch, dan pustaka penting, seperti Hugging Face, PyTorch Lightning, dan NeMo. AWS Neuron mendukung lebih dari 100.000 model di hub model Hugging Face termasuk model populer, seperti jajaran model Llama Meta dan Stable Diffusion XL. Ini mengoptimalkan model secara langsung untuk pelatihan dan inferensi terdistribusi, sekaligus memberikan wawasan mendalam untuk pembuatan profil dan debugging. AWS Neuron terintegrasi dengan layanan, seperti Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster, dan AWS Batch, serta layanan pihak ketiga, seperti Ray (Anyscale), Domino Data Lab, dan Datadog.

Untuk memberikan performa tinggi sekaligus memenuhi tujuan akurasi, chip Trainium dioptimalkan untuk FP32, TF32, BF16, FP16, dan tipe data FP8 (cFP8) baru yang dapat dikonfigurasi. Untuk mendukung laju inovasi yang cepat dalam AI generatif, Trainium2 memiliki pengoptimalan perangkat keras untuk 4x ketersebaran (16:4), penskalaan mikro, pembulatan stokastik, dan mesin kolektif khusus.

Antarmuka Kernel Neuron (NKI) memungkinkan akses langsung ke arsitektur set instruksi (ISA) menggunakan lingkungan berbasis Python dengan antarmuka, seperti Triton, yang memungkinkan Anda untuk menciptakan arsitektur model baru dan kernel komputasi yang sangat dioptimalkan yang mengungguli teknik yang ada.

Instans Trn2 dirancang agar tiga kali lebih hemat energi daripada instans Trn1. Instans Trn1 lebih hemat energi hingga 25% daripada instans EC2 komputasi akselerasi yang setara. Instans ini membantu Anda mencapai tujuan keberlanjutan saat melatih model ultra-besar.

Video

Tayangan di balik layar Infrastruktur AI generatif di Amazon
Percepat DL dan berinovasi lebih cepat dengan AWS Trainium
Memperkenalkan Instans Trn1 Amazon EC2 yang ditenagai oleh AWS Trainium