Apa itu AWS Neuron?
AWS Neuron adalah kit pengembangan perangkat lunak (SDK) yang digunakan untuk menjalankan deep learning dan beban kerja AI generatif pada instans Amazon Elastic Compute Cloud (Amazon EC2) yang didukung AWS Inferentia dan AWS Trainium. Ini termasuk pengompilasi, runtime, pustaka pelatihan dan inferensi, serta alat developer untuk pemantauan, pembuatan profil, dan debugging. Neuron mendukung siklus pengembangan machine learning (ML) menyeluruh termasuk pembangunan dan deployment deep learning dan model AI, yang mengoptimalkan untuk mencapai performa tertinggi dan biaya terendah, dan mendapatkan wawasan yang lebih dalam tentang perilaku model.
Integrasi native dengan kerangka kerja dan pustaka ML populer
Neuron terintegrasi secara native dengan PyTorch dan JAX, dan pustaka ML penting, seperti Hugging Face Optimum Neuron, PyTorch Lightning, dan AXLearn. Neuron juga mendukung OpenXLA, termasuk StableHLO dan GSPMD, yang memungkinkan developer PyTorch, XLA, dan JAX untuk menggunakan pengoptimalan pengompilasi Neuron untuk Inferentia dan Trainium. Neuron memungkinkan Anda menggunakan instans berbasis Trainium dan Inferentia dengan layanan, seperti Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster, dan AWS Batch, serta layanan pihak ketiga, seperti Ray (Anyscale), Domino Data Lab, Datadog, dan Weights & Biases.
Pelatihan terdistribusi dan pustaka inferensi
Neuron menyertakan pengoptimalan unik untuk pelatihan dan inferensi terdistribusi dengan pustaka PyTorch sumber terbuka, NxD Training, dan NxD Inference. NxD Training menyederhanakan dan mengoptimalkan pelatihan terdistribusi skala besar dan mendukung berbagai arsitektur model, strategi paralelisme, dan alur kerja pelatihan. NxD Inference memberikan solusi komprehensif untuk inferensi model yang dioptimalkan dengan fitur-fitur utama, seperti pengambilan sampel pada perangkat, penggabungan beban QKV, batching berkelanjutan, pengodean spekulatif, bucketing dinamis, dan inferensi terdistribusi. NxD Inference juga terintegrasi dengan solusi penyajian, seperti vLLM dan Hugging Face TGI. Keduanya menyertakan hub model untuk arsitektur model yang berbeda.
Kemampuan ilmu terapan tingkat lanjut
Neuron memiliki beberapa kemampuan ilmu terapan untuk memberdayakan para ilmuwan dan peneliti untuk mendorong batas-batas penelitian dan inovasi AI sumber terbuka di Trainium dan Inferentia. Antarmuka Kernel Neuron (NKI) menyediakan akses langsung ke instruksi dan primitif perangkat keras yang tersedia di Trainium dan Inferentia sehingga memungkinkan peneliti membangun dan menyetel kernel komputasi untuk kinerja optimal. Ini adalah lingkungan pemrograman berbasis Python yang mengadopsi sintaksis mirip Triton dan semantik tingkat ubin yang umum digunakan. Peneliti dapat menggunakan NKI untuk meningkatkan model deep learning dengan fungsionalitas baru, optimisasi, dan inovasi sains. Operator C++ kustom Neuron memungkinkan developer untuk memperluas fungsionalitas SDK dengan membuat operator mereka sendiri yang dioptimalkan untuk Inferentia dan Trainium.
Alat developer yang tangguh
AWS Neuron SDK menawarkan seperangkat alat komprehensif untuk memberikan wawasan mendalam tentang pemantauan, pengelolaan, dan pengoptimalan model deep learning pada instans EC2 yang didukung AWS Inferentia dan Trainium. Ini menyediakan utilitas, seperti neuron-top, neuron-monitor, dan Neuron Sysfs untuk memantau sumber daya perangkat keras, eksekusi model, dan detail sistem. Untuk aplikasi terkontainer di Kubernetes dan EKS, Neuron menyederhanakan pemantauan melalui integrasi Amazon CloudWatch dan alat observabilitas populer lainnya, seperti Data Dog dan Weights & Biases. Selain itu, alat profil neuron membantu mengidentifikasi dan mengatasi hambatan kinerja di aplikasi simpul tunggal dan terdistribusi, dan menyediakan kemampuan pembuatan profil native untuk kerangka kerja ML populer.