AWS Neuron

SDK untuk mengoptimalkan AI dan deep learning di AWS Trainium dan AWS Inferentia

Apa itu AWS Neuron?

AWS Neuron adalah kit pengembangan perangkat lunak (SDK) yang digunakan untuk menjalankan deep learning dan beban kerja AI generatif pada instans Amazon Elastic Compute Cloud (Amazon EC2) yang didukung AWS Inferentia dan AWS Trainium. Ini termasuk pengompilasi, runtime, pustaka pelatihan dan inferensi, serta alat developer untuk pemantauan, pembuatan profil, dan debugging. Neuron mendukung siklus pengembangan machine learning (ML) menyeluruh termasuk pembangunan dan deployment deep learning dan model AI, yang mengoptimalkan untuk mencapai performa tertinggi dan biaya terendah, dan mendapatkan wawasan yang lebih dalam tentang perilaku model.

pola latar belakang

Integrasi native dengan kerangka kerja dan pustaka ML populer

Neuron terintegrasi secara native dengan PyTorch dan JAX, dan pustaka ML penting, seperti Hugging Face Optimum Neuron, PyTorch Lightning, dan AXLearn. Neuron juga mendukung OpenXLA, termasuk StableHLO dan GSPMD, yang memungkinkan developer PyTorch, XLA, dan JAX untuk menggunakan pengoptimalan pengompilasi Neuron untuk Inferentia dan Trainium. Neuron memungkinkan Anda menggunakan instans berbasis Trainium dan Inferentia dengan layanan, seperti Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster, dan AWS Batch, serta layanan pihak ketiga, seperti Ray (Anyscale), Domino Data Lab, Datadog, dan Weights & Biases.

pola latar belakang

Pelatihan terdistribusi dan pustaka inferensi

Neuron menyertakan pengoptimalan unik untuk pelatihan dan inferensi terdistribusi dengan pustaka PyTorch sumber terbuka, NxD Training, dan NxD Inference. NxD Training menyederhanakan dan mengoptimalkan pelatihan terdistribusi skala besar dan mendukung berbagai arsitektur model, strategi paralelisme, dan alur kerja pelatihan. NxD Inference memberikan solusi komprehensif untuk inferensi model yang dioptimalkan dengan fitur-fitur utama, seperti pengambilan sampel pada perangkat, penggabungan beban QKV, batching berkelanjutan, pengodean spekulatif, bucketing dinamis, dan inferensi terdistribusi. NxD Inference juga terintegrasi dengan solusi penyajian, seperti vLLM dan Hugging Face TGI. Keduanya menyertakan hub model untuk arsitektur model yang berbeda.

pola latar belakang

Kemampuan ilmu terapan tingkat lanjut

Neuron memiliki beberapa kemampuan ilmu terapan untuk memberdayakan para ilmuwan dan peneliti untuk mendorong batas-batas penelitian dan inovasi AI sumber terbuka di Trainium dan Inferentia. Antarmuka Kernel Neuron (NKI) menyediakan akses langsung ke instruksi dan primitif perangkat keras yang tersedia di Trainium dan Inferentia sehingga memungkinkan peneliti membangun dan menyetel kernel komputasi untuk kinerja optimal. Ini adalah lingkungan pemrograman berbasis Python yang mengadopsi sintaksis mirip Triton dan semantik tingkat ubin yang umum digunakan. Peneliti dapat menggunakan NKI untuk meningkatkan model deep learning dengan fungsionalitas baru, optimisasi, dan inovasi sains. Operator C++ kustom Neuron memungkinkan developer untuk memperluas fungsionalitas SDK dengan membuat operator mereka sendiri yang dioptimalkan untuk Inferentia dan Trainium.

pola latar belakang

Alat developer yang tangguh

AWS Neuron SDK menawarkan seperangkat alat komprehensif untuk memberikan wawasan mendalam tentang pemantauan, pengelolaan, dan pengoptimalan model deep learning pada instans EC2 yang didukung AWS Inferentia dan Trainium. Ini menyediakan utilitas, seperti neuron-top, neuron-monitor, dan Neuron Sysfs untuk memantau sumber daya perangkat keras, eksekusi model, dan detail sistem. Untuk aplikasi terkontainer di Kubernetes dan EKS, Neuron menyederhanakan pemantauan melalui integrasi Amazon CloudWatch dan alat observabilitas populer lainnya, seperti Data Dog dan Weights & Biases. Selain itu, alat profil neuron membantu mengidentifikasi dan mengatasi hambatan kinerja di aplikasi simpul tunggal dan terdistribusi, dan menyediakan kemampuan pembuatan profil native untuk kerangka kerja ML populer.

pola latar belakang

Memulai

Neuron Deep Learning Amazon Machine Images (Neuron DLAMIs) telah dikonfigurasi sebelumnya dengan Neuron SDK, kerangka kerja populer, dan pustaka yang bermanfaat, sehingga Anda dapat memulai pelatihan dan menjalankan inferensi dengan cepat di AWS Inferentia. Neuron DLAMIs merampingkan alur kerja Anda dan mengoptimalkan performa, yang menghilangkan kerumitan penyiapan sehingga Anda dapat fokus pada pembuatan dan deployment model AI. Mulai Neuron DLAMIs.

Deploy model dengan cepat menggunakan AWS Neuron Deep Learning Containers (Neuron DLC) yang telah dikonfigurasi sebelumnya dengan kerangka kerja yang dioptimalkan untuk Trainium dan Inferentia. Untuk solusi khusus, buat kontainer Anda sendiri dan manfaatkan fitur Kubernetes, seperti Neuron Device Plugin, Neuron Scheduler Extension, dan Helm Charts. Integrasikan secara mulus dengan layanan AWS, seperti Amazon EKS, AWS Batch, dan Amazon ECS untuk deployment yang dapat diskalakan. Mulai Neuron DLCs.

Optimum Neuron menjembatani Hugging Face Transformers dan AWS Neuron SDK, yang menyediakan API Hugging Face standar untuk Trainium dan Inferentia. Ini menawarkan solusi pelatihan dan inferensi, termasuk dukungan pelatihan model skala besar dan deployment alur kerja AI. Mendukung Amazon SageMaker dan Deep Learning Containers yang sudah dibuat sebelumnya, Optimum Neuron menyederhanakan penggunaan Trainium dan Inferentia untuk ML. Integrasi ini memungkinkan developer untuk bekerja dengan antarmuka Hugging Face yang sudah dikenal sekaligus memanfaatkan Trainium dan Inferentia untuk proyek berbasis transformator mereka. Mulai Hugging Face Optimum Neuron.

Anda dapat menggunakan Amazon SageMaker JumpStart untuk melatih dan melakukan deployment model menggunakan Neuron. JumpStart memberikan dukungan untuk menyempurnakan dan melakukan deployment model populer, seperti jajaran model Llama Meta. Mulai SageMaker JumpStart.