Amazon SageMaker Feature Store

Un servizio completamente gestito per le funzionalità di machine learning

Cos'è l'archivio delle funzionalità di Amazon SageMaker?

Amazon SageMaker Feature Store è un repository dedicato e completamente gestito per archiviare, condividere e gestire funzionalità per i modelli di machine learning (ML). Le funzionalità sono input per i modelli di ML utilizzati in fase di addestramento e inferenza. Ad esempio, in un'applicazione che suggerisce una playlist musicale, le funzionalità possono includere le valutazioni dei brani, la durata di ascolto e dati demografici sugli ascoltatori. Le funzionalità vengono utilizzate ripetutamente da diversi team e la loro qualità è fondamentale per garantire la creazione di un modello ad alta precisione. Inoltre, quando le funzionalità utilizzate per l'addestramento dei modelli offline in batch vengono messe a disposizione per l'inferenza in tempo reale, è difficile mantenere sincronizzati i due archivi di funzionalità. SageMaker Feature Store fornisce un archivio sicuro e unificato per elaborare, standardizzare e utilizzare le funzionalità su larga scala durante tutto il ciclo di vita del machine learning.

Come funziona

Come funziona: Amazon SageMaker Feature Store

Vantaggi dell'archivio funzionalità SageMaker

Trasforma i dati in funzionalità ML e crea pipeline di funzionalità che supportano le pratiche MLOps e accelerano i tempi di implementazione dei modelli
Archivia, condividi e gestisci le funzionalità dei modelli di ML per l'addestramento e l'inferenza in modo da favorire il riutilizzo delle funzionalità nelle varie applicazioni di ML
Acquisisci caratteristiche da qualsiasi origine dei dati, tra cui streaming e batch come registri di applicazioni, registri di servizi, clickstream, sensori e dati tabulari da origini dei dati di AWS o di terze parti

Gestione delle funzionalità

Elaborazione e acquisizione di funzionalità

È possibile importare i dati in SageMaker Feature Store, come log di applicazioni e servizi, clickstream, sensori e dati tabulari, da diverse origini come Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake e Databricks Delta Lake. Utilizzando l'elaborazione delle funzionalità, è possibile specificare l'origine dati in batch e la funzione di trasformazione delle funzionalità (ad esempio, il numero di visualizzazioni dei prodotti o gli aggregati delle finestre temporali) e SageMaker Feature Store trasformerà i dati al momento dell'importazione in funzionalità ML. Con Amazon SageMaker Data Wrangler è possibile pubblicare funzionalità direttamente in SageMaker Feature Store. Grazie al connettore Apache Spark, è possibile importare in batch un volume di dati elevato con una singola riga di codice.

Screenshot di

Archiviazione, catalogazione, ricerca e riutilizzo delle funzionalità

SageMaker Feature Store tagga e indicizza i gruppi di funzionalità per renderli facilmente individuabili attraverso l'interfaccia visiva di Amazon SageMaker Studio. La consultazione del catalogo di funzionalità permette ai team di individuare le funzionalità esistenti che possono riutilizzare con sicurezza ed evitare la duplicazione delle pipeline. SageMaker Feature Store utilizza per impostazione predefinita il Catalogo dati AWS Glue, ma offre anche la possibilità di usufruire di un catalogo diverso, se desiderato. È anche possibile inviare query alle funzionalità utilizzando la consueta sintassi di SQL con Amazon Athena o un altro strumento per la creazione di query a scelta.

L'immagine illustra il catalogo del gruppo di funzionalità

Coerenza delle funzionalità

SageMaker Feature Store supporta l'archiviazione offline per l'addestramento e l'archiviazione online per l'inferenza in tempo reale. L'addestramento e l'inferenza sono casi d'uso molto diversi, così come lo sono i rispettivi requisiti di archiviazione. In fase di addestramento, i modelli spesso utilizzano il set di dati completo e richiedono ore per il completamento, mentre l'inferenza deve avvenire nell'arco di qualche millisecondo e solitamente utilizza un sottoinsieme dei dati. Se utilizzati insieme, SageMaker Feature Store garantisce che i set di dati offline e online rimangano sincronizzati. Si tratta di un fattore fondamentale, perché l'eventuale scostamento potrebbe avere un impatto negativo sulla precisione del modello.

L'immagine illustra la creazione di un gruppo di funzionalità

Viaggio nel tempo

I data scientist potrebbero avere la necessità di addestrare modelli con l'esatto set di valori delle funzionalità di un particolare momento nel passato senza correre il rischio di includere i dati precedenti (perdite di funzionalità), ad esempio le informazioni mediche di un paziente prima di una diagnosi. SageMaker Feature Store supporta le API query point-in-time per recuperare lo stato di ciascuna funzionalità nel momento storico pertinente.  

L'immagine mostra il flusso delle query dell'API Offline di Feature Store per recuperare lo stato di ciascuna funzionalità nel momento storico pertinente

Sicurezza e governance

Monitoraggio della derivazione

Per consentire il riutilizzo sicuro delle funzionalità, i data scientist devono sapere come sono state create le funzionalità e quali sono i modelli e gli endpoint che le utilizzano. SageMaker Feature Store consente ai data scientist di monitorare le loro funzionalità in Amazon SageMaker Studio con SageMaker Lineage. SageMaker Lineage consente di tenere traccia delle esecuzioni pianificate delle pipeline, visualizzare la derivazione upstream per risalire alle origini dati delle funzionalità e visualizzare il codice di elaborazione delle funzionalità, il tutto in un unico ambiente.

L'immagine mostra il lineage del gruppo di funzionalità in SageMaker Studio

Operazioni di ML

Gli archivi delle funzionalità sono un componente fondamentale nel ciclo di vita MLOps. Gestiscono i set di dati e le pipeline delle funzionalità, così da accelerare le attività di data science ed eliminare il lavoro doppio di creazione ripetuta delle medesime funzionalità. SageMaker Feature Store è utilizzabile come servizio autonomo o in abbinamento ad altri servizi SageMaker in maniera integrata durante tutto il ciclo di vita MLOps.

Sicurezza e conformità

Per supportare i requisiti di sicurezza e conformità, può essere necessario mantenere un controllo dettagliato sugli accessi alle funzionalità di ML condivise. Spesso tali requisiti si spingono oltre al controllo degli accessi a livello di tabella e colonna per raggiungere il livello della singola riga. Ad esempio, può essere desiderabile permettere ai rappresentanti di account di vedere soltanto le righe di una tabella vendite relative ai rispettivi account e nascondere il prefisso di dati sensibili come i numeri di carta di credito. È possibile utilizzare SageMaker Feature Store insieme ad AWS Lake Formation per implementare controlli granulari degli accessi per proteggere i dati dell'archivio delle caratteristiche e garantire l'accesso in base al ruolo.

L'immagine mostra come utilizzare SageMaker Feature Store e AWS Lake Formation per implementare controlli granulari degli accessi

Novità

  • Data (dalla più alla meno recente)
Nessun risultato trovato
1