Cos'è l'archivio delle funzionalità di Amazon SageMaker?
Come funziona
Vantaggi dell'archivio funzionalità SageMaker
Gestione delle funzionalità
Elaborazione e acquisizione di funzionalità
È possibile importare i dati in SageMaker Feature Store, come log di applicazioni e servizi, clickstream, sensori e dati tabulari, da diverse origini come Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake e Databricks Delta Lake. Utilizzando l'elaborazione delle funzionalità, è possibile specificare l'origine dati in batch e la funzione di trasformazione delle funzionalità (ad esempio, il numero di visualizzazioni dei prodotti o gli aggregati delle finestre temporali) e SageMaker Feature Store trasformerà i dati al momento dell'importazione in funzionalità ML. Con Amazon SageMaker Data Wrangler è possibile pubblicare funzionalità direttamente in SageMaker Feature Store. Grazie al connettore Apache Spark, è possibile importare in batch un volume di dati elevato con una singola riga di codice.
Archiviazione, catalogazione, ricerca e riutilizzo delle funzionalità
SageMaker Feature Store tagga e indicizza i gruppi di funzionalità per renderli facilmente individuabili attraverso l'interfaccia visiva di Amazon SageMaker Studio. La consultazione del catalogo di funzionalità permette ai team di individuare le funzionalità esistenti che possono riutilizzare con sicurezza ed evitare la duplicazione delle pipeline. SageMaker Feature Store utilizza per impostazione predefinita il Catalogo dati AWS Glue, ma offre anche la possibilità di usufruire di un catalogo diverso, se desiderato. È anche possibile inviare query alle funzionalità utilizzando la consueta sintassi di SQL con Amazon Athena o un altro strumento per la creazione di query a scelta.
Coerenza delle funzionalità
SageMaker Feature Store supporta l'archiviazione offline per l'addestramento e l'archiviazione online per l'inferenza in tempo reale. L'addestramento e l'inferenza sono casi d'uso molto diversi, così come lo sono i rispettivi requisiti di archiviazione. In fase di addestramento, i modelli spesso utilizzano il set di dati completo e richiedono ore per il completamento, mentre l'inferenza deve avvenire nell'arco di qualche millisecondo e solitamente utilizza un sottoinsieme dei dati. Se utilizzati insieme, SageMaker Feature Store garantisce che i set di dati offline e online rimangano sincronizzati. Si tratta di un fattore fondamentale, perché l'eventuale scostamento potrebbe avere un impatto negativo sulla precisione del modello.
Viaggio nel tempo
I data scientist potrebbero avere la necessità di addestrare modelli con l'esatto set di valori delle funzionalità di un particolare momento nel passato senza correre il rischio di includere i dati precedenti (perdite di funzionalità), ad esempio le informazioni mediche di un paziente prima di una diagnosi. SageMaker Feature Store supporta le API query point-in-time per recuperare lo stato di ciascuna funzionalità nel momento storico pertinente.
Sicurezza e governance
Monitoraggio della derivazione
Per consentire il riutilizzo sicuro delle funzionalità, i data scientist devono sapere come sono state create le funzionalità e quali sono i modelli e gli endpoint che le utilizzano. SageMaker Feature Store consente ai data scientist di monitorare le loro funzionalità in Amazon SageMaker Studio con SageMaker Lineage. SageMaker Lineage consente di tenere traccia delle esecuzioni pianificate delle pipeline, visualizzare la derivazione upstream per risalire alle origini dati delle funzionalità e visualizzare il codice di elaborazione delle funzionalità, il tutto in un unico ambiente.
Operazioni di ML
Gli archivi delle funzionalità sono un componente fondamentale nel ciclo di vita MLOps. Gestiscono i set di dati e le pipeline delle funzionalità, così da accelerare le attività di data science ed eliminare il lavoro doppio di creazione ripetuta delle medesime funzionalità. SageMaker Feature Store è utilizzabile come servizio autonomo o in abbinamento ad altri servizi SageMaker in maniera integrata durante tutto il ciclo di vita MLOps.
Sicurezza e conformità
Per supportare i requisiti di sicurezza e conformità, può essere necessario mantenere un controllo dettagliato sugli accessi alle funzionalità di ML condivise. Spesso tali requisiti si spingono oltre al controllo degli accessi a livello di tabella e colonna per raggiungere il livello della singola riga. Ad esempio, può essere desiderabile permettere ai rappresentanti di account di vedere soltanto le righe di una tabella vendite relative ai rispettivi account e nascondere il prefisso di dati sensibili come i numeri di carta di credito. È possibile utilizzare SageMaker Feature Store insieme ad AWS Lake Formation per implementare controlli granulari degli accessi per proteggere i dati dell'archivio delle caratteristiche e garantire l'accesso in base al ruolo.
Risorse per SageMaker Feature Store
Novità
- Data (dalla più alla meno recente)