Documenti Assistenza

English
Deutsch
Español – América Latina
Français
Indonesia
Italiano
Português – Brasil
中文 – 简体
中文 – 繁體
日本語
한국어

Console

Contattaci Inizia gratuitamente

Questa pagina è stata tradotta dall'API Cloud Translation.

Prospettiva AI e ML: affidabilità

Last reviewed 2024-10-11 UTC

Questo documento della Well-Architected Framework: AI and ML perspective fornisce una panoramica dei principi e dei consigli per progettare e gestire sistemi di AI e ML affidabili su Google Cloud. Il corso esplora come integrare pratiche avanzate di affidabilità e osservabilità nei tuoi progetti architetturali. I suggerimenti contenuti in questo documento sono in linea con il pilastro dell'affidabilità del Google Cloud Well-Architected Framework.

Nel panorama in rapida evoluzione dell'AI e del ML, sistemi affidabili sono essenziali per garantire la soddisfazione dei clienti e raggiungere gli obiettivi aziendali. Hai bisogno di sistemi di AI e ML robusti, affidabili e adattabili per soddisfare le esigenze uniche sia del ML predittivo che dell'AI generativa. Per gestire le complessità di MLOps, dallo sviluppo al deployment e al miglioramento continuo, devi utilizzare un approccio incentrato sull'affidabilità. Google Cloud offre un'infrastruttura di AI appositamente creata in linea con i principi di Site Reliability Engineering (SRE) e fornisce una base solida per sistemi di AI e ML affidabili.

Assicurati che l'infrastruttura sia scalabile e ad alta disponibilità

Progettando per la scalabilità e la disponibilità, consenti alle tue applicazioni di gestire livelli di domanda variabili senza interruzioni del servizio o calo delle prestazioni. Ciò significa che i tuoi servizi di AI sono comunque disponibili per gli utenti durante le interruzioni dell'infrastruttura e quando il traffico è molto elevato.

Prendi in considerazione i seguenti consigli:

Progetta i tuoi sistemi di AI con funzionalità di scalabilità automatica e dinamica per gestire le fluttuazioni della domanda. Ciò contribuisce a garantire prestazioni ottimali, anche durante i picchi di traffico.
Gestisci le risorse in modo proattivo e anticipa le esigenze future tramite test di carico e monitoraggio delle prestazioni. Utilizza i dati storici e l'analisi predittiva per prendere decisioni informate sull'allocazione delle risorse.
Progetta per l'alta disponibilità e la tolleranza di errore adottando gli archetipi di deployment multizona e multiregione in Google Cloud e implementando la ridondanza e la replica.
Distribuire il traffico in entrata su più istanze dei servizi e degli endpoint di AI e ML. Il bilanciamento del carico contribuisce a evitare il sovraccarico di una singola istanza e a garantire prestazioni e disponibilità costanti.

Utilizzare un'architettura modulare e a basso accoppiamento

Per rendere i tuoi sistemi di AI resilienti ai guasti dei singoli componenti, utilizza un'architettura modulare. Ad esempio, progetta i componenti di elaborazione e convalida dei dati come moduli separati. Quando un componente specifico non funziona, l'architettura modulare contribuisce a ridurre al minimo i tempi di inattività e consente ai tuoi team di sviluppare e implementare le correzioni più rapidamente.

Prendi in considerazione i seguenti consigli:

Dividi il sistema di AI e ML in piccoli moduli o componenti autonomi. Questo approccio promuove il riutilizzo del codice, semplifica i test e la manutenzione e consente di sviluppare e implementare singoli componenti in modo indipendente.
Progetta i moduli a basso accoppiamento con interfacce ben definite. Questo approccio riduce al minimo le dipendenze e ti consente di apportare aggiornamenti e modifiche indipendenti senza influire sull'intero sistema.
Pianifica la riduzione controllata. Quando un componente non funziona, le altre parti del sistema devono continuare a fornire un livello adeguato di funzionalità.
Utilizza le API per creare limiti chiari tra i moduli e per nascondere i dettagli di implementazione a livello di modulo. Questo approccio ti consente di aggiornare o sostituire singoli componenti senza influire sulle interazioni con altre parti del sistema.

Creare una piattaforma MLOps automatizzata

Con una piattaforma MLOps automatizzata, le fasi e gli output del ciclo di vita del modello sono più affidabili. Promuovendo la coerenza, l'basso accoppiamento e la modularità ed esprimendo le operazioni e l'infrastruttura come codice, elimini i passaggi manuali fragili e mantieni sistemi di AI e ML più solidi e affidabili.

Prendi in considerazione i seguenti consigli:

Automatizza il ciclo di vita di sviluppo del modello, dalla preparazione e convalida dei dati all'addestramento, alla valutazione, al deployment e al monitoraggio del modello.
Gestisci la tua infrastruttura come codice (IaC). Questo approccio consente un controllo efficiente delle versioni, rollback rapidi quando necessario e deployment ripetibili.
Verifica che i modelli si comportino come previsto con i dati pertinenti. Automatizza il monitoraggio delle prestazioni dei tuoi modelli e crea avvisi appropriati per output imprevisti.
Convalida gli input e gli output delle pipeline di AI e ML. Ad esempio, convalida dati, configurazioni, argomenti dei comandi, file e previsioni. Configura avvisi per valori imprevisti o non consentiti.
Adotta una strategia di controllo della versione gestita per gli endpoint del modello. Questo tipo di strategia consente rilasci incrementali e un rapido ripristino in caso di problemi.

Mantenere la fiducia e il controllo tramite la governance di dati e modelli

L'affidabilità dei sistemi di AI e ML dipende dalle funzionalità di trust e governance dei tuoi dati e modelli. Gli output dell'AI possono non soddisfare le aspettative in modo silenzioso. Ad esempio, gli output potrebbero essere coerenti dal punto di vista formale, ma potrebbero essere errati o indesiderati. Implementando la tracciabilità e una governance solida, puoi assicurarti che gli output siano affidabili e attendibili.

Prendi in considerazione i seguenti consigli:

Utilizza un catalogo di dati e modelli per monitorare e gestire in modo efficace le tue risorse. Per facilitare la tracciabilità e gli audit, mantieni un record completo delle versioni di dati e modelli durante tutto il ciclo di vita.
Implementa controlli di accesso e audit trail rigorosi per proteggere dati e modelli sensibili.
Affrontare il problema critico dei bias nell'AI, in particolare nelle applicazioni di AI generativa. Per creare fiducia, punta alla trasparenza e alla spiegabilità negli output del modello.
Automatizza la generazione di statistiche sulle funzionalità e implementa il rilevamento di anomalie per identificare in modo proattivo i problemi relativi ai dati. Per garantire l'affidabilità del modello, stabilisci meccanismi per rilevare e mitigare l'impatto delle variazioni nelle distribuzioni dei dati.

Implementa pratiche olistiche di osservabilità e affidabilità di AI e ML

Per migliorare continuamente le operazioni di AI, devi definire obiettivi di affidabilità significativi e misurare i progressi. L'osservabilità è un elemento fondamentale dei sistemi affidabili. L'osservabilità ti consente di gestire le operazioni in corso e gli eventi critici. L'osservabilità ben implementata ti aiuta a creare e mantenere un servizio affidabile per i tuoi utenti.

Prendi in considerazione i seguenti consigli:

Monitora le metriche dell'infrastruttura per i processori (CPU, GPU e TPU) e per altre risorse come l'utilizzo della memoria, la latenza di rete e l'utilizzo del disco. Esegui test di carico e monitoraggio delle prestazioni. Utilizza i risultati e le metriche dei test del monitoraggio per gestire lo scaling e la capacità dei tuoi sistemi di AI e ML.
Definisci obiettivi di affidabilità e monitora le metriche delle applicazioni. Misura metriche come velocità effettiva e latenza per le applicazioni AI che crei. Monitora i pattern di utilizzo delle tue applicazioni e degli endpoint esposti.
Definisci metriche specifiche del modello, come indicatori di accuratezza o sicurezza, per valutare l'affidabilità del modello. Monitora queste metriche nel tempo per identificare eventuali deviazioni o degradazioni. Per un controllo della versione e un'automazione efficienti, definisci le configurazioni di monitoraggio come codice.
Definisci e monitora le metriche a livello aziendale per comprendere l'impatto dei tuoi modelli e dell'affidabilità sui risultati aziendali. Per misurare l'affidabilità dei tuoi servizi AI e ML, valuta la possibilità di adottare l'approccio SRE e definisci gli obiettivi del livello di servizio (SLO).

Collaboratori

Autori:

Rick (Rugui) Chen | AI Infrastructure Solutions Architect
Filipe Gracio, PhD | Customer Engineer

Altri collaboratori:

Jose Andrade | Customer Engineer per l'infrastruttura aziendale
Kumar Dhanagopal | Sviluppatore di soluzioni cross-product
Marwan Al Shawi | Partner Customer Engineer

Ottimizzazione dei costi

Salvo quando diversamente specificato, i contenuti di questa pagina sono concessi in base alla licenza Creative Commons Attribution 4.0, mentre gli esempi di codice sono concessi in base alla licenza Apache 2.0. Per ulteriori dettagli, consulta le norme del sito di Google Developers. Java è un marchio registrato di Oracle e/o delle sue consociate.

Ultimo aggiornamento 2024-10-11 UTC.