Prospettiva di IA e ML: eccellenza operativa

Last reviewed 2025-04-28 UTC

Questo documento del Well-Architected Framework: prospettiva AI e ML fornisce una panoramica dei principi e dei consigli per creare e gestire sistemi AI e ML robusti su Google Cloud. Questi consigli ti aiutano a configurare elementi fondamentali come osservabilità, automazione e scalabilità. I suggerimenti contenuti in questo documento sono in linea con il pilastro dell'eccellenza operativa del Google Cloud Well-Architected Framework.

L'eccellenza operativa nel dominio dell'AI e del ML è la capacità di eseguire il deployment, gestire e controllare senza problemi i sistemi e le pipeline di AI e ML che contribuiscono a raggiungere gli obiettivi strategici della tua organizzazione. L'eccellenza operativa ti consente di rispondere in modo efficiente ai cambiamenti, ridurre la complessità operativa e garantire che le tue operazioni rimangano in linea con gli obiettivi aziendali.

I consigli contenuti in questo documento sono mappati ai seguenti principi fondamentali:

Crea una base solida per lo sviluppo del modello

Per sviluppare ed eseguire il deployment di sistemi di AI scalabili e affidabili che ti aiutino a raggiungere i tuoi obiettivi aziendali, è essenziale una base solida per lo sviluppo dei modelli. Una base di questo tipo consente flussi di lavoro coerenti, automatizza i passaggi critici per ridurre gli errori e garantisce che i modelli possano essere scalati in base alla domanda. Una solida base per lo sviluppo di modelli garantisce che i tuoi sistemi ML possano essere aggiornati, migliorati e sottoposti a un nuovo addestramento senza problemi. La base ti aiuta anche ad allineare le prestazioni dei tuoi modelli alle esigenze aziendali, a implementare rapidamente soluzioni di AI di grande impatto e ad adattarti ai requisiti in continua evoluzione.

Per creare una base solida per lo sviluppo dei tuoi modelli di AI, tieni presenti i seguenti consigli.

Definisci i problemi e i risultati richiesti

Prima di iniziare qualsiasi progetto di AI o ML, devi avere una chiara comprensione dei problemi aziendali da risolvere e dei risultati richiesti. Inizia con una bozza degli scopi commerciali e suddividi gli scopi in indicatori chiave di prestazione (KPI) misurabili. Per organizzare e documentare le definizioni e le ipotesi del problema in un ambiente notebook Jupyter, utilizza strumenti come Vertex AI Workbench. Per implementare il controllo delle versioni per il codice e i documenti e per documentare i tuoi progetti, obiettivi e ipotesi, utilizza strumenti come Git. Per sviluppare e gestire i prompt per le applicazioni di AI generativa, puoi utilizzare Vertex AI Studio.

Raccogliere ed elaborare i dati necessari

Per implementare il pre-elaborazione e la trasformazione dei dati, puoi utilizzare Dataflow (per Apache Beam), Dataproc (per Apache Spark) o BigQuery se è appropriato un processo basato su SQL. Per convalidare gli schemi e rilevare anomalie, utilizza TensorFlow Data Validation (TFDV) e sfrutta le scansioni automatiche della qualità dei dati in BigQuery, ove applicabile.

Per l'AI generativa, la qualità dei dati include accuratezza, pertinenza, diversità e allineamento con le caratteristiche di output richieste. Nei casi in cui i dati reali sono insufficienti o sbilanciati, puoi generare dati sintetici per migliorare la robustezza e la generalizzazione del modello. Per creare set di dati sintetici basati su pattern esistenti o per aumentare i dati di addestramento per migliorare il rendimento del modello, utilizza BigQuery DataFrames e Gemini. I dati sintetici sono particolarmente utili per l'AI generativa perché possono contribuire a migliorare la diversità dei prompt e la robustezza complessiva del modello. Quando crei set di dati per il fine-tuning dei modelli di AI generativa, valuta la possibilità di utilizzare le funzionalità di generazione di dati sintetici in Vertex AI.

Per le attività di AI generativa come l'ottimizzazione o l'apprendimento per rinforzo con feedback umano (RLHF), assicurati che le etichette riflettano con precisione la qualità, la pertinenza e la sicurezza degli output generati.

Selezionare un approccio ML appropriato

Quando progetti il modello e i parametri, considera la complessità del modello e le esigenze di calcolo. A seconda dell'attività (ad esempio classificazione, regressione o generazione), valuta la possibilità di utilizzare l'addestramento personalizzato di Vertex AI per la creazione di modelli personalizzati o AutoML per attività di ML più semplici. Per le applicazioni comuni, puoi anche accedere ai modelli preaddestrati tramite Vertex AI Model Garden. Puoi sperimentare una serie di modelli di base all'avanguardia per vari casi d'uso, come la generazione di testo, immagini e codice.

Potresti voler perfezionare un foundation model preaddestrato per ottenere prestazioni ottimali per il tuo caso d'uso specifico. Per requisiti di prestazioni elevate nell'addestramento personalizzato, configura le Tensor Processing Unit (TPU) Cloud o le risorse GPU per accelerare l'addestramento e l'inferenza dei modelli di deep learning, come i modelli linguistici di grandi dimensioni (LLM) e i modelli di diffusione.

Configurare il controllo della versione per codice, modelli e dati

Per gestire ed eseguire il deployment delle versioni del codice in modo efficace, utilizza strumenti come GitHub o GitLab. Questi strumenti forniscono solide funzionalità di collaborazione, strategie di branching e integrazione con le pipeline CI/CD per garantire un processo di sviluppo semplificato.

Utilizza soluzioni appropriate per gestire ogni artefatto del tuo sistema ML, come i seguenti esempi:

  • Per gli artefatti di codice come le immagini container e i componenti della pipeline, Artifact Registry fornisce una soluzione di archiviazione scalabile che può contribuire a migliorare la sicurezza. Artifact Registry include anche il controllo delle versioni e può essere integrato con Cloud Build e Cloud Deploy.
  • Per gestire gli artefatti di dati, come i set di dati utilizzati per l'addestramento e la valutazione, utilizza soluzioni come BigQuery o Cloud Storage per l'archiviazione e il controllo delle versioni.
  • Per archiviare i metadati e i puntatori alle posizioni dei dati, utilizza il sistema di controllo delle versioni o un catalogo dei dati separato.

Per mantenere la coerenza e il controllo delle versioni dei dati delle caratteristiche, utilizza Vertex AI Feature Store. Per monitorare e gestire gli artefatti del modello, inclusi binari e metadati, utilizza Vertex AI Model Registry, che ti consente di archiviare, organizzare ed eseguire il deployment delle versioni del modello senza problemi.

Per garantire l'affidabilità del modello, implementa Vertex AI Model Monitoring. Rileva la deviazione dei dati, monitora le prestazioni e identifica le anomalie in produzione. Per i sistemi di AI generativa, monitora le variazioni nella qualità dell'output e nella conformità alla sicurezza.

Automatizzare il ciclo di vita dello sviluppo del modello

L'Automation ti aiuta a semplificare ogni fase del ciclo di vita dell'AI e del ML. L'Automation riduce l'impegno manuale e standardizza i processi, il che porta a una maggiore efficienza operativa e a un minor rischio di errori. I flussi di lavoro automatizzati consentono un'iterazione più rapida, un deployment coerente tra gli ambienti e risultati più affidabili, in modo che i tuoi sistemi possano scalare e adattarsi senza problemi.

Per automatizzare il ciclo di vita dello sviluppo dei tuoi sistemi di AI e ML, prendi in considerazione i seguenti consigli.

Utilizzare un sistema di orchestrazione delle pipeline gestito

Utilizza Vertex AI Pipelines per automatizzare ogni fase del ciclo di vita ML, dalla preparazione dei dati all'addestramento, alla valutazione e al deployment del modello. Per accelerare il deployment e promuovere la coerenza tra i progetti, automatizza le attività ricorrenti con le esecuzioni pianificate delle pipeline, monitora i flussi di lavoro con le metriche di esecuzione e sviluppa modelli di pipeline riutilizzabili per flussi di lavoro standardizzati. Queste funzionalità si estendono ai modelli di AI generativa, che spesso richiedono passaggi specializzati come l'ingegneria dei prompt, il filtraggio delle risposte e la valutazione human-in-the-loop. Per l'AI generativa, Vertex AI Pipelines può automatizzare questi passaggi, inclusa la valutazione degli output generati in base a metriche di qualità e linee guida per la sicurezza. Per migliorare la diversità dei prompt e la robustezza del modello, i flussi di lavoro automatizzati possono includere anche tecniche di aumento dei dati.

Implementare pipeline CI/CD

Per automatizzare la creazione, il test e il deployment dei modelli di machine learning, utilizza Cloud Build. Questo servizio è particolarmente efficace quando esegui suite di test per il codice dell'applicazione, il che garantisce che l'infrastruttura, le dipendenze e il packaging del modello soddisfino i requisiti di deployment.

I sistemi di ML spesso richiedono passaggi aggiuntivi oltre al test del codice. Ad esempio, devi sottoporre i modelli a test di stress con carichi variabili, eseguire valutazioni collettive per valutare le prestazioni del modello in diversi set di dati e convalidare l'integrità dei dati prima del riaddestramento. Per simulare carichi di lavoro realistici per gli stress test, puoi utilizzare strumenti come Locust, Grafana k6 o Apache JMeter. Per identificare i colli di bottiglia, monitora le metriche chiave come latenza, tasso di errore e utilizzo delle risorse tramite Cloud Monitoring. Per l'AI generativa, i test devono includere anche valutazioni specifiche per il tipo di contenuti generati, come la qualità del testo, la fedeltà delle immagini o la funzionalità del codice. Queste valutazioni possono coinvolgere metriche automatizzate come la perplessità per i modelli linguistici o la valutazione human-in-the-loop per aspetti più sfumati come la creatività e la sicurezza.

Per implementare attività di test e valutazione, puoi integrare Cloud Build con altri servizi Google Cloud . Ad esempio, puoi utilizzare Vertex AI Pipelines per la valutazione automatica dei modelli, BigQuery per l'analisi dei dati su larga scala e la convalida della pipeline Dataflow per la convalida delle funzionalità.

Puoi migliorare ulteriormente la pipeline CI/CD utilizzando Vertex AI per l'addestramento continuo per consentire il riaddestramento automatico dei modelli sui nuovi dati. Nello specifico, per l'AI generativa, per mantenere gli output generati pertinenti e diversi, il riaddestramento potrebbe comportare l'aggiornamento automatico dei modelli con nuovi dati o prompt di addestramento. Puoi utilizzare Vertex AI Model Garden per selezionare i modelli di base più recenti disponibili per l'ottimizzazione. Questa pratica garantisce che i modelli rimangano aggiornati e ottimizzati per le esigenze della tua attività in evoluzione.

Implementare rilasci di modelli sicuri e controllati

Per ridurre al minimo i rischi e garantire deployment affidabili, implementa un approccio di rilascio del modello che ti consenta di rilevare i problemi in anticipo, convalidare le prestazioni ed eseguire il rollback rapidamente, se necessario.

Per pacchettizzare i tuoi modelli e le tue applicazioni di ML in immagini container ed eseguirne il deployment, utilizza Cloud Deploy. Puoi eseguire il deployment dei tuoi modelli sugli endpoint Vertex AI.

Implementa rilasci controllati per le tue applicazioni e i tuoi sistemi di AI utilizzando strategie come i canary release. Per le applicazioni che utilizzano modelli gestiti come Gemini, ti consigliamo di rilasciare gradualmente le nuove versioni dell'applicazione a un sottoinsieme di utenti prima del deployment completo. Questo approccio ti consente di rilevare potenziali problemi in anticipo, soprattutto quando utilizzi modelli di AI generativa in cui gli output possono variare.

Per rilasciare modelli ottimizzati, puoi utilizzare Cloud Deploy per gestire il deployment delle versioni del modello e utilizzare la strategia di versione canary per ridurre al minimo il rischio. Con i modelli gestiti e quelli ottimizzati, lo scopo dei rilasci controllati è testare le modifiche con un pubblico limitato prima di rilasciare le applicazioni e i modelli a tutti gli utenti.

Per una convalida solida, utilizza Vertex AI Experiments per confrontare i nuovi modelli con quelli esistenti e utilizza Vertex AI Model Evaluation per valutare le prestazioni del modello. Nello specifico per lAI generativa, definisci metriche di valutazione che siano in linea con il caso d'uso previsto e i potenziali rischi. Puoi utilizzare Gen AI evaluation service in Vertex AI per valutare metriche come tossicità, coerenza, accuratezza fattuale e rispetto delle linee guida per la sicurezza.

Per garantire l'affidabilità del deployment, è necessario un piano di rollback solido. Per i sistemi ML tradizionali, utilizza Vertex AI Model Monitoring per rilevare la deviazione dei dati e il peggioramento delle prestazioni. Per i modelli di AI generativa, puoi monitorare le metriche pertinenti e configurare avvisi per i cambiamenti nella qualità dell'output o per l'emergere di contenuti dannosi utilizzando la valutazione dei modelli di Vertex AI insieme a Cloud Logging e Cloud Monitoring. Configura gli avvisi in base a metriche specifiche dell'AI generativa per attivare le procedure di rollback quando necessario. Per monitorare la derivazione del modello e ripristinare la versione stabile più recente, utilizza gli approfondimenti di Vertex AI Model Registry.

Implementare l'osservabilità

Il comportamento dei sistemi di AI e ML può cambiare nel tempo a causa di modifiche ai dati o all'ambiente e aggiornamenti ai modelli. Questa natura dinamica rende l'osservabilità fondamentale per rilevare problemi di prestazioni, distorsioni o comportamenti inattesi. Ciò è particolarmente vero per i modelli di AI generativa perché gli output possono essere molto variabili e soggettivi. L'osservabilità ti consente di affrontare in modo proattivo comportamenti imprevisti e garantire che i tuoi sistemi di AI e ML rimangano affidabili, accurati ed equi.

Per implementare l'osservabilità per i tuoi sistemi di AI e ML, considera i seguenti suggerimenti.

Monitorare continuamente il rendimento

Utilizza metriche e criteri di successo per la valutazione continua dei modelli dopo il deployment.

Puoi utilizzare Vertex AI Model Monitoring per monitorare in modo proattivo le prestazioni del modello, identificare il disallineamento tra addestramento e servizio e la deviazione della previsione e ricevere avvisi per attivare il riaddestramento necessario del modello o altri interventi. Per monitorare in modo efficace il disallineamento addestramento/produzione, crea un set di dati di riferimento che rappresenti la distribuzione ideale dei dati e utilizza TFDV per analizzare i dati di addestramento e stabilire uno schema di base.

Configura il monitoraggio del modello per confrontare la distribuzione dei dati di input con il golden dataset per il rilevamento automatico della distorsione. Per i modelli ML tradizionali, concentrati su metriche come accuratezza, precisione, richiamo, punteggio F1, AUC-ROC e perdita logaritmica. Definisci soglie personalizzate per gli avvisi in Model Monitoring. Per l'AI generativa, utilizza il servizio di valutazione Gen AI per monitorare continuamente l'output del modello in produzione. Puoi anche attivare metriche di valutazione automatica per qualità della risposta, sicurezza, aderenza alle istruzioni, fondatezza, stile di scrittura e livello di dettaglio. Per valutare la qualità, la pertinenza, la sicurezza e il rispetto delle linee guida degli output generati, puoi incorporare la valutazione human-in-the-loop.

Crea cicli di feedback per eseguire automaticamente il retraining dei modelli con Vertex AI Pipelines quando Model Monitoring attiva un avviso. Utilizza questi approfondimenti per migliorare continuamente i tuoi modelli.

Valutare i modelli durante lo sviluppo

Prima di eseguire il deployment dei tuoi LLM e di altri modelli di AI generativa, valutali accuratamente durante la fase di sviluppo. Utilizza la valutazione dei modelli di Vertex AI per ottenere prestazioni ottimali e mitigare i rischi. Utilizza Vertex AI rapid evaluation per consentire a Google Cloud di eseguire automaticamente le valutazioni in base al set di dati e ai prompt che fornisci.

Puoi anche definire e integrare metriche personalizzate specifiche per il tuo caso d'uso. Per il feedback sui contenuti generati, integra i flussi di lavoro human-in-the-loop utilizzando la valutazione dei modelli Vertex AI.

Utilizza i test avversariali per identificare vulnerabilità e potenziali modalità di errore. Per identificare e mitigare i potenziali bias, utilizza tecniche come l'analisi dei sottogruppi e la generazione controfattuale. Utilizza gli approfondimenti raccolti dalle valutazioni completate durante la fase di sviluppo per definire la strategia di monitoraggio del modello in produzione. Prepara la soluzione per il monitoraggio continuo come descritto nella sezione Monitorare continuamente il rendimento di questo documento.

Monitorare la disponibilità

Per ottenere visibilità sull'integrità e sulle prestazioni dei tuoi endpoint e della tua infrastruttura di cui è stato eseguito il deployment, utilizza Cloud Monitoring. Per gli endpoint Vertex AI, monitora le metriche chiave come frequenza delle richieste, tasso di errore, latenza e utilizzo delle risorse e configura avvisi per le anomalie. Per ulteriori informazioni, consulta Metriche di Cloud Monitoring per Vertex AI.

Monitora l'integrità dell'infrastruttura sottostante, che può includere istanze Compute Engine, cluster Google Kubernetes Engine (GKE) e TPU e GPU. Ricevi consigli di ottimizzazione automatica da Active Assist. Se utilizzi la scalabilità automatica, monitora il comportamento di scalabilità per assicurarti che risponda in modo appropriato alle variazioni dei pattern di traffico.

Monitora lo stato dei deployment dei modelli, inclusi i rilasci canary e i rollback, integrando Cloud Deploy con Cloud Monitoring. Inoltre, monitora le potenziali minacce alla sicurezza e vulnerabilità utilizzando Security Command Center.

Configurare avvisi personalizzati per soglie specifiche per l'attività

Per l'identificazione e la rettifica tempestive di anomalie e problemi, configura avvisi personalizzati in base a soglie specifiche per gli obiettivi della tua attività. Esempi di prodotti Google Cloud che puoi utilizzare per implementare un sistema di avviso personalizzato includono:

  • Cloud Logging: Raccogli, archivia e analizza i log di tutti i componenti del tuo sistema di AI e ML.
  • Cloud Monitoring: crea dashboard personalizzate per visualizzare metriche e tendenze chiave e definisci metriche personalizzate in base alle tue esigenze. Configura gli avvisi per ricevere notifiche sui problemi critici e integra gli avvisi con gli strumenti di gestione degli incidenti come PagerDuty o Slack.
  • Error Reporting: Acquisizione e analisi automatiche di errori ed eccezioni.
  • Cloud Trace: Analizza le prestazioni dei sistemi distribuiti e identifica i colli di bottiglia. Il tracciamento è particolarmente utile per comprendere la latenza tra i diversi componenti della pipeline AI e ML.
  • Cloud Profiler: Analizza continuamente le prestazioni del codice in produzione e identifica i colli di bottiglia delle prestazioni nell'utilizzo della CPU o della memoria.

Creare una cultura dell'eccellenza operativa

Shift l'attenzione dalla semplice creazione di modelli alla creazione di soluzioni di AI sostenibili, affidabili e di grande impatto. Consente ai team di imparare, innovare e migliorare continuamente, il che porta a cicli di sviluppo più rapidi, riduzione degli errori e maggiore efficienza. Dando la priorità all'automazione, alla standardizzazione e alle considerazioni etiche, puoi assicurarti che le tue iniziative di AI e ML offrano costantemente valore, mitighino i rischi e promuovano lo sviluppo AI responsabile.

Per creare una cultura dell'eccellenza operativa per i tuoi sistemi di AI e ML, prendi in considerazione i seguenti consigli.

Promuovere l'automazione e la standardizzazione

Per enfatizzare l'efficienza e la coerenza, incorpora l'automazione e le pratiche standardizzate in ogni fase del ciclo di vita dell'AI e del machine learning. L'Automation riduce gli errori manuali e consente ai team di concentrarsi sull'innovazione. La standardizzazione garantisce che i processi siano ripetibili e scalabili tra team e progetti.

Dai la priorità all'apprendimento e al miglioramento continui

Promuovi un ambiente in cui l'istruzione e la sperimentazione continua siano principi fondamentali. Incoraggia i team a rimanere al passo con i progressi dell'AI e del ML e offri opportunità per imparare dai progetti passati. Una cultura della curiosità e dell'adattamento promuove l'innovazione e garantisce che i team siano attrezzati per affrontare nuove sfide.

Promuovere la responsabilità e la proprietà

Crea fiducia e allineamento con ruoli, responsabilità e metriche di successo chiaramente definiti. Consenti ai team di prendere decisioni informate entro questi limiti e stabilisci modi trasparenti per misurare i progressi. Un senso di appartenenza motiva i team e garantisce la responsabilità collettiva per i risultati.

Incorporare considerazioni etiche e di sicurezza dell'AI

Dai la priorità alle considerazioni etiche in ogni fase dello sviluppo. Incoraggia i team a pensare in modo critico all'impatto delle loro soluzioni di AI e promuovi discussioni su equità, pregiudizi e impatto sociale. Principi chiari e meccanismi di responsabilità garantiscono che i tuoi sistemi di AI siano in linea con i valori dell'organizzazione e promuovano la fiducia.

Progettare per la scalabilità

Per gestire volumi di dati e richieste degli utenti in crescita e massimizzare il valore degli investimenti nell'AI, i tuoi sistemi di AI e ML devono essere scalabili. I sistemi devono adattarsi e funzionare in modo ottimale per evitare colli di bottiglia delle prestazioni che ne ostacolano l'efficacia. Quando progetti per la scalabilità, ti assicuri che l'infrastruttura AI possa gestire la crescita e mantenere la reattività. Utilizza un'infrastruttura scalabile, pianifica la capacità e impiega strategie come lo scaling orizzontale e i servizi gestiti.

Per progettare i tuoi sistemi di AI e ML in modo che siano scalabili, tieni presente i seguenti consigli.

Pianificare la capacità e le quote

Valuta la crescita futura e pianifica di conseguenza la capacità dell'infrastruttura e le quote di risorse. Collabora con gli stakeholder aziendali per comprendere la crescita prevista e definisci i requisiti dell'infrastruttura di conseguenza.

Utilizza Cloud Monitoring per analizzare l'utilizzo storico delle risorse, identificare le tendenze e prevedere le esigenze future. Esegui regolarmente test di carico per simulare i carichi di lavoro e identificare i colli di bottiglia.

Familiarizza con le quoteGoogle Cloud per i servizi che utilizzi, come Compute Engine, Vertex AI e Cloud Storage. Richiedi in modo proattivo aumenti della quota tramite la console Google Cloud e giustifica gli aumenti con i dati delle previsioni e dei test di carico. Monitora l'utilizzo della quota e configura avvisi per ricevere notifiche quando l'utilizzo si avvicina ai limiti della quota.

Per ottimizzare l'utilizzo delle risorse in base alla domanda, dimensiona correttamente le risorse, utilizza le VM spot per i workload batch a tolleranza di errore e implementa la scalabilità automatica.

Prepararsi per gli eventi di picco

Assicurati che il tuo sistema sia in grado di gestire improvvisi picchi di traffico o carico di lavoro durante gli eventi di picco. Documenta la tua strategia per i picchi di eventi e conduci esercitazioni regolari per testare la capacità del tuo sistema di gestire un carico maggiore.

Per aumentare in modo aggressivo le risorse quando la domanda aumenta, configura le policy di scalabilità automatica in Compute Engine e GKE. Per pattern di picco prevedibili, valuta la possibilità di utilizzare la scalabilità automatica predittiva. Per attivare la scalabilità automatica in base a indicatori specifici dell'applicazione, utilizza metriche personalizzate in Cloud Monitoring.

Distribuisci il traffico su più istanze dell'applicazione utilizzando Cloud Load Balancing. Scegli un tipo di bilanciatore del carico appropriato in base alle esigenze della tua applicazione. Per gli utenti distribuiti geograficamente, puoi utilizzare il bilanciamento del carico globale per instradare il traffico all'istanza disponibile più vicina. Per le architetture complesse basate sui microservizi, valuta la possibilità di utilizzare Cloud Service Mesh.

Memorizza nella cache i contenuti statici all'edge della rete di Google utilizzando Cloud CDN. Per memorizzare nella cache i dati a cui si accede di frequente, puoi utilizzare Memorystore, che offre un servizio in memoria completamente gestito per Redis, Valkey o Memcached.

Disaccoppia i componenti del sistema utilizzando Pub/Sub per la messaggistica in tempo reale e Cloud Tasks per l'esecuzione asincrona delle attività

Scalare le applicazioni per la produzione

Per garantire la pubblicazione scalabile in produzione, puoi utilizzare servizi gestiti come Vertex AI Distributed Training e Vertex AI Inference. Vertex AI Inference ti consente di configurare i tipi di macchine per i nodi di previsione quando esegui il deployment di un modello in un endpoint o richiedi previsioni batch. Per alcune configurazioni, puoi aggiungere GPU. Scegli il tipo di macchina e gli acceleratori appropriati per ottimizzare latenza, velocità effettiva e costi.

Per scalare applicazioni AI e Python complesse e carichi di lavoro personalizzati su risorse di computing distribuite, puoi utilizzare Ray su Vertex AI. Questa funzionalità può contribuire a ottimizzare il rendimento e consente l'integrazione perfetta con i serviziGoogle Cloud . Ray su Vertex AI semplifica il calcolo distribuito gestendo la gestione del cluster, la pianificazione delle attività e il trasferimento dei dati. Si integra con altri servizi Vertex AI come addestramento, previsione e pipeline. Ray offre tolleranza di errore e scalabilità automatica e ti aiuta ad adattare l'infrastruttura ai carichi di lavoro variabili. Offre un framework unificato per l'addestramento distribuito, l'ottimizzazione degli iperparametri, l'apprendimento per rinforzo e la pubblicazione del modello. Utilizza Ray per la pre-elaborazione distribuita dei dati con Dataflow o Dataproc, l'addestramento accelerato dei modelli, l'ottimizzazione scalabile degli iperparametri, l'apprendimento per rinforzo e la previsione batch parallelizzata.

Collaboratori

Autori:

Altri collaboratori: