Il servizio di valutazione dell'AI predittiva ti consente di valutare le prestazioni del modello in casi d'uso specifici. Puoi anche fare riferimento alla valutazione come osservabilità delle prestazioni di un modello. La valutazione del modello fornita da Vertex AI può essere inserita nel tipico flusso di lavoro di machine learning in diversi modi:
Dopo aver addestrato il modello, esamina le metriche di valutazione prima di eseguirne il deployment. Puoi confrontare le metriche di valutazione di più modelli per decidere quale modello devi eseguire il deployment.
Dopo aver eseguito il deployment del modello in produzione, valuta periodicamente il modello con i nuovi dati in arrivo. Se le metriche di valutazione mostrano che le prestazioni del modello stanno peggiorando, valuta la possibilità di eseguire di nuovo l'addestramento. Questo processo è chiamato valutazione continua.
L'interpretazione e l'utilizzo di queste metriche dipendono dalle esigenze aziendali e dal problema che il modello è addestrato a risolvere. Ad esempio, potresti avere una tolleranza inferiore per i falsi positivi rispetto ai falsi negativi o viceversa. Questi tipi di domande influiscono sulle metriche su cui ti concentrerai durante le iterazioni del modello.
Alcune metriche chiave fornite dal servizio di valutazione del modello di AI predittiva includono:
Funzionalità
Per valutare un modello con Vertex AI, devi disporre di un modello addestrato, di un output di previsione batch e di un set di dati basato su dati empirici reali. Di seguito è riportato un tipico flusso di lavoro di valutazione dei modelli utilizzando Vertex AI:
Addestra un modello. Puoi farlo in Vertex AI utilizzando AutoML o l'addestramento personalizzato.
Esegui un job di previsione batch sul modello per generare i risultati della previsione.
Prepara i dati di verità di base, ovvero i dati "etichettati correttamente" come determinato dagli esseri umani. La verità di base è in genere sotto forma di set di dati di test utilizzato durante il processo di addestramento del modello.
Esegui un job di valutazione sul modello, che valuta l'accuratezza dei risultati della previsione batch rispetto ai dati di riferimento.
Analizza le metriche risultanti dal job di valutazione.
Esegui l'iterazione del modello per vedere se riesci a migliorarne l'accuratezza. Puoi eseguire più job di valutazione e confrontare i risultati di più job tra modelli o versioni del modello.
Puoi eseguire la valutazione dei modelli in Vertex AI in diversi modi:
Crea valutazioni tramite il registro dei modelli di Vertex AI nella consoleGoogle Cloud .
Utilizza le valutazioni dei modelli di Vertex AI come componente della pipeline con Vertex AI Pipelines. Puoi creare esecuzioni e modelli di pipeline che includono valutazioni del modello nell'ambito del tuo flusso di lavoro MLOps automatizzato.
Puoi eseguire il componente di valutazione del modello da solo o con altri componenti della pipeline, come il componente di previsione batch.
Vertex AI supporta la valutazione dei seguenti tipi di modelli:
Immagine
Classificazione
Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: l'area sotto la curva di precisione-richiamo (PR), chiamata anche precisione media. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- Perdita logaritmica: l'entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore più basso indica un modello di qualità superiore.
- Soglia di confidenza: un punteggio di confidenza che determina quali previsioni restituire. Un modello restituisce previsioni pari o superiori a questo valore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza a diversi valori di soglia per mostrare l'impatto della soglia su precisione e richiamo.
- Richiamo: la frazione di previsioni con questa classe che il modello ha previsto correttamente. Chiamata anche percentuale di veri positivi.
- Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
- Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra la previsione del modello. La matrice di confusione ti aiuta a capire dove il modello "confonde" due risultati.
Tabulare
Classificazione
Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: l'area sotto la curva di precisione-richiamo (PR), chiamata anche precisione media. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- AuROC: l'area sotto la curva della caratteristica operativa del ricevitore. Il valore varia in un intervallo da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- Perdita logaritmica: l'entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore più basso indica un modello di qualità superiore.
- Soglia di confidenza: un punteggio di confidenza che determina quali previsioni restituire. Un modello restituisce previsioni pari o superiori a questo valore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza a diversi valori di soglia per mostrare l'impatto della soglia su precisione e richiamo.
- Richiamo: la frazione di previsioni con questa classe che il modello ha previsto correttamente. Chiamata anche percentuale di veri positivi.
- Richiamo a 1: il richiamo (tasso di veri positivi) quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di confidenza per ogni esempio.
- Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
- Precisione a 1: la precisione quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di confidenza per ogni esempio.
- Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.
- Punteggio F1 a 1: la media armonica di richiamo a 1 e precisione a 1.
- Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra la previsione del modello. La matrice di confusione ti aiuta a capire dove il modello "confonde" due risultati.
- Conteggio dei veri negativi: il numero di volte in cui un modello ha previsto correttamente una classe negativa.
- Conteggio dei veri positivi: il numero di volte in cui un modello ha previsto correttamente una classe positiva.
- Conteggio falsi negativi: il numero di volte in cui un modello ha previsto erroneamente una classe negativa.
- Conteggio falsi positivi: il numero di volte in cui un modello ha previsto erroneamente una classe positiva.
- Tasso di falsi positivi: la frazione di risultati previsti in modo errato sul totale dei risultati previsti.
- Tasso di falsi positivi a 1: il tasso di falsi positivi quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di confidenza per ogni esempio.
- Attribuzioni delle caratteristiche del modello:Vertex AI mostra l'impatto di ciascuna caratteristica su un modello. I valori sono forniti sotto forma di percentuale per ogni caratteristica: più alta è la percentuale, maggiore è l'impatto della caratteristica sull'addestramento del modello. Esamina queste informazioni per assicurarti che tutte le caratteristiche più importanti abbiano senso per i dati in uso e per il problema aziendale.
Regressione
Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE: l'errore medio assoluto (MAE) indica la differenza media assoluta tra i valori target e quelli previsti. Questa metrica va da zero a infinito e un valore inferiore corrisponde a un modello di qualità superiore.
- RMSE: l'errore quadratico medio è la radice quadrata della media della differenza quadratica tra i valori di destinazione e quelli previsti. L'RMSE è più sensibile agli outlier rispetto al MAE. Di conseguenza,se la preoccupazione principale riguarda gli errori di grande entità, l'RMSE può essere una metrica più utile da valutare. Analogamente al MAE, un valore minore indica un modello di qualità migliore (0 rappresenta un predittore perfetto).
- RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, tranne per il fatto che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. Penalizza in misura maggiore la sottoprevisione rispetto alla sovraprevisione. Può essere una buona metrica anche nel caso in cui non si voglia penalizzare più pesantemente le differenze per i valori di previsione elevati rispetto a quelli ridotti. Questa metrica varia da zero a infinito e un valore inferiore indica un modello di qualità superiore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori previsti e tutte le etichette sono non negativi.
- r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica va da zero a uno. Un valore più alto indica una maggiore aderenza alla retta di regressione.
-
MAPE: l'errore percentuale assoluto medio (MAPE, Mean Absolute Percentage Error) corrisponde alla differenza percentuale media assoluta tra le etichette e i valori previsti. Questa metrica
va da zero a infinito, dove un valore più basso indica un modello di qualità
migliore.
Se la colonna target contiene valori zero, il MAPE non viene mostrato. In questo caso, il MAPE non è definito. - Attribuzioni delle caratteristiche del modello:Vertex AI mostra l'impatto di ciascuna caratteristica su un modello. I valori sono forniti sotto forma di percentuale per ogni caratteristica: più alta è la percentuale, maggiore è l'impatto della caratteristica sull'addestramento del modello. Esamina queste informazioni per assicurarti che tutte le caratteristiche più importanti abbiano senso per i dati in uso e per il problema aziendale.
Previsione
Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE: l'errore medio assoluto (MAE) indica la differenza media assoluta tra i valori target e quelli previsti. Questa metrica va da zero a infinito e un valore inferiore corrisponde a un modello di qualità superiore.
- RMSE: l'errore quadratico medio è la radice quadrata della media della differenza quadratica tra i valori di destinazione e quelli previsti. L'RMSE è più sensibile agli outlier rispetto al MAE. Di conseguenza,se la preoccupazione principale riguarda gli errori di grande entità, l'RMSE può essere una metrica più utile da valutare. Analogamente al MAE, un valore minore indica un modello di qualità migliore (0 rappresenta un predittore perfetto).
- RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, tranne per il fatto che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. Penalizza in misura maggiore la sottoprevisione rispetto alla sovraprevisione. Può essere una buona metrica anche nel caso in cui non si voglia penalizzare più pesantemente le differenze per i valori di previsione elevati rispetto a quelli ridotti. Questa metrica varia da zero a infinito e un valore inferiore indica un modello di qualità superiore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori previsti e tutte le etichette sono non negativi.
- r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica va da zero a uno. Un valore più alto indica una maggiore aderenza alla retta di regressione.
-
MAPE: l'errore percentuale assoluto medio (MAPE, Mean Absolute Percentage Error) corrisponde alla differenza percentuale media assoluta tra le etichette e i valori previsti. Questa metrica
va da zero a infinito, dove un valore più basso indica un modello di qualità
migliore.
Se la colonna target contiene valori zero, il MAPE non viene mostrato. In questo caso, il MAPE non è definito. - WAPE: l'errore percentuale assoluto ponderato (WAPE, Weighted Absolute Percentage Error) è la differenza complessiva tra il valore previsto da un modello e i valori osservati rispetto ai valori osservati. Rispetto all'RMSE, il WAPE è ponderato in base alle differenze complessive piuttosto che alle differenze individuali, che possono essere fortemente influenzate da valori bassi o intermittenti. Un valore più basso indica un modello di qualità migliore.
- RMSPE: l'errore percentuale quadratico medio (RMSPE) mostra l'RMSE come percentuale dei valori effettivi anziché come numero assoluto. Un valore più basso indica un modello di qualità migliore.
- Quantile: il quantile percentuale, che indica la probabilità che un valore osservato sia inferiore al valore previsto. Ad esempio, al quantile 0,5, i valori osservati dovrebbero essere inferiori ai valori previsti nel 50% dei casi.
- Quantile osservato: mostra la percentuale di valori veri inferiori al valore previsto per un determinato quantile.
- Perdita pinball scalata: la perdita pinball scalata a un quantile specifico. Un valore più basso indica un modello di qualità migliore al quantile specificato.
Testo
Classificazione
Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: l'area sotto la curva di precisione-richiamo (PR), chiamata anche precisione media. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- Perdita logaritmica: l'entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore più basso indica un modello di qualità superiore.
- Soglia di confidenza: un punteggio di confidenza che determina quali previsioni restituire. Un modello restituisce previsioni pari o superiori a questo valore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza a diversi valori di soglia per mostrare l'impatto della soglia su precisione e richiamo.
- Richiamo: la frazione di previsioni con questa classe che il modello ha previsto correttamente. Chiamata anche percentuale di veri positivi.
- Richiamo a 1: il richiamo (tasso di veri positivi) quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di confidenza per ogni esempio.
- Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
- Precisione a 1: la precisione quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di confidenza per ogni esempio.
- Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra la previsione del modello. La matrice di confusione ti aiuta a capire dove il modello "confonde" due risultati.
- Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.
- Punteggio F1 a 1: la media armonica di richiamo a 1 e precisione a 1.
Video
Classificazione
Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: l'area sotto la curva di precisione-richiamo (PR), chiamata anche precisione media. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- Soglia di confidenza: un punteggio di confidenza che determina quali previsioni restituire. Un modello restituisce previsioni pari o superiori a questo valore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza a diversi valori di soglia per mostrare l'impatto della soglia su precisione e richiamo.
- Richiamo: la frazione di previsioni con questa classe che il modello ha previsto correttamente. Chiamata anche percentuale di veri positivi.
- Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
- Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra la previsione del modello. La matrice di confusione ti aiuta a capire dove il modello "confonde" due risultati.
- Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.