Ce document décrit les journaux et les métriques que l'API connectée Gemini sur Google Distributed Cloud collecte et exporte.
Configurer la journalisation et la surveillance
Avant de pouvoir commencer à collecter des journaux et des métriques, vous devez effectuer les opérations suivantes :
Activez les API de journalisation à l'aide des commandes suivantes :
gcloud services enable opsconfigmonitoring.googleapis.com --project PROJECT_ID gcloud services enable logging.googleapis.com --project PROJECT_ID gcloud services enable monitoring.googleapis.com --project PROJECT_ID
Remplacez
PROJECT_ID
par l'ID du projet cible Google Cloud .Attribuez les rôles requis pour écrire des journaux et des métriques :
gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/opsconfigmonitoring.resourceMetadata.writer \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/metadata-agent]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/logging.logWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/stackdriver-log-forwarder]" gcloud projects add-iam-policy-binding PROJECT_ID \ --role roles/monitoring.metricWriter \ --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/gke-metrics-agent]"
Remplacez
PROJECT_ID
par l'ID du projet cible Google Cloud .
Journaux
Cette section liste les types de ressources Cloud Logging compatibles avec l'API Gemini sur GDC. Pour afficher les journaux des API Gemini on GDC Connected, utilisez l'explorateur de journaux dans la console Google Cloud . La journalisation de l'API connectée Gemini sur GDC est toujours activée.
Le type de ressource enregistré pour l'API Gemini on GDC connected est aiplatform.googleapis.com/Endpoint
.
Vous pouvez également capturer et récupérer les journaux des API connectées à Gemini sur GDC à l'aide de l'API Cloud Logging. Pour savoir comment configurer ce mécanisme de journalisation, consultez la documentation sur les bibliothèques clientes Cloud Logging.
Métriques
Cette section liste les métriques Cloud Monitoring compatibles avec l'API Gemini on GDC connected. Pour afficher les métriques de l'API Gemini on GDC connected, utilisez l'explorateur de métriques dans la consoleGoogle Cloud .
Métriques des clusters Distributed Cloud connecté
Les points de terminaison de l'API Gemini sur GDC Connected sont déployés sur des clusters Distributed Cloud Connected. Pour en savoir plus sur les journaux et les métriques pour Distributed Cloud Connected, consultez Journaux et métriques.
Métriques Inference Gateway
Nom de la métrique Prometheus | Type de métrique | Type de données | Étiquettes | Type de chimiste | Chemist metric_kind | Chemist value_type | Étiquettes de pharmacien |
---|---|---|---|---|---|---|---|
ig_ops_successful_incoming_requests | Compteur | modèle | aiplatform.googleapis.com/prediction/internal/gdc/ig/successful_requests | CUMULATIVE (CUMULÉ) | INT64 | modèle | |
ig_ops_unique_users | Compteur | modèle | aiplatform.googleapis.com/prediction/internal/gdc/ig/unique_users | CUMULATIVE (CUMULÉ) | INT64 | modèle | |
ig_tokens_per_minute | Histogramme | double | modèle | aiplatform.googleapis.com/prediction/internal/gdc/ig/tokens_per_min | CUMULATIVE (CUMULÉ) | DISTRIBUTION | modèle |
ig_total_response_time | Histogramme | double | modèle | aiplatform.googleapis.com/prediction/internal/gdc/ig/response_time | CUMULATIVE (CUMULÉ) | DISTRIBUTION | modèle |
ig_ops_ffmpeg_image_latency | Histogramme | double | modèle | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_image_latencies | CUMULATIVE (CUMULÉ) | DISTRIBUTION | modèle |
ig_ops_ffmpeg_video_latency | Histogramme | double | modèle | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_video_latencies | CUMULATIVE (CUMULÉ) | DISTRIBUTION | modèle |
ig_ops_ffmpeg_audio_latency | Histogramme | double | modèle | aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_audio_latencies | CUMULATIVE (CUMULÉ) | DISTRIBUTION | modèle |
ig_time_to_first_token | Histogramme | double | model context_window | aiplatform.googleapis.com/prediction/internal/gdc/ig/ttft | CUMULATIVE (CUMULÉ) | DISTRIBUTION | model context_window |
ig_time_per_output_token | Histogramme | double | model context_window | aiplatform.googleapis.com/prediction/internal/gdc/ig/tpot | CUMULATIVE (CUMULÉ) | DISTRIBUTION | model context_window |
ig_cache_hit | Compteur | modèle | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_hit_count | CUMULATIVE (CUMULÉ) | DISTRIBUTION | model _gdch_project | |
ig_cache_miss | Compteur | modèle | aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_miss_count | CUMULATIVE (CUMULÉ) | DISTRIBUTION | model _gdch_project |
Métriques du routeur d'IA générative
Nom de la métrique Prometheus | Type de métrique | Type de données | Étiquettes | Type de chimiste | Chemist metric_kind | Chemist value_type | Étiquettes de pharmacien |
---|---|---|---|---|---|---|---|
llm_total_request_latency_milliseconds | Histogramme | double | Modèle de fenêtre de contexte | aiplatform.googleapis.com/prediction/internal/gdc/gair/total_request_latencies | CUMULATIVE (CUMULÉ) | DISTRIBUTION | Modèle de fenêtre de contexte |
llm_unary_request_latency_milliseconds | Histogramme | double | Modèle de fenêtre de contexte | aiplatform.googleapis.com/prediction/internal/gdc/gair/unary_request_latencies | CUMULATIVE (CUMULÉ) | DISTRIBUTION | Modèle de fenêtre de contexte |
llm_streaming_ttft_milliseconds | Histogramme | double | Modèle de fenêtre de contexte | aiplatform.googleapis.com/prediction/internal/gdc/gair/ttft_ms | CUMULATIVE (CUMULÉ) | DISTRIBUTION | Modèle de fenêtre de contexte |
llm_streaming_tpot_milliseconds | Histogramme | double | Modèle de fenêtre de contexte | aiplatform.googleapis.com/prediction/internal/gdc/gair/tpot_ms | CUMULATIVE (CUMULÉ) | DISTRIBUTION | Modèle de fenêtre de contexte |
llm_input_token_count | Histogramme | double | modèle | aiplatform.googleapis.com/prediction/internal/gdc/gair/input_token_count | CUMULATIVE (CUMULÉ) | DISTRIBUTION | modèle |
llm_output_token_count | Histogramme | double | modèle | aiplatform.googleapis.com/prediction/internal/gdc/gair/output_token_count | CUMULATIVE (CUMULÉ) | DISTRIBUTION | modèle |
llm_success_response_count | Compteur | double | modèle | aiplatform.googleapis.com/prediction/internal/gdc/gair/success_response_count | CUMULATIVE (CUMULÉ) | INT64 | modèle |
llm_failure_response_count | Compteur | double | modèle | aiplatform.googleapis.com/prediction/internal/gdc/gair/failure_response_count | CUMULATIVE (CUMULÉ) | INT64 | modèle |
llm_text_tokenization_latency_milliseconds | Histogramme | double | modèle | aiplatform.googleapis.com/prediction/internal/gdc/gair/text_tokenization_latencies | CUMULATIVE (CUMULÉ) | DISTRIBUTION | modèle |
llm_image_tokenization_latency_milliseconds | Histogramme | double | aiplatform.googleapis.com/prediction/internal/gdc/gair/image_tokenization_latencies | CUMULATIVE (CUMULÉ) | DISTRIBUTION | ||
llm_audio_tokenization_latency_milliseconds | Histogramme | double | aiplatform.googleapis.com/prediction/internal/gdc/gair/audio_tokenization_latencies | CUMULATIVE (CUMULÉ) | DISTRIBUTION |
Métriques concernant les GPU
Nom de la métrique Prometheus | Type de métrique | Type de données | Étiquettes | Type de chimiste | Chemist metric_kind | Chemist value_type | Étiquettes de pharmacien |
---|---|---|---|---|---|---|---|
DCGM_FI_DEV_MEM_COPY_UTIL | Jauge | int64 | gpu UUID pci_bus_id device modelName Hostname DCGM_FI_DRIVER_VERSION | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_util | JAUGE | INT64 | uuid gpu_model |
DCGM_FI_DEV_MEMORY_TEMP | Jauge | int64 | Comme ci-dessus | aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_temp | JAUGE | INT64 | Comme ci-dessus |
DCGM_FI_DEV_POWER_USAGE | Jauge | double | Comme ci-dessus | aiplatform.googleapis.com/prediction/internal/gdc/gpu/power_usage | JAUGE | DOUBLE | Comme ci-dessus |
DCGM_FI_DEV_GPU_TEMP | Jauge | double | Comme ci-dessus | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_temp | JAUGE | INT64 | Comme ci-dessus |
DCGM_FI_DEV_GPU_UTIL | Jauge | double | Comme ci-dessus | aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_util | JAUGE | INT64 | Comme ci-dessus |
DCGM_FI_DEV_ENC_UTIL | Jauge | int64 | Comme ci-dessus | aiplatform.googleapis.com/prediction/internal/gdc/gpu/encode_util | JAUGE | INT64 | Comme ci-dessus |
DCGM_FI_DEV_XID_ERRORS | Compteur | int64 | Comme ci-dessus | aiplatform.googleapis.com/prediction/internal/gdc/gpu/xid_errors | CUMULATIVE (CUMULÉ) | INT64 | Comme ci-dessus |
DCGM_FI_DEV_POWER_VIOLATION | Compteur | int64 | Comme ci-dessus | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_power | CUMULATIVE (CUMULÉ) | INT64 | Comme ci-dessus |
DCGM_FI_DEV_THERMAL_VIOLATION | Compteur | int64 | Comme ci-dessus | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_thermal | CUMULATIVE (CUMULÉ) | INT64 | Comme ci-dessus |
DCGM_FI_DEV_SYNC_BOOST_VIOLATION | Compteur | int64 | Comme ci-dessus | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_sync_boost | CUMULATIVE (CUMULÉ) | INT64 | Comme ci-dessus |
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION | Compteur | int64 | Comme ci-dessus | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_board_limit | CUMULATIVE (CUMULÉ) | INT64 | Comme ci-dessus |
DCGM_FI_DEV_LOW_UTIL_VIOLATION | Compteur | int64 | Comme ci-dessus | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_low_util | CUMULATIVE (CUMULÉ) | INT64 | Comme ci-dessus |
DCGM_FI_DEV_RELIABILITY_VIOLATION | Compteur | int64 | Comme ci-dessus | aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_reliability | CUMULATIVE (CUMULÉ) | INT64 | Comme ci-dessus |