Registros y métricas

En este documento, se describen los registros y las métricas que recopila y exporta la API conectada de Gemini en Google Distributed Cloud.

Configurar el registro y la supervisión

Antes de comenzar a recopilar registros y métricas, debes hacer lo siguiente:

  1. Habilita las APIs de registro con los siguientes comandos:

    gcloud services enable opsconfigmonitoring.googleapis.com --project PROJECT_ID
    gcloud services enable logging.googleapis.com --project PROJECT_ID
    gcloud services enable monitoring.googleapis.com --project PROJECT_ID
    

    Reemplaza PROJECT_ID por el ID del proyecto Google Cloud de destino.

  2. Otorga los roles necesarios para escribir registros y métricas:

    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/opsconfigmonitoring.resourceMetadata.writer \
        --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/metadata-agent]"
    
    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/logging.logWriter \
         --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/stackdriver-log-forwarder]"
    
    gcloud projects add-iam-policy-binding PROJECT_ID \
        --role roles/monitoring.metricWriter \
        --member "serviceAccount:PROJECT_ID.svc.id.goog[kube-system/gke-metrics-agent]"
    

    Reemplaza PROJECT_ID por el ID del proyecto Google Cloud de destino.

Registros

En esta sección, se enumeran los tipos de recursos de Cloud Logging que admite Gemini en la API conectada a GDC. Para ver los registros de la API conectada de Gemini on GDC, usa el Explorador de registros en la consola de Google Cloud . El registro de Gemini en la API conectada de GDC} siempre está habilitado.

El tipo de recurso registrado de la API conectada de Gemini en GDC conectado es aiplatform.googleapis.com/Endpoint.

También puedes capturar y recuperar registros conectados a la API de Gemini on GDC con la API de Cloud Logging. Para obtener información sobre cómo configurar este mecanismo de registro, consulta la documentación de las bibliotecas cliente de Cloud Logging.

Métricas

En esta sección, se enumeran las métricas de Cloud Monitoring que admite la API conectada de Gemini on GDC. Para ver las métricas de la API conectada de Gemini on GDC, usa el Explorador de métricas en la consola deGoogle Cloud .

Métricas de clústeres de Distributed Cloud conectado

Los extremos de API de Gemini en GDC connected se implementan en clústeres de Distributed Cloud connected. Consulta Registros y métricas para obtener información sobre los registros y las métricas de Distributed Cloud Connected.

Métricas de Inference Gateway

Nombre de la métrica de Prometheus Tipo de métricas Tipo de datos Etiquetas Tipo de químico Chemist metric_kind value_type de Chemist Etiquetas de químicos
ig_ops_successful_incoming_requests Contador modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/successful_requests ACUMULATIVO INT64 modelo
ig_ops_unique_users Contador modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/unique_users ACUMULATIVO INT64 modelo
ig_tokens_per_minute Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/tokens_per_min ACUMULATIVO DISTRIBUTION modelo
ig_total_response_time Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/response_time ACUMULATIVO DISTRIBUTION modelo
ig_ops_ffmpeg_image_latency Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_image_latencies ACUMULATIVO DISTRIBUTION modelo
ig_ops_ffmpeg_video_latency Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_video_latencies ACUMULATIVO DISTRIBUTION modelo
ig_ops_ffmpeg_audio_latency Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/ffmpeg_audio_latencies ACUMULATIVO DISTRIBUTION modelo
ig_time_to_first_token Histograma double model context_window aiplatform.googleapis.com/prediction/internal/gdc/ig/ttft ACUMULATIVO DISTRIBUTION model context_window
ig_time_per_output_token Histograma double model context_window aiplatform.googleapis.com/prediction/internal/gdc/ig/tpot ACUMULATIVO DISTRIBUTION model context_window
ig_cache_hit Contador modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_hit_count ACUMULATIVO DISTRIBUTION model _gdch_project
ig_cache_miss Contador modelo aiplatform.googleapis.com/prediction/internal/gdc/ig/cache_miss_count ACUMULATIVO DISTRIBUTION model _gdch_project

Métricas del enrutador de IA generativa

Nombre de la métrica de Prometheus Tipo de métricas Tipo de datos Etiquetas Tipo de químico Chemist metric_kind value_type de Chemist Etiquetas de químicos
llm_total_request_latency_milliseconds Histograma double Modelo de ventana de contexto aiplatform.googleapis.com/prediction/internal/gdc/gair/total_request_latencies ACUMULATIVO DISTRIBUTION Modelo de ventana de contexto
llm_unary_request_latency_milliseconds Histograma double Modelo de ventana de contexto aiplatform.googleapis.com/prediction/internal/gdc/gair/unary_request_latencies ACUMULATIVO DISTRIBUTION Modelo de ventana de contexto
llm_streaming_ttft_milliseconds Histograma double Modelo de ventana de contexto aiplatform.googleapis.com/prediction/internal/gdc/gair/ttft_ms ACUMULATIVO DISTRIBUTION Modelo de ventana de contexto
llm_streaming_tpot_milliseconds Histograma double Modelo de ventana de contexto aiplatform.googleapis.com/prediction/internal/gdc/gair/tpot_ms ACUMULATIVO DISTRIBUTION Modelo de ventana de contexto
llm_input_token_count Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/input_token_count ACUMULATIVO DISTRIBUTION modelo
llm_output_token_count Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/output_token_count ACUMULATIVO DISTRIBUTION modelo
llm_success_response_count Contador double modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/success_response_count ACUMULATIVO INT64 modelo
llm_failure_response_count Contador double modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/failure_response_count ACUMULATIVO INT64 modelo
llm_text_tokenization_latency_milliseconds Histograma double modelo aiplatform.googleapis.com/prediction/internal/gdc/gair/text_tokenization_latencies ACUMULATIVO DISTRIBUTION modelo
llm_image_tokenization_latency_milliseconds Histograma double aiplatform.googleapis.com/prediction/internal/gdc/gair/image_tokenization_latencies ACUMULATIVO DISTRIBUTION
llm_audio_tokenization_latency_milliseconds Histograma double aiplatform.googleapis.com/prediction/internal/gdc/gair/audio_tokenization_latencies ACUMULATIVO DISTRIBUTION

Métricas de GPU

Nombre de la métrica de Prometheus Tipo de métricas Tipo de datos Etiquetas Tipo de químico Chemist metric_kind value_type de Chemist Etiquetas de químicos
DCGM_FI_DEV_MEM_COPY_UTIL Indicador int64 UUID de GPU, pci_bus_id, device, modelName, Hostname, DCGM_FI_DRIVER_VERSION aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_util GAUGE INT64 uuid gpu_model
DCGM_FI_DEV_MEMORY_TEMP Indicador int64 Igual que arriba aiplatform.googleapis.com/prediction/internal/gdc/gpu/memory_temp GAUGE INT64 Igual que arriba
DCGM_FI_DEV_POWER_USAGE Indicador double Igual que arriba aiplatform.googleapis.com/prediction/internal/gdc/gpu/power_usage GAUGE DOUBLE Igual que arriba
DCGM_FI_DEV_GPU_TEMP Indicador double Igual que arriba aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_temp GAUGE INT64 Igual que arriba
DCGM_FI_DEV_GPU_UTIL Indicador double Igual que arriba aiplatform.googleapis.com/prediction/internal/gdc/gpu/gpu_util GAUGE INT64 Igual que arriba
DCGM_FI_DEV_ENC_UTIL Indicador int64 Igual que arriba aiplatform.googleapis.com/prediction/internal/gdc/gpu/encode_util GAUGE INT64 Igual que arriba
DCGM_FI_DEV_XID_ERRORS Contador int64 Igual que arriba aiplatform.googleapis.com/prediction/internal/gdc/gpu/xid_errors ACUMULATIVO INT64 Igual que arriba
DCGM_FI_DEV_POWER_VIOLATION Contador int64 Igual que arriba aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_power ACUMULATIVO INT64 Igual que arriba
DCGM_FI_DEV_THERMAL_VIOLATION Contador int64 Igual que arriba aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_thermal ACUMULATIVO INT64 Igual que arriba
DCGM_FI_DEV_SYNC_BOOST_VIOLATION Contador int64 Igual que arriba aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_sync_boost ACUMULATIVO INT64 Igual que arriba
DCGM_FI_DEV_BOARD_LIMIT_VIOLATION Contador int64 Igual que arriba aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_board_limit ACUMULATIVO INT64 Igual que arriba
DCGM_FI_DEV_LOW_UTIL_VIOLATION Contador int64 Igual que arriba aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_low_util ACUMULATIVO INT64 Igual que arriba
DCGM_FI_DEV_RELIABILITY_VIOLATION Contador int64 Igual que arriba aiplatform.googleapis.com/prediction/internal/gdc/gpu/violation_reliability ACUMULATIVO INT64 Igual que arriba