Questa pagina è stata tradotta dall'API Cloud Translation.

Configurazione di logging e monitoraggio

Google Distributed Cloud (solo software) per bare metal supporta più opzioni per il logging e il monitoraggio dei cluster, inclusi servizi gestiti basati su cloud, strumenti open source e compatibilità convalidata con soluzioni commerciali di terze parti. Questa pagina illustra queste opzioni e fornisce indicazioni di base per selezionare la soluzione migliore per il tuo ambiente.

Questa pagina è rivolta ad amministratori, architetti e operatori che vogliono monitorare lo stato di salute delle applicazioni o dei servizi di cui è stato eseguito il deployment, ad esempio per la conformità allo scopo a livello di servizio (SLO). Per scoprire di più sui ruoli comuni e su esempi di attività a cui si fa riferimento nei Google Cloud contenuti, consulta Ruoli e attività comuni degli utenti di GKE Enterprise.

Opzioni per Google Distributed Cloud

Hai a disposizione diverse opzioni di logging e monitoraggio per il tuo cluster:

Cloud Logging e Cloud Monitoring, abilitati per impostazione predefinita sui componenti di sistema bare metal.
Prometheus e Grafana sono disponibili su Cloud Marketplace.
Configurazioni convalidate con soluzioni di terze parti.

Cloud Logging e Cloud Monitoring

Google Cloud Observability è la soluzione di osservabilità integrata per Google Cloud. Offre una soluzione di logging, raccolta di metriche, monitoraggio, dashboard e avvisi completamente gestita. Cloud Monitoring monitora i cluster Google Distributed Cloud in modo simile ai cluster GKE basati su cloud.

Cloud Logging e Cloud Monitoring sono abilitati per impostazione predefinita quando crei i cluster con gli account di servizio e i ruoli IAM richiesti. Non puoi disattivare Cloud Logging e Cloud Monitoring. Per ulteriori informazioni sui service account e sui ruoli richiesti, consulta Configurare i service account.

Gli agenti possono essere configurati per modificare quanto segue:

Ambito del logging e del monitoraggio, dai soli componenti di sistema (valore predefinito) ai componenti di sistema e alle applicazioni.
Il livello delle metriche raccolte, da un solo insieme ottimizzato di metriche (il valore predefinito) a tutte le metriche.

Per ulteriori informazioni, consulta la sezione Configurare gli agenti Stackdriver per Google Distributed Cloud in questo documento.

Logging e monitoraggio forniscono un'unica soluzione di osservabilità basata su cloud, potente e facile da configurare. Ti consigliamo vivamente di utilizzare Logging e Monitoring quando esegui i workload su Google Distributed Cloud. Per le applicazioni con componenti in esecuzione su Google Distributed Cloud e sull'infrastruttura on-premise standard, puoi valutare altre soluzioni per una visione end-to-end di queste applicazioni.

Per informazioni dettagliate sull'architettura, sulla configurazione e sui dati che vengono replicati nel tuo Google Cloud progetto per impostazione predefinita, consulta Come funzionano il logging e il monitoraggio per Google Distributed Cloud.
Per ulteriori informazioni su Logging, consulta la documentazione di Cloud Logging.
Per ulteriori informazioni sul monitoraggio, consulta la documentazione di Cloud Monitoring.
Per scoprire come visualizzare e utilizzare le metriche sull'utilizzo delle risorse di Cloud Monitoring da Google Distributed Cloud a livello di parco risorse, consulta la Panoramica dell'utilizzo della versione Enterprise di Google Kubernetes Engine (GKE).

Prometheus e Grafana

Prometheus e Grafana sono due popolari prodotti di monitoraggio open source disponibili nel Cloud Marketplace:

Prometheus raccoglie le metriche delle applicazioni e del sistema.
Alertmanager gestisce l'invio di avvisi con diversi meccanismi di avviso.
Grafana è uno strumento per la creazione di dashboard.

Ti consigliamo di utilizzare Google Cloud Managed Service per Prometheus, basato su Cloud Monitoring, per tutte le tue esigenze di monitoraggio. Con Google Cloud Managed Service per Prometheus puoi monitorare i componenti di sistema senza costi. Google Cloud Managed Service per Prometheus è compatibile anche con Grafana. Tuttavia, se preferisci un sistema di monitoraggio puramente locale, puoi scegliere di installare Prometheus e Grafana nei tuoi cluster.

Se hai installato Prometheus localmente e vuoi raccogliere le metriche dai componenti di sistema, devi concedere all'istanza Prometheus locale l'autorizzazione per accedere agli endpoint delle metriche dei componenti di sistema:

Associa l'account di servizio per l'istanza Prometheus al ruolo predefinito gke-metrics-agent ClusterRole e utilizza il token dell'account di servizio come credenziale per eseguire lo scraping delle metriche dai seguenti componenti di sistema:
- kube-apiserver
- kube-scheduler
- kube-controller-manager
- kubelet
- node-exporter
Utilizza la chiave e il certificato client archiviati nel secret kube-system/stackdriver-prometheus-etcd-scrape per autenticare lo scraping delle metriche da etcd.
Crea un NetworkPolicy per consentire l'accesso dal tuo spazio dei nomi a kube-state-metrics.

Soluzioni di terze parti

Google ha collaborato con diversi provider di soluzioni di monitoraggio e logging di terze parti per garantire il corretto funzionamento dei loro prodotti con Google Distributed Cloud. tra cui Datadog, Elastic e Splunk. Altre terze parti convalidate verranno aggiunte in futuro.

Per l'utilizzo di soluzioni di terze parti con Google Distributed Cloud sono disponibili le seguenti guide alle soluzioni:

Come funzionano il logging e il monitoraggio per Google Distributed Cloud

Cloud Logging e Cloud Monitoring vengono installati e attivati in ogni cluster quando crei un nuovo cluster di amministrazione o utente.

Gli agenti Stackdriver includono diversi componenti su ogni cluster:

Stackdriver Operator (stackdriver-operator-*). Gestisce il ciclo di vita di tutti gli altri agenti Stackdriver di cui è stato eseguito il deployment nel cluster.
Risorsa personalizzata Stackdriver. Una risorsa creata automaticamente nell'ambito della procedura di installazione di Google Distributed Cloud.
Agente delle metriche GKE (gke-metrics-agent-*). Un DaemonSet basato su OpenTelemetry Collector che estrae le metriche da ogni nodo in Cloud Monitoring. Sono inclusi anche un DaemonSet node-exporter e un deployment kube-state-metrics per fornire più metriche sul cluster.
Stackdriver Log Forwarder (stackdriver-log-forwarder-*). Un DaemonSet Fluent Bit che inoltra i log da ogni macchina a Cloud Logging. Il forwarder dei log memorizza in buffer le voci di log sul nodo localmente e le invia di nuovo per un massimo di 4 ore. Se il buffer si riempie o se il reindirizzatore di log non riesce a raggiungere l'API Cloud Logging per più di 4 ore, i log vengono eliminati.

Nota: l'agente dei metadati è disponibile per l'anteprima ed è coperto dai Termini delle offerte pre-GA dei Termini di servizio. Google CloudI prodotti pre-GA potrebbero avere supporto limitato e le modifiche ai prodotti pre-GA potrebbero non essere compatibili con altre versioni pre-GA. Per ulteriori informazioni, consulta le descrizioni della fase di lancio.
Metadata Agent (stackdriver-metadata-agent-). Un deployment che invia i metadati per le risorse Kubernetes, come pod, deployment o nodi, all'API Config Monitoring for Ops. Questa aggiunta di metadati ti consente di eseguire query sui dati delle metriche in base al nome del deployment, al nome del nodo o persino al nome del servizio Kubernetes.

Puoi vedere gli agenti installati da Stackdriver eseguendo il seguente comando:

kubectl -n kube-system get pods -l "managed-by=stackdriver"

L'output di questo comando è simile al seguente:

kube-system   gke-metrics-agent-4th8r                                     1/1     Running   1 (40h ago)   40h
kube-system   gke-metrics-agent-8lt4s                                     1/1     Running   1 (40h ago)   40h
kube-system   gke-metrics-agent-dhxld                                     1/1     Running   1 (40h ago)   40h
kube-system   gke-metrics-agent-lbkl2                                     1/1     Running   1 (40h ago)   40h
kube-system   gke-metrics-agent-pblfk                                     1/1     Running   1 (40h ago)   40h
kube-system   gke-metrics-agent-qfwft                                     1/1     Running   1 (40h ago)   40h
kube-system   kube-state-metrics-9948b86dd-6chhh                          1/1     Running   1 (40h ago)   40h
kube-system   node-exporter-5s4pg                                         1/1     Running   1 (40h ago)   40h
kube-system   node-exporter-d9gwv                                         1/1     Running   2 (40h ago)   40h
kube-system   node-exporter-fhbql                                         1/1     Running   1 (40h ago)   40h
kube-system   node-exporter-gzf8t                                         1/1     Running   1 (40h ago)   40h
kube-system   node-exporter-tsrpp                                         1/1     Running   1 (40h ago)   40h
kube-system   node-exporter-xzww7                                         1/1     Running   1 (40h ago)   40h
kube-system   stackdriver-log-forwarder-8lwxh                             1/1     Running   1 (40h ago)   40h
kube-system   stackdriver-log-forwarder-f7cgf                             1/1     Running   2 (40h ago)   40h
kube-system   stackdriver-log-forwarder-fl5gf                             1/1     Running   1 (40h ago)   40h
kube-system   stackdriver-log-forwarder-q5lq8                             1/1     Running   2 (40h ago)   40h
kube-system   stackdriver-log-forwarder-www4b                             1/1     Running   1 (40h ago)   40h
kube-system   stackdriver-log-forwarder-xqgjc                             1/1     Running   1 (40h ago)   40h
kube-system   stackdriver-metadata-agent-cluster-level-5bb5b6d6bc-z9rx7   1/1     Running   1 (40h ago)   40h

Metriche di Cloud Monitoring

Per un elenco delle metriche raccolte da Cloud Monitoring, consulta Visualizzare le metriche di Google Distributed Cloud.

Configurazione degli agenti Stackdriver per Google Distributed Cloud

Gli agenti Stackdriver installati con Google Distributed Cloud raccolgono i dati relativi ai componenti di sistema per la manutenzione e la risoluzione dei problemi relativi ai cluster. Le sezioni seguenti descrivono la configurazione e le modalità di funzionamento di Stackdriver.

Solo componenti di sistema (modalità predefinita)

Al momento dell'installazione, gli agenti Stackdriver sono configurati per impostazione predefinita per raccogliere log e metriche, inclusi dettagli sulle prestazioni (ad esempio l'utilizzo della CPU e della memoria) e metadati simili per i componenti di sistema forniti da Google. Sono inclusi tutti i carichi di lavoro nel cluster di amministrazione e, per i cluster di utenti, i carichi di lavoro negli spazi dei nomi kube-system, gke-system, gke-connect, istio-system e config-management-system.

Componenti e applicazioni di sistema

Per attivare il logging e il monitoraggio delle applicazioni oltre alla modalità predefinita, segui i passaggi descritti in Attivare il logging e il monitoraggio delle applicazioni.

Metriche ottimizzate (metriche predefinite)

Per impostazione predefinita, i deployment kube-state-metrics in esecuzione nel cluster raccolgono e segnalano un insieme ottimizzato di metriche di kube a Google Cloud Observability (in precedenza Stackdriver).

Per raccogliere questo insieme ottimizzato di metriche sono necessarie meno risorse, il che migliora le prestazioni e la scalabilità complessive.

Metriche kube escluse

Le seguenti metriche kube sono escluse dalle metriche ottimizzate:

kube_certificatesigningrequest_cert_length
kube_certificatesigningrequest_condition
kube_certificatesigningrequest_created
kube_certificatesigningrequest_labels
kube_configmap_annotations
kube_configmap_info
kube_configmap_labels
kube_configmap_metadata_resource_version
kube_daemonset_annotations
kube_daemonset_created
kube_daemonset_labels
kube_daemonset_metadata_generation
kube_daemonset_status_observed_generation
kube_deployment_annotations
kube_deployment_created
kube_deployment_labels
kube_deployment_spec_paused
kube_deployment_spec_strategy_rollingupdate_max_surge
kube_deployment_spec_strategy_rollingupdate_max_unavailable
kube_deployment_status_condition
kube_deployment_status_replicas_ready
kube_endpoint_annotations
kube_endpoint_created
kube_endpoint_info
kube_endpoint_labels
kube_endpoint_ports
kube_horizontalpodautoscaler_annotations
kube_horizontalpodautoscaler_info
kube_horizontalpodautoscaler_labels
kube_horizontalpodautoscaler_metadata_generation
kube_horizontalpodautoscaler_status_condition
kube_job_annotations
kube_job_complete
kube_job_created
kube_job_info
kube_job_labels
kube_job_owner
kube_job_spec_completions
kube_job_spec_parallelism
kube_job_status_completion_time
kube_job_status_start_time
kube_job_status_succeeded
kube_lease_owner
kube_lease_renew_time
kube_limitrange
kube_limitrange_created
kube_mutatingwebhookconfiguration_info
kube_namespace_labels
kube_networkpolicy_annotations
kube_networkpolicy_labels
kube_networkpolicy_spec_egress_rules
kube_networkpolicy_spec_ingress_rules
kube_node_annotations
kube_node_role
kube_persistentvolume_annotations
kube_persistentvolume_labels
kube_persistentvolumeclaim_access_mode
kube_persistentvolumeclaim_annotations
kube_persistentvolumeclaim_labels
kube_pod_annotations
kube_pod_completion_time
kube_pod_container_resource_limits
kube_pod_container_resource_requests
kube_pod_container_state_started
kube_pod_created
kube_pod_init_container_info
kube_pod_init_container_resource_limits
kube_pod_init_container_resource_requests
kube_pod_init_container_status_last_terminated_reason
kube_pod_init_container_status_ready
kube_pod_init_container_status_restarts_total
kube_pod_init_container_status_running
kube_pod_init_container_status_terminated
kube_pod_init_container_status_terminated_reason
kube_pod_init_container_status_waiting
kube_pod_init_container_status_waiting_reason
kube_pod_labels
kube_pod_owner
kube_pod_restart_policy
kube_pod_spec_volumes_persistentvolumeclaims_readonly
kube_pod_start_time
kube_poddisruptionbudget_annotations
kube_poddisruptionbudget_created
kube_poddisruptionbudget_labels
kube_poddisruptionbudget_status_expected_pods
kube_poddisruptionbudget_status_observed_generation
kube_poddisruptionbudget_status_pod_disruptions_allowed
kube_replicaset_annotations
kube_replicaset_created
kube_replicaset_labels
kube_replicaset_metadata_generation
kube_replicaset_owner
kube_replicaset_status_observed_generation
kube_resourcequota_created
kube_secret_annotations
kube_secret_info
kube_secret_labels
kube_secret_metadata_resource_version
kube_secret_type
kube_service_annotations
kube_service_created
kube_service_info
kube_service_labels
kube_service_spec_type
kube_statefulset_annotations
kube_statefulset_created
kube_statefulset_labels
kube_statefulset_status_current_revision
kube_statefulset_status_update_revision
kube_storageclass_annotations
kube_storageclass_created
kube_storageclass_info
kube_storageclass_labels
kube_validatingwebhookconfiguration_info
kube_validatingwebhookconfiguration_metadata_resource_version
kube_volumeattachment_created
kube_volumeattachment_info
kube_volumeattachment_labels
kube_volumeattachment_spec_source_persistentvolume
kube_volumeattachment_status_attached
kube_volumeattachment_status_attachment_metadata

Il set completo di metriche di Google Distributed Cloud è documentato in Visualizzare le metriche di Anthos.

Per disattivare le metriche ottimizzate (non consigliato), sostituisci l'impostazione predefinita nella risorsa personalizzata di Stackdriver.

Utilizzare Google Cloud Managed Service per Prometheus per componenti di sistema selezionati

Google Cloud Managed Service per Prometheus fa parte di Cloud Monitoring ed è disponibile come opzione per i componenti di sistema. I vantaggi di Google Cloud Managed Service per Prometheus includono:

Puoi continuare a utilizzare il monitoraggio basato su Prometheus esistente senza alterare gli avvisi e le dashboard di Grafana.
Se utilizzi sia GKE sia Google Distributed Cloud, puoi utilizzare lo stesso linguaggio di query Prometheus (PromQL) per le metriche su tutti i tuoi cluster. Puoi anche utilizzare la scheda PromQL in Metrics Explorer nella Google Cloud console.

Attivare e disattivare Google Cloud Managed Service per Prometheus

A partire dalla release 1.30.0-gke.1930 di Google Distributed Cloud, Google Cloud Managed Service per Prometheus è sempre abilitato. Nelle versioni precedenti, puoi modificare la risorsa Stackdriver, stackdriver, per attivare o disattivare Google Cloud Managed Service per Prometheus. Per disattivare Google Cloud Managed Service per Prometheus per le versioni del cluster precedenti alla 1.30.0-gke.1930, imposta spec.featureGates.enableGMPForSystemMetrics nella risorsa stackdriver su false.

Visualizzare i dati delle metriche

Quando enableGMPForSystemMetrics è impostato su true, le metriche per i seguenti componenti hanno un formato diverso per la modalità di archiviazione e query in Cloud Monitoring:

kube-apiserver
kube-scheduler
kube-controller-manager
kubelet e cadvisor
kube-state-metrics
node-exporter

Nel nuovo formato, puoi eseguire query sulle metriche precedenti utilizzando PromQL o Monitoring Query Language (MQL):

PromQL

Query PromQL di esempio:

histogram_quantile(0.95, sum(rate(apiserver_request_duration_seconds_bucket[5m])) by (le))

MQL

Per utilizzare MQL, imposta la risorsa monitorata su prometheus_target, utilizza il nome della metrica con il prefisso kubernetes.io/anthos e aggiungi il tipo Prometheus come suffisso al nome della metrica.

fetch prometheus_target
| metric 'kubernetes.io/anthos/apiserver_request_duration_seconds/histogram'
| align delta(5m)
| every 5m
| group_by [], [value_histogram_percentile: percentile(value.histogram, 95)]

Configurazione delle dashboard di Grafana con Google Cloud Managed Service per Prometheus

Per utilizzare Grafana con i dati delle metriche di Google Cloud Managed Service per Prometheus, devi prima configurare e autenticare l'origine dati Grafana. Per configurare e autenticare l'origine dati, utilizza il sincronizzatore delle origini dati (datasource-syncer) per generare le credenziali OAuth2 e sincronizzarle con Grafana tramite l'API di origine dati Grafana. Il sincronizzatore dell'origine dati imposta l'URL del server Prometheus (il valore dell'URL inizia con https://monitoring.googleapis.com) nell'origine dati in Grafana.

Segui i passaggi descritti in Eseguire query utilizzando Grafana per autenticare e configurare un'origine dati Grafana per eseguire query sui dati di Google Cloud Managed Service per Prometheus.

Un insieme di dashboard Grafana di esempio è fornito nel repository anthos-samples su GitHub. Per installare le dashboard di esempio:

Scarica i file JSON di esempio:

git clone https://github.com/GoogleCloudPlatform/anthos-samples.git
cd anthos-samples/gmp-grafana-dashboards

Se l'origine dati di Grafana è stata creata con un nome diverso da Managed Service for Prometheus, modifica il campo datasource in tutti i file JSON:
```
sed -i "s/Managed Service for Prometheus/[DATASOURCE_NAME]/g" ./*.json
```
Sostituisci [DATASOURCE_NAME] con il nome dell'origine dati in Grafana che rimanda al servizio Prometheus frontend.
Accedi all'interfaccia utente di Grafana dal browser e seleziona + Importa nel menu Dashboard.
Carica il file JSON o copia e incolla i contenuti del file e seleziona Carica. Una volta caricati i contenuti del file, seleziona Importa. Facoltativamente, puoi anche modificare il nome e l'UID della dashboard prima dell'importazione.
La dashboard importata dovrebbe caricarsi correttamente se Google Distributed Cloud e l'origine dati sono configurati correttamente. Ad esempio, lo screenshot seguente mostra la dashboard configurata da cluster-capacity.json.

Risorse aggiuntive

Per ulteriori informazioni su Google Cloud Managed Service per Prometheus, consulta quanto segue:

Configurazione delle risorse dei componenti Stackdriver

Quando crei un cluster, Google Distributed Cloud crea automaticamente una risorsa personalizzata Stackdriver. Puoi modificare la specifica nella risorsa personalizzata per ignorare i valori predefiniti per le richieste e i limiti di CPU e memoria per un componente Stackdriver e puoi ignorare separatamente l'impostazione predefinita delle metriche ottimizzate.

Sostituzione delle richieste e dei limiti di CPU e memoria predefiniti per un componente Stackdriver

I cluster con una densità elevata di pod introducono un overhead maggiore per il monitoraggio e la registrazione. In casi estremi, i componenti di Stackdriver potrebbero segnalare un utilizzo prossimo al limite della CPU e della memoria o addirittura essere soggetti a riavvii continui a causa di limiti di risorse. In questo caso, per sostituire i valori predefiniti per le richieste e i limiti di CPU e memoria per un componente Stackdriver, svolgi i seguenti passaggi:

Esegui il seguente comando per aprire la risorsa personalizzata Stackdriver in un editor a riga di comando:
```
kubectl -n kube-system edit stackdriver stackdriver
```

Nella risorsa personalizzata Stackdriver, aggiungi la resourceAttrOverridesezione sotto il campo spec:

resourceAttrOverride:
      DAEMONSET_OR_DEPLOYMENT_NAME/CONTAINER_NAME:
        LIMITS_OR_REQUESTS:
          RESOURCE: RESOURCE_QUANTITY

Tieni presente che la sezione resourceAttrOverride sostituisce tutti i limiti e le richieste predefinite esistenti per il componente specificato. I seguenti componenti sono supportati da resourceAttrOverride:

gke-metrics-agent/gke-metrics-agent
stackdriver-log-forwarder/stackdriver-log-forwarder
stackdriver-metadata-agent-cluster-level/metadata-agent
node-exporter/node-exporter
kube-state-metrics/kube-state-metrics

Un file di esempio ha il seguente aspetto:

apiVersion: addons.gke.io/v1alpha1
kind: Stackdriver
metadata:
  name: stackdriver
  namespace: kube-system
spec:
  anthosDistribution: baremetal
  projectID: my-project
  clusterName: my-cluster
  clusterLocation: us-west-1a
  resourceAttrOverride:
    gke-metrics-agent/gke-metrics-agent:
      requests:
        cpu: 110m
        memory: 240Mi
      limits:
        cpu: 200m
        memory: 4.5Gi

Per salvare le modifiche alla risorsa personalizzata Stackdriver, salva ed esci dall'editor a riga di comando.

Controlla lo stato del pod:

kubectl -n kube-system get pods -l "managed-by=stackdriver"

Una risposta per un pod integro è simile alla seguente:

gke-metrics-agent-4th8r                1/1     Running   1   40h

Controlla le specifiche del pod del componente per assicurarti che le risorse siano impostate correttamente.

kubectl -n kube-system describe pod POD_NAME

Sostituisci POD_NAME con il nome del pod appena modificato. Ad esempio, gke-metrics-agent-4th8r.

La risposta è la seguente:

  Name:         gke-metrics-agent-4th8r
  Namespace:    kube-system
  ...
  Containers:
    gke-metrics-agent:
      Limits:
        cpu: 200m
        memory: 4.5Gi
      Requests:
        cpu: 110m
        memory: 240Mi
      ...

Disattivare le metriche ottimizzate

Per impostazione predefinita, i deployment kube-state-metrics in esecuzione nel cluster raccolgono e registrano in Stackdriver un insieme ottimizzato di metriche di Kube. Se hai bisogno di metriche aggiuntive, ti consigliamo di trovarne una sostitutiva nell'elenco delle metriche di Google Distributed Cloud.

Ecco alcuni esempi di sostituzioni che potresti utilizzare:

Metrica disabilitata	Sostituzioni
`kube_pod_start_time`	`container/uptime`
`kube_pod_container_resource_requests`	`container/cpu/request_cores` `container/memory/request_bytes`
`kube_pod_container_resource_limits`	`container/cpu/limit_cores` `container/memory/limit_bytes`

Per disattivare l'impostazione predefinita delle metriche ottimizzate (non consigliata), procedi nel seguente modo:

Apri la risorsa personalizzata Stackdriver in un editor a riga di comando:
```
kubectl -n kube-system edit stackdriver stackdriver
```

Imposta il campo optimizedMetrics su false:

apiVersion: addons.gke.io/v1alpha1
kind: Stackdriver
metadata:
name: stackdriver
namespace: kube-system
spec:
anthosDistribution: baremetal
projectID: my-project
clusterName: my-cluster
clusterLocation: us-west-1a
optimizedMetrics: false

Salva le modifiche ed esci dall'editor a riga di comando.

Server delle metriche

Metrics Server è l'origine delle metriche delle risorse dei contenitori per varie pipeline di scalabilità automatica. Metrics Server recupera le metriche dai Kubelet e le espone tramite l'API Kubernetes Metrics. HPA e VPA utilizzano poi queste metriche per determinare quando attivare la scalabilità automatica. Il server delle metriche viene ridimensionato utilizzando il ridimensionamento dei componenti aggiuntivi.

In casi estremi, in cui una densità elevata dei pod crea un overhead eccessivo per la registrazione e il monitoraggio, Metrics Server potrebbe essere interrotto e riavviato a causa di limitazioni delle risorse. In questo caso, puoi allocare più risorse al server delle metriche modificando il configmap metrics-server-config nello spazio dei nomi gke-managed-metrics-server e modificando il valore di cpuPerNode e memoryPerNode.

kubectl edit cm metrics-server-config -n gke-managed-metrics-server

I contenuti di esempio del ConfigMap sono:

apiVersion: v1
data:
  NannyConfiguration: |-
    apiVersion: nannyconfig/v1alpha1
    kind: NannyConfiguration
    cpuPerNode: 3m
    memoryPerNode: 20Mi
kind: ConfigMap

Dopo aver aggiornato il ConfigMap, ricrea i pod metrics-server con il seguente comando:

kubectl delete pod -l k8s-app=metrics-server -n gke-managed-metrics-server

Routing di log e metriche

Il forwarder dei log di Stackdriver (stackdriver-log-forwarder) invia i log da ogni macchina node a Cloud Logging. Analogamente, l'agente delle metriche GKE (gke-metrics-agent) invia le metriche da ogni macchina del nodo a Cloud Monitoring. Prima che i log e le metriche vengano inviati, l'operatore Stackdriver (stackdriver-operator) associa il valore del campo clusterLocation nella risorsa personalizzata stackdriver a ogni voce di log e metrica prima che vengano inoltrati a Google Cloud. Inoltre, i log e le metriche sono associati al Google Cloud progetto specificato nella specifica della risorsa personalizzata stackdriver (spec.projectID).

La risorsa stackdriver ottiene i valori per i campi clusterLocation e projectID dai campi location e projectID nella sezione clusterOperations della risorsa Cluster al momento della creazione del cluster.

Tutte le metriche e le voci di log inviate dagli agenti Stackdriver vengono inoltrate a un endpoint di importazione globale. Da qui, i dati vengono inoltrati all'endpoint Google Cloud regionale Google Cloud più vicino raggiungibile per garantire l'affidabilità del trasporto dei dati.

Una volta che l'endpoint globale riceve la metrica o la voce di log, ciò che accade dipende dal servizio:

Come viene configurato il routing dei log: quando l'endpoint di logging riceve un messaggio di log, Cloud Logging lo passa al router di log. I sink e i filtri nella configurazione del router dei log determinano il modo in cui instradare il messaggio. Puoi instradare le voci di log a destinazioni come i bucket di logging regionali, che archiviano la voce di log, o a Pub/Sub. Per ulteriori informazioni su come funziona il routing dei log e su come configurarlo, consulta la panoramica su routing e archiviazione.

Né il campo clusterLocation nella risorsa personalizzata stackdriver né il campo clusterOperations.location nella specifica del cluster vengono presi in considerazione in questa procedura di instradamento. Per i log, clusterLocation viene utilizzato per etichettare solo le voci del log, il che può essere utile per applicare i filtri in Esplora log.
Come viene configurato il routing delle metriche: quando l'endpoint delle metriche riceve una voce metrica, questa viene indirizzata automaticamente per essere archiviata nella posizione specificata dalla metrica. La posizione nella metrica proviene dal campo clusterLocation nella risorsa personalizzata stackdriver.
Pianifica la configurazione: quando configuri Cloud Logging e Cloud Monitoring, configura il router dei log e specifica un clusterOperations.location appropriato con le località che supportano al meglio le tue esigenze. Ad esempio, se vuoi che i log e le metriche vengano inviati alla stessa posizione, imposta clusterOperations.location sulla stessa Google Cloud regione utilizzata da Log Router per il tuo Google Cloud progetto.
Aggiorna la configurazione dei log in base alle esigenze: puoi apportare modifiche in qualsiasi momento alle impostazioni di destinazione per i log in base ai requisiti aziendali, ad esempio i piani di ripristino dei disastri. Le modifiche alla configurazione di Log Router inGoogle Cloud vengono applicate rapidamente. I campi location e projectID nella sezione clusterOperations della risorsa Cluster sono immutabili, pertanto non possono essere aggiornati dopo la creazione del cluster. Ti consigliamo di non modificare direttamente i valori nella risorsa stackdriver. Questa risorsa viene ripristinata allo stato di creazione del cluster originale ogni volta che un'operazione del cluster, ad esempio un upgrade, attiva una riconciliazione.

Requisiti di configurazione per il logging e il monitoraggio

Esistono diversi requisiti di configurazione per attivare Cloud Logging e Cloud Monitoring con Google Distributed Cloud. Questi passaggi sono inclusi in Configurazione di un account di servizio da utilizzare con Logging e Monitoring nella pagina Attivazione dei servizi Google e nel seguente elenco:

È necessario creare uno spazio di lavoro Cloud Monitoring all'interno del Google Cloud progetto. Per farlo, fai clic su Monitoraggio in Google Cloud console e segui il flusso di lavoro.
Devi abilitare le seguenti API Stackdriver:
Devi assegnare i seguenti ruoli IAM all'account di servizio utilizzato dagli agenti Stackdriver:
- logging.logWriter
- monitoring.metricWriter
- stackdriver.resourceMetadata.writer
- monitoring.dashboardEditor
- opsconfigmonitoring.resourceMetadata.writer

Tag di log

Molti log di Google Distributed Cloud hanno un tag F:

logtag: "F"

Questo tag indica che la voce di log è completa o completa. Per scoprire di più su questo tag, consulta Formato log nelle proposte di progettazione di Kubernetes su GitHub.

Prezzi

Non sono previsti costi per i log di sistema e le metriche della versione Enterprise di Google Kubernetes Engine (GKE).

In un cluster Google Distributed Cloud, i log e le metriche di sistema di Google Kubernetes Engine (GKE) versione Enterprise includono:

Log e metriche di tutti i componenti in un cluster di amministrazione.
Log e metriche dei componenti nei seguenti spazi dei nomi di un cluster utente: kube-system, gke-system, gke-connect, knative-serving, istio-system, monitoring-system, config-management-system, gatekeeper-system, cnrm-system.

Per ulteriori informazioni, consulta la pagina Prezzi di Google Cloud Observability.

Per informazioni sul credito per le metriche di Cloud Logging, contatta il team di vendita per conoscere i prezzi.