Gérer les ressources Dataproc à l'aide de contraintes personnalisées

Les règles d'administration Google Cloud vous offrent un contrôle centralisé et automatisé sur les ressources de votre organisation. En tant qu'administrateur des règles d'administration, vous pouvez définir une règle d'administration, c'est-à-dire un ensemble de restrictions appelées Contraintes qui s'appliquent aux ressources Google Cloud et aux descendants de ces ressources dans la Hiérarchie des ressources Google Cloud. Vous pouvez appliquer des règles d'administration au niveau d'une organisation, d'un dossier ou d'un projet.

Les règles d'administration fournissent des contraintes prédéfinies pour divers services Google Cloud. Toutefois, si vous souhaitez exercer un contrôle plus précis et le personnaliser pour des champs spécifiques restreints dans vos règles d'administration, vous pouvez également créer des contraintes personnalisées et les utiliser dans une règle d'administration personnalisée.

Avantages

Vous pouvez utiliser une règle d'organisation personnalisée pour autoriser ou refuser des opérations spécifiques sur les clusters Dataproc. Par exemple, si une requête de création ou de mise à jour d'un cluster ne répond pas à la validation de contrainte personnalisée définie par votre règle d'administration, la requête échoue et une erreur est renvoyée à l'appelant.

Héritage des règles

Par défaut, les règles d'administration sont héritées par les descendants des ressources sur lesquelles vous les appliquez. Par exemple, si vous appliquez une stratégie au niveau d'un dossier, Google Cloud l'applique à tous les projets du dossier. Pour mieux comprendre ce comportement et savoir comment le modifier, consultez la page Comprendre le processus d'évaluation hiérarchique.

Tarifs

Le service de règles d'administration, y compris les règles d'administration prédéfinies et personnalisées, est proposé gratuitement.

Avant de commencer

  1. Configurer votre projet
    1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
    2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    3. Make sure that billing is enabled for your Google Cloud project.

    4. Enable the Dataproc API.

      Enable the API

    5. Install the Google Cloud CLI.
    6. To initialize the gcloud CLI, run the following command:

      gcloud init
    7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    8. Make sure that billing is enabled for your Google Cloud project.

    9. Enable the Dataproc API.

      Enable the API

    10. Install the Google Cloud CLI.
    11. To initialize the gcloud CLI, run the following command:

      gcloud init
    12. Assurez-vous de connaître votre ID d'organisation.

Rôles requis

Pour obtenir les autorisations nécessaires pour gérer les règles d'administration d'administration de l'organisation, demandez à votre administrateur de vous accorder les rôles IAM suivants:

Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.

Ces rôles prédéfinis contiennent les autorisations requises pour gérer les règles d'administration. Pour connaître les autorisations exactes requises, développez la section Autorisations requises :

Autorisations requises

Les autorisations suivantes sont requises pour gérer les règles d'administration :

  • orgpolicy.constraints.list
  • orgpolicy.policies.create
  • orgpolicy.policies.delete
  • orgpolicy.policies.list
  • orgpolicy.policies.update
  • orgpolicy.policy.get
  • orgpolicy.policy.set

Vous pouvez également obtenir ces autorisations avec des rôles personnalisés ou d'autres rôles prédéfinis.

Créer une contrainte personnalisée

Une contrainte personnalisée est définie dans un fichier YAML par les ressources, les méthodes, les conditions et les actions auxquelles elle s'applique. Dataproc est compatible avec les contraintes personnalisées appliquées aux méthodes CREATE et UPDATE de la ressource CLUSTER (voir la section Contraintes Dataproc sur les ressources et les opérations).

Pour créer un fichier YAML pour une contrainte personnalisée Dataproc:

name: organizations/ORGANIZATION_ID/customConstraints/CONSTRAINT_NAME
resourceTypes:
- dataproc.googleapis.com/Cluster
methodTypes: 
- METHOD
condition: "CONDITION"
actionType: ACTION
displayName: DISPLAY_NAME
description: DESCRIPTION

Remplacez les éléments suivants :

  • ORGANIZATION_ID : ID de votre organisation (par exemple, 123456789).

  • CONSTRAINT_NAME : nom souhaité pour votre nouvelle contrainte personnalisée. Une contrainte personnalisée doit commencer par custom. et ne peut inclure que des lettres majuscules, minuscules ou des chiffres (par exemple, custom.dataprocEnableComponentGateway). La longueur maximale de ce champ est de 70 caractères, sans compter le préfixe, par exemple organizations/123456789/customConstraints/custom.

  • METHOD: lorsque vous créez une contrainte de création de cluster, spécifiez CREATE. Lorsque vous créez une contrainte UPDATE de cluster, spécifiez les deux comme suit:
    methodTypes:
    - CREATE
    - UPDATE
    
  • CONDITION : condition CEL écrite pour une représentation d'une ressource de service acceptée. Ce champ ne doit pas comporter plus de 1 000 caractères. Consultez la section Ressources compatibles pour en savoir plus sur les ressources disponibles pour l'écriture de conditions. Par exemple, "resource.config.endpointConfig.enableHttpPortAccess==true".

  • ACTION : action à effectuer si la condition est remplie. Peut être défini sur ALLOW ou DENY.

  • DISPLAY_NAME: nom convivial de la contrainte, par exemple "Forcer l'activation de la passerelle des composants Dataproc". Ce champ ne doit pas comporter plus de 200 caractères.

  • DESCRIPTION: description conviviale de la contrainte, qui sera affichée dans un message d'erreur en cas de non-respect de la règle (par exemple, "N'autoriser la création de clusters Dataproc que si la passerelle des composants est activée"). Ce champ ne doit pas comporter plus de 2 000 caractères.

Pour en savoir plus sur la création d'une contrainte personnalisée, consultez la page Définir des contraintes personnalisées.

Configurer une contrainte personnalisée

Après avoir créé le fichier YAML pour une nouvelle contrainte personnalisée, vous devez le configurer de sorte qu'il soit disponible pour les règles d'administration de votre organisation. Pour configurer une contrainte personnalisée, utilisez la commande gcloud org-policies set-custom-constraint :
gcloud org-policies set-custom-constraint CONSTRAINT_PATH
Remplacez CONSTRAINT_PATH par le chemin d'accès complet à votre fichier de contrainte personnalisée. Par exemple, /home/user/customconstraint.yaml. Une fois l'opération terminée, vos contraintes personnalisées sont disponibles en tant que règles d'administration dans votre liste de règles d'administration Google Cloud. Pour vérifier que la contrainte personnalisée existe, utilisez la commande gcloud org-policies list-custom-constraints :
gcloud org-policies list-custom-constraints --organization=ORGANIZATION_ID
Remplacez ORGANIZATION_ID par l'ID de votre ressource d'organisation. Pour en savoir plus, consultez la page Afficher les règles d'administration.

Appliquer une contrainte personnalisée

Vous pouvez appliquer une contrainte booléenne en créant une règle d'administration qui la référence et en appliquant cette règle d'administration à une ressource Google Cloud.

Console

  1. Dans la console Google Cloud, accédez à la page Règles d'administration.

    Accéder à la page Règles d'administration

  2. Dans le sélecteur de projets, choisissez le projet pour lequel vous souhaitez définir la règle d'administration.
  3. Dans la liste de la page Règles d'administration, sélectionnez votre contrainte pour afficher la page Détails de la règle associée.
  4. Pour configurer la règle d'administration pour cette ressource, cliquez sur Gérer la règle.
  5. Sur la page Modifier la stratégie, sélectionnez Remplacer la stratégie parente.
  6. Cliquez sur Ajouter une règle.
  7. Dans la section Application, indiquez si l'application de cette règle d'administration doit être activée ou désactivée.
  8. Facultatif : Pour rendre la règle d'administration conditionnelle sur un tag, cliquez sur Ajouter une condition. Notez que si vous ajoutez une règle conditionnelle à une règle d'administration, vous devez ajouter au moins une règle inconditionnelle, sinon la règle ne pourra pas être enregistrée. Pour en savoir plus, consultez la section Définir une règle d'administration avec des tags.
  9. S'il s'agit d'une contrainte personnalisée, vous pouvez cliquer sur Tester les modifications pour simuler l'effet de cette règle d'administration. Pour en savoir plus, consultez la section Tester les modifications apportées aux règles d'administration à l'aide de Policy Simulator.
  10. Pour finaliser et appliquer la règle d'administration, cliquez sur Définir la règle. La prise en compte de la règle peut prendre jusqu'à 15 minutes.

gcloud

Pour créer une règle d'administration qui applique une contrainte booléenne, créez un fichier YAML de règle qui référence la contrainte :

      name: projects/PROJECT_ID/policies/CONSTRAINT_NAME
      spec:
        rules:
        - enforce: true
    

Remplacez les éléments suivants :

  • PROJECT_ID : projet sur lequel vous souhaitez appliquer votre contrainte.
  • CONSTRAINT_NAME : nom que vous avez défini pour la contrainte personnalisée Par exemple, custom.dataprocEnableComponentGateway.

Pour appliquer la règle d'administration contenant la contrainte, exécutez la commande suivante :

    gcloud org-policies set-policy POLICY_PATH
    

Remplacez POLICY_PATH par le chemin d'accès complet au fichier YAML de votre règle d'administration. La prise en compte de la règle peut prendre jusqu'à 15 minutes.

Tester la contrainte personnalisée

L'exemple de création de cluster suivant suppose qu'une règle d'administration personnalisée a été créée et appliquée lors de la création du cluster pour exiger l'activation de la passerelle de composants (resource.config.endpointConfig.enableHttpPortAccess==true).

gcloud dataproc clusters create example-cluster \
    --project=PROJECT_ID \
    --zone=COMPUTE_ZONE

Exemple de sortie (par défaut, la passerelle des composants n'est pas activée lorsqu'un cluster Dataproc est créé):

Operation denied by custom org policies: ["customConstraints/custom.dataprocEnableComponentGateway": "Only allow Dataproc cluster creation if the Component Gateway is enabled"]

Contraintes Dataproc sur les ressources et les opérations

Les champs de contrainte personnalisée Dataproc suivants sont disponibles lorsque vous créez ou mettez à jour un cluster Dataproc. Notez que lors de la mise à jour d'un cluster, seules les contraintes liées aux paramètres de cluster modifiables sont prises en charge (voir la section Mettre à jour un cluster).

  • Configuration réseau Compute Engine (networkUri, internalIpOnly, serviceAccount et métadonnées)
    • resource.config.gceClusterConfig.networkUri
    • resource.config.gceClusterConfig.internalIpOnly
    • resource.config.gceClusterConfig.serviceAccount
    • resource.config.gceClusterConfig.metadata
  • Configuration du groupe d'instances Compute Engine (imageUri et machineTypeUri)
    • resource.config.masterConfig.imageUri
    • resource.config.masterConfig.machineTypeUri
    • resource.config.workerConfig.imageUri
    • resource.config.workerConfig.machineTypeUri
    • resource.config.secondaryWorkerConfig.imageUri
    • resource.config.secondaryWorkerConfig.machineTypeUri
  • Configuration de disque du groupe d'instances Compute Engine (bootDiskType, bootDiskSizeGb, numLocalSsds et localSsdInterface)
    • resource.config.masterConfig.diskConfig.bootDiskType
    • resource.config.workerConfig.diskConfig.bootDiskType
    • resource.config.secondaryWorkerConfig.diskConfig.bootDiskType
    • resource.config.masterConfig.diskConfig.bootDiskSizeGb
    • resource.config.workerConfig.diskConfig.bootDiskSizeGb
    • resource.config.secondaryWorkerConfig.diskConfig.bootDiskSizeGb
    • resource.config.masterConfig.diskConfig.numLocalSsds
    • resource.config.workerConfig.diskConfig.numLocalSsds
    • resource.config.secondaryWorkerConfig.diskConfig.numLocalSsds
    • resource.config.masterConfig.diskConfig.localSsdInterface
    • resource.config.workerConfig.diskConfig.localSsdInterface
    • resource.config.secondaryWorkerConfig.diskConfig.localSsdInterface
  • Actions d'initialisation (executableFile)
    • resource.config.initializationActions.executableFile
  • Configuration logicielle (imageVersion, properties et optionalComponents)
    • resource.config.softwareConfig.imageVersion
    • resource.config.softwareConfig.properties
    • resource.config.softwareConfig.optionalComponents
  • Configuration Kerberos (enableKerberos et crossRealmTrustKdc)
    • resource.config.securityConfig.kerberosConfig.enableKerberos
    • resource.config.securityConfig.kerberosConfig.crossRealmTrustKdc
  • Passerelle des composants (enableHttpPortAccess)
    • resource.config.endpointConfig.enableHttpPortAccess
  • Configuration Metastore (dataprocMetastoreService)
    • resource.config.metastoreConfig.dataprocMetastoreService
  • CMEK de disque persistant (gcePdKmsKeyName)
    • resource.config.encryptionConfig.gcePdKmsKeyName
  • Libellés de cluster
    • resource.labels
  • Taille du cluster
    • resource.config.masterConfig.numInstances
    • resource.config.workerConfig.numInstances
    • resource.config.secondaryWorkerConfig.numInstances
  • Autoscaling
    • resource.config.autoscalingConfig.policyUri

Exemples de contraintes personnalisées pour des cas d'utilisation courants

Le tableau suivant fournit des exemples de contraintes personnalisées:

Description Syntaxe de la contrainte
Limitez le nombre d'instances de nœuds de calcul Dataproc à 10 ou moins lors de la création ou de la mise à jour d'un cluster.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocNoMoreThan10Workers
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    - UPDATE
    condition: "resource.config.workerConfig.numInstances + resource.config.secondaryWorkerConfig.numInstances > 10"
    actionType: DENY
    displayName: Total number of worker instances cannot be larger than 10
    description: Cluster cannot have more than 10 workers, including primary and
    secondary workers.
Empêche l'application maître de s'exécuter sur des nœuds de calcul préemptifs du cluster Dataproc.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocAmPrimaryOnlyEnforced
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition:  "('dataproc:am.primary_only' in resource.config.softwareConfig.properties) && (resource.config.softwareConfig.properties['dataproc:am.primary_only']==true)"
    actionType: ALLOW
    displayName: Application master cannot run on preemptible workers
    description: Property "dataproc:am.primary_only" must be "true".
Interdire les propriétés Hive personnalisées sur les clusters Dataproc.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocNoCustomHiveProperties
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition: "resource.config.softwareConfig.properties.all(p, !p.startsWith('hive:'))"
    actionType: ALLOW
    displayName: Cluster cannot have custom Hive properties
    description: Only allow Dataproc cluster creation if no property
    starts with Hive prefix "hive:".
Interdiction d'utiliser le type de machine n1-standard-2 pour les instances principales Dataproc.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocMasterMachineType
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition: "resource.config.masterConfig.machineTypeUri.contains('n1-standard-2')"
    actionType: DENY
    displayName: Master cannot use the n1-standard-2 machine type
    description:  Prevent Dataproc cluster creation if the master machine type is n1-standard-2.
Forcer l'utilisation d'un script d'action d'initialisation spécifié.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocInitActionScript
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition: "resource.config.initializationActions.exists(action, action.executableFile=='gs://some/init-action.sh')"
    actionType: ALLOW
    displayName: Initialization action script "gs://some/init-action.sh" must be used
    description:  Only allow Dataproc cluster creation if the "gs://some/init-action.sh"
    initialization action script is used.
Appliquez l'utilisation d'une clé de chiffrement de disque persistant spécifiée.
    name: organizations/ORGANIZATION_ID/custom.dataprocPdCmek
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition: "resource.config.encryptionConfig.gcePdKmsKeyName == 'projects/project-id/locations/global/keyRings/key-ring-name/cryptoKeys/key-name'"
    actionType: ALLOW
    displayName: Cluster PD must be encrypted with "key-name" from "key-ring-name" key-ring
    description: Only allow Dataproc cluster creation if the PD is encrypted with "key-name" from "key-ring-name" key-ring.
Appliquez les restrictions d'étiquette de cluster.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocEnvLabel
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    - UPDATE
    condition:  "('env' in resource.labels) && (resource.labels.env=='test')"
    actionType: DENY
    displayName: Cluster cannot have the "env=test" label
    description:  Deny Dataproc cluster creation or update if the cluster will be labeled "env=test".
Imposer l'utilisation d'un réseau autre que celui par défaut.
    name: organizations/ORGANIZATION_ID/customConstraints/custom.dataprocNoDefaultNetwork
    resourceTypes:
    - dataproc.googleapis.com/Cluster
    methodTypes:
    - CREATE
    condition:  "resource.config.gceClusterConfig.networkUri.contains('networks/default')"
    actionType: DENY
    displayName: Cluster cannot be created in the default network
    description:  Deny Dataproc cluster creation if the cluster will be created in the default network.

Étape suivante