Entrena DLRM y DCN en Cloud TPU (TF 2.x)


En este instructivo, se muestra cómo entrenar modelos de clasificación DLRM y DCN v2 que se pueden usarse para tareas como la predicción de la tasa de clics (CTR). Consulta la nota en Configuración para ejecutar el modelo de DLRM o DCN para ver cómo establecer parámetros para entrenar un modelo de clasificación DLRM o DCN v2.

Las entradas del modelo son atributos numéricos y categóricos, y la salida es un escalar (por ejemplo, la probabilidad de clics). El modelo se puede entrenar y evaluar Cloud TPU Los modelos de clasificación profunda consumen mucha memoria (para incorporaciones tablas y búsquedas) y el procesamiento intensivo para redes profundas (MLP). Las TPU son diseñados para ambos.

El modelo usa una capa TPUEmbedding para los atributos categóricos. Incorporación de TPU admite tablas de incorporación grandes con búsqueda rápida, el tamaño de las tablas de incorporación se escala de forma lineal con el tamaño de un pod de TPU. Se pueden incorporar tablas de hasta 90 GB se usa para TPU v3-8, 5.6 TB para un Pod v3-512 y 22.4 TB para un Pod de TPU v3-2048.

El código del modelo se encuentra en la biblioteca de TensorFlow Recommenders. mientras que la canalización de entrada, la configuración y el bucle de entrenamiento se describen en el TensorFlow Model Garden.

Objetivos

  • Establece el entorno de entrenamiento
  • Ejecuta el trabajo de entrenamiento con datos sintéticos
  • Verificar los resultados de salida

Costos

En este documento, usarás los siguientes componentes facturables de Google Cloud:

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

Para generar una estimación de costos en función del uso previsto, usa la calculadora de precios. Es posible que los usuarios nuevos de Google Cloud califiquen para obtener una prueba gratuita.

Antes de comenzar

Antes de comenzar este instructivo, verifica que tu proyecto de Google Cloud esté configurado correctamente.

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.

  6. En esta explicación, se usan componentes facturables de Google Cloud. Consulta la página de precios de Cloud TPU para calcular los costos. Asegúrate de limpiar los recursos de TPU que crees cuando hayas terminado de usarlos para evitar cargos innecesarios.

Configura tus recursos

En esta sección, se proporciona información sobre cómo configurar el bucket de Cloud Storage, la VM y los recursos de Cloud TPU que usa este instructivo.

  1. Abre una ventana de Cloud Shell.

    Abrir Cloud Shell

  2. Crea una variable para el ID de tu proyecto.

    export PROJECT_ID=project-id
  3. Configura Google Cloud CLI para usar el proyecto en el que quieres crear Cloud TPU

    Para obtener más información sobre el comando gcloud, consulta la Referencia de Google Cloud CLI.

    gcloud config set project ${PROJECT_ID}

    La primera vez que ejecutes este comando en una VM de Cloud Shell nueva, se mostrará la página Authorize Cloud Shell. Haz clic en Authorize en la parte inferior. de la página para permitir que gcloud realice llamadas a la API con tus credenciales.

  4. Crea una cuenta de servicio para el proyecto de Cloud TPU.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID

    El comando muestra una cuenta de servicio de Cloud TPU con el siguiente formato:

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    

  5. Crea un bucket de Cloud Storage con el siguiente comando, en el que La opción --location especifica la región en la que debe estar el bucket crear. Consulta los tipos y las zonas para obtener más detalles. en zonas y regiones:

    gcloud storage buckets create gs://bucket-name --project=${PROJECT_ID} --location=europe-west4

    En este bucket de Cloud Storage se almacenan los datos que usas para entrenar tu modelo y los resultados del entrenamiento. Con la herramienta gcloud compute tpus tpu-vm que se usa en este instructivo, se configuran los permisos predeterminados para la cuenta de servicio de Cloud TPU que configuraste en el paso anterior. Si quieres contar con permisos más detallados, revisa los permisos de nivel de acceso.

    La ubicación del bucket debe estar en la misma región que tu Compute Engine (VM) y tu nodo de Cloud TPU.

  6. Inicia una VM de Compute Engine y Cloud TPU con el comando gcloud.

    $ gcloud compute tpus tpu-vm create dlrm-dcn-tutorial \
        --zone=europe-west4-a \
        --accelerator-type=v3-8 \
        --version=tpu-vm-tf-2.17.0-se

    Descripciones de las marcas de comandos

    zone
    Es la zona en la que deseas crear la Cloud TPU.
    accelerator-type
    El tipo de acelerador especifica la versión y el tamaño de la Cloud TPU que deseas crear. Para obtener más información sobre los tipos de aceleradores compatibles con cada versión de TPU, consulta Versiones de TPU.
    version
    La versión de software de Cloud TPU.
  7. Conectarse a la instancia de Compute Engine mediante SSH Cuando estés conectado a la VM, el símbolo del sistema de shell cambia de username@projectname a username@vm-name:

    gcloud compute tpus tpu-vm ssh dlrm-dcn-tutorial --zone=europe-west4-a

Configura las variables de bucket de Cloud Storage

Configura las variables de entorno siguientes y reemplaza bucket-name por el nombre del depósito de Cloud Storage:

(vm)$ export STORAGE_BUCKET=gs://bucket-name
(vm)$ export PYTHONPATH="/usr/share/tpu/models/:${PYTHONPATH}"
(vm)$ export EXPERIMENT_NAME=dlrm-exp

Crea una variable de entorno para el nombre de la TPU.

  (vm)$ export TPU_NAME=local
  

La aplicación de entrenamiento espera que tus datos de entrenamiento sean accesibles en Cloud Storage. La aplicación de entrenamiento también usa tu bucket de Cloud Storage para almacenar puntos de control durante el entrenamiento.

Configuración para ejecutar el modelo de DLRM o DCN con datos sintéticos

El modelo se puede entrenar con varios conjuntos de datos. Dos de los más usados son Criteo Terabyte y Criteo Kaggle. En este instructivo, se entrena con datos sintéticos mediante la configuración de la marca use_synthetic_data=True.

El conjunto de datos sintético solo es útil para comprender cómo usar una Cloud TPU y validar el rendimiento de extremo a extremo. La precisión los números y el modelo guardado no serán significativos.

Visita los sitios web de Criteo Terabyte y Criteo Kagle para obtener información sobre cómo descargar y preprocesar estos conjuntos de datos.

  1. Instala los paquetes obligatorios.

    (vm)$ pip3 install tensorflow-recommenders
    (vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt
  2. Cambia al directorio de secuencias de comandos.

    (vm)$ cd /usr/share/tpu/models/official/recommendation/ranking
  3. Ejecuta la secuencia de comandos de entrenamiento. Para ello, se usa un conjunto de datos falso similar a Criteo para entrenar el modelo de DLRM. El entrenamiento tarda alrededor de 20 minutos.

    export EMBEDDING_DIM=32
    
    python3 train.py --mode=train_and_eval \
         --model_dir=${STORAGE_BUCKET}/model_dirs/${EXPERIMENT_NAME} --params_override="
         runtime:
             distribution_strategy: 'tpu'
         task:
             use_synthetic_data: true
             train_data:
                 input_path: '${DATA_DIR}/train/*'
                 global_batch_size: 16384
             validation_data:
                 input_path: '${DATA_DIR}/eval/*'
                 global_batch_size: 16384
             model:
                 num_dense_features: 13
                 bottom_mlp: [512,256,${EMBEDDING_DIM}]
                 embedding_dim: ${EMBEDDING_DIM}
                 top_mlp: [1024,1024,512,256,1]
                 interaction: 'dot'
                 vocab_sizes: [39884406, 39043, 17289, 7420, 20263, 3, 7120, 1543, 63,
                     38532951, 2953546, 403346, 10, 2208, 11938, 155, 4, 976, 14,
                     39979771, 25641295, 39664984, 585935, 12972, 108, 36]
         trainer:
             use_orbit: false
             validation_interval: 1000
             checkpoint_interval: 1000
             validation_steps: 500
             train_steps: 1000
             steps_per_loop: 1000
         "
    

Este entrenamiento se ejecuta durante aproximadamente 10 minutos en una TPU v3-8. Cuando se complete, verás mensajes similares a los siguientes:

I0621 21:32:58.519792 139675269142336 tpu_embedding_v2_utils.py:907] Done with log of TPUEmbeddingConfiguration.
I0621 21:32:58.540874 139675269142336 tpu_embedding_v2.py:389] Done initializing TPU Embedding engine.
1000/1000 [==============================] - 335s 335ms/step - auc: 0.7360 - accuracy: 0.6709 - prediction_mean: 0.4984
- label_mean: 0.4976 - loss: 0.0734 - regularization_loss: 0.0000e+00 - total_loss: 0.0734 - val_auc: 0.7403
- val_accuracy: 0.6745 - val_prediction_mean: 0.5065 - val_label_mean: 0.4976 - val_loss: 0.0749
- val_regularization_loss: 0.0000e+00 - val_total_loss: 0.0749

Model: "ranking"
_________________________________________________________________
Layer (type)                 Output Shape              Param #
=================================================================
tpu_embedding (TPUEmbedding) multiple                  1
_________________________________________________________________
mlp (MLP)                    multiple                  154944
_________________________________________________________________
mlp_1 (MLP)                  multiple                  2131969
_________________________________________________________________
dot_interaction (DotInteract multiple                  0
_________________________________________________________________
ranking_1 (Ranking)          multiple                  0
=================================================================
Total params: 2,286,914
Trainable params: 2,286,914
Non-trainable params: 0
_________________________________________________________________
I0621 21:43:54.977140 139675269142336 train.py:177] Train history: {'auc': [0.7359596490859985],
'accuracy': [0.67094486951828], 'prediction_mean': [0.4983849823474884], 'label_mean': [0.4975697994232178],
'loss': [0.07338511198759079], 'regularization_loss': [0], 'total_loss': [0.07338511198759079],
'val_auc': [0.7402724623680115], 'val_accuracy': [0.6744520664215088], 'val_prediction_mean': [0.5064718723297119],
'val_label_mean': [0.4975748658180237], 'val_loss': [0.07486172765493393],
'val_regularization_loss': [0], 'val_total_loss': [0.07486172765493393]}

Limpia

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos usados en este instructivo, borra el proyecto que contiene los recursos o conserva el proyecto y borra los recursos individuales.

  1. Desconéctate de la instancia de Compute Engine, si aún no lo hiciste:

    (vm)$ exit

    El mensaje ahora debería ser username@projectname, lo que indica que en Cloud Shell.

  2. Borra tus recursos de Cloud TPU.

    $ gcloud compute tpus tpu-vm delete dlrm-dcn-tutorial \
      --zone=europe-west4-a
  3. Ejecuta gcloud compute tpus tpu-vm list para verificar que los recursos se hayan borrado. La eliminación puede tardar varios minutos. El resultado del siguiente comando no debe incluir ninguno de los recursos creados en este instructivo:

    $ gcloud compute tpus tpu-vm list --zone=europe-west4-a
  4. Borra el bucket de Cloud Storage con gcloud CLI. Reemplazar bucket-name por el nombre del bucket de Cloud Storage

    $ gcloud storage rm gs://bucket-name --recursive

¿Qué sigue?

Los instructivos de TensorFlow Cloud TPU suelen entrenar el modelo con un conjunto de datos de muestra. Los resultados de este entrenamiento no se pueden usar para la inferencia. Para usar un modelo para inferencia, puedes entrenar los datos en un modelo conjunto de datos o uno propio. Modelos de TensorFlow entrenados con Cloud TPU generalmente requieren que los conjuntos de datos estén TFRecord.

Puedes usar la muestra de la herramienta de conversión de conjuntos de datos para convertir un conjunto de datos de clasificación de imágenes en formato TFRecord. Si no usas una imagen de clasificación de datos, tendrás que convertir tu conjunto de datos a Formato TFRecord tú mismo. Para obtener más información, consulta TFRecord y tf.Example

Ajuste de hiperparámetros

Para mejorar el rendimiento del modelo con tu conjunto de datos, puedes ajustar la hiperparámetros. Puedes encontrar información sobre los hiperparámetros comunes a todos Los modelos compatibles con TPU en GitHub: La información sobre los hiperparámetros específicos del modelo se puede encontrar en la fuente de la aplicación para cada un modelo de responsabilidad compartida. Para obtener más información sobre el ajuste de hiperparámetros, consulta Descripción general del ajuste de hiperparámetros y Ajusta los hiperparámetros.

Inferencia

Una vez que hayas entrenado tu modelo, puedes usarlo para inferencias (también denominado predicciones). Puedes usar el conversor de inferencia de Cloud TPU de desarrollo de software para preparar y optimizar un Modelo de TensorFlow para inferencias en Cloud TPU v5e. Para ver más información sobre la inferencia en Cloud TPU v5e, consulta Inferencia de Cloud TPU v5e introducción.