Entorno de ejecución de TensorFlow optimizado

El entorno de ejecución de TensorFlow optimizado optimiza los modelos para que la inferencia sea más rápida y económica que con los contenedores de TensorFlow Serving precompilados basados en código abierto. El entorno de ejecución de TensorFlow optimizado lo hace utilizando las tecnologías de código abierto y propietarias de Google.

Cuanto mayor sea un modelo de aprendizaje automático, más costará servirlo. Con el entorno de ejecución de TensorFlow optimizado, el coste de servir tu modelo de aprendizaje automático y la velocidad de inferencia pueden ser más bajos en comparación con el uso de un entorno de ejecución de TensorFlow basado en software libre. Para aprovechar el tiempo de ejecución optimizado de TensorFlow al usar Vertex AI, no es necesario que modifiques el código. En su lugar, elige una imagen de contenedor de servicio que la use.

El entorno de ejecución de TensorFlow optimizado es compatible con versiones anteriores de los contenedores de TensorFlow Serving precompilados. Si ejecutas modelos de TensorFlow con un contenedor prediseñado, puedes cambiar a un contenedor de entorno de ejecución de TensorFlow optimizado con un esfuerzo mínimo.

Aunque el rendimiento de tu modelo mejora cuando usas el tiempo de ejecución optimizado de TensorFlow, debes tener en cuenta que el impacto en el rendimiento variará en función del tipo de modelo.

Información general sobre el entorno de ejecución de TensorFlow optimizado

El entorno de ejecución de TensorFlow optimizado usa optimizaciones de modelos y nuevas tecnologías propias de Google para mejorar la velocidad y reducir el coste de la inferencia en comparación con los contenedores de TensorFlow Serving precompilados basados en software libre.

La optimización se produce cuando Vertex AI sube un modelo, antes de que se ejecute. Después de desplegar un modelo en un endpoint, el registro de optimización se añade al registro de inferencia. Puedes usar estos registros para solucionar los problemas que puedan surgir durante la optimización.

En los siguientes temas se describen las mejoras de optimización del entorno de ejecución de TensorFlow optimizado.

Optimizaciones de modelos

El entorno de ejecución de TensorFlow optimizado incluye las tres optimizaciones de modelos siguientes.

Precompilación de XLA de modelos

Cuando se ejecuta un modelo de TensorFlow, todas las operaciones se ejecutan individualmente. Hay una pequeña sobrecarga al ejecutar operaciones individuales. El tiempo de ejecución optimizado de TensorFlow puede eliminar parte de esta sobrecarga aprovechando XLA para precompilar todo o una parte del gráfico de TensorFlow en kernels más grandes.

La precompilación de modelos XLA es opcional y está inhabilitada de forma predeterminada. Para saber cómo habilitar la precompilación de XLA de un modelo durante una implementación, consulte Habilitar la precompilación de XLA de un modelo.

Optimizaciones de la compresión de modelos

El entorno de ejecución de TensorFlow optimizado puede ejecutar algunos modelos más rápido con un pequeño impacto en la precisión del modelo, lo que permite optimizar la compresión del modelo. Cuando se habilita la optimización de la compresión de modelos, el tiempo de ejecución optimizado de TensorFlow utiliza técnicas como la cuantización y la poda de pesos para ejecutar los modelos más rápido.

La función de optimización de la compresión de modelos está inhabilitada de forma predeterminada. Para saber cómo habilitar la optimización de la compresión de modelos durante una implementación, consulte Habilitar la optimización de la compresión de modelos.

Rendimiento mejorado de los modelos tabulares en GPUs

Los modelos tabulares de TensorFlow suelen servirse en CPUs porque no pueden utilizar aceleradores de forma eficaz. El entorno de ejecución de TensorFlow optimizado soluciona este problema ejecutando las partes del modelo que requieren muchos recursos computacionales en las GPUs. El resto del modelo se ejecuta en CPUs minimizando la comunicación entre el host y el acelerador. Ejecutar las partes costosas del modelo en GPUs y el resto en CPUs hace que el servicio de modelos tabulares sea más rápido y menos costoso.

El entorno de ejecución de TensorFlow optimizado optimiza el servicio de los siguientes tipos de modelos tabulares.

Optimización automática de modelos para TPU de Cloud

Los contenedores de tiempo de ejecución de TensorFlow optimizados y precompilados que admiten las TPUs de Cloud pueden particionar y optimizar automáticamente tus modelos para que se ejecuten en TPUs. Para obtener más información, consulta Implementar en TPU de Cloud.

Uso del tiempo de ejecución de TensorFlow (TFRT)

El entorno de ejecución de TensorFlow optimizado puede usar el entorno de ejecución de TensorFlow (TFRT). TFRT usa de forma eficiente las CPUs de host multiproceso, admite modelos de programación asíncronos y se ha optimizado para ofrecer eficiencia de bajo nivel.

La CPU de TFRT está habilitada en todas las imágenes de contenedor de CPU del entorno de ejecución de TensorFlow optimizado, excepto en la versión 2.8. Para inhabilitar la CPU de TFRT, asigna el valor false a la marca use_tfrt.

La GPU de TFRT está disponible en las imágenes de contenedor de GPU del entorno de ejecución de TensorFlow optimizado de las compilaciones nocturnas y en las versiones 2.13 y posteriores de las imágenes de contenedor de GPU del entorno de ejecución de TensorFlow optimizado estable. Para habilitar la GPU de TFRT, asigna el valor true a las marcas use_tfrt y allow_precompilation. TFRT en una imagen de contenedor de GPU minimiza la sobrecarga de transferencia de datos entre la CPU del host y la GPU. Después de habilitar TFRT, funciona junto con la compilación de XLA. Como la precompilación de XLA está habilitada, es posible que experimentes algunos efectos secundarios, como un aumento de la latencia en la primera solicitud. Para obtener más información, consulta Habilitar la precompilación de XLA de modelos.

Uso del tiempo de ejecución de Google

Como el tiempo de ejecución optimizado de TensorFlow se ha creado con la pila interna de Google, puede aprovechar las ventajas de ejecutarse en el entorno de tiempo de ejecución propietario de Google.

Imágenes de contenedor del entorno de ejecución de TensorFlow optimizado

Vertex AI ofrece dos tipos de imágenes de contenedor de tiempo de ejecución de TensorFlow optimizadas: estable y nightly.

Imágenes de contenedor estables

Los contenedores de entorno de ejecución de TensorFlow optimizados y estables están vinculados a una versión específica de TensorFlow, al igual que los contenedores precompilados de TensorFlow Serving basados en código abierto. Los contenedores de tiempo de ejecución de TensorFlow optimizados vinculados a una versión específica se mantienen durante el mismo periodo que la compilación de código abierto vinculada a la misma versión. Las compilaciones del entorno de ejecución de TensorFlow optimizado tienen las mismas propiedades que las compilaciones de TensorFlow de código abierto, pero con una inferencia más rápida.

Las compilaciones son retrocompatibles. Esto significa que deberías poder ejecutar modelos entrenados en versiones anteriores de TensorFlow con un contenedor más reciente. Los contenedores recientes deberían tener un mejor rendimiento que los antiguos. En raras excepciones, es posible que un modelo entrenado con una versión anterior de TensorFlow no funcione con un contenedor más reciente.

Imágenes de contenedores nocturnas

Las compilaciones optimizadas del entorno de ejecución de TensorFlow incluyen las mejoras y optimizaciones más recientes, pero puede que no sean tan fiables como las compilaciones estables. Se usan principalmente con fines experimentales. Los nombres de las compilaciones nocturnas incluyen la etiqueta nightly. A diferencia de las imágenes de contenedor estables, los contenedores de compilación nocturna no están cubiertos por el Acuerdo de Nivel de Servicio (SLA) de Vertex AI.

Imágenes de contenedor disponibles

Están disponibles las siguientes imágenes de contenedor Docker de tiempo de ejecución de TensorFlow optimizadas, tanto estables como de compilación nocturna.

Versión de framework de aprendizaje automático Aceleradores compatibles (y versión de CUDA, si procede) Fecha de fin de los parches y de la asistencia Fin de la disponibilidad Imágenes compatibles
cada noche Solo CPU No aplicable No aplicable
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.nightly:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.nightly:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.nightly:latest
cada noche GPU (CUDA 12.x) No aplicable No aplicable
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.nightly:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.nightly:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.nightly:latest
cada noche TPU de Cloud No aplicable No aplicable
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.nightly:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.nightly:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.nightly:latest
2.17 Solo CPU 11 de julio del 2024 11 de julio del 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-17:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-17:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-17:latest
2.17 GPU (CUDA 12.x) 11 de julio del 2024 11 de julio del 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-17:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-17:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-17:latest
2.17 TPU de Cloud 11 de julio del 2024 11 de julio del 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-17:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-17:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-17:latest
2.16 Solo CPU 26 de abril del 2024 Apr 26, 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-16:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-16:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-16:latest
2.16 GPU (CUDA 12.x) 26 de abril del 2024 Apr 26, 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-16:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-16:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-16:latest
2.16 TPU de Cloud 26 de abril del 2024 Apr 26, 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-16:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-16:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-16:latest
2.15 Solo CPU 15 de agosto del 2024 15 de agosto del 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-15:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-15:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-15:latest
2.15 GPU (CUDA 12.x) 15 de agosto del 2024 15 de agosto del 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-15:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-15:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-15:latest
2.15 TPU de Cloud 15 de agosto del 2024 15 de agosto del 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-15:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-15:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-tpu.2-15:latest
2.14 Solo CPU 15 de agosto del 2024 15 de agosto del 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-14:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-14:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-14:latest
2.14 GPU (CUDA 12.x) 15 de agosto del 2024 15 de agosto del 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-14:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-14:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-14:latest
2.13 Solo CPU 15 de agosto del 2024 15 de agosto del 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-13:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-13:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-13:latest
2.13 GPU (CUDA 11.x) 15 de agosto del 2024 15 de agosto del 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-13:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-13:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-13:latest
2.12 Solo CPU 15 de mayo del 2024 15 de mayo del 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-12:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-12:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-12:latest
2.12 GPU (CUDA 11.x) 15 de mayo del 2024 15 de mayo del 2025
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-12:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-12:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-12:latest
2.11 Solo CPU 15 de noviembre del 2023 15 de noviembre del 2024
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-11:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-11:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-11:latest
2.11 GPU (CUDA 11.x) 15 de noviembre del 2023 15 de noviembre del 2024
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-11:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-11:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-11:latest
2.10 Solo CPU 15 de noviembre del 2023 15 de noviembre del 2024
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-10:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-10:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-10:latest
2.10 GPU (CUDA 11.x) 15 de noviembre del 2023 15 de noviembre del 2024
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-10:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-10:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-10:latest
2.9 Solo CPU 15 de noviembre del 2023 15 de noviembre del 2024
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-9:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-9:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-9:latest
2.9 GPU (CUDA 11.x) 15 de noviembre del 2023 15 de noviembre del 2024
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-9:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-9:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-9:latest
2,8 Solo CPU 15 de noviembre del 2023 15 de noviembre del 2024
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-8:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-8:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-8:latest
2,8 GPU (CUDA 11.x) 15 de noviembre del 2023 15 de noviembre del 2024
  • us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-8:latest
  • europe-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-8:latest
  • asia-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-gpu.2-8:latest

Usar el entorno de ejecución de TensorFlow optimizado con un endpoint privado

Usar puntos finales privados para ofrecer inferencias online con Vertex AI proporciona una conexión segura y de baja latencia al servicio de inferencia online de Vertex AI, que es más rápida que usar puntos finales públicos. El tiempo de ejecución optimizado de TensorFlow probablemente sirva modelos sensibles a la latencia, por lo que te recomendamos que lo uses con puntos finales privados. Para obtener más información, consulta Usar puntos finales privados para la inferencia online.

Desplegar un modelo con el entorno de ejecución de TensorFlow optimizado

El proceso para desplegar un modelo para la inferencia con el entorno de ejecución de TensorFlow optimizado es casi el mismo que el proceso para desplegar modelos con contenedores de TensorFlow Serving precompilados basados en código abierto. La única diferencia es que especificas una imagen de contenedor que usa el tiempo de ejecución optimizado de TensorFlow al crear tu modelo y puedes habilitar las marcas de optimización descritas anteriormente en este documento. Por ejemplo, si has desplegado tu modelo con el contenedor us-docker.pkg.dev/vertex-ai/prediction/tf2-cpu.2-8:latest, puedes servir el mismo modelo con el tiempo de ejecución optimizado de TensorFlow usando el contenedor us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.2-8:latest.

En el siguiente código de ejemplo se muestra cómo crear un modelo con el contenedor de tiempo de ejecución de TensorFlow optimizado us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.nightly:latest. Para desplegar este modelo, sigue el mismo proceso que para desplegar un modelo con otros contenedores de TensorFlow Serving prediseñados.

Para obtener más información sobre el ModelServiceClient usado en este ejemplo, consulta Class ModelServiceClient. Para obtener más información sobre cómo desplegar modelos con Vertex AI, consulta Desplegar un modelo con la API de Vertex AI. Para obtener más información sobre los ajustes allow_precompilation y allow_compression, consulta la sección Optimizaciones de modelos, que se describe más arriba en este documento.

    from google.cloud.aiplatform import gapic as aip
    PROJECT_ID = PROJECT_ID
    REGION = LOCATION
    API_ENDPOINT = f"{REGION}-aiplatform.googleapis.com"
    PARENT = f"projects/{PROJECT_ID}/locations/{REGION}"

    client_options = {"api_endpoint": API_ENDPOINT}
    model_service_client = aip.ModelServiceClient(client_options=client_options)
    tf_opt_model_dict = {
        "display_name": "DISPLAY_NAME",
        "metadata_schema_uri": "",
        "artifact_uri": "MODEL_URI",
        "container_spec": {
            "image_uri": "us-docker.pkg.dev/vertex-ai-restricted/prediction/tf_opt-cpu.nightly:latest",
            "args": [
                # The optimized TensorFlow runtime includes the following
                # options that can be set here.
                # "--allow_precompilation=true" - enable XLA precompilation
                # "--allow_compression=true" - enable
                #    model compression optimization
            ],
        },
    }
    tf_opt_model = model_service_client.upload_model(
        parent=PARENT,
        model=tf_opt_model_dict).result(timeout=180).model

Marcas de optimización de modelos

Cuando despliegues un modelo con el entorno de ejecución de TensorFlow optimizado, podrás habilitar dos funciones que pueden optimizar aún más el servicio de modelos de TensorFlow.

  1. Precompilación de XLA de modelos
  2. Optimización que afecta a la compresión del modelo

Puedes habilitar la precompilación de XLA y la optimización de la compresión de modelos al mismo tiempo. En las siguientes secciones se describe cómo habilitar estas opciones mediante marcas durante la implementación.

Habilitar la precompilación de XLA del modelo

Para configurar el entorno de ejecución de TensorFlow optimizado para precompilar modelos, asigna el valor true a la marca allow_precompilation. La precompilación de XLA funciona con diferentes tipos de modelos y, en la mayoría de los casos, mejora el rendimiento. La precompilación de XLA funciona mejor con solicitudes que tienen tamaños de lote grandes.

La precompilación de XLA se produce cuando llega la primera solicitud con el nuevo tamaño de lote. Para asegurarte de que el tiempo de ejecución se inicialice antes de la primera solicitud, puedes incluir un archivo de solicitudes de calentamiento. Para obtener más información, consulta Calentamiento de SavedModel en la documentación de TensorFlow.

La precompilación de XLA tarda entre varios segundos y varios minutos en completarse, según la complejidad del modelo. Si usas la precompilación de modelos XLA, debes tener en cuenta lo siguiente.

  • Si usas un archivo de calentamiento, intenta incluir solicitudes con tamaños de lote que representen los tamaños de lote que esperas que reciba tu modelo. Si proporcionas un gran número de solicitudes en tu archivo de calentamiento, se ralentizará el inicio de tu servidor de modelos.

  • Si prevés que tu modelo recibirá solicitudes con diferentes tamaños de lote, te recomendamos que habilites el procesamiento por lotes del lado del servidor con un conjunto de valores fijos para allow_batch_sizes. Para obtener más información sobre cómo habilitar el

    Para obtener información sobre el procesamiento por lotes, consulta el artículo Habilitar el procesamiento por lotes de solicitudes del lado del servidor en TensorFlow de la documentación de TensorFlow.

  • Como la precompilación de XLA añade una sobrecarga de memoria, es posible que algunos modelos grandes fallen con un error de falta de memoria en la GPU.

Te recomendamos que pruebes la precompilación de XLA en tu modelo antes de habilitar esta función en producción.

Habilitar la optimización de la compresión de modelos

Para configurar el entorno de ejecución de TensorFlow optimizado para que use la optimización de compresión de modelos, defina su marca allow_compression en true. Prueba cómo afecta la habilitación de esta marca a la precisión de tu modelo y, a continuación, determina si quieres habilitarla en producción.

Inhabilitar optimizaciones

Para configurar el entorno de ejecución de TensorFlow optimizado para ejecutar modelos sin optimización, defina su marca disable_optimizer en true.

Límites del entorno de ejecución de TensorFlow optimizado

El entorno de ejecución de TensorFlow optimizado tiene las siguientes limitaciones:

  • El tiempo de ejecución optimizado de TensorFlow no es compatible con GPUs NVIDIA anteriores, como Tesla P4 y Tesla P100.
  • Por el momento, el tiempo de ejecución optimizado de TensorFlow solo admite la explicabilidad de Shapley muestreada.

Precios

Implementar modelos con el entorno de ejecución de TensorFlow optimizado no conlleva costes adicionales. El coste es el mismo que el de otras implementaciones de inferencia, en las que se te cobra en función del número de máquinas virtuales y aceleradores que se utilicen. Para obtener más información, consulta los precios de Vertex AI.