Usa los modelos Claude de Anthropic

Los modelos Claude de Anthropic en Vertex AI ofrecen modelos completamente administrados y sin servidores como APIs. Para usar un modelo de Claude en Vertex AI, envía una solicitud directamente al extremo de API de Vertex AI. Debido a que los modelos de Claude de Anthropic usan una API administrada, no es necesario aprovisionar ni administrar la infraestructura.

Puedes transmitir tus respuestas de Claude para reducir la percepción de latencia del usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.

Pagas por los modelos de Claude a medida que los usas (pago por uso) o pagas una tarifa fija cuando usas la capacidad de procesamiento de aprovisionamiento. Para conocer los precios del pago por uso, consulta los modelos de Claude de Anthropic en la página de precios de Vertex AI.

Modelos de Claude disponibles

Los siguientes modelos están disponibles en Anthropic para usarse en Vertex AI. Para acceder a un modelo de Claude, ve a su tarjeta de modelo de Model Garden.

Claude 3.5 Sonnet v2

Claude 3.5 Sonnet v2 es un modelo de vanguardia para tareas de ingeniería de software del mundo real y capacidades de agentes. Claude 3.5 Sonnet v2 ofrece estos avances al mismo precio y velocidad que Claude 3.5 Sonnet.

El modelo actualizado de Claude 3.5 Sonnet puede interactuar con herramientas que pueden manipular un entorno de escritorio de computadora. Para obtener más información, consulta la documentación de Anthropic.

Claude 3.5 Sonnet está optimizado para los siguientes casos de uso:

  • Tareas y uso de herramientas de agentes: Claude 3.5 Sonnet ofrece una ejecución superior de instrucciones, selección de herramientas, corrección de errores y razonamiento avanzado para flujos de trabajo de agentes que requieren el uso de herramientas.
  • Codificación: Para las tareas de desarrollo de software, que van desde migraciones de código, correcciones y traducciones, Claude 3.5 Sonnet ofrece un rendimiento sólido en la planificación y resolución de tareas de programación complejas.
  • Preguntas y respuestas sobre documentos: Claude 3.5 Sonnet combina una sólida comprensión del contexto, un razonamiento avanzado y una síntesis para brindar respuestas precisas y similares a las humanas.
  • Extracción de datos visuales: Con las habilidades de visión líderes de Claude 3.5 Sonnet, este puede extraer datos sin procesar de elementos visuales, como gráficos o diagramas, como parte de los flujos de trabajo de IA.
  • Generación y análisis de contenido: Claude 3.5 Sonnet puede comprender los matices y el tono del contenido, generar contenido más atractivo y analizarlo en un nivel más profundo.

Ir a la tarjeta de modelo de Claude 3.5 Sonnet v2

Claude 3.5 Haiku

Claude 3.5 Haiku, la nueva generación del modelo más rápido y recomendable de Anthropic, es ideal para casos de uso en los que la velocidad y la accesibilidad son importantes. Mejora a su predecesor en todos los conjuntos de habilidades. Claude 3.5 Haiku está optimizado para los siguientes casos de uso:

  • Finalización de código: Con su tiempo de respuesta rápido y su comprensión de los patrones de programación, Claude 3.5 Haiku se destaca por proporcionar sugerencias y finalizaciones de código rápidas y precisas en flujos de trabajo de desarrollo en tiempo real.
  • Bots de chat interactivos: El razonamiento mejorado y las capacidades de conversación natural de Claude 3.5 Haiku lo hacen ideal para crear chatbots responsivos y atractivos que puedan manejar grandes volúmenes de interacciones de los usuarios de manera eficiente.
  • Extracción y etiquetado de datos: Aprovechando sus habilidades de análisis mejoradas, Claude 3.5 Haiku procesa y clasifica los datos de manera eficiente, lo que lo hace útil para la extracción rápida de datos y las tareas de etiquetado automatizado.
  • Moderación de contenido en tiempo real: Con habilidades de razonamiento sólidas y comprensión del contenido, Claude 3.5 Haiku proporciona una moderación de contenido rápida y confiable para las plataformas que requieren tiempos de respuesta inmediatos a gran escala.

Ir a la tarjeta de modelo de Claude 3.5 Haiku

Claude 3 Opus

Claude 3 Opus de Anthropic es un modelo de IA potente con un rendimiento de primer nivel en tareas muy complejas. Puede navegar por instrucciones abiertas y situaciones nunca vistas con una fluidez notable y una comprensión similar a la humana. Claude 3 Opus está optimizado para los siguientes casos de uso:

  • Automatización de tareas, como programación y planificación interactivas, o la ejecución de acciones complejas en APIs y bases de datos

  • Tareas de investigación y desarrollo, como revisión de la investigación, intercambio de ideas y generación de hipótesis, y pruebas de productos.

  • Tareas de estrategia, como el análisis avanzado de gráficos, las tendencias financieras y del mercado, y las previsiones.

  • Tareas de visión, como el procesamiento de imágenes para mostrar resultados de texto También, el análisis de gráficos, diagramas técnicos, informes y otro contenido visual.

Ir a la tarjeta de modelo de Claude 3 Opus

Claude 3 Haiku

Claude 3 Haiku de Anthropic es el modelo de visión y texto más rápido de Anthropic para respuestas casi instantáneas a consultas básicas, diseñado para experiencias de IA fluidas que imitan las interacciones humanas.

  • Interacciones y traducciones con los clientes en vivo

  • Moderación de contenido para detectar comportamientos sospechosos o solicitudes de los clientes

  • Tareas que ahorran costos, como la administración de inventarios y la extracción de conocimiento de datos no estructurados

  • Tareas de visión, como el procesamiento de imágenes para mostrar resultados de texto, el análisis de gráficos, diagramas técnicos, informes y otro contenido visual

Ir a la tarjeta del modelo de Claude 3 Haiku

Claude 3.5 Sonnet

Claude 3.5 Sonnet de Anthropic supera el rendimiento de Claude 3 Opus en una amplia variedad de evaluaciones de Anthropic, con la velocidad y el costo de Claude 3 Sonnet de nivel intermedio de Anthropic. Claude 3.5 Sonnet está optimizado para los siguientes casos de uso:

  • Programación, como escribir, editar y ejecutar código con capacidades de razonamiento y solución de problemas sofisticadas

  • Comprende el contexto del usuario y orquesta flujos de trabajo de varios pasos para controlar las consultas complejas de la asistencia al cliente.

  • Ciencia de datos y análisis a través de la navegación de datos no estructurados y el uso de varias herramientas para generar estadísticas

  • Procesamiento visual, como interpretar gráficos y diagramas que requieren comprensión visual

  • Escribir contenido con un tono más natural y humano

Ir a la tarjeta de modelo de Claude 3.5 Sonnet

Claude 3 Sonnet

Claude 3 Sonnet de Anthropic es la combinación confiable de habilidades y velocidad de Anthropic. Está diseñado para ser confiable en implementaciones de IA a escala en una variedad de casos de uso. Claude 3 Sonnet está optimizado para los siguientes casos de uso:

  • Procesamiento de datos, incluida la generación mejorada por recuperación (RAG) y la recuperación de búsqueda

  • Tareas de ventas, como recomendaciones de productos, previsiones y marketing segmentado.

  • Tareas que ahorran tiempo, como la generación de código, el control de calidad y el reconocimiento óptico de caracteres (OCR) en imágenes.

  • Tareas de visión, como el procesamiento de imágenes para mostrar resultados de texto También, el análisis de gráficos, diagramas técnicos, informes y otro contenido visual.

Ir a la tarjeta del modelo de Claude 3 Sonnet

Usa modelos Claude

Puedes usar el SDK de Anthropic o los comandos curl para enviar solicitudes al extremo de Vertex AI con los siguientes nombres de modelos:

  • Para Claude 3.5 Sonnet v2, usa claude-3-5-sonnet-v2@20241022.
  • Para Claude 3.5 Haiku, usa claude-3-5-haiku@20241022.
  • Para Claude 3 Opus, usa claude-3-opus@20240229.
  • Para Claude 3.5 Sonnet, usa claude-3-5-sonnet@20240620.
  • Para Claude 3 Haiku, usa claude-3-haiku@20240307.
  • Para Claude 3 Sonnet, usa claude-3-sonnet@20240229.

Las versiones del modelo Claude de Anthropic deben usarse con un sufijo que comience con un símbolo @ (como claude-3-5-sonnet-v2@20241022 o claude-3-5-haiku@20241022) para garantizar un comportamiento coherente.

Antes de comenzar

Para usar los modelos de Claude de Anthropic con Vertex AI, debes realizar los siguientes pasos. La API de Vertex AI (aiplatform.googleapis.com) debe estar habilitada para usar Vertex AI. Si ya tienes un proyecto existente con la API de Vertex AI habilitada, puedes usar ese proyecto en lugar de crear uno nuevo.

Asegúrate de tener los permisos necesarios para habilitar y usar modelos de socios. Para obtener más información, consulta Otorga los permisos necesarios.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Enable the API

  8. Ve a una de las siguientes tarjetas de modelo de Model Garden y, luego, haz clic en habilitar:

Usa el SDK de Anthropic

Puedes realizar solicitudes de API a los modelos de Claude de Anthropic con el SDK de Anthropic Claude. Para obtener más información, consulta lo siguiente:

Realiza una llamada de transmisión a un modelo de Claude con el SDK de Vertex de Anthropic

En la siguiente muestra de código, se usa el SDK de Vertex de Anthropic para realizar una llamada de transmisión a un modelo de Claude.

Python

Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Si deseas obtener más información, consulta la documentación de referencia de la API de Python.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
result = []

with client.messages.stream(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
) as stream:
    for text in stream.text_stream:
        print(text, end="", flush=True)
        result.append(text)

# Example response:
# Here's a simple recipe for delicious banana bread:
# Ingredients:
# - 2-3 ripe bananas, mashed
# - 1/3 cup melted butter
# ...
# ...
# 8. Bake for 50-60 minutes, or until a toothpick inserted into the center comes out clean.
# 9. Let cool in the pan for a few minutes, then remove and cool completely on a wire rack.

Realiza una llamada unaria a un modelo de Claude con el SDK de Vertex de Anthropic

En la siguiente muestra de código, se usa el SDK de Vertex de Anthropic para realizar una llamada unaria a un modelo de Claude.

Python

Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Si deseas obtener más información, consulta la documentación de referencia de la API de Python.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

from anthropic import AnthropicVertex

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    messages=[
        {
            "role": "user",
            "content": "Send me a recipe for banana bread.",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_0162rhgehxa9rvJM5BSVLZ9j",
#   "content": [
#     {
#       "text": "Here's a simple recipe for delicious banana bread:\n\nIngredients:\n- 2-3 ripe bananas...
#   ...

Usa un comando curl

Puedes usar un comando curl para realizar una solicitud al extremo de Vertex AI. El comando curl especifica qué modelo de Claude compatible deseas usar.

Las versiones del modelo Claude de Anthropic deben usarse con un sufijo que comience con un símbolo @ (como claude-3-5-sonnet-v2@20241022 o claude-3-5-haiku@20241022) para garantizar un comportamiento coherente.

En el siguiente tema, se muestra cómo crear un comando curl y se incluye un comando curl de muestra.

REST

Para probar un mensaje de texto con la API de Vertex AI, envía una solicitud POST al extremo del modelo de publicador.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • LOCATION: Es una región que admite modelos de Claude Anthropic.
  • MODEL: El nombre del modelo que deseas usar.
  • ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos de Claude funcionan con giros user y assistant alternados. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
  • STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del usuario final. Configúralo como true para transmitir la respuesta y false para mostrarla de una sola vez.
  • CONTENT: Es el contenido, como el texto, del mensaje user o assistant.
  • MAX_OUTPUT_TOKENS: Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.

    Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.

  • TOP_P (opcional): Top-P cambia la manera en la que el modelo selecciona tokens para el resultado. Los tokens se seleccionan desde el más alto (consulta K superior) hasta el menos probable, hasta que la suma de sus probabilidades sea igual al valor de P superior. Por ejemplo, si los tokens A, B y C tienen una probabilidad de 0.3, 0.2 y 0.1, y el valor P superior es 0.5, el modelo elegirá A o B como el siguiente token mediante la temperatura y excluirá a C como candidato.

    Especifica un valor más bajo para respuestas menos aleatorias y un valor más alto para respuestas más aleatorias.

  • TOP_K(Opcional): El parámetro Top-K cambia la manera en la que el modelo selecciona los tokens para el resultado. K superior a 1 significa que el siguiente token seleccionado es el más probable entre todos los tokens en el vocabulario del modelo (también llamado decodificación voraz), mientras que el K superior a 3 significa que el siguiente token se selecciona de los tres tokens más probables mediante la temperatura.

    Para cada paso de selección de tokens, se muestran los tokens de K superior con las probabilidades más altas. Luego, los tokens se filtran según el superior con el token final seleccionado mediante el muestreo de temperatura.

    Especifica un valor más bajo para respuestas menos aleatorias y un valor más alto para respuestas más aleatorias.

HTTP method and URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict

Cuerpo JSON de la solicitud:

{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": STREAM
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Ejemplo del comando curl

MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
  "anthropic_version": "vertex-2023-10-16",
  "messages": [{
    "role": "user",
    "content": "Hello!"
  }],
  "max_tokens": 50,
  "stream": true}'

Uso de herramientas (llamadas a función)

Los modelos Claude de Anthropic admiten herramientas y llamadas a función para mejorar las capacidades de un modelo. Para obtener más información, consulta la descripción general del uso de herramientas en la documentación de Anthropic.

En los siguientes ejemplos, se muestra cómo usar herramientas con el SDK de Anthropic o el comando curl. En los ejemplos, se buscan restaurantes cercanos en San Francisco que estén abiertos.

Python

Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Si deseas obtener más información, consulta la documentación de referencia de la API de Python.

# TODO(developer): Vertex AI SDK - uncomment below & run
# pip3 install --upgrade --user google-cloud-aiplatform
# gcloud auth application-default login
# pip3 install -U 'anthropic[vertex]'
from anthropic import AnthropicVertex

# TODO(developer): Update and un-comment below line
# PROJECT_ID = "your-project-id"

client = AnthropicVertex(project_id=PROJECT_ID, region="us-east5")
message = client.messages.create(
    model="claude-3-5-sonnet-v2@20241022",
    max_tokens=1024,
    tools=[
        {
            "name": "text_search_places_api",
            "description": "returns information about a set of places based on a string",
            "input_schema": {
                "type": "object",
                "properties": {
                    "textQuery": {
                        "type": "string",
                        "description": "The text string on which to search",
                    },
                    "priceLevels": {
                        "type": "array",
                        "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
                    },
                    "openNow": {
                        "type": "boolean",
                        "description": "whether those places are open for business.",
                    },
                },
                "required": ["textQuery"],
            },
        }
    ],
    messages=[
        {
            "role": "user",
            "content": "What are some affordable and good Italian restaurants open now in San Francisco??",
        }
    ],
)
print(message.model_dump_json(indent=2))
# Example response:
# {
#   "id": "msg_vrtx_018pk1ykbbxAYhyWUdP1bJoQ",
#   "content": [
#     {
#       "text": "To answer your question about affordable and good Italian restaurants
#       that are currently open in San Francisco....
# ...

REST

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

  • LOCATION: Es una región que admite modelos de Claude Anthropic.
  • MODEL: Es el nombre del modelo que se usará.
  • ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos de Claude funcionan con giros user y assistant alternados. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
  • STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del usuario final. Configúralo como true para transmitir la respuesta y false para devolverla de una sola vez.
  • CONTENT: Es el contenido, como el texto, del mensaje user o assistant.
  • MAX_OUTPUT_TOKENS: Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.

    Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict

Cuerpo JSON de la solicitud:


{
  "anthropic_version": "vertex-2023-10-16",
  "max_tokens": MAX_TOKENS,
  "stream": STREAM,
  "tools": [
    {
      "name": "text_search_places_api",
      "description": "Returns information about a set of places based on a string",
      "input_schema": {
        "type": "object",
        "properties": {
          "textQuery": {
            "type": "string",
            "description": "The text string on which to search"
          },
          "priceLevels": {
            "type": "array",
            "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]",
          },
          "openNow": {
            "type": "boolean",
            "description": "Describes whether a place is open for business at
            the time of the query."
          },
        },
        "required": ["textQuery"]
      }
    }
  ],
  "messages": [
    {
      "role": "user",
      "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??"
    }
  ]
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Usa Vertex AI Studio

En el caso de algunos modelos Claude de Anthropic, puedes usar Vertex AI Studio para crear prototipos y probar modelos de IA generativa con rapidez en la consola de Google Cloud. Por ejemplo, puedes usar Vertex AI Studio para comparar las respuestas del modelo Claude con otros modelos compatibles, como Gemini de Google.

Para obtener más información, consulta Guía de inicio rápido: Envía instrucciones de texto a Gemini con Vertex AI Studio.

Disponibilidad de regiones de Claude de Anthropic

Claude 3.5 Sonnet v2 está disponible en las siguientes regiones:
  • us-east5 (Ohio)
  • europe-west1 (Belgium)
Claude 3.5 Haiku está disponible en las siguientes regiones:
  • us-east5 (Ohio)
Claude 3 Opus está disponible en la siguiente región:
  • us-east5 (Ohio)
Claude 3.5 Sonnet está disponible en las siguientes regiones:
  • us-east5 (Ohio)
  • asia-southeast1 (Singapore)
  • europe-west1 (Belgium)
Claude 3 Haiku está disponible en las siguientes regiones:
  • us-east5 (Ohio)
  • asia-southeast1 (Singapore)
  • europe-west1 (Belgium)
Claude 3 Sonnet está disponible en las siguientes regiones:
  • us-east5 (Ohio)

Cuotas de Claude de Anthropic y longitud del contexto compatible

En el caso de los modelos de Claude, se aplica una cuota para cada región en la que el modelo está disponible. La cuota se especifica en consultas por minuto (QPM) y tokens por minuto (TPM). TPM incluye tokens de entrada y salida.

Para mantener el rendimiento general del servicio y el uso aceptable, las cuotas máximas pueden variar según la cuenta y, en algunos casos, el acceso puede restringirse. Consulta las cuotas de tu proyecto en la página Cuotas y límites del sistema en la consola de Google Cloud. También debes tener disponibles las siguientes cuotas:

  • Online prediction requests per base model per minute per region per base_model
  • Online prediction tokens per minute per base model per minute per region per base_model

Claude 3.5 Sonnet v2

En la siguiente tabla, se muestran las cuotas máximas y la longitud de contexto compatible para Claude 3.5 Sonnet v2.

Región Cuotas Longitud del contexto compatible
us-east5 (Ohio) Hasta 90 QPM, 540,000 TPM 200,000 tokens
europe-west1 (Belgium) Hasta 55 QPM, 330,000 TPM 200,000 tokens

Claude 3.5 Haiku

En la siguiente tabla, se muestran las cuotas máximas y la longitud del contexto compatible con Claude 3.5 Haiku.

Región Cuotas Longitud del contexto compatible
us-east5 (Ohio) Hasta 80 QPM, 350,000 TPM 200,000 tokens

Claude 3 Opus

En la siguiente tabla, se muestran las cuotas máximas y la longitud de contexto admitida para Claude 3 Opus.

Región Cuotas Longitud del contexto compatible
us-east5 (Ohio) Hasta 20 QPM, 105,000 TPM 200,000 tokens

Claude 3 Haiku

En la siguiente tabla, se muestran las cuotas máximas y la longitud del contexto compatible con Claude 3 Haiku.

Región Cuotas Longitud del contexto compatible
us-east5 (Ohio) Hasta 245 QPM, 600,000 TPM 200,000 tokens
asia-southeast1 (Singapore) Hasta 70 QPM, 174,000 TPM 200,000 tokens
europe-west1 (Belgium) Hasta 75 QPM, 181,000 TPM 200,000 tokens

Claude 3.5 Sonnet

En la siguiente tabla, se muestran las cuotas máximas y la longitud de contexto compatible para Claude 3.5 Sonnet.

Región Cuotas Longitud del contexto compatible
us-east5 (Ohio) Hasta 120 QPM, 555,000 TPM 200,000 tokens
asia-southeast1 (Singapore) Hasta 35 QPM, 150,000 TPM 200,000 tokens
europe-west1 (Belgium) Hasta 130 QPM, 600,000 TPM 200,000 tokens

Claude 3 Sonnet

En la siguiente tabla, se muestran las cuotas máximas y la longitud de contexto compatible para Claude 3 Sonnet.

Región Cuotas Longitud del contexto compatible
us-east5 (Ohio) Hasta 10 QPM, 30,000 TPM 200,000 tokens

Si quieres aumentar tus cuotas para IA generativa en Vertex AI, puedes usar la consola de Google Cloud para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta Trabaja con cuotas.