Puedes transmitir tus respuestas de Claude para reducir la percepción de latencia del usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.
Pagas por los modelos de Claude a medida que los usas (pago por uso) o pagas una tarifa fija cuando usas la capacidad de procesamiento de aprovisionamiento. Para conocer los precios del pago por uso, consulta los modelos de Claude de Anthropic en la página de precios de Vertex AI.
Modelos de Claude disponibles
Los siguientes modelos están disponibles en Anthropic para usarse en Vertex AI. Para acceder a un modelo de Claude, ve a su tarjeta de modelo de Model Garden.
Claude 3.5 Sonnet v2
Claude 3.5 Sonnet v2 es un modelo de vanguardia para tareas de ingeniería de software del mundo real y capacidades de agentes. Claude 3.5 Sonnet v2 ofrece estos avances al mismo precio y velocidad que Claude 3.5 Sonnet.
El modelo actualizado de Claude 3.5 Sonnet puede interactuar con herramientas que pueden manipular un entorno de escritorio de computadora. Para obtener más información, consulta la documentación de Anthropic.
Claude 3.5 Sonnet está optimizado para los siguientes casos de uso:
- Tareas y uso de herramientas de agentes: Claude 3.5 Sonnet ofrece una ejecución superior de instrucciones, selección de herramientas, corrección de errores y razonamiento avanzado para flujos de trabajo de agentes que requieren el uso de herramientas.
- Codificación: Para las tareas de desarrollo de software, que van desde migraciones de código, correcciones y traducciones, Claude 3.5 Sonnet ofrece un rendimiento sólido en la planificación y resolución de tareas de programación complejas.
- Preguntas y respuestas sobre documentos: Claude 3.5 Sonnet combina una sólida comprensión del contexto, un razonamiento avanzado y una síntesis para brindar respuestas precisas y similares a las humanas.
- Extracción de datos visuales: Con las habilidades de visión líderes de Claude 3.5 Sonnet, este puede extraer datos sin procesar de elementos visuales, como gráficos o diagramas, como parte de los flujos de trabajo de IA.
- Generación y análisis de contenido: Claude 3.5 Sonnet puede comprender los matices y el tono del contenido, generar contenido más atractivo y analizarlo en un nivel más profundo.
Ir a la tarjeta de modelo de Claude 3.5 Sonnet v2
Claude 3.5 Haiku
Claude 3.5 Haiku, la nueva generación del modelo más rápido y recomendable de Anthropic, es ideal para casos de uso en los que la velocidad y la accesibilidad son importantes. Mejora a su predecesor en todos los conjuntos de habilidades. Claude 3.5 Haiku está optimizado para los siguientes casos de uso:
- Finalización de código: Con su tiempo de respuesta rápido y su comprensión de los patrones de programación, Claude 3.5 Haiku se destaca por proporcionar sugerencias y finalizaciones de código rápidas y precisas en flujos de trabajo de desarrollo en tiempo real.
- Bots de chat interactivos: El razonamiento mejorado y las capacidades de conversación natural de Claude 3.5 Haiku lo hacen ideal para crear chatbots responsivos y atractivos que puedan manejar grandes volúmenes de interacciones de los usuarios de manera eficiente.
- Extracción y etiquetado de datos: Aprovechando sus habilidades de análisis mejoradas, Claude 3.5 Haiku procesa y clasifica los datos de manera eficiente, lo que lo hace útil para la extracción rápida de datos y las tareas de etiquetado automatizado.
- Moderación de contenido en tiempo real: Con habilidades de razonamiento sólidas y comprensión del contenido, Claude 3.5 Haiku proporciona una moderación de contenido rápida y confiable para las plataformas que requieren tiempos de respuesta inmediatos a gran escala.
Ir a la tarjeta de modelo de Claude 3.5 Haiku
Claude 3 Opus
Claude 3 Opus de Anthropic es un modelo de IA potente con un rendimiento de primer nivel en tareas muy complejas. Puede navegar por instrucciones abiertas y situaciones nunca vistas con una fluidez notable y una comprensión similar a la humana. Claude 3 Opus está optimizado para los siguientes casos de uso:
Automatización de tareas, como programación y planificación interactivas, o la ejecución de acciones complejas en APIs y bases de datos
Tareas de investigación y desarrollo, como revisión de la investigación, intercambio de ideas y generación de hipótesis, y pruebas de productos.
Tareas de estrategia, como el análisis avanzado de gráficos, las tendencias financieras y del mercado, y las previsiones.
Tareas de visión, como el procesamiento de imágenes para mostrar resultados de texto También, el análisis de gráficos, diagramas técnicos, informes y otro contenido visual.
Ir a la tarjeta de modelo de Claude 3 Opus
Claude 3 Haiku
Claude 3 Haiku de Anthropic es el modelo de visión y texto más rápido de Anthropic para respuestas casi instantáneas a consultas básicas, diseñado para experiencias de IA fluidas que imitan las interacciones humanas.
Interacciones y traducciones con los clientes en vivo
Moderación de contenido para detectar comportamientos sospechosos o solicitudes de los clientes
Tareas que ahorran costos, como la administración de inventarios y la extracción de conocimiento de datos no estructurados
Tareas de visión, como el procesamiento de imágenes para mostrar resultados de texto, el análisis de gráficos, diagramas técnicos, informes y otro contenido visual
Ir a la tarjeta del modelo de Claude 3 Haiku
Claude 3.5 Sonnet
Claude 3.5 Sonnet de Anthropic supera el rendimiento de Claude 3 Opus en una amplia variedad de evaluaciones de Anthropic, con la velocidad y el costo de Claude 3 Sonnet de nivel intermedio de Anthropic. Claude 3.5 Sonnet está optimizado para los siguientes casos de uso:
Programación, como escribir, editar y ejecutar código con capacidades de razonamiento y solución de problemas sofisticadas
Comprende el contexto del usuario y orquesta flujos de trabajo de varios pasos para controlar las consultas complejas de la asistencia al cliente.
Ciencia de datos y análisis a través de la navegación de datos no estructurados y el uso de varias herramientas para generar estadísticas
Procesamiento visual, como interpretar gráficos y diagramas que requieren comprensión visual
Escribir contenido con un tono más natural y humano
Ir a la tarjeta de modelo de Claude 3.5 Sonnet
Claude 3 Sonnet
Claude 3 Sonnet de Anthropic es la combinación confiable de habilidades y velocidad de Anthropic. Está diseñado para ser confiable en implementaciones de IA a escala en una variedad de casos de uso. Claude 3 Sonnet está optimizado para los siguientes casos de uso:
Procesamiento de datos, incluida la generación mejorada por recuperación (RAG) y la recuperación de búsqueda
Tareas de ventas, como recomendaciones de productos, previsiones y marketing segmentado.
Tareas que ahorran tiempo, como la generación de código, el control de calidad y el reconocimiento óptico de caracteres (OCR) en imágenes.
Tareas de visión, como el procesamiento de imágenes para mostrar resultados de texto También, el análisis de gráficos, diagramas técnicos, informes y otro contenido visual.
Ir a la tarjeta del modelo de Claude 3 Sonnet
Usa modelos Claude
Puedes usar el SDK de Anthropic o los comandos curl para enviar solicitudes al extremo de Vertex AI con los siguientes nombres de modelos:
- Para Claude 3.5 Sonnet v2, usa
claude-3-5-sonnet-v2@20241022
. - Para Claude 3.5 Haiku, usa
claude-3-5-haiku@20241022
. - Para Claude 3 Opus, usa
claude-3-opus@20240229
. - Para Claude 3.5 Sonnet, usa
claude-3-5-sonnet@20240620
. - Para Claude 3 Haiku, usa
claude-3-haiku@20240307
. - Para Claude 3 Sonnet, usa
claude-3-sonnet@20240229
.
Las versiones del modelo Claude de Anthropic deben usarse con un sufijo que comience con un símbolo @
(como claude-3-5-sonnet-v2@20241022
o claude-3-5-haiku@20241022
) para garantizar un comportamiento coherente.
Antes de comenzar
Para usar los modelos de Claude de Anthropic con Vertex AI, debes realizar los siguientes pasos. La API de Vertex AI (aiplatform.googleapis.com
) debe estar habilitada para usar Vertex AI. Si ya tienes un proyecto existente con la API de Vertex AI habilitada, puedes usar ese proyecto en lugar de crear uno nuevo.
Asegúrate de tener los permisos necesarios para habilitar y usar modelos de socios. Para obtener más información, consulta Otorga los permisos necesarios.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Ve a una de las siguientes tarjetas de modelo de Model Garden y, luego, haz clic en habilitar:
Usa el SDK de Anthropic
Puedes realizar solicitudes de API a los modelos de Claude de Anthropic con el SDK de Anthropic Claude. Para obtener más información, consulta lo siguiente:
- Referencia de la API de mensajes de Claude
- Biblioteca de la API de Python de Anthropic
- Biblioteca de la API de TypeScript de Vertex AI de Anthropic
Realiza una llamada de transmisión a un modelo de Claude con el SDK de Vertex de Anthropic
En la siguiente muestra de código, se usa el SDK de Vertex de Anthropic para realizar una llamada de transmisión a un modelo de Claude.
Python
Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Si deseas obtener más información, consulta la documentación de referencia de la API de Python.
Realiza una llamada unaria a un modelo de Claude con el SDK de Vertex de Anthropic
En la siguiente muestra de código, se usa el SDK de Vertex de Anthropic para realizar una llamada unaria a un modelo de Claude.
Python
Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Si deseas obtener más información, consulta la documentación de referencia de la API de Python.
Usa un comando curl
Puedes usar un comando curl para realizar una solicitud al extremo de Vertex AI. El comando curl especifica qué modelo de Claude compatible deseas usar.
Las versiones del modelo Claude de Anthropic deben usarse con un sufijo que comience con un símbolo @
(como claude-3-5-sonnet-v2@20241022
o claude-3-5-haiku@20241022
) para garantizar un comportamiento coherente.
En el siguiente tema, se muestra cómo crear un comando curl y se incluye un comando curl de muestra.
REST
Para probar un mensaje de texto con la API de Vertex AI, envía una solicitud POST al extremo del modelo de publicador.
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- LOCATION: Es una región que admite modelos de Claude Anthropic.
- MODEL: El nombre del modelo que deseas usar.
- ROLE: El rol asociado a un mensaje. Puedes especificar un
user
o unassistant
. El primer mensaje debe usar el roluser
. Los modelos de Claude funcionan con girosuser
yassistant
alternados. Si el mensaje final usa el rolassistant
, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo. - STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del usuario final. Configúralo como
true
para transmitir la respuesta yfalse
para mostrarla de una sola vez. - CONTENT: Es el contenido, como el texto, del mensaje
user
oassistant
. - MAX_OUTPUT_TOKENS:
Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.
Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.
- TOP_P (opcional):
Top-P cambia la manera en la que el modelo selecciona tokens para el resultado. Los tokens se seleccionan desde el más alto (consulta K superior) hasta el menos probable, hasta que la suma de sus probabilidades sea igual al valor de P superior. Por ejemplo, si los tokens A, B y C tienen una probabilidad de 0.3, 0.2 y 0.1, y el valor P superior es
0.5
, el modelo elegirá A o B como el siguiente token mediante la temperatura y excluirá a C como candidato.Especifica un valor más bajo para respuestas menos aleatorias y un valor más alto para respuestas más aleatorias.
- TOP_K(Opcional):
El parámetro Top-K cambia la manera en la que el modelo selecciona los tokens para el resultado. K superior a
1
significa que el siguiente token seleccionado es el más probable entre todos los tokens en el vocabulario del modelo (también llamado decodificación voraz), mientras que el K superior a3
significa que el siguiente token se selecciona de los tres tokens más probables mediante la temperatura.Para cada paso de selección de tokens, se muestran los tokens de K superior con las probabilidades más altas. Luego, los tokens se filtran según el superior con el token final seleccionado mediante el muestreo de temperatura.
Especifica un valor más bajo para respuestas menos aleatorias y un valor más alto para respuestas más aleatorias.
HTTP method and URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict
Cuerpo JSON de la solicitud:
{ "anthropic_version": "vertex-2023-10-16", "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": STREAM }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
Ejemplo del comando curl
MODEL_ID="MODEL"
LOCATION="us-central1"
PROJECT_ID="PROJECT_ID"
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:streamRawPredict -d \
'{
"anthropic_version": "vertex-2023-10-16",
"messages": [{
"role": "user",
"content": "Hello!"
}],
"max_tokens": 50,
"stream": true}'
Uso de herramientas (llamadas a función)
Los modelos Claude de Anthropic admiten herramientas y llamadas a función para mejorar las capacidades de un modelo. Para obtener más información, consulta la descripción general del uso de herramientas en la documentación de Anthropic.
En los siguientes ejemplos, se muestra cómo usar herramientas con el SDK de Anthropic o el comando curl. En los ejemplos, se buscan restaurantes cercanos en San Francisco que estén abiertos.
Python
Si deseas obtener información para instalar o actualizar el SDK de Vertex AI para Python, consulta Instala el SDK de Vertex AI para Python. Si deseas obtener más información, consulta la documentación de referencia de la API de Python.
REST
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- LOCATION: Es una región que admite modelos de Claude Anthropic.
- MODEL: Es el nombre del modelo que se usará.
- ROLE: El rol asociado a un mensaje. Puedes especificar un
user
o unassistant
. El primer mensaje debe usar el roluser
. Los modelos de Claude funcionan con girosuser
yassistant
alternados. Si el mensaje final usa el rolassistant
, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo. - STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del usuario final. Configúralo como
true
para transmitir la respuesta yfalse
para devolverla de una sola vez. - CONTENT: Es el contenido, como el texto, del mensaje
user
oassistant
. - MAX_OUTPUT_TOKENS:
Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.
Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.
Método HTTP y URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict
Cuerpo JSON de la solicitud:
{ "anthropic_version": "vertex-2023-10-16", "max_tokens": MAX_TOKENS, "stream": STREAM, "tools": [ { "name": "text_search_places_api", "description": "Returns information about a set of places based on a string", "input_schema": { "type": "object", "properties": { "textQuery": { "type": "string", "description": "The text string on which to search" }, "priceLevels": { "type": "array", "description": "Price levels to query places, value can be one of [PRICE_LEVEL_INEXPENSIVE, PRICE_LEVEL_MODERATE, PRICE_LEVEL_EXPENSIVE, PRICE_LEVEL_VERY_EXPENSIVE]", }, "openNow": { "type": "boolean", "description": "Describes whether a place is open for business at the time of the query." }, }, "required": ["textQuery"] } } ], "messages": [ { "role": "user", "content": "What are some affordable and good Italian restaurants that are open now in San Francisco??" } ] }
Para enviar tu solicitud, elige una de estas opciones:
curl
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict"
PowerShell
Guarda el cuerpo de la solicitud en un archivo llamado request.json
y ejecuta el siguiente comando:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/anthropic/models/MODEL:rawPredict" | Select-Object -Expand Content
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
Usa Vertex AI Studio
En el caso de algunos modelos Claude de Anthropic, puedes usar Vertex AI Studio para crear prototipos y probar modelos de IA generativa con rapidez en la consola de Google Cloud. Por ejemplo, puedes usar Vertex AI Studio para comparar las respuestas del modelo Claude con otros modelos compatibles, como Gemini de Google.
Para obtener más información, consulta Guía de inicio rápido: Envía instrucciones de texto a Gemini con Vertex AI Studio.
Disponibilidad de regiones de Claude de Anthropic
Claude 3.5 Sonnet v2 está disponible en las siguientes regiones:
us-east5 (Ohio)
europe-west1 (Belgium)
us-east5 (Ohio)
us-east5 (Ohio)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
asia-southeast1 (Singapore)
europe-west1 (Belgium)
us-east5 (Ohio)
Cuotas de Claude de Anthropic y longitud del contexto compatible
En el caso de los modelos de Claude, se aplica una cuota para cada región en la que el modelo está disponible. La cuota se especifica en consultas por minuto (QPM) y tokens por minuto (TPM). TPM incluye tokens de entrada y salida.
Para mantener el rendimiento general del servicio y el uso aceptable, las cuotas máximas pueden variar según la cuenta y, en algunos casos, el acceso puede restringirse. Consulta las cuotas de tu proyecto en la página Cuotas y límites del sistema en la consola de Google Cloud. También debes tener disponibles las siguientes cuotas:
Online prediction requests per base model per minute per region per base_model
Online prediction tokens per minute per base model per minute per region per base_model
Claude 3.5 Sonnet v2
En la siguiente tabla, se muestran las cuotas máximas y la longitud de contexto compatible para Claude 3.5 Sonnet v2.
Región | Cuotas | Longitud del contexto compatible |
---|---|---|
us-east5 (Ohio) |
Hasta 90 QPM, 540,000 TPM | 200,000 tokens |
europe-west1 (Belgium) |
Hasta 55 QPM, 330,000 TPM | 200,000 tokens |
Claude 3.5 Haiku
En la siguiente tabla, se muestran las cuotas máximas y la longitud del contexto compatible con Claude 3.5 Haiku.
Región | Cuotas | Longitud del contexto compatible |
---|---|---|
us-east5 (Ohio) |
Hasta 80 QPM, 350,000 TPM | 200,000 tokens |
Claude 3 Opus
En la siguiente tabla, se muestran las cuotas máximas y la longitud de contexto admitida para Claude 3 Opus.
Región | Cuotas | Longitud del contexto compatible |
---|---|---|
us-east5 (Ohio) |
Hasta 20 QPM, 105,000 TPM | 200,000 tokens |
Claude 3 Haiku
En la siguiente tabla, se muestran las cuotas máximas y la longitud del contexto compatible con Claude 3 Haiku.
Región | Cuotas | Longitud del contexto compatible |
---|---|---|
us-east5 (Ohio) |
Hasta 245 QPM, 600,000 TPM | 200,000 tokens |
asia-southeast1 (Singapore) |
Hasta 70 QPM, 174,000 TPM | 200,000 tokens |
europe-west1 (Belgium) |
Hasta 75 QPM, 181,000 TPM | 200,000 tokens |
Claude 3.5 Sonnet
En la siguiente tabla, se muestran las cuotas máximas y la longitud de contexto compatible para Claude 3.5 Sonnet.
Región | Cuotas | Longitud del contexto compatible |
---|---|---|
us-east5 (Ohio) |
Hasta 120 QPM, 555,000 TPM | 200,000 tokens |
asia-southeast1 (Singapore) |
Hasta 35 QPM, 150,000 TPM | 200,000 tokens |
europe-west1 (Belgium) |
Hasta 130 QPM, 600,000 TPM | 200,000 tokens |
Claude 3 Sonnet
En la siguiente tabla, se muestran las cuotas máximas y la longitud de contexto compatible para Claude 3 Sonnet.
Región | Cuotas | Longitud del contexto compatible |
---|---|---|
us-east5 (Ohio) |
Hasta 10 QPM, 30,000 TPM | 200,000 tokens |
Si quieres aumentar tus cuotas para IA generativa en Vertex AI, puedes usar la consola de Google Cloud para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta Trabaja con cuotas.