Modèles génératifs

Cette page liste les modèles Gemini, les modèles autodéployés et les modèles avec API gérées sur Vertex AI compatibles avec la génération augmentée par récupération.

Modèles Gemini

Le tableau suivant répertorie les modèles Gemini et leurs versions compatibles avec le moteur RAG Vertex AI:

Modèle Version
Gemini 2.0 Flash gemini-2.0-flash-001
Gemini 2.5 Pro Experimental (expérimental) gemini-2.5-pro-exp-03-25
Gemini 1.5 Flash gemini-1.5-flash-002
gemini-1.5-flash-001
Gemini 1.5 Pro gemini-1.5-pro-002
gemini-1.5-pro-001
Gemini 1.0 Pro gemini-1.0-pro-001
gemini-1.0-pro-002
Gemini 1.0 Pro Vision gemini-1.0-pro-vision-001
Gemini gemini-experimental

Modèles autodéployés

Le moteur RAG Vertex AI est compatible avec tous les modèles de Model Garden.

Utilisez le moteur RAG Vertex AI avec vos points de terminaison de modèle ouvert auto-déployés.

Remplacez les variables utilisées dans l'exemple de code:

  • PROJECT_ID: ID de votre projet.
  • LOCATION: région dans laquelle traiter votre requête.
  • ENDPOINT_ID: ID de votre point de terminaison.

      # Create a model instance with your self-deployed open model endpoint
      rag_model = GenerativeModel(
          "projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID",
          tools=[rag_retrieval_tool]
      )
    

Modèles avec API gérées sur Vertex AI

Les modèles avec API gérées sur Vertex AI compatibles avec le moteur RAG Vertex AI incluent les suivants:

L'exemple de code suivant montre comment utiliser l'API Gemini GenerateContent pour créer une instance de modèle génératif. L'ID du modèle, /publisher/meta/models/llama-3.1-405B-instruct-maas, se trouve dans la fiche du modèle.

Remplacez les variables utilisées dans l'exemple de code:

  • PROJECT_ID: ID de votre projet.
  • LOCATION: région dans laquelle traiter votre requête.
  • RAG_RETRIEVAL_TOOL: votre outil de récupération RAG.

      # Create a model instance with Llama 3.1 MaaS endpoint
      rag_model = GenerativeModel(
          "projects/PROJECT_ID/locations/LOCATION/publisher/meta/models/llama-3.1-405B-instruct-maas",
          tools=RAG_RETRIEVAL_TOOL
      )
    

L'exemple de code suivant montre comment utiliser l'API ChatCompletions compatible avec OpenAI pour générer une réponse de modèle.

Remplacez les variables utilisées dans l'exemple de code:

  • PROJECT_ID: ID de votre projet.
  • LOCATION: région dans laquelle traiter votre requête.
  • MODEL_ID: modèle LLM pour la génération de contenu. Exemple : meta/llama-3.1-405b-instruct-maas.
  • INPUT_PROMPT: texte envoyé au LLM pour la génération de contenu. Utilisez une requête pertinente pour les documents dans la recherche Vertex AI.
  • RAG_CORPUS_ID: ID de la ressource du corpus RAG.
  • ROLE: votre rôle.
  • USER: votre nom d'utilisateur.
  • CONTENT: votre contenu.

      # Generate a response with Llama 3.1 MaaS endpoint
      response = client.chat.completions.create(
          model="MODEL_ID",
          messages=[{"ROLE": "USER", "content": "CONTENT"}],
          extra_body={
              "extra_body": {
                  "google": {
                      "vertex_rag_store": {
                          "rag_resources": {
                              "rag_corpus": "RAG_CORPUS_ID"
                          },
                          "similarity_top_k": 10
                      }
                  }
              }
          },
      )
    

Étape suivante