Glossário de IA generativa
Este glossário define os termos de inteligência artificial (IA) generativa.
Agentes de IA
Um agente de IA é um aplicativo que alcança uma meta processando entradas, realizando raciocínio com as ferramentas disponíveis e realizando ações com base nas decisões. Os agentes de IA usam chamadas de função para formatar a entrada e garantir interações precisas com ferramentas externas. O diagrama a seguir mostra os componentes de um agente de IA:
Conforme mostrado no diagrama anterior, os agentes de IA consistem nos seguintes componentes:
- Orquestração: a camada de orquestração de um agente gerencia a memória,
o estado e a tomada de decisões controlando o plano, o uso da ferramenta e o fluxo
de dados. A orquestração inclui os seguintes componentes:
- Perfil e instruções: o agente assume um papel ou persona específico para direcionar as ações e a tomada de decisões.
- Memória: para manter o contexto e o estado, o agente retém a memória de curto e longo prazo. A memória de curto prazo armazena o contexto imediato e as informações necessárias para a tarefa atual. A memória de longo prazo mantém o histórico completo da conversa.
- Raciocínio e planejamento: o agente usa o modelo para realizar a decomposição e a reflexão de tarefas e, em seguida, cria um plano. Primeiro, o agente separa a solicitação do usuário em subcomponentes para processar tarefas complexas chamando uma ou mais funções. Em seguida, o agente reflete nas saídas da função usando raciocínio e feedback para melhorar a resposta.
- Modelo: qualquer modelo de linguagem generativa que processa metas, cria planos e gera respostas. Para um desempenho ideal, um modelo precisa oferecer suporte a chamadas de função e ser treinado com assinaturas de dados de ferramentas ou etapas de raciocínio.
- Ferramentas: uma coleção de ferramentas, incluindo APIs, serviços ou funções, que buscam dados e realizam ações ou transações. As ferramentas permitem que os agentes interajam com dados e serviços externos.
Para aplicativos que exigem tomada de decisão autônoma, gerenciamento de fluxo de trabalho complexo em várias etapas ou experiências adaptativas, os agentes de IA têm melhor desempenho do que modelos básicos padrão. Os agentes são excelentes para resolver problemas em tempo real usando dados externos e automatizando tarefas que exigem conhecimento. Esses recursos permitem que um agente forneça resultados mais robustos do que os recursos de geração de texto passivos dos modelos de base.
Para mais informações sobre agentes de IA, consulte O que é um agente de IA.
janela de contexto
Uma janela de contexto é o número de tokens que um modelo de base pode processar em uma determinada instrução. Uma janela de contexto maior permite que o modelo acesse e processe mais informações, o que leva a respostas mais coerentes, relevantes e comprehensivas.
Os modelos Gemini foram criados especificamente com janelas de contexto longas para lidar com essas quantidades maiores de informações. Para ter uma ideia de escala, um modelo com uma janela de contexto de 1 milhão de tokens pode processar qualquer uma das seguintes entradas:
- 50.000 linhas de código (com o padrão de 80 caracteres por linha)
- Todas as mensagens de texto que você enviou nos últimos cinco anos
- 8 romances ingleses de tamanho médio
- Transcrição de mais de 200 episódios de podcast de duração média
- 1 hora de vídeo sem áudio
- Aproximadamente 45 minutos de vídeo com áudio
- 9,5 horas de áudio
Para mais informações sobre as práticas recomendadas para comandos de contexto longo, consulte Contexto longo.
embedding
Um embedding é uma representação numérica de dados, como texto, imagens ou vídeos, que captura as relações entre diferentes entradas. Os embeddings são gerados durante a fase de treinamento de um modelo convertendo texto, imagem e vídeo em matrizes de números de ponto flutuante, chamados de vetores. As incorporações geralmente reduzem a dimensionalidade dos dados, o que ajuda a melhorar a eficiência computacional e a permitir o processamento de grandes conjuntos de dados. Essa redução na dimensionalidade é crucial para treinar e implantar modelos complexos.
Os modelos de machine learning (ML) exigem que os dados sejam expressos em um formato que eles possam processar. Os embeddings atendem a esse requisito mapeando dados em um espaço de vetores contínuo em que a proximidade mais próxima reflete pontos de dados com significados semelhantes. As inclusões permitem que os modelos discernam padrões e relações sutis que seriam obscurecidos nos dados brutos.
Por exemplo, modelos de linguagem grandes (LLMs) dependem de embeddings para entender o contexto e o significado do texto. Esse entendimento permite que o LLM gere respostas coerentes e relevantes. Na geração de imagens, os embeddings capturam os recursos visuais das imagens, o que permite que os modelos criem resultados realistas e diversos.
Os sistemas que usam geração aumentada de recuperação (RAG) dependem de embeddings para corresponder as consultas do usuário com o conhecimento relevante. Quando uma consulta é feita, ela é convertida em uma embedding, que é comparada às embeddings dos documentos na base de conhecimento. Essa comparação, que é facilitada por pesquisas de similaridade no espaço vetorial, permite que o sistema extraia as informações mais semanticamente relevantes.
Para mais informações sobre modelos de embedding e casos de uso, consulte Visão geral das APIs de embedding.
modelo de fundação
Os modelos de fundação são grandes e poderosos, treinados com grandes quantidades de dados, que geralmente abrangem várias modalidades, como texto, imagens, vídeo e áudio. Esses modelos usam a modelagem estatística para prever as respostas mais prováveis a comandos e gerar novos conteúdos. Eles aprendem padrões com base nos dados de treinamento, como padrões de linguagem para geração de texto e técnicas de difusão para geração de imagens.
O Google oferece vários modelos de fundação de IA generativa que podem ser acessados por uma API gerenciada. Para acessar os modelos de base disponíveis em Google Cloud, use o Model Garden da Vertex AI.
chamada de função
A chamada de função é um recurso que conecta modelos de linguagem grandes (LLMs) a ferramentas externas, como APIs e funções, para melhorar as respostas do LLM. Esse recurso permite que os LLMs vão além do conhecimento estático e melhorem as respostas com informações e serviços em tempo real, como bancos de dados, sistemas de gestão de relacionamento com o cliente e repositórios de documentos.
Para usar a chamada de função, forneça um conjunto de funções ao modelo. Em seguida, quando você chama o modelo, ele pode selecionar e chamar as funções com base na sua solicitação. O modelo analisa o comando e gera dados estruturados que especificam qual função chamar e os valores de parâmetro. A saída de dados estruturados chama a função e, em seguida, retorna os resultados para o modelo. O modelo incorpora os resultados ao raciocínio para gerar uma resposta. Esse processo permite que o modelo acesse e use informações além do conhecimento interno, o que permite que ele realize tarefas que exigem dados ou processamento externos.
A chamada de função é um componente essencial na arquitetura de agentes de IA. A chamada de função oferece uma maneira estruturada para o modelo especificar qual ferramenta usar e como formatar a entrada, o que ajuda a garantir interações precisas com sistemas externos.
Para mais informações sobre a chamada de função no Gemini, consulte Introdução à chamada de função.
IA generativa
A IA generativa é um tipo de IA que vai além do foco tradicional da IA em classificação e previsão. Os modelos tradicionais de IA aprendem com dados atuais para classificar informações ou prever resultados futuros com base em padrões históricos. A IA generativa usa modelos básicos para gerar novos conteúdos, como texto, imagens, áudio ou vídeos. Esse novo conteúdo é gerado aprendendo os padrões e o estilo subjacentes dos dados de treinamento, o que permite que o modelo crie saídas semelhantes aos dados em que foi treinado.
Saiba mais sobre quando usar a IA generativa e casos de uso de negócios de IA generativa.
Embasamento
O embasamento é o processo de conectar a saída de um modelo a fontes verificáveis de informações. Essas fontes podem fornecer informações práticas e específicas do contexto, como documentação interna da empresa, dados específicos do projeto ou registros de comunicação. O estaque ajuda a melhorar a precisão, a confiabilidade e a utilidade das saídas de IA, fornecendo ao modelo acesso a fontes de dados específicas. O embasamento reduz a probabilidade de alucinações, casos em que o modelo gera conteúdo que não é factual. Um tipo comum de embasamento é a geração aumentada de recuperação (RAG), que envolve a recuperação de informações externas relevantes para melhorar as respostas do modelo.
Para mais informações sobre o embasamento com a Pesquisa Google, consulte Visão geral do embasamento.
modelo de linguagem grande (LLM)
Um modelo de linguagem grande (LLM) é um modelo básico orientado por texto que é treinado com uma grande quantidade de dados. Os LLMs são usados para realizar tarefas de processamento de linguagem natural (PLN), como geração de texto, tradução automática, resumo de texto e respostas a perguntas. O termo LLM às vezes é usado de forma intercambiável com modelos de fundação. No entanto, os LLMs são baseados em texto, enquanto os modelos de fundação podem ser treinados com e receber entradas de várias modalidades, incluindo texto, imagens, áudio e vídeo.
Para aprender os padrões e as relações na linguagem, os LLMs usam técnicas como aprendizado por reforço e ajuste fino de instruções. Ao criar solicitações, é importante considerar os vários fatores que podem influenciar as respostas do modelo.
latência
A latência é o tempo que um modelo leva para processar um comando de entrada e gerar uma resposta. Ao examinar a latência de um modelo, considere o seguinte:
- Tempo até o primeiro token (TTFT, na sigla em inglês): o tempo que o modelo leva para produzir o primeiro token da resposta depois de receber a solicitação. O TTFT é importante para aplicativos de streaming em que você quer feedback imediato.
- Tempo até o último token (TTLT): o tempo total que o modelo leva para processar o comando e gerar a resposta completa.
Para informações sobre como reduzir a latência, consulte Práticas recomendadas com modelos de linguagem grandes (LLMs).
engenharia de comando
A engenharia de comando é o processo iterativo de criar um comando e acessar a resposta do modelo para receber a resposta desejada. Escrever comandos bem estruturados pode ser essencial para garantir respostas precisas e de alta qualidade de um modelo de linguagem.
Confira a seguir algumas técnicas comuns que podem ser usadas para melhorar as respostas:
- Comandos zero-shot: forneça um comando sem exemplos e confie no conhecimento preexistente do modelo.
- Comando one-shot: forneça um único exemplo no comando para orientar a resposta do modelo.
- Comandos de poucos disparos (few-shot): forneça vários exemplos no comando para demonstrar o padrão ou a tarefa que você quer.
Ao fornecer exemplos a um modelo, você ajuda a controlar aspectos da resposta, como formatação, fraseologia, escopo e padrões gerais. As instruções few-shot eficazes combinam instruções claras com exemplos específicos e variados. É importante fazer experimentos para determinar o número ideal de exemplos. Exemplos insuficientes podem não fornecer orientação suficiente, mas muitos exemplos podem fazer com que o modelo se ajuste demais aos exemplos e não consiga se generalizar bem.
Para mais informações sobre as práticas recomendadas para comandos, consulte Visão geral das estratégias de comando.
comando
Um comando é um pedido em linguagem natural enviado a um modelo de IA generativa para elicitar uma resposta. Dependendo do modelo, um comando pode conter texto, imagens, vídeos, áudio, documentos e outras modalidades ou até mesmo várias modalidades (multimodal).
Um comando eficaz consiste em conteúdo e estrutura. O conteúdo fornece todas as informações relevantes da tarefa, como instruções, exemplos e contexto. A estrutura garante uma análise eficiente pela organização, incluindo ordenação, rotulagem e delimitadores. Dependendo da saída que você quer, considere outros componentes.
parâmetros do modelo
Os parâmetros do modelo são variáveis internas que um modelo usa para determinar como ele processa os dados de entrada e gera saídas. Durante o treinamento, é possível ajustar os parâmetros do modelo, como peso e viés, para otimizar a performance dele. Durante a inferência, é possível influenciar a saída do modelo com vários parâmetros de solicitação, que não mudam diretamente os parâmetros do modelo aprendedor.
Confira a seguir alguns dos parâmetros de solicitação que afetam a geração de conteúdo na API Gemini na Vertex AI:
temperature
: a temperatura muda a aleatoriedade da seleção de tokens durante a geração de respostas, o que influencia a criatividade e a previsibilidade da saída. O valor detemperature
varia de0
a1
. Temperaturas mais baixas (mais próximas de0
) produzem resultados mais determinísticos e previsíveis. Temperaturas mais altas (mais próximas de1
) geram textos mais diversos e criativos, mas os resultados são potencialmente menos coerentes.topP
: o Top-P muda a forma como o modelo amostra e seleciona tokens para saída. O Top-P seleciona o menor conjunto de tokens cuja probabilidade cumulativa excede um limite, oup
, e depois faz a amostragem dessa distribuição. O valor detopP
varia de0
a1
. Por exemplo, se os tokens A, B e C tiverem uma probabilidade de 0, 3, 0, 2 e 0, 1, e o valor detopP
for0.5
, o modelo vai selecionar A ou B como o próximo token usando a temperatura e excluir C como candidato.topK
: o Top-K muda a forma como o modelo amostra e seleciona tokens para saída. Top-K seleciona os tokens mais prováveis de gerar uma resposta. O valor detopK
representa um número de tokens de1
a40
, que o modelo vai escolher antes de gerar uma resposta. Por exemplo, se os tokens A, B, C e D tiverem uma probabilidade de 0, 6, 0, 5, 0, 2 e 0, 1 e o valor de top-K for3
, o modelo vai selecionar A, B ou C como o próximo token usando a temperatura e vai excluir D como candidato.maxOutputTokens
: a configuraçãomaxOutputTokens
muda o número máximo de tokens que podem ser gerados na resposta. Um valor mais baixo gera respostas mais curtas, e um valor mais alto gera respostas potencialmente mais longas.
Para mais informações sobre os parâmetros de amostragem na API Gemini na Vertex AI, consulte Parâmetros de geração de conteúdo.
Geração aumentada de recuperação (RAG)
A geração aumentada de recuperação (RAG) é uma técnica para melhorar a qualidade e a precisão da saída de um modelo de linguagem grande (LLM), baseando-a em fontes de conhecimento recuperadas após o treinamento do modelo. A RAG resolve as limitações do LLM, como imprecisões fáticas, falta de acesso a informações atuais ou especializadas e incapacidade de citar fontes. Ao fornecer acesso a informações extraídas de bases de conhecimento ou documentos confiáveis, incluindo dados em que o modelo não foi treinado, dados próprios ou dados sensíveis específicos do usuário, a RAG permite que os LLMs gerem respostas mais confiáveis e contextualmente relevantes.
Quando um modelo que usa o RAG recebe seu comando, o processo do RAG conclui estas etapas:
- Recuperar: pesquise dados relevantes para a solicitação.
- Aumentar: anexar os dados recuperados ao prompt.
- Generate:
- Instrua o LLM a criar um resumo ou uma resposta com base no comando aumentado.
- Envie a resposta de volta.
Para mais informações sobre a Vertex AI e a RAG, consulte Visão geral do mecanismo de RAG da Vertex AI.
tokens
Um token é uma unidade básica de dados que um modelo de base processa. Os modelos
separam os dados em um comando em tokens para processamento. O conjunto de todos os
tokens usados por um modelo é chamado de vocabulário. Os tokens podem ser caracteres
individuais, como z
, palavras inteiras, como cat
, ou partes de palavras mais longas.
Os tokenizers separam palavras longas, como termos técnicos ou complexos, palavras compostas ou palavras com pontuação e caracteres especiais, em vários tokens. O processo de dividir o texto em tokens é chamado de tokenização. O objetivo da tokenização é criar tokens com significado semântico que possam ser recombinados para entender a palavra original. Por exemplo, a palavra "predefinido" pode ser dividida nos seguintes tokens: "pre", "definir" e "ed".
Os tokens podem representar entradas multimodais, como imagens, vídeos e áudio. As técnicas de embedding transformam a entrada multimodal em representações numéricas que o modelo pode processar como tokens. Confira a seguir os cálculos de token aproximados para um exemplo de entrada multimodal, independentemente da tela ou do tamanho do arquivo:
- Imagens: 258 tokens no total
- Vídeo: 263 tokens por segundo
- Áudio: 32 tokens por segundo
Cada modelo tem um limite no número de tokens que pode processar em um comando e uma resposta. Além disso, os custos de uso do modelo são calculados com base no número de tokens de entrada e saída. Para saber como receber a contagem de tokens de uma solicitação enviada para um modelo do Gemini, consulte Listar e contar tokens. Para informações sobre o custo dos modelos de IA generativa na Vertex AI, consulte Preços da Vertex AI.
tuning
O ajuste é o processo de adaptação de um modelo de base para realizar tarefas específicas com maior precisão. O ajuste é alcançado ajustando alguns ou todos os parâmetros do modelo ou treinando um modelo em um conjunto de dados que contém exemplos que reproduzem as tarefas e os resultados desejados. O ajuste é um processo iterativo, que pode ser complexo e caro, mas tem o potencial de gerar melhorias significativas no desempenho. O ajuste é mais eficaz quando você tem um conjunto de dados marcado com mais de 100 exemplos e quer realizar tarefas complexas ou únicas em que as técnicas de solicitação não são suficientes.
Confira a seguir as técnicas de ajuste compatíveis com a Vertex AI:
- Ajuste completo: uma técnica que atualiza todos os parâmetros do modelo durante o processo de ajuste. O ajuste completo pode ser caro computacionalmente e exigir muitos dados, mas também tem o potencial de alcançar os níveis mais altos de desempenho, especialmente para tarefas complexas.
- Ajuste eficiente de parâmetros: uma técnica também conhecida como ajuste do adaptador. O ajuste eficiente de parâmetros atualiza alguns dos parâmetros do modelo durante o processo de ajuste. O ajuste com eficiência de parâmetros é mais econômico em termos de recursos e de custo em comparação com o ajuste fino completo.
- Ajuste de detalhes supervisionado: uma técnica que treina o modelo em pares de entrada e saída rotulados. O ajuste fino supervisionado é usado com frequência para tarefas que envolvem classificação, tradução e resumo.
Para mais informações sobre o ajuste, consulte Introdução ao ajuste.