Para criar um repositório de dados e ingerir dados para recomendações personalizadas, acesse a seção da fonte que você planeja usar:
BigQuery
É possível criar repositórios de dados com base em tabelas do BigQuery de duas maneiras:
Ingestão única: você importa dados de uma tabela do BigQuery para um repositório de dados. Os dados no repositório de dados não mudam, a menos que você atualize manualmente.
Ingestão periódica: você importa dados de uma ou mais tabelas do BigQuery e define uma frequência de sincronização que determina a frequência com que os armazenamentos de dados são atualizados com os dados mais recentes do conjunto de dados do BigQuery.
A tabela a seguir compara as duas maneiras de importar dados do BigQuery para repositórios de dados da Pesquisa da Vertex AI.
Ingestão única | Ingestão periódica |
---|---|
Disponibilidade geral (GA). | Pré-lançamento público. |
Os dados precisam ser atualizados manualmente. | Os dados são atualizados automaticamente a cada 1, 3 ou 5 dias. Não é possível atualizar os dados manualmente. |
A Pesquisa da Vertex AI cria um único repositório de dados com base em uma tabela do BigQuery. | A Vertex AI Search cria um conector de dados para um conjunto de dados do BigQuery e um repositório de dados (chamado de repositório de dados de entidade) para cada tabela especificada. Para cada conector de dados, as tabelas precisam ter o mesmo tipo de dados (por exemplo, estruturados) e estar no mesmo conjunto de dados do BigQuery. |
Os dados de várias tabelas podem ser combinados em um repositório de dados. Primeiro, ingira os dados de uma tabela e depois mais dados de outra fonte ou tabela do BigQuery. | Como a importação manual de dados não é compatível, os dados em um repositório de dados de entidade só podem ser originados de uma tabela do BigQuery. |
O controle de acesso à fonte de dados é compatível. | O controle de acesso à fonte de dados não é compatível. Os dados importados podem conter controles de acesso, mas eles não serão respeitados. |
É possível criar um repositório de dados usando o consoleGoogle Cloud ou a API. | Você precisa usar o console para criar conectores de dados e os armazenamentos de dados de entidades deles. |
Compatível com CMEK. | Compatível com CMEK. |
Importar uma vez do BigQuery
Para ingerir dados de uma tabela do BigQuery, siga estas etapas para criar um repositório de dados e ingerir dados usando o console Google Cloud ou a API.
Antes de importar seus dados, consulte Preparar dados para ingestão.
Console
Para usar o console Google Cloud e ingerir dados do BigQuery, siga estas etapas:
No console Google Cloud , acesse a página Aplicativos de IA.
Acesse a página Repositórios de dados.
Clique em
Criar repositório de dados.Na página Origem, selecione BigQuery.
Selecione o tipo de dados que você vai importar na seção Que tipo de dados você está importando?.
Selecione Uma vez na seção Frequência de sincronização.
No campo Caminho do BigQuery, clique em Procurar, selecione uma tabela que você preparou para ingestão e clique em Selecionar. Se preferir, insira o local da tabela diretamente no campo Caminho do BigQuery.
Clique em Continuar.
Se você estiver fazendo uma importação única de dados estruturados:
Mapeie campos para propriedades principais.
Se houver campos importantes faltando no esquema, use Adicionar novo campo para incluir.
Para mais informações, consulte Sobre a detecção e edição automáticas.
Clique em Continuar.
Escolha uma região para o repositório de dados.
Insira um nome para o repositório de dados.
Clique em Criar.
Para verificar o status da ingestão, acesse a página Repositórios de dados e clique no nome do repositório de dados para conferir os detalhes na página Dados. Quando a coluna de status na guia Atividade mudar de Em andamento para Importação concluída, a ingestão será concluída.
Dependendo do tamanho dos dados, a ingestão pode levar de vários minutos a várias horas.
REST
Para usar a linha de comando e criar um repositório de dados e importar dados do BigQuery, siga estas etapas.
Crie um repositório de dados.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Substitua:
PROJECT_ID
: o ID do seu Google Cloud projeto.DATA_STORE_ID
: o ID do repositório de dados da Vertex AI para Pesquisa que você quer criar. Esse ID só pode conter letras minúsculas, dígitos, sublinhados e hífens.DATA_STORE_DISPLAY_NAME
: o nome de exibição do repositório de dados da Vertex AI para Pesquisa que você quer criar.
Importe dados do BigQuery.
Se você definiu um esquema, verifique se os dados estão em conformidade com ele.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Substitua:
PROJECT_ID
: o ID do seu Google Cloud projeto.DATA_STORE_ID
: o ID do repositório de dados da Vertex AI para Pesquisa.DATASET_ID
: o ID do conjunto de dados do BigQuery.TABLE_ID
: o ID da tabela do BigQuery.- Se a tabela do BigQuery não estiver em PROJECT_ID, conceda à conta de serviço
service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
a permissão "Leitor de dados do BigQuery" para a tabela do BigQuery. Por exemplo, se você estiver importando uma tabela do BigQuery do projeto de origem "123" para o projeto de destino "456", conceda permissõesservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
para a tabela do BigQuery no projeto "123".
- Se a tabela do BigQuery não estiver em PROJECT_ID, conceda à conta de serviço
DATA_SCHEMA
: opcional. Os valores sãodocument
ecustom
. O padrão édocument
.document
: a tabela do BigQuery usada precisa estar de acordo com o esquema padrão do BigQuery fornecido em Preparar dados para ingestão. Você pode definir o ID de cada documento e incluir todos os dados na string jsonData.custom
: qualquer esquema de tabela do BigQuery é aceito, e a Vertex AI Search gera automaticamente os IDs de cada documento importado.
ERROR_DIRECTORY
: opcional. Um diretório do Cloud Storage para informações de erro sobre a importação, por exemplo,gs://<your-gcs-bucket>/directory/import_errors
. O Google recomenda deixar esse campo em branco para permitir que a Vertex AI para Pesquisa crie automaticamente um diretório temporário.RECONCILIATION_MODE
: opcional. Os valores sãoFULL
eINCREMENTAL
. O padrão éINCREMENTAL
. EspecificarINCREMENTAL
causa uma atualização incremental de dados do BigQuery para seu repositório de dados. Isso faz uma operação de upsert, que adiciona novos documentos e substitui os documentos existentes por documentos atualizados com o mesmo ID. EspecificarFULL
causa uma rebase completa dos documentos no repositório de dados. Em outras palavras, documentos novos e atualizados são adicionados ao repositório de dados, e os documentos que não estão no BigQuery são removidos dele. O modoFULL
é útil se você quiser excluir automaticamente documentos que não precisa mais.AUTO_GENERATE_IDS
: opcional. Especifica se os IDs de documentos serão gerados automaticamente. Se definido comotrue
, os IDs de documento serão gerados com base em um hash do payload. Os IDs de documentos gerados podem não permanecer consistentes em várias importações. Se você gerar IDs automaticamente em várias importações, o Google recomenda definirreconciliationMode
comoFULL
para manter IDs de documento consistentes.Especifique
autoGenerateIds
somente quandobigquerySource.dataSchema
estiver definido comocustom
. Caso contrário, um erroINVALID_ARGUMENT
será retornado. Se você não especificarautoGenerateIds
ou definir comofalse
, precisará especificaridField
. Caso contrário, a importação dos documentos vai falhar.ID_FIELD
: opcional. Especifica quais campos são os IDs de documento. Para arquivos de origem do BigQuery,idField
indica o nome da coluna na tabela do BigQuery que contém os IDs dos documentos.Especifique
idField
somente quando: (1)bigquerySource.dataSchema
estiver definido comocustom
e (2)auto_generate_ids
estiver definido comofalse
ou não especificado. Caso contrário, um erroINVALID_ARGUMENT
será retornado.O valor do nome da coluna do BigQuery precisa ser do tipo string, ter entre 1 e 63 caracteres e estar de acordo com a RFC-1034. Caso contrário, a importação dos documentos vai falhar.
C#
Para mais informações, consulte a documentação de referência da API C# de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Criar um repositório de dados
Importar documentos
Go
Para mais informações, consulte a documentação de referência da API Go de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Criar um repositório de dados
Importar documentos
Java
Para mais informações, consulte a documentação de referência da API Java de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Criar um repositório de dados
Importar documentos
Node.js
Para mais informações, consulte a documentação de referência da API Node.js de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Criar um repositório de dados
Importar documentos
Python
Para mais informações, consulte a documentação de referência da API Python de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Criar um repositório de dados
Importar documentos
Ruby
Para mais informações, consulte a documentação de referência da API Ruby de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Criar um repositório de dados
Importar documentos
Conectar-se ao BigQuery com sincronização periódica
Antes de importar seus dados, consulte Preparar dados para ingestão.
O procedimento a seguir descreve como criar um conector de dados que associa um conjunto de dados do BigQuery a um conector de dados da Pesquisa da Vertex AI e como especificar uma tabela no conjunto de dados para cada repositório de dados que você quer criar. Os repositórios de dados filhos de conectores de dados são chamados de repositórios de dados de entidade.
Os dados do conjunto de dados são sincronizados periodicamente com os repositórios de dados de entidades. É possível especificar a sincronização diária, a cada três dias ou a cada cinco dias.
Console
Para usar o console do Google Cloud e criar um conector que sincroniza dados periodicamente de um conjunto de dados do BigQuery para a Pesquisa da Vertex AI, siga estas etapas:
No console Google Cloud , acesse a página Aplicativos de IA.
No menu de navegação, clique em Repositórios de dados.
Clique em Criar repositório de dados.
Na página Origem, selecione BigQuery.
Selecione o tipo de dados que você está importando.
Clique em Periódica.
Selecione a Frequência de sincronização, ou seja, a frequência com que você quer que o conector da Pesquisa da Vertex AI seja sincronizado com o conjunto de dados do BigQuery. É possível mudar a frequência depois.
No campo Caminho do conjunto de dados do BigQuery, clique em Procurar e selecione o conjunto de dados que contém as tabelas preparadas para ingestão. Ou insira o local da tabela diretamente no campo Caminho do BigQuery. O formato do caminho é
projectname.datasetname
.No campo Tabelas a serem sincronizadas, clique em Procurar e selecione uma tabela que contenha os dados desejados para o repositório de dados.
Se houver outras tabelas no conjunto de dados que você quer usar para armazenamentos de dados, clique em Adicionar tabela e especifique essas tabelas também.
Clique em Continuar.
Escolha uma região para o repositório de dados, insira um nome para o conector de dados e clique em Criar.
Agora você criou um conector de dados que vai sincronizar periodicamente os dados com o conjunto de dados do BigQuery. e você criou um ou mais repositórios de dados de entidades. Os repositórios de dados têm os mesmos nomes das tabelas do BigQuery.
Para verificar o status da ingestão, acesse a página Repositórios de dados e clique no nome do conector de dados para conferir os detalhes na página Dados > guia Atividade de ingestão de dados. Quando a coluna de status na guia Atividade mudar de Em andamento para Concluída, a primeira ingestão será concluída.
Dependendo do tamanho dos dados, a ingestão pode levar de vários minutos a várias horas.
Depois de configurar a fonte de dados e importar os dados pela primeira vez, o repositório de dados sincroniza as informações dessa fonte com uma frequência que você seleciona durante a configuração. Cerca de uma hora depois da criação do conector de dados, a primeira sincronização ocorre. A próxima sincronização ocorre cerca de 24, 72 ou 120 horas depois.
Próximas etapas
Para anexar seu repositório de dados a um app, crie um app e selecione o repositório seguindo as etapas em Criar um app de recomendações personalizado.
Para conferir uma prévia ou receber recomendações depois de configurar o app e o repositório de dados, consulte Receber recomendações.
Cloud Storage
É possível criar repositórios de dados com tabelas do Cloud Storage de duas maneiras:
Ingestão única: você importa dados de uma pasta ou arquivo do Cloud Storage para um repositório de dados. Os dados no repositório de dados não mudam, a menos que você atualize manualmente.
Ingestão periódica: você importa dados de uma pasta ou arquivo do Cloud Storage e define uma frequência de sincronização que determina a frequência com que o repositório de dados é atualizado com os dados mais recentes desse local do Cloud Storage.
A tabela a seguir compara as duas maneiras de importar dados do Cloud Storage para repositórios de dados da Vertex AI para Pesquisa.
Ingestão única | Ingestão periódica |
---|---|
Disponibilidade geral (GA). | Pré-lançamento público. |
Os dados precisam ser atualizados manualmente. | Os dados são atualizados automaticamente a cada um, três ou cinco dias. Não é possível atualizar os dados manualmente. |
A Pesquisa da Vertex AI cria um único repositório de dados de uma pasta ou arquivo no Cloud Storage. | A Vertex AI para Pesquisa cria um conector de dados e associa a ele um repositório de dados (chamado de repositório de dados de entidade) para o arquivo ou a pasta especificados. Cada conector de dados do Cloud Storage pode ter um único repositório de dados de entidade. |
É possível combinar dados de vários arquivos, pastas e buckets em um repositório de dados. Para isso, primeiro ingira dados de um local do Cloud Storage e depois de outro. | Como a importação manual de dados não é compatível, os dados em um repositório de dados de entidade só podem ser originados de um arquivo ou pasta do Cloud Storage. |
O controle de acesso à fonte de dados é compatível. Para mais informações, consulte Controle de acesso à fonte de dados. | O controle de acesso à fonte de dados não é compatível. Os dados importados podem conter controles de acesso, mas eles não serão respeitados. |
É possível criar um repositório de dados usando o consoleGoogle Cloud ou a API. | Você precisa usar o console para criar conectores de dados e os armazenamentos de dados de entidades deles. |
Compatível com CMEK. | Compatível com CMEK. |
Importar uma vez do Cloud Storage
Para ingerir dados do Cloud Storage, siga estas etapas para criar um repositório de dados e ingerir dados usando o console do Google Cloud ou a API.
Antes de importar seus dados, consulte Preparar dados para ingestão.
Console
Para usar o console e ingerir dados de um bucket do Cloud Storage, siga estas etapas:
No console Google Cloud , acesse a página Aplicativos de IA.
Acesse a página Repositórios de dados.
Clique em
Criar repositório de dados.Na página Origem, selecione Cloud Storage.
Na seção Selecionar uma pasta ou um arquivo para importar, escolha Pasta ou Arquivo.
Clique em Procurar, escolha os dados que você preparou para ingestão e clique em Selecionar. Se preferir, insira o local diretamente no campo
gs://
.Selecione o tipo de dados que você está importando.
Clique em Continuar.
Se você estiver fazendo uma importação única de dados estruturados:
Mapeie campos para propriedades principais.
Se houver campos importantes faltando no esquema, use Adicionar novo campo para incluir.
Para mais informações, consulte Sobre a detecção e edição automáticas.
Clique em Continuar.
Escolha uma região para o repositório de dados.
Insira um nome para o repositório de dados.
Opcional: se você selecionou documentos não estruturados, é possível escolher opções de análise e divisão em partes para eles. Para comparar analisadores, consulte Analisar documentos. Para informações sobre fragmentação, consulte Fragmentar documentos para RAG.
O analisador de OCR e o analisador de layout podem gerar custos adicionais. Consulte os preços dos recursos da Document AI.
Para selecionar um analisador, expanda Opções de processamento de documentos e especifique as opções de analisador que você quer usar.
Clique em Criar.
Para verificar o status da ingestão, acesse a página Repositórios de dados e clique no nome do repositório de dados para conferir os detalhes na página Dados. Quando a coluna de status na guia Atividade mudar de Em andamento para Importação concluída, a ingestão será concluída.
Dependendo do tamanho dos dados, a ingestão pode levar de vários minutos a várias horas.
REST
Para usar a linha de comando e criar um repositório de dados e ingerir dados do Cloud Storage, siga estas etapas.
Crie um repositório de dados.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Substitua:
PROJECT_ID
: o ID do seu Google Cloud projeto.DATA_STORE_ID
: o ID do repositório de dados da Vertex AI para Pesquisa que você quer criar. Esse ID só pode conter letras minúsculas, dígitos, sublinhados e hífens.DATA_STORE_DISPLAY_NAME
: o nome de exibição do repositório de dados da Vertex AI para Pesquisa que você quer criar.
Importa dados do Cloud Storage.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"], "dataSchema": "DATA_SCHEMA", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Substitua:
PROJECT_ID
: o ID do seu Google Cloud projeto.DATA_STORE_ID
: o ID do repositório de dados da Vertex AI para Pesquisa.INPUT_FILE_PATTERN
: um padrão de arquivo no Cloud Storage que contém seus documentos.Para dados estruturados ou não estruturados com metadados, um exemplo de padrão de arquivo de entrada é
gs://<your-gcs-bucket>/directory/object.json
, e um exemplo de correspondência de padrão com um ou mais arquivos égs://<your-gcs-bucket>/directory/*.json
.Para documentos não estruturados, um exemplo é
gs://<your-gcs-bucket>/directory/*.pdf
. Cada arquivo que corresponde ao padrão se torna um documento.Se
<your-gcs-bucket>
não estiver em PROJECT_ID, será necessário conceder à conta de serviço as permissõesservice-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
"Leitor de objetos do Storage" para o bucket do Cloud Storage. Por exemplo, se você estiver importando um bucket do Cloud Storage do projeto de origem "123" para o projeto de destino "456", conceda permissões deservice-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
no bucket do Cloud Storage no projeto "123".DATA_SCHEMA
: opcional. Os valores sãodocument
,custom
,csv
econtent
. O padrão édocument
.document
: faça upload de dados não estruturados com metadados para documentos não estruturados. Cada linha do arquivo precisa seguir um dos seguintes formatos. É possível definir o ID de cada documento:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
{ "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
custom
: faça upload de JSON para documentos estruturados. Os dados são organizados de acordo com um esquema. É possível especificar o esquema. Caso contrário, ele será detectado automaticamente. Você pode colocar a string JSON do documento em um formato consistente diretamente em cada linha, e a Pesquisa da Vertex AI gera automaticamente os IDs de cada documento importado.content
: faça upload de documentos não estruturados (PDF, HTML, DOC, TXT, PPTX). O ID de cada documento é gerado automaticamente como os primeiros 128 bits de SHA256(GCS_URI) codificados como uma string hexadecimal. É possível especificar vários padrões de arquivo de entrada, desde que os arquivos correspondentes não excedam o limite de 100 mil arquivos.csv
: inclua uma linha de cabeçalho no arquivo CSV, com cada cabeçalho mapeado para um campo do documento. Especifique o caminho para o arquivo CSV usando o campoinputUris
.
ERROR_DIRECTORY
: opcional. Um diretório do Cloud Storage para informações de erro sobre a importação, por exemplo,gs://<your-gcs-bucket>/directory/import_errors
. O Google recomenda deixar esse campo em branco para permitir que a Vertex AI Search crie automaticamente um diretório temporário.RECONCILIATION_MODE
: opcional. Os valores sãoFULL
eINCREMENTAL
. O padrão éINCREMENTAL
. EspecificarINCREMENTAL
causa uma atualização incremental de dados do Cloud Storage para seu repositório de dados. Isso faz uma operação de upsert, que adiciona novos documentos e substitui os documentos atuais por documentos atualizados com o mesmo ID. EspecificarFULL
causa uma rebase completa dos documentos no seu repositório de dados. Em outras palavras, documentos novos e atualizados são adicionados ao repositório de dados, e os que não estão no Cloud Storage são removidos. O modoFULL
é útil se você quiser excluir automaticamente documentos que não são mais necessários.AUTO_GENERATE_IDS
: opcional. Especifica se os IDs de documentos serão gerados automaticamente. Se definido comotrue
, os IDs de documento serão gerados com base em um hash do payload. Os IDs de documentos gerados podem não permanecer consistentes em várias importações. Se você gerar IDs automaticamente em várias importações, o Google recomenda definirreconciliationMode
comoFULL
para manter IDs de documento consistentes.Especifique
autoGenerateIds
apenas quandogcsSource.dataSchema
estiver definido comocustom
oucsv
. Caso contrário, um erroINVALID_ARGUMENT
será retornado. Se você não especificarautoGenerateIds
ou definir comofalse
, precisará especificaridField
. Caso contrário, a importação dos documentos vai falhar.ID_FIELD
: opcional. Especifica quais campos são os IDs de documento. Para documentos de origem do Cloud Storage,idField
especifica o nome nos campos JSON que são IDs de documentos. Por exemplo, se{"my_id":"some_uuid"}
for o campo de ID do documento em um dos seus documentos, especifique"idField":"my_id"
. Isso identifica todos os campos JSON com o nome"my_id"
como IDs de documento.Especifique esse campo somente quando: (1)
gcsSource.dataSchema
estiver definido comocustom
oucsv
, e (2)auto_generate_ids
estiver definido comofalse
ou não especificado. Caso contrário, um erroINVALID_ARGUMENT
será retornado.O valor do campo JSON do Cloud Storage precisa ser do tipo string, ter entre 1 e 63 caracteres e estar em conformidade com a RFC-1034. Caso contrário, os documentos não serão importados.
O nome do campo JSON especificado por
id_field
precisa ser do tipo string, ter entre 1 e 63 caracteres e estar de acordo com a RFC-1034. Caso contrário, os documentos não serão importados.
C#
Para mais informações, consulte a documentação de referência da API C# de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Criar um repositório de dados
Importar documentos
Go
Para mais informações, consulte a documentação de referência da API Go de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Criar um repositório de dados
Importar documentos
Java
Para mais informações, consulte a documentação de referência da API Java de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Criar um repositório de dados
Importar documentos
Node.js
Para mais informações, consulte a documentação de referência da API Node.js de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Criar um repositório de dados
Importar documentos
Python
Para mais informações, consulte a documentação de referência da API Python de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Criar um repositório de dados
Importar documentos
Ruby
Para mais informações, consulte a documentação de referência da API Ruby de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Criar um repositório de dados
Importar documentos
Conectar-se ao Cloud Storage com sincronização periódica
Antes de importar seus dados, consulte Preparar dados para ingestão.
O procedimento a seguir descreve como criar um conector de dados que associa um local do Cloud Storage a um conector de dados da Pesquisa da Vertex AI e como especificar uma pasta ou um arquivo nesse local para o repositório de dados que você quer criar. Os repositórios de dados filhos de conectores de dados são chamados de repositórios de dados de entidade.
Os dados são sincronizados periodicamente com o repositório de dados da entidade. É possível especificar a sincronização diária, a cada três dias ou a cada cinco dias.
Console
No console Google Cloud , acesse a página Aplicativos de IA.
Acesse a página Repositórios de dados.
Clique em Criar repositório de dados.
Na página Origem, selecione Cloud Storage.
Selecione o tipo de dados que você está importando.
Clique em Periódica.
Selecione a Frequência de sincronização, ou seja, com que frequência você quer que o conector da Pesquisa da Vertex AI seja sincronizado com o local do Cloud Storage. É possível mudar a frequência depois.
Na seção Selecionar uma pasta ou um arquivo para importar, escolha Pasta ou Arquivo.
Clique em Procurar, escolha os dados que você preparou para ingestão e clique em Selecionar. Se preferir, insira o local diretamente no campo
gs://
.Clique em Continuar.
Escolha uma região para o conector de dados.
Insira um nome para o conector de dados.
Opcional: se você selecionou documentos não estruturados, é possível escolher opções de análise e divisão em partes para eles. Para comparar analisadores, consulte Analisar documentos. Para informações sobre fragmentação, consulte Fragmentar documentos para RAG.
O analisador de OCR e o analisador de layout podem gerar custos adicionais. Consulte os preços dos recursos da Document AI.
Para selecionar um analisador, expanda Opções de processamento de documentos e especifique as opções de analisador que você quer usar.
Clique em Criar.
Você criou um conector de dados que sincroniza periodicamente os dados com o local do Cloud Storage. Você também criou um repositório de dados de entidade chamado
gcs_store
.Para verificar o status da ingestão, acesse a página Repositórios de dados e clique no nome do conector para conferir os detalhes na página Dados.
Guia Atividade de ingestão de dados. Quando a coluna de status na guia Atividade de ingestão de dados mudar de Em andamento para Concluída, a primeira ingestão será concluída.
Dependendo do tamanho dos dados, a ingestão pode levar de vários minutos a várias horas.
Depois de configurar a fonte de dados e importar os dados pela primeira vez, eles serão sincronizados dessa fonte com a frequência selecionada durante a configuração. Cerca de uma hora depois da criação do conector de dados, a primeira sincronização ocorre. A próxima sincronização ocorre cerca de 24, 72 ou 120 horas depois.
Próximas etapas
Para anexar seu repositório de dados a um app, crie um app e selecione o repositório seguindo as etapas em Criar um app de recomendações personalizado.
Para conferir uma prévia ou receber recomendações depois de configurar o app e o repositório de dados, consulte Receber recomendações.
Fazer upload de dados JSON estruturados com a API
Para fazer upload direto de um documento ou objeto JSON usando a API, siga estas etapas.
Antes de importar seus dados, prepare os dados para ingestão.
REST
Para usar a linha de comando e criar um repositório de dados e importar dados JSON estruturados, siga estas etapas:
Crie um repositório de dados.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
Substitua:
PROJECT_ID
: o ID do seu Google Cloud projeto.DATA_STORE_ID
: o ID do repositório de dados de recomendações que você quer criar. Esse ID só pode conter letras minúsculas, dígitos, sublinhados e hífens.DATA_STORE_DISPLAY_NAME
: o nome de exibição do repositório de dados de recomendações que você quer criar.
Opcional: forneça seu próprio esquema. Quando você fornece um esquema, geralmente recebe resultados melhores. Para mais informações, consulte Fornecer ou detectar automaticamente um esquema.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/schemas/default_schema" \ -d '{ "structSchema": JSON_SCHEMA_OBJECT }'
Substitua:
PROJECT_ID
: o ID do seu Google Cloud projeto.DATA_STORE_ID
: o ID do repositório de dados de recomendações.JSON_SCHEMA_OBJECT
: seu esquema JSON como um objeto JSON. Por exemplo:{ "$schema": "https://json-schema.org/draft/2020-12/schema", "type": "object", "properties": { "title": { "type": "string", "keyPropertyMapping": "title" }, "categories": { "type": "array", "items": { "type": "string", "keyPropertyMapping": "category" } }, "uri": { "type": "string", "keyPropertyMapping": "uri" } } }
Importe dados estruturados que estejam em conformidade com o esquema definido.
Há algumas abordagens que você pode usar para fazer upload de dados, incluindo:
Faça upload de um documento JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Substitua
JSON_DOCUMENT_STRING
pelo documento JSON como uma única string. Isso precisa estar de acordo com o esquema JSON que você forneceu na etapa anterior. Por exemplo:```none { \"title\": \"test title\", \"categories\": [\"cat_1\", \"cat_2\"], \"uri\": \"test uri\"} ```
Faça upload de um objeto JSON.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Substitua
JSON_DOCUMENT_OBJECT
pelo documento JSON como um objeto JSON. Isso precisa estar de acordo com o esquema JSON fornecido na etapa anterior. Por exemplo:```json { "title": "test title", "categories": [ "cat_1", "cat_2" ], "uri": "test uri" } ```
Atualize com um documento JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
Atualize com um objeto JSON.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
Próximas etapas
Para anexar seu repositório de dados a um app, crie um app e selecione o repositório seguindo as etapas em Criar um app de recomendações personalizado.
Para conferir uma prévia de como as recomendações vão aparecer depois que o app e o repositório de dados forem configurados, consulte Receber recomendações.
Criar um repositório de dados usando o Terraform
É possível usar o Terraform para criar um repositório de dados vazio. Depois que o repositório de dados vazio for criado, você poderá ingerir dados nele usando o console Google Cloud ou comandos da API.
Para saber como aplicar ou remover uma configuração do Terraform, consulte Comandos básicos do Terraform.
Para criar um repositório de dados vazio usando o Terraform, consulte
google_discovery_engine_data_store
.