Esta página descreve como atualizar dados estruturados e não estruturados.
Para atualizar os apps do site, consulte Atualizar a página da Web.
Atualizar dados estruturados
É possível atualizar os dados em um repositório de dados estruturados desde que você use um esquema igual ou compatível com versões anteriores ao esquema no repositório. Por exemplo, adicionar apenas novos campos a um esquema atual é compatível com versões anteriores.
É possível atualizar os dados estruturados no console Google Cloud ou usando a API.
Console
Para usar o Google Cloud console e atualizar dados estruturados de uma ramificação de um repositório de dados, siga estas etapas:
No console Google Cloud , acesse a página Aplicativos de IA.
No menu de navegação, clique em Repositórios de dados.
Na coluna Nome, clique no repositório de dados que você quer editar.
Na guia Documentos, clique em
Importar dados.Para atualizar do Cloud Storage:
- No painel Selecionar uma fonte de dados, escolha Cloud Storage.
- No painel Importar dados do Cloud Storage, clique em Procurar, selecione o bucket que contém os dados atualizados e clique em Selecionar. Como alternativa, insira o local do bucket diretamente no campo gs://.
- Em Opções de importação de dados, selecione uma opção.
- Clique em Importar.
Para atualizar do BigQuery:
- No painel Selecionar uma fonte de dados, escolha BigQuery.
- No painel Importar dados do BigQuery, clique em Procurar, selecione uma tabela que contenha os dados atualizados e clique em Selecionar. Ou digite o local da tabela diretamente no campo Caminho do BigQuery.
- Em Opções de importação de dados, selecione uma opção.
- Clique em Importar.
REST
Use o método documents.import
para atualizar seus dados, especificando o valor reconciliationMode
adequado.
Para atualizar dados estruturados do BigQuery ou do Cloud Storage usando a linha de comando, siga estas etapas:
Encontre o ID do repositório de dados. Se você já tiver o ID do repositório de dados, pule para a próxima etapa.
No console Google Cloud , acesse a página Aplicativos de IA e, no menu de navegação, clique em Repositórios de dados.
Clique no nome do seu repositório de dados.
Na página Dados do seu repositório de dados, encontre o ID do repositório.
Para importar seus dados estruturados do BigQuery, chame o seguinte método. É possível importar do BigQuery ou do Cloud Storage. Para importar do Cloud Storage, pule para a próxima etapa.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA_BQ", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": AUTO_GENERATE_IDS, "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Substitua:
PROJECT_ID
: o ID do seu Google Cloud projeto.DATA_STORE_ID
: o ID do repositório de dados da Vertex AI para Pesquisa.DATASET_ID
: o nome do conjunto de dados do BigQuery.TABLE_ID
: o nome da sua tabela do BigQuery.DATA_SCHEMA_BQ
: um campo opcional para especificar o esquema a ser usado ao analisar dados da fonte do BigQuery. Pode ter os seguintes valores:document
: o valor padrão. A tabela do BigQuery que você usa precisa estar de acordo com o seguinte esquema padrão do BigQuery. É possível definir o ID de cada documento e envolver todos os dados na stringjson_data
.custom
: qualquer esquema de tabela do BigQuery é aceito, e os aplicativos de IA geram automaticamente os IDs de cada documento importado.
ERROR_DIRECTORY
: um campo opcional para especificar um diretório do Cloud Storage com informações de erro sobre a importação, por exemplo,gs://<your-gcs-bucket>/directory/import_errors
. O Google recomenda deixar esse campo em branco para que os aplicativos de IA criem automaticamente um diretório temporário.RECONCILIATION_MODE
: um campo opcional para especificar como os documentos importados são conciliados com os documentos existentes no repositório de dados de destino. Pode ter os seguintes valores:INCREMENTAL
: o valor padrão. Causa uma atualização incremental dos dados do BigQuery para seu repositório de dados. Isso faz uma operação de upsert, que adiciona novos documentos e substitui os atuais por documentos atualizados com o mesmo ID.FULL
: causa uma rebase completa dos documentos no seu repositório de dados. Portanto, documentos novos e atualizados são adicionados ao repositório de dados, e os documentos que não estão no BigQuery são removidos dele. O modoFULL
é útil se você quiser excluir automaticamente documentos que não são mais necessários.
AUTO_GENERATE_IDS
: um campo opcional para especificar se os IDs de documentos serão gerados automaticamente. Se definido comotrue
, os IDs de documento serão gerados com base em um hash do payload. Os IDs de documentos gerados podem não permanecer consistentes em várias importações. Se você gerar IDs automaticamente em várias importações, o Google recomenda definirreconciliationMode
comoFULL
para manter IDs de documento consistentes.Especifique
autoGenerateIds
somente quandobigquerySource.dataSchema
estiver definido comocustom
. Caso contrário, um erroINVALID_ARGUMENT
será retornado. Se você não especificarautoGenerateIds
ou definir comofalse
, precisará especificaridField
. Caso contrário, a importação dos documentos vai falhar.ID_FIELD
: um campo opcional para especificar quais campos são os IDs de documento. Para arquivos de origem do BigQuery,idField
indica o nome da coluna na tabela do BigQuery que contém os IDs dos documentos.Especifique
idField
somente quando as duas condições forem atendidas. Caso contrário, um erroINVALID_ARGUMENT
será retornado:bigquerySource.dataSchema
é definida comocustom
;auto_generate_ids
está definido comofalse
ou não está especificado.
Além disso, o valor do nome da coluna do BigQuery precisa ser do tipo string, ter entre 1 e 63 caracteres e estar de acordo com a RFC-1034. Caso contrário, a importação dos documentos vai falhar.
Este é o esquema padrão do BigQuery. A tabela do BigQuery precisa estar em conformidade com esse esquema quando você define
dataSchema
comodocument
.[ { "name": "id", "mode": "REQUIRED", "type": "STRING", "fields": [] }, { "name": "jsonData", "mode": "NULLABLE", "type": "STRING", "fields": [] } ]
Para importar seus dados estruturados do Cloud Storage, chame o seguinte método. É possível importar do BigQuery ou do Cloud Storage. Para importar do BigQuery, acesse a etapa anterior.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["GCS_PATHS"], "dataSchema": "DATA_SCHEMA_GCS", }, "reconciliationMode": "RECONCILIATION_MODE", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
Substitua:
PROJECT_ID
: o ID do seu Google Cloud projeto.DATA_STORE_ID
: o ID do repositório de dados da Vertex AI para Pesquisa.GCS_PATHS
: uma lista de URIs separados por vírgulas para locais do Cloud Storage de onde você quer importar. Cada URI pode ter até 2.000 caracteres. Os URIs podem corresponder ao caminho completo de um objeto de armazenamento ou ao padrão de um ou mais objetos. Por exemplo,gs://bucket/directory/*.json
é um caminho válido.DATA_SCHEMA_GCS
: um campo opcional para especificar o esquema a ser usado ao analisar dados da fonte do BigQuery. Pode ter os seguintes valores:document
: o valor padrão. A tabela do BigQuery que você usa precisa estar de acordo com o seguinte esquema padrão do BigQuery. É possível definir o ID de cada documento e envolver todos os dados na stringjson_data
.custom
: qualquer esquema de tabela do BigQuery é aceito, e os aplicativos de IA geram automaticamente os IDs de cada documento importado.
ERROR_DIRECTORY
: um campo opcional para especificar um diretório do Cloud Storage com informações de erro sobre a importação, por exemplo,gs://<your-gcs-bucket>/directory/import_errors
. O Google recomenda deixar esse campo em branco para que os aplicativos de IA criem automaticamente um diretório temporário.RECONCILIATION_MODE
: um campo opcional para especificar como os documentos importados são conciliados com os documentos existentes no repositório de dados de destino. Pode ter os seguintes valores:INCREMENTAL
: o valor padrão. Causa uma atualização incremental dos dados do BigQuery para seu repositório de dados. Isso faz uma operação de upsert, que adiciona novos documentos e substitui os atuais por documentos atualizados com o mesmo ID.FULL
: causa uma rebase completa dos documentos no seu repositório de dados. Portanto, documentos novos e atualizados são adicionados ao repositório de dados, e os documentos que não estão no BigQuery são removidos dele. O modoFULL
é útil se você quiser excluir automaticamente documentos que não são mais necessários.
Python
Para mais informações, consulte a documentação de referência da API Python de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
Atualizar dados não estruturados
É possível atualizar dados não estruturados no console Google Cloud ou usando a API.
Console
Para usar o Google Cloud console e atualizar dados não estruturados de uma ramificação de um repositório de dados, siga estas etapas:
No console Google Cloud , acesse a página Aplicativos de IA.
No menu de navegação, clique em Repositórios de dados.
Na coluna Nome, clique no repositório de dados que você quer editar.
Na guia Documentos, clique em
Importar dados.Para ingerir de um bucket do Cloud Storage (com ou sem metadados):
- No painel Selecionar uma fonte de dados, escolha Cloud Storage.
- No painel Importar dados do Cloud Storage, clique em Procurar,
selecione o bucket que contém os dados atualizados e clique em
Selecionar. Como alternativa, insira o local do bucket diretamente no campo
gs://
. - Em Opções de importação de dados, selecione uma opção.
- Clique em Importar.
Para fazer a ingestão do BigQuery:
- No painel Selecionar uma fonte de dados, escolha BigQuery.
- No painel Importar dados do BigQuery, clique em Procurar, selecione uma tabela que contenha os dados atualizados e clique em Selecionar. Ou insira o local da tabela diretamente no campo Caminho do BigQuery.
- Em Opções de importação de dados, selecione uma opção.
- Clique em Importar.
REST
Para atualizar dados não estruturados usando a API, reimporte-os com o método
documents.import
, especificando o valor reconciliationMode
adequado. Para mais informações sobre como importar dados não estruturados, consulte Dados não estruturados.
Python
Para mais informações, consulte a documentação de referência da API Python de aplicativos de IA.
Para autenticar no AI Applications, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.