O Serviço de rotulagem de dados do AI Platform é compatível com três tipos de tarefas de rotulagem de textos:
- Tarefas de classificação, em que os rotuladores atribuem um ou mais rótulos a cada segmento de texto. É possível especificar o número de rotuladores para rotular cada segmento de texto. Recomendamos que o número seja cinco ou menos. O Serviço de rotulagem de dados faz uma votação majoritária para determinar os rótulos adequados.
- Tarefas de classificação com sentimento, em que a entrada geral de rótulos é igual às tarefas de classificação de texto. Esse tipo de rotulagem foi suspenso no Serviço de rotulagem de dados. É possível acessar o Cloud AI Platform unificado para esse tipo de rótulo.
- Tarefas de extração de entidades, em que o rotulador receberá uma lista de rótulos e um segmento de texto (até 100.000 caracteres) e selecionará o local inicial e final sobre onde o texto está falando para cada rótulo. Ele também tem a opção de selecionar "não incluído". O Serviço de rotulagem de dados coletará os índices do texto selecionado para cada rótulo.
A solicitação de rotulagem é uma operação de longa duração. A resposta inclui o ID da operação, que pode ser usado para verificar o status da solicitação. Quando a rotulagem é concluída, a resposta contém o valor "done": true
.
No momento, este serviço é compatível somente com textos em inglês.
Tarefas de classificação de textos
IU da Web
Selecione Conjuntos de dados na navegação à esquerda.
A página Conjuntos de dados mostra o status de conjuntos de dados criados anteriormente para o projeto atual.
Clique no nome do conjunto de dados que você quer enviar para rotulagem.
Os conjuntos de dados com status Importação concluída estão disponíveis para envio. A coluna Tipo de dados mostra se o conjunto de dados inclui imagens, vídeos ou texto.
Na página Detalhes do conjunto de dados, clique no botão Criar tarefa de rotulagem na barra de título.
Na página Nova tarefa de rotulagem, digite o nome e uma descrição do conjunto de dados anotado (annotated dataset).
O
annotated dataset
é a versão desse conjunto de dados rotulado por rotuladores humanos.Na lista suspensa Objetivo, selecione o tipo de tarefa de rotulagem que você quer executar nesse conjunto de dados.
A lista suspensa inclui apenas os objetivos disponíveis para o tipo de dados nesse conjunto de dados. Se você não encontrar o objetivo pretendido, isso provavelmente significa que você selecionou um conjunto com outro tipo de dados. Feche a página Nova tarefa de rotulagem e selecione um conjunto de dados diferente.
Na lista suspensa Conjunto de rótulos, escolha o conjunto de rótulos que você quer que os rotuladores apliquem aos itens de dados neste conjunto.
A lista suspensa inclui todos os conjuntos de rótulos associados a esse projeto. Você precisa escolher um conjunto.
Na lista suspensa Instrução, escolha as instruções que você quer fornecer aos rotuladores que trabalham com esse conjunto de dados.
A lista suspensa inclui todas as instruções associadas a esse projeto. Incluí-las na solicitação de rotulagem é obrigatório.
Na lista suspensa Rotuladores por dado, especifique o número de rotuladores que analisará cada dado no conjunto.
O padrão é um, mas é possível pedir que três ou cinco rotuladores atuem em cada dado.
Marque a caixa de seleção para confirmar que você entendeu como a rotulagem será cobrada.
Clique em Criar.
Linha de comando
Defina as variáveis de ambiente a seguir:- Variável
PROJECT_ID
para o ID do projeto do Google Cloud. -
Variável
DATASET_ID
para o ID do conjunto de dados, a partir da resposta de quando você criou o conjunto de dados. O ID é exibido no fim do nome completo do conjunto de dados:projects/PROJECT_ID/locations/us-central1/datasets/DATASET_ID
INSTRUCTION_RESOURCE_NAME
, que é o nome do seu recurso de instruções.ANNOTATION_SPEC_SET_RESOURCE_NAME
, que é o nome do seu recurso de conjunto de rótulos.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ https://datalabeling.googleapis.com/v1beta1/projects/${PROJECT_ID}/datasets/${DATASET_ID}/text:label \ -d '{ "basicConfig": { "instruction": "${INSTRUCTION_RESOURCE_NAME}", "annotatedDatasetDisplayName": "curl_testing_annotated_dataset", "labelGroup": "test_label_group", "replica_count": 1 }, "feature": "TEXT_CLASSIFICATION", "textClassificationConfig": { "annotationSpecSet": "${ANNOTATION_SPEC_SET_RESOURCE_NAME}", }, }'
Será exibido um código semelhante a este. É possível usar o ID da operação para saber o status da tarefa. Veja um exemplo nas informações sobre como receber o status de uma operação.
{ "name": "projects/data-labeling-codelab/operations/5c73dd6b_0000_2b34_a920_883d24fa2064", "metadata": { "@type": "type.googleapis.com/google.cloud.data-labeling.v1beta1.LabelTextClassificationOperationMetadata", "dataset": "projects/data-labeling-codelab/datasets/5c73db3d_0000_23e0_a25b_94eb2c119c4c" } }
Java
Antes de executar este código de exemplo, é preciso instalar as bibliotecas de cliente do Java.Tarefas de extração de entidades
IU da Web
Selecione Conjuntos de dados na navegação à esquerda.
A página Conjuntos de dados mostra o status de conjuntos de dados criados anteriormente para o projeto atual.
Clique no nome do conjunto de dados que você quer enviar para rotulagem.
Os conjuntos de dados com status Importação concluída estão disponíveis para envio. A coluna Tipo de dados mostra se o conjunto de dados inclui imagens, vídeos ou texto.
Na página Detalhes do conjunto de dados, clique no botão Criar tarefa de rotulagem na barra de título.
Na página Nova tarefa de rotulagem, digite o nome e uma descrição do conjunto de dados anotado (annotated dataset).
O
annotated dataset
é a versão desse conjunto de dados rotulado por rotuladores humanos.Na lista suspensa Objetivo, selecione o tipo de tarefa de rotulagem que você quer executar nesse conjunto de dados.
A lista suspensa inclui apenas os objetivos disponíveis para o tipo de dados nesse conjunto de dados. Se você não encontrar o objetivo pretendido, isso provavelmente significa que você selecionou um conjunto com outro tipo de dados. Feche a página Nova tarefa de rotulagem e selecione um conjunto de dados diferente.
Na lista suspensa Conjunto de rótulos, escolha o conjunto de rótulos que você quer que os rotuladores apliquem aos itens de dados neste conjunto.
A lista suspensa inclui todos os conjuntos de rótulos associados a esse projeto. Você precisa escolher um conjunto.
Na lista suspensa Instrução, escolha as instruções que você quer fornecer aos rotuladores que trabalham com esse conjunto de dados.
A lista suspensa inclui todas as instruções associadas a esse projeto. Incluí-las na solicitação de rotulagem é obrigatório.
Na lista suspensa Rotuladores por dado, especifique o número de rotuladores que analisará cada dado no conjunto.
O padrão é um, mas é possível pedir que três ou cinco rotuladores atuem em cada dado.
Marque a caixa de seleção para confirmar que você entendeu como a rotulagem será cobrada.
Clique em Criar.
Linha de comando
Defina as variáveis de ambiente a seguir:- Variável
PROJECT_ID
para o ID do projeto do Google Cloud. -
Variável
DATASET_ID
para o ID do conjunto de dados, a partir da resposta de quando você criou o conjunto de dados. O ID é exibido no fim do nome completo do conjunto de dados:projects/PROJECT_ID/locations/us-central1/datasets/DATASET_ID
INSTRUCTION_RESOURCE_NAME
, que é o nome do seu recurso de instruções.ANNOTATION_SPEC_SET_RESOURCE_NAME
, que é o nome do seu recurso de conjunto de rótulos.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ -H "Content-Type: application/json" \ https://datalabeling.googleapis.com/v1beta1/projects/${PROJECT_ID}/datasets/${DATASET_ID}/text:label \ -d '{ "basicConfig": { "instruction": "${INSTRUCTION_RESOURCE_NAME}", "annotatedDatasetDisplayName": "curl_testing_annotated_dataset", "labelGroup": "test_label_group", "replica_count": 1 }, "feature": "TEXT_ENTITY_EXTRACTION", "textEntityExtractionConfig": { "annotationSpecSet": "${ANNOTATION_SPEC_SET_RESOURCE_NAME}", }, }'
Será exibido um código semelhante a este. É possível usar o ID da operação para saber o status da tarefa. Veja um exemplo nas informações sobre como receber o status de uma operação.
{ "name": "projects/data-labeling-codelab/operations/5c73dd6b_0000_2b34_a920_883d24fa2064", "metadata": { "@type": "type.googleapis.com/google.cloud.data-labeling.v1beta1.LabelTextEntityExtractionOperationMetadata", "dataset": "projects/data-labeling-codelab/datasets/5c73db3d_0000_23e0_a25b_94eb2c119c4c" } }