Visão geral dos modelos de fala personalizados

Os modelos personalizados da Speech-to-Text ajudam a ajustar modelos de reconhecimento de fala conforme suas necessidades. Esse serviço foi desenvolvido para aumentar a acurácia e a relevância do serviço de reconhecimento de fala em diversos ambientes e casos de uso, usando seus dados de texto e áudio específicos do domínio.

Acessíveis tanto no console do Google Cloud quanto na API, os modelos personalizados da Speech-to-Text permitem treinar, avaliar e implantar um modelo de fala dedicado em um ambiente integrado sem código. Para treinamento, você pode fornecer apenas dados de áudio que representem suas condições de áudio, sem transcrições de referência como um conjunto de treinamento. No entanto, você precisa fornecer dados de áudio e as transcrições de referência como parte do seu conjunto de avaliação.

A criação e o uso de um modelo personalizado da Speech-to-Text envolvem as seguintes etapas:

  1. Preparar e fazer upload de dados de treinamento em um bucket do Cloud Storage.
  2. Treinar um novo modelo personalizado.
  3. Implantar e gerenciar o modelo personalizado usando endpoints.
  4. Usar e avaliar o modelo personalizado no aplicativo.

Como funciona?

É possível usar modelos personalizados da Speech-to-Text para aumentar um modelo de transcrição base a fim de melhorar o reconhecimento de transcrição. Algumas condições de áudio, como sirenes, música e ruídos de fundo excessivos, podem representar problemas acústicos. Alguns acentos ou vocabulário incomum, como nomes de produtos, também podem.

Cada modelo personalizado da Speech-to-Text usa uma arquitetura pré-treinada e baseada no Conformer como modelo base treinado com dados proprietários de idioma frequentemente falado. Durante o processo de treinamento, o modelo base é ajustado adaptando uma porcentagem significativa dos pesos originais para melhorar o reconhecimento das condições de áudio e vocabulário específicas do domínio em relação ao seu aplicativo.

Para o treinamento eficaz de um modelo personalizado da Speech-to-Text, é necessário fornecer:

  • Um mínimo de 100 horas de áudio de dados de treinamento, somente áudio ou áudio com a transcrição de texto correspondente como informações empíricas. Esses dados são cruciais para a fase inicial de treinamento para que o modelo aprenda de forma abrangente as nuances dos padrões de fala e vocabulário. Veja detalhes em Criar um conjunto de dados de informações empíricas.
  • Um conjunto de dados separado de pelo menos 10 horas de áudio de dados de validação, com a transcrição de texto correspondente como informações empíricas. Saiba mais sobre o formato esperado e as convenções de informações empíricas a serem seguidas nas nossas instruções de preparação de dados.

Após um treinamento bem-sucedido, é possível implantar um modelo personalizado da Speech-to-Text em um endpoint com um clique e usá-lo diretamente pela API Cloud Speech-to-Text V2 para inferência e comparativo de mercado.

Modelos, idiomas e regiões compatíveis

Os modelos personalizados da Speech-to-Text são compatíveis com as seguintes combinações de modelos, idiomas e localidades para treinamento:

Idioma BCP-47 Modelo base

Alemão (Alemanha)

de-DE

latest_long

Inglês (Austrália)

en-AU

latest_long

Inglês (Reino Unido)

en-GB

latest_long

Inglês (Índia)

en-IN

latest_long

English (United States)

en-US

latest_long

Espanhol (Estados Unidos)

es-US

latest_long

Espanhol (Espanha)

es-ES

latest_long

Francês (Canadá)

fr-CA

latest_long

Francês (França)

fr-FR

latest_long

Híndi (Índia)

hi-IN

latest_long

Italiano (Itália)

it-IT

latest_long

Japonês (Japão)

ja-JP

latest_long

Coreano (Coreia do Sul)

ko-KR

latest_long

Holandês (Holanda)

nl-NL

latest_long

Português (Brasil)

pt-BR

latest_long

Português (Portugal)

pt-PT

latest_long

Além disso, para atender aos seus requisitos de residência de dados, oferecemos hardware de treinamento e implantação em diferentes regiões. O hardware dedicado é compatível com as seguintes combinações de modelos e regiões:

Modelo base RegiãoGoogle Cloud Tarefas compatíveis

latest_long

us-east1

Treinamento e Implantação

latest_long

europe-west4

Treinamento e Implantação

Cota

Para o treinamento de modelo personalizado da Speech-to-Text, cada Google Cloud projeto precisa ter uma cota padrão suficiente para executar vários jobs de treinamento simultaneamente e atender às necessidades da maioria dos projetos sem ajustes adicionais. No entanto, se você precisar executar um número maior de jobs de treinamento simultâneos ou precisar de recursos de rotulagem ou computação mais extensos, solicite mais cota.

Para um modelo personalizado da Speech-to-Text que exibe uma implantação de endpoint, cada endpoint tem um limite teórico de 20 consultas por segundo (QPS). Se for necessária uma capacidade de processamento maior, solicite uma cota de veiculação adicional.

Preços

A criação e o uso de um modelo personalizado da Speech-to-Text envolvem determinados custos baseados principalmente nos recursos usados durante o treinamento e a implantação subsequente do modelo. Especificamente, o modelo personalizado da Speech-to-Text terá os seguintes custos em um ciclo de vida típico:

  • Treinamento: a cobrança é feita sobre o número de horas para treinamento do modelo. Esse tempo é proporcional à quantidade de horas de áudio no conjunto de dados de treinamento. Por via de regra, o treinamento leva um décimo do número de horas de áudio no conjunto de dados.
  • Implantação: a cobrança é feita sobre cada hora em que um modelo é implantado em um endpoint.
  • Inferência: a cobrança é feita sobre o número de segundos de áudio transmitidos para transcrição, de acordo com o faturamento geral da Speech-to-Text.

Entender esses custos é crucial para um orçamento e uma alocação de recursos eficazes. Para mais informações, na seção "Modelos personalizados da Speech-to-Text", consulte Preços da Cloud Speech-to-Text.

A seguir

Siga os recursos para aproveitar os modelos de fala personalizados no seu aplicativo: