Opções de armazenamento para dados do Cloud TPU

Neste documento, descrevemos as opções de armazenamento de dados que podem ser usadas ao treinar modelos no Cloud TPU.

Introdução

O Cloud TPU requer armazenamento de dados para o seguinte:

  • Download e pré-processamento do conjunto de dados
  • Processamento do pipeline de entrada do host
  • Entrada de treinamento de modelo
  • Saída do treinamento de modelo

As opções de armazenamento para os dados do aplicativo do Cloud TPU e os conjuntos de dados de treinamento são:

Para mais informações sobre como gerenciar o armazenamento, consulte as seguintes páginas:

Armazenamento em blocos durável

O armazenamento em blocos durável, também conhecido como discos ou volumes, é para dados que você quer preservar após interromper, suspender ou excluir a VM do TPU. O armazenamento de bloco durável ainda está disponível mesmo se a VM do TPU falhar. É possível usar o disco de inicialização da VM da TPU ou anexar armazenamento em blocos adicional à TPU.

Você pode anexar outro disco nos seguintes cenários:

  • O tamanho do conjunto de dados de treinamento excede o tamanho do disco de inicialização da TPU.
  • Você tem dados somente leitura e quer um acesso de leitura mais rápido usando um volume de ML do Hyperdisk.

É possível anexar dois tipos de armazenamento em blocos duráveis a um Cloud TPU: Google Cloud Hyperdisk e Persistent Disk. Persistent Disk não é compatível com a série de máquinas mais recente, incluindo a Cloud TPU v6e. O Google recomenda usar o Google Cloud Hyperdisk para ter o melhor desempenho e recursos avançados.

Disco de inicialização da VM de TPU

Por padrão, cada VM do Cloud TPU tem um único disco de inicialização de 100 GiB que contém o sistema operacional. O disco de inicialização também pode ser usado para armazenamento temporário de conjuntos de dados transferidos por download para pré-processamento e modelagem de dados de entrada e saída, desde que a quantidade total não exceda o espaço disponível no disco de inicialização.

Não é possível redimensionar o disco de inicialização em um Cloud TPU. Se o aplicativo exigir mais espaço de armazenamento além do disco de inicialização padrão, será possível adicionar um ou mais discos duráveis à instância de VM da TPU. Para mais informações, consulte Anexar armazenamento em bloco durável a uma VM de TPU.

Armazenamento anexado

O Hyperdisk e o Persistent Disk são dispositivos de armazenamento de rede duráveis que podem ser acessados pelas instâncias de VM, como discos físicos em um computador ou servidor. Os dois tipos de disco são criados independentemente das instâncias de máquina virtual (VM, na sigla em inglês). Assim, você pode manter os dados mesmo depois de excluir as instâncias de VM.

As vantagens de usar o Hyperdisk em vez do Persistent Disk incluem desempenho personalizável, IOPS mais altos e limites de capacidade de processamento. Para mais informações sobre Hyperdisk e Persistent Disk, consulte Escolher um tipo de disco.

Para mais informações sobre o uso de armazenamento em blocos duráveis com VMs de TPU, consulte Anexar armazenamento em blocos duráveis a uma VM de TPU.

Backups em disco

Pode ser difícil recuperar os dados do disco de inicialização se a VM TPU ficar presa em um estado "desconhecido" ou para recuperar dados excluídos. Faça backup dos seus dados usando outra opção de armazenamento, como buckets do Cloud Storage.

Se você armazena dados em um disco anexado, é possível usar snapshots de disco, que fazem backup incremental dos dados em um disco. Os snapshots de disco não são compatíveis com o disco de inicialização da TPU. Para mais informações, consulte Sobre snapshots de disco.

Buckets do Cloud Storage

Os buckets do Cloud Storage são a opção de armazenamento mais flexível, escalonável e durável para as instâncias de VM. Se o job de treinamento não exigir a menor latência do armazenamento em blocos durável, armazene o conjunto de dados em um bucket do Cloud Storage.

O desempenho dos buckets do Cloud Storage depende da classe de armazenamento selecionada e do local do bucket em relação à instância.

A criação do bucket do Cloud Storage na mesma zona da VM TPU oferece um desempenho comparável ao armazenamento em blocos duráveis, mas com maior latência e características de capacidade de processamento menos consistentes.

Todos os buckets do Cloud Storage têm redundância incorporada para proteger seus dados contra falhas em equipamentos e garantir a disponibilidade deles durante eventos de manutenção de data center. Os checksums são calculados para todas as operações do Cloud Storage para garantir que você consiga ler exatamente aquilo que gravou.

Ao contrário do armazenamento em bloco durável, os buckets do Cloud Storage não estão restritos à zona em que a instância está localizada. Além disso, é possível ler e gravar dados em um bucket a partir de várias instâncias ao mesmo tempo. Por exemplo, é possível configurar instâncias em várias zonas para ler e gravar dados no mesmo bucket, em vez de replicar os dados em um armazenamento de blocos durável em várias zonas.

Para mais informações sobre como conectar a VM do TPU a um bucket do Cloud Storage, consulte Conectar-se a buckets do Cloud Storage.

Cloud Storage FUSE

O Cloud Storage FUSE permite ativar e acessar buckets do Cloud Storage como sistemas de arquivos locais. Isso permite que os aplicativos leiam e gravem objetos no bucket usando a semântica padrão de sistemas de arquivos.

Consulte a documentação do FUSE do Cloud Storage para saber como o FUSE do Cloud Storage funciona e uma descrição de como as operações do FUSE do Cloud Storage são mapeadas para operações do Cloud Storage. Confira mais informações sobre como usar o Cloud Storage FUSE, como instalar a CLI do Cloud Storage FUSE e montar buckets no GitHub.

Compartilhamento de arquivos do Filestore

O compartilhamento de arquivos do Filestore é um armazenamento conectado à rede (NAS, na sigla em inglês) totalmente gerenciado do Compute Engine. O Filestore oferece compatibilidade com aplicativos empresariais atuais e aceita qualquer cliente compatível com NFSv3.

O Filestore oferece baixa latência para operações com arquivos. Para cargas de trabalho sensíveis à latência, o Filestore oferece suporte a capacidade de até 100 TiB e capacidade de processamento de 25 GiB por segundo e 720 mil IOPS, com variabilidade mínima de desempenho.

Com o Filestore, você pode montar compartilhamentos de arquivos em VMs de TPU.

A seguir