Visão geral do Cloud Life Sciences

Visão geral

O Cloud Life Sciences é um conjunto de serviços e ferramentas para gerenciar, processar e transformar dados de ciências da saúde. Ele também permite insights avançados e fluxos de trabalho operacionais usando uma infraestrutura altamente escalonável e compatível. O Cloud Life Sciences inclui recursos como a API Cloud Life Sciences, as ferramentas extract-transform-load (ETL) e muito mais.

Esta página fornece uma visão geral dos serviços e ferramentas que o Cloud Life Sciences oferece e como é possível usar os recursos da ferramenta com seus dados de ciências da saúde.

Visão geral da API Cloud Life Sciences

A API Cloud Life Sciences oferece uma maneira simples de executar uma série de contêineres do Compute Engine no Google Cloud. A API Cloud Life Sciences é constituída por uma única operação principal:

E três operações genéricas:

A API Cloud Life Sciences foi pensada para desenvolvedores que querem criar ferramentas de gerenciamento de jobs (como o dsub) ou mecanismos de fluxo de trabalho (como o Cromwell). A API Cloud Life Sciences disponibiliza um back-end para essas ferramentas e sistemas, oferece o agendamento de jobs para tarefas baseadas no Docker que realizam análises genômicas secundárias em contêineres do Compute Engine. É possível enviar operações em lote de qualquer lugar e executá-las no Google Cloud. As imagens do Docker podem ser empacotadas manualmente ou é possível usar imagens existentes do Docker.

A forma mais comum de uso da API Cloud Life Sciences é executar uma ferramenta existente ou script personalizado que lê e grava arquivos, normalmente para e do Cloud Storage. A API Cloud Life Sciences pode ser executada de forma independente em centenas ou milhares desses arquivos.

É possível acessar a API Cloud Life Sciences usando a API REST, a API RPC ou a CLI do Google Cloud.

Como executar a API Cloud Life Sciences

Se você estiver criando um mecanismo de fluxo de trabalho, uma série típica de etapas que o mecanismo executará é:

  1. Como analisar a linguagem do fluxo de trabalho de entrada e construir uma série de objetos Pipeline com formatação JSON que a API Cloud Life Sciences aceita. O mecanismo envia uma série de solicitações definidas no objeto Pipeline para a API Cloud Life Sciences.
  2. Como monitorar as solicitações e mesclar as saídas das solicitações antes de ir para a próxima etapa.

Veja a seguir uma explicação mais detalhada da primeira etapa:

O pipeline é executado chamando o método pipelines.run. Esse método usa um objeto Pipeline e um conjunto opcional de rótulos para começar a executar um pipeline. O objeto Pipeline consiste em uma ou mais descrições Action e um objeto Resources que descreve quais recursos do Google Cloud são necessários para executar o pipeline.

O exemplo a seguir mostra como configurar um Pipeline que executa um Action único (imprimindo "Hello, world" no terminal) em uma VM pequena e padrão (n1-standard-1):

"pipeline": {
  "actions": [
    {
      "imageUri": "bash",
      "commands": [ "-c", "echo Hello, world" ]
    },
  ],
  "resources": {
    "regions": ["us-central11"],
    "virtualMachine": {
      "machineType": "n1-standard-1",
    }
  }
}

O exemplo a seguir mostra como configurar um objeto Action que executa vários comandos. O Action copia um arquivo do Cloud Storage para a VM, calcula e verifica o SHA-1 hash do arquivo e grava o arquivo no bucket original do Cloud Storage.

"actions": [
  {
    "imageUri": "google/cloud-sdk",
    "commands": [ "gsutil", "cp", "gs://my-bucket/input.in", "/tmp" ]
  },
  {
    "imageUri": "bash",
    "commands": [ "-c", "sha1sum /tmp/in > /tmp/test.sha1" ]
  },
  {
    "imageUri": "google/cloud-sdk",
    "commands": [ "gsutil", "cp", "/tmp/output.sha1", "gs://my-bucket/output.sha1" ]
  },
],

Chamar pipelines.run retorna uma operação de longa duração que é possível consultar para ver o status de ou cancelar o pipeline.

Ciclo de vida de uma solicitação da API Cloud Life Sciences

O ciclo de vida típico de um pipeline em execução na API Cloud Life Sciences é o seguinte:

  1. A API Cloud Life Sciences aloca os recursos do Google Cloud necessários para executar o pipeline. No mínimo, isso geralmente envolve a alocação de uma máquina virtual (VM) do Compute Engine com espaço no disco.
  2. Depois que uma VM é disponibilizada, a API Cloud Life Sciences executa cada ação definida no pipeline. Essas ações executam operações como copiar arquivos de entrada, processar dados ou copiar arquivos de saída.
  3. O pipeline libera todos os recursos alocados, incluindo a exclusão de todas as VMs criadas.

ETL do BigQuery usando a ferramenta Variant Transforms

Para carregar seus dados de ciências da saúde no BigQuery para uma análise adicional, use a ferramenta Variants Transforms.

A Variant Transforms é uma ferramenta de código aberto baseada no Apache Beam e usa o Dataflow. A Variant Transforms é a ferramenta recomendada para transformar e carregar dados genômicos no Google Cloud para uma análise posterior.

Como usar outras tecnologias do Google Cloud com dados de ciências da saúde.

Existem várias tecnologias do Google Cloud que interagem com o Cloud Life Sciences ou podem ser usadas para analisar e processar dados de ciências da saúde. São elas: