Executar o Mainframe Connector no modo independente

Esta página discute como instalar o conector de mainframe no Cloud Run, transcodificar dados, salvá-los no BigQuery e exportá-los do BigQuery.

O Mainframe Connector versão 5.13.0 e mais recentes oferece suporte à execução do Mainframe Connector como um job independente em Google Cloud. Esse recurso permite executar o Mainframe Connector como um job de lote contêinerizado, por exemplo, como um job do Cloud Run, do Google Kubernetes Engine ou em um contêiner do Docker. Essa opção ajuda a evitar a instalação do Conector de mainframe localmente no mainframe e facilita a integração da análise de arquivos de método de acesso sequencial em fila (QSAM, na sigla em inglês) do mainframe a fluxos de trabalho de extração, transformação e carregamento (ETL) existentes.

Ao usar a versão autônoma do conector de mainframe, é necessário configurar o fluxo de trabalho de ETL que carrega o arquivo QSAM para Google Cloud .

Antes de começar

Transcodificar dados usando o conector de mainframe no modo autônomo no Cloud Run

O Mainframe Connector oferece duas maneiras de executar o Mainframe Connector como um job independente em Google Cloud:

Vantagens dos comandos qsam

Os comandos qsam oferecem as seguintes vantagens:

  • Oferece suporte a tipos de dados compostos, incluindo a cláusula OCCURS (listas), a cláusula REDEFINES e registros aninhados. Para mais informações sobre esses tipos de dados, consulte a referência de transcodificação qsam.
  • Oferece suporte à configuração do processo de transcodificação por meio de um arquivo de configuração do transcodificador. Isso oferece mais flexibilidade ao decodificar dados para Google Cloude codificar os dados de volta para o mainframe.
  • Oferece suporte à criação de um conjunto de dados de extravasamento, que é uma tabela de erros de transcodificação que pode ser usada para inspeção de erros.

Executar o Conector de mainframe no modo autônomo usando comandos qsam

Para transcodificar seus dados usando o conector de mainframe no modo independente com comandos qsam, siga estas etapas:

  1. Crie um arquivo YAML com comandos para ler o conjunto de dados, transcodificar para o formato ORC e fazer upload para o Cloud Storage. O conjunto de dados de entrada precisa ser um arquivo QSAM com comprimento de registro fixo ou variável. Use o arquivo YAML de exemplo a seguir para ler seu conjunto de dados, transcodificar para o formato ORC e fazer o upload para o Cloud Storage.

    No exemplo a seguir, usamos o DataPath do Cloud Storage para INFILE, OUTFILE, COPYBOOK e TRANSCODE_CONFIGURATION.

    environmentVariables:
    - name: "INFILE"
      value: "INFILE"
    - name: "OUTFILE"
      value: "OUTFILE"
    - name: "COPYBOOK"
      value: "COPYBOOK"
    - name: "TRANSCODE_CONFIGURATION"
      value: "TRANSCODE_CONFIGURATION"
    - name: "LOG_PROJECT"
      value: "LOG_PROJECT"
    - name: "IBM_JAVA_OPTIONS"
      value: "-XX:+UseContainerSupport"
    
    command:
      qsam decode INFILE OUTFILE
      --copybook COPYBOOK
      --transcode-configuration TRANSCODE_CONFIGURATION
      --output-format orc
      --parallelism 8
      --chunk-size "512Mib"
    

    Substitua:

    • INFILE: o nome do arquivo de entrada.
    • OUTFILE: o nome do arquivo de saída.
    • COPYBOOK_PATH: o caminho para o copybook DD.
    • TRANSCODE_CONFIGURATION_PATH: o caminho para o arquivo de configuração de transcodificação.
    • LOG_PROJECT: o nome do projeto de registro.

    Confira a seguir um exemplo de arquivo YAML:

    environmentVariables:
    - name: "INFILE"
      value: "gs://my_bucket/my/input.dat"
    - name: "OUTFILE"
      value: "gs://my_bucket/my/output.orc"
    - name: "COPYBOOK"
      value: "gs://my_bucket/my/copybook.cpy"
    - name: "TRANSCODE_CONFIGURATION"
      value: "gs://my_bucket/my/transcode-configuration-file.json"
    - name: "LOG_PROJECT"
      value: "the log project"
    - name: "IBM_JAVA_OPTIONS"
      value: "-XX:+UseContainerSupport"
    command:
      qsam decode INFILE OUTFILE
      --copybook COPYBOOK
      --transcode-configuration TRANSCODE_CONFIGURATION
      --output-format orc
      --parallelism 8
      --chunk-size "512Mib"
    
  2. Crie um arquivo job.yaml com o comando a seguir.

    kind: Job
    metadata:
      name: JOB
    spec:
      template:
        spec:
          template:
            spec:
              containers:
              - image: IMAGE
                command:
                - bash
                - /opt/mainframe-connector/standalone.sh
                - --argsFrom
                - LOCATION_OF_THE_COMMAND_YAML_FILE
    

    Substitua:

    • JOB: o nome do seu job do Cloud Run; Os nomes dos jobs precisam ter 49 caracteres ou menos e ser exclusivos por região e projeto.
    • IMAGE: o URL da imagem do contêiner do job. Por exemplo, us-docker.pkg.dev/cloudrun/container/job:latest.
    • LOCATION_OF_THE_COMMAND_YAML_FILE: o local do arquivo YAML que você criou na etapa anterior.
  3. Implante o novo job usando este comando:

    gcloud run jobs replace job.yaml
    
  4. Execute o job usando o seguinte comando:

    gcloud run jobs execute JOB_NAME

    Substitua JOB_NAME pelo nome do job.

Para mais informações sobre como criar e executar um job do Cloud Run, consulte Criar um novo job e Executar um job.

Executar o Mainframe Connector no modo autônomo usando o comando gsutil cp

Para transcodificar seus dados usando o Mainframe Connector no modo independente com o comando gsutil cp, siga estas etapas:

  1. Crie um arquivo YAML com comandos para ler o conjunto de dados, transcodificar para o formato ORC e fazer upload para o Cloud Storage. O conjunto de dados de entrada precisa ser um arquivo QSAM com comprimento de registro fixo ou variável. Use o arquivo YAML de exemplo a seguir para ler seu conjunto de dados, transcodificar para o formato ORC e fazer o upload para o Cloud Storage.

    No exemplo a seguir, leia os dados do conjunto de dados INFILE e o layout de registro do COPYBOOK DD.

    environmentVariables:
    - name: "INFILE"
      value: "INFILE"
    - name: "INFILE_DSN"
      value: "INFILE_DSN"
    - name: "GCSDSNURI"
      value: "INFILE_DSN_FILEPATH"
    - name: "COPYBOOK"
      value: "COPYBOOK_FILEPATH"
    - name: "LOG_PROJECT"
      value: "LOG_PROJECT"
    - name: "IBM_JAVA_OPTIONS"
      value: "-XX:+UseContainerSupport"
    command:
      gsutil cp gs://outputbucket/output
      --parallelism 8
      --maxChunkSize "512Mib"
      --parser_type=copybook
    

    Substitua:

    • INFILE: o nome do arquivo de entrada.
    • INFILE_DSN: o nome do arquivo de entrada do nome da fonte de dados (DSN, na sigla em inglês).
    • INFILE_DSN_FILEPATH: o caminho para o arquivo DSN de entrada.
    • COPYBOOK_FILEPATH: o caminho para o copybook DD.
    • LOG_PROJECT: o nome do projeto de registro.

    Confira a seguir um exemplo de arquivo YAML:

      environmentVariables:
      - name: "INFILE"
        value: "input.dat"
      - name: "INFILE_DSN"
        value: "input.dat"
      - name: "GCSDSNURI"
        value: "gs://inputbucket/inputfolder"
      - name: "COPYBOOK"
        value: "gs://inputbucket/copybook.cpy"
      - name: "LOG_PROJECT"
        value: "the log project"
      - name: "IBM_JAVA_OPTIONS"
        value: "-XX:+UseContainerSupport"
      command:
        gsutil cp gs://outputbucket/output
        --parallelism 8
        --maxChunkSize "512Mib"
        --parser_type=copybook
    

    Para conferir a lista completa de variáveis de ambiente compatíveis com o Mainframe Connector, consulte Variáveis de ambiente.

    Se você quiser registrar os comandos executados durante esse processo, ative as estatísticas de carga.

  2. Crie um arquivo job.yaml com o comando a seguir.

    kind: Job
    metadata:
      name: JOB
    spec:
      template:
        spec:
          template:
            spec:
              containers:
              - image: IMAGE
                command:
                - bash
                - /opt/mainframe-connector/standalone.sh
                - --argsFrom
                - LOCATION_OF_THE_COMMAND_YAML_FILE
    

    Substitua:

    • JOB: o nome do seu job do Cloud Run; Os nomes dos jobs precisam ter 49 caracteres ou menos e ser exclusivos por região e projeto.
    • IMAGE: o URL da imagem do contêiner do job. Por exemplo, us-docker.pkg.dev/cloudrun/container/job:latest.
    • LOCATION_OF_THE_COMMAND_YAML_FILE: o local do arquivo YAML que você criou na etapa anterior.
  3. Implante o novo job usando este comando:

    gcloud run jobs replace job.yaml
    
  4. Execute o job usando o seguinte comando:

    gcloud run jobs execute JOB_NAME

    Substitua JOB_NAME pelo nome do job.

Para mais informações sobre como criar e executar um job do Cloud Run, consulte Criar um novo job e Executar um job.

Exportar a tabela do BigQuery para o conjunto de dados do Mainframe

É possível exportar a tabela do BigQuery para o conjunto de dados do mainframe criando um arquivo YAML que executa uma leitura SQL do arquivo QUERY DD e exporta o conjunto de dados resultante para o Cloud Storage como um arquivo binário, conforme a seguir.

As etapas para criar e executar o job do Cloud Run são as mesmas mencionadas na seção Transcodificar dados usando o Mainframe Connector no modo autônomo no Cloud Run. A única diferença são as instruções mencionadas no arquivo YAML. O conector de mainframe oferece duas maneiras de exportar a tabela do BigQuery:

  • Usando comandos qsam (versão 5.16.0 e posterior)
  • Como usar o comando bq export

Usar comandos qsam

environmentVariables:
  - name: "QUERY"
    value: "QUERY_PATH"
  - name: "OUTFILE"
    value: "OUTFILE"
  - name: "COPYBOOK"
    value: "COPYBOOK_PATH"
  - name: "TRANSCODE_CONFIGURATION"
    value: "TRANSCODE_CONFIGURATION_PATH"
  - name: "PROJECT_ID"
    value: "PROJECT_ID"
  - name: "LOCATION"
    value: "LOCATION"
  - name: "LOG_PROJECT"
    value: "LOG_PROJECT"
  - name: "IBM_JAVA_OPTIONS"
    value: "-XX:+UseContainerSupport"
command:
qsam encode \
  QUERY
  OUTFILE
  --copybook COPYBOOK_PATH
  --transcode-configuration TRANSCODE_CONFIGURATION_PATH
  --input-format=BIGQUERY \
  --input-parameter project_id=PROJECT_ID \
  --input-parameter location=LOCATION

Substitua:

  • QUERY_PATH: a consulta SQL a ser executada. O resultado da consulta será codificado em um arquivo binário.
  • OUTFILE: o bucket do Cloud Storage que vai conter o arquivo binário de saída.
  • COPYBOOK_PATH: o caminho para o copybook DD.
  • TRANSCODE_CONFIGURATION_PATH: o caminho até o arquivo de configuração do transcodificador.
  • LOG_PROJECT: o nome do projeto de registro.
  • PROJECT_ID: o ID do projeto em que você quer executar a consulta.
  • LOCATION: a região ou multirregião em que a consulta será executada. Recomendamos que você execute a consulta em um local próximo aos dados. O valor padrão é "US".

Confira a seguir um exemplo de arquivo YAML:

environmentVariables:
- name: "QUERY"
  value: "gs://my_bucket/my/input.sql"
- name: "OUTFILE"
  value: "gs://my_bucket/my/output.orc"
- name: "COPYBOOK"
  value: "gs://my_bucket/my/copybook.cpy"
- name: "TRANSCODE_CONFIGURATION"
  value: "gs://my_bucket/my/transcode-configuration-file.json"
- name: "PROJECT_ID"
  value: "my-project"
- name: "LOCATION"
  value: "US"
- name: "LOG_PROJECT"
  value: "my-log-project"
- name: "IBM_JAVA_OPTIONS"
  value: "-XX:+UseContainerSupport"
  command:
  qsam encode \
    QUERY
    OUTFILE
    --copybook COPYBOOK_PATH
    --transcode-configuration TRANSCODE_CONFIGURATION_PATH
    --input-format=BIGQUERY \
    --input-parameter project_id=PROJECT_ID \
    --input-parameter location=LOCATION

Usar o comando bq export

environmentVariables:
- name: "COPYBOOK"
  value: "COPYBOOK_FILEPATH"
- name: "LOG_PROJECT"
  value: "LOG_PROJECT"
- name: "IBM_JAVA_OPTIONS"
  value: "-XX:+UseContainerSupport"
command:
  bq export --project_id="PROJECT_NAME" --location="LOCATION" --sql="select * from project.dataset.table" --bucket="BUCKET"

Substitua:

  • COPYBOOK_FILEPATH: o caminho para o copybook DD.
  • LOG_PROJECT: o nome do projeto de registro.
  • PROJECT_NAME: o nome do projeto em que você quer executar a consulta.
  • LOCATION: o local em que a consulta será executada. Recomendamos que você execute a consulta em um local próximo aos dados.
  • BUCKET: o bucket do Cloud Storage que vai conter o arquivo binário de saída.

Confira a seguir um exemplo de arquivo YAML:

environmentVariables:
- name: "COPYBOOK"
  value: "gs://inputbucket/copybook.cpy"
- name: "LOG_PROJECT"
  value: "my-log-project"
- name: "IBM_JAVA_OPTIONS"
  value: "-XX:+UseContainerSupport"
command:
  bq export --project_id="my-project" --run_mode="gcsoutput" --location=US --sql="select * from project.dataset.table" --bucket="my-bucket"