Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Esta página orienta você nas etapas para preparar um modelo de IA de AML, assumindo que você já configurou uma instância e preparou os conjuntos de dados
necessários.
Visão geral das fases
O processo de preparação de um modelo é dividido em três etapas:
Herdar: herda hiperparâmetros de uma configuração de mecanismo anterior
criada com uma versão anterior do mecanismo na mesma
versão de ajuste.
Essa configuração evita que você precise fazer ajustes toda vez que adotar uma nova versão do
motor de modelo.
Para orientações detalhadas sobre o modelo e o esquema de dados, consulte as páginas em
Preparar dados para a IA antilavagem de dinheiro. Esta seção aborda como garantir que os conjuntos de dados usados no ajuste, treinamento e avaliação do mecanismo funcionem bem juntos.
Intervalos de tempo do conjunto de dados
Cada conjunto de dados usado para operações de ajuste, treinamento, backtesting e previsão
precisa conter dados válidos para um período que termine no final do último
mês completo antes do end_time especificado na chamada de API. A duração desse período depende da tabela, da versão do mecanismo e da operação. O intervalo de tempo mínimo é abordado em detalhes em Entender o escopo e a duração dos dados.
Por exemplo, para o ajuste do mecanismo com versões do mecanismo v004.004, a tabela de transações precisa abranger pelo menos 30 meses.
A configuração de um mecanismo, treinamento e avaliação (backtesting) pode ser concluída
com um único conjunto de dados. Consulte a imagem a seguir. Para garantir um bom desempenho de produção
evitando o ajuste excessivo, verifique se o período usado para
avaliação (ou seja, a criação de resultados de backtest) é posterior ao período usado para
treinamento (ou seja, a criação de um modelo).
Por exemplo, se você usar três períodos para backteste e usar períodos até o fim
de fevereiro de 2024 para treinamento (ou seja, o horário de término no início de março de 2024), poderá
usar períodos até o fim de maio de 2024 para backteste (ou seja, o horário de término
no início de junho de 2024).
Consistência do conjunto de dados
Ao usar conjuntos de dados diferentes para os estágios de ajuste, treinamento e avaliação
do mecanismo, faça com que os conjuntos de dados sejam consistentes em quais campos são preenchidos e como eles
são preenchidos. Isso é importante para a estabilidade e o desempenho do modelo de AML.
Da mesma forma, para uma pontuação de risco de alta qualidade, o
conjunto de dados usado para criar resultados de previsão com um modelo precisa ser consistente com
o conjunto de dados usado para treinar esse modelo.
Em particular, verifique o seguinte:
A mesma lógica é usada para preencher cada campo. Mudar a lógica usada para preencher um campo pode introduzir uma distorção de recursos entre treinamento de modelo e a previsão ou avaliação.
A mesma seleção de campos RECOMENDADOS é preenchida. Por exemplo,
remover um campo que foi preenchido durante treinamento de modelo pode fazer com que os atributos
em que o modelo depende sejam distorcidos ou ausentes durante a avaliação ou
previsão.
A mesma lógica é usada para fornecer valores. Na tabela
PartySupplementaryData, a mesma lógica é usada para
fornecer valores para cada campo party_supplementary_data_id.
Usar os mesmos dados, mas com valores de party_supplementary_data_id
diferentes, faz com que o modelo use os dados incorretamente. Por exemplo, um campo específico usa o ID 5 na tabela PartySupplementaryData para um conjunto de dados, mas usa o ID 7 em outro conjunto de dados.
A remoção de um valor party_supplementary_data_id em que um modelo depende
pode ter efeitos imprevisíveis. Por exemplo, o ID 3 é usado na tabela PartySupplementaryData em um conjunto de dados, mas é omitido de outro.
Agora você tem um conjunto de dados pronto para ajuste, treinamento e avaliação do mecanismo. As operações de modelo podem levar dezenas de horas. Para saber como
verificar se uma operação ainda está em execução ou foi concluída (falhou ou teve sucesso),
consulte
Gerenciar operações de longa duração.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-08-17 UTC."],[[["\u003cp\u003eThis page outlines the three stages to prepare an AML AI model: configuring an engine, generating a model, and evaluating a model.\u003c/p\u003e\n"],["\u003cp\u003eConfiguring the engine involves selecting the source of hyperparameters, either through automatic tuning or inheriting from a previous engine config, and storing the results in an EngineConfig resource.\u003c/p\u003e\n"],["\u003cp\u003eGenerating a model involves training the model, and the results are stored as a Model resource.\u003c/p\u003e\n"],["\u003cp\u003eEvaluating a model, also known as backtesting, measures model performance over a specified timeframe and stores the summary results in a BacktestResult resource; generating prediction results allows for per-party output evaluation.\u003c/p\u003e\n"],["\u003cp\u003eDatasets used for engine tuning, training, evaluation, and prediction must be consistent in field population, logic, and selection to ensure AML model stability and high-quality risk scores, and it's recommended to use BigQuery table snapshots to ensure data consistency.\u003c/p\u003e\n"]]],[],null,["# Overview of model preparation\n\nThis page leads you through the steps to prepare an AML AI\nmodel, assuming you have already set up an instance and prepared the necessary\ndatasets.\n\nOverview of stages\n------------------\n\nThe process to prepare a model is in covered in the following three stages:\n\n- **Stage 1** :\n [Configure an engine](/financial-services/anti-money-laundering/docs/configure-engine),\n including selecting the source of hyperparameters:\n\n - Tuning: Automatic tuning of hyperparameters\n - Inherit: Inherit hyperparameters from a previous engine config that was created with an earlier engine version within the same [tuning version](/financial-services/anti-money-laundering/docs/concepts/glossary#engine-version). This setting lets you avoid re-tuning each time you adopt a new model engine version.\n\n [Creating an engine config](/financial-services/anti-money-laundering/docs/create-and-manage-engine-configs)\n stores the results from tuning or inheritance in an\n [EngineConfig resource](/financial-services/anti-money-laundering/docs/reference/rest/v1/projects.locations.instances.engineConfigs).\n- **Stage 2** :\n [Generate a model](/financial-services/anti-money-laundering/docs/generate-model)\n\n [Creating a model](/financial-services/anti-money-laundering/docs/create-and-manage-models)\n triggers training, storing the results as a\n [Model resource](/financial-services/anti-money-laundering/docs/reference/rest/v1/projects.locations.instances.models).\n- **Stage 3** :\n [Evaluate a model](/financial-services/anti-money-laundering/docs/evaluate-model)\n\n [Creating backtest results](/financial-services/anti-money-laundering/docs/create-and-manage-backtest-results)\n evaluates model performance on a specified set of months, storing summary\n results in a\n [BacktestResult resource](/financial-services/anti-money-laundering/docs/reference/rest/v1/projects.locations.instances.backtestResults).\n Optionally,\n [creating prediction results](/financial-services/anti-money-laundering/docs/create-and-manage-prediction-results)\n lets you evaluate per-party outputs of the model.\n\nOnce you have completed the earlier stages and model performance meets your\nneeds, see the guidance in sections [Generate risk scores and explainability](/financial-services/anti-money-laundering/docs/register-parties) and\n[Prepare for model and risk governance](/financial-services/anti-money-laundering/docs/collect-model-risk-governance-artifacts).\n\nBefore you begin\n----------------\n\nBefore you begin, you will need the following:\n\n- One or more [datasets](/financial-services/anti-money-laundering/docs/understand-data-model-requirements)\n- A selected [engine version](/financial-services/anti-money-laundering/docs/manage-engine-versions) to use\n\nDataset requirements\n--------------------\n\nFor detailed guidance on the data model and schema, see the pages under\n[Prepare Data for AML AI](/financial-services/anti-money-laundering/docs/understand-data-model-requirements). This section covers how to make sure that the datasets\nused in engine tuning, training, and evaluation work well together.\n\n\n| **Note** : Most model governance policies define a requirement to track data lineage used across all ML operations from engine configuration, training, and evaluation. To ensure data remains unchanged, we recommend that you create a [BigQuery table snapshot](/bigquery/docs/table-snapshots-intro) of your BigQuery tables after they pass data validation and reference the snapshot in the AML AI dataset. If you reference regularly updated tables, AML AI operations read the BigQuery tables each time an operation uses the AML AI dataset, so changes to the underlying BigQuery tables could impact tuning, training, backtesting, and predictions.\n\n\u003cbr /\u003e\n\n### Dataset time ranges\n\nEach dataset used for tuning, training, backtesting and prediction operations\nshould contain valid data for a time range ending at the end of the last full\ncalendar month prior to the end_time specified in the API call. The length of\nthis time range depends on the table, Engine Version and operation. The minimum\ntime range is covered in detail in [Understand data scope and duration](/financial-services/anti-money-laundering/docs/understand-data-scope-duration).\n\nFor example, for engine tuning with v004.004 engine versions, the Transaction\ntable should cover at least 30 months.\n\nConfiguring an engine, training, and evaluation (backtesting) can be completed\nwith a single dataset; see the following image. To ensure good production\nperformance by avoiding overfitting, you should ensure that the period used for\nevaluation (that is, creating backtest results) is after the period used for\ntraining (that is, creating a model).\n\nFor example: if using 3 periods for backtesting and using periods up to the end\nof February 2024 for training (that is, end time in early March 2024), then you\ncould use periods up to the end of May 2024 for backtesting (that is, end time\nin early June 2024).\n\n### Dataset consistency\n\nWhen using different datasets for the engine tuning, training, and evaluation\nstages, make the datasets consistent in which fields are populated and how they\nare populated. This is important for AML model stability and performance.\n\nSimilarly, for a high-quality [risk score](/financial-services/anti-money-laundering/docs/reference/schemas/aml-output-data-model#risk-scores), the\ndataset used to create prediction results with a model should be consistent with\nthe dataset used to train that model.\n\nIn particular, ensure the following:\n\n- **The same logic is used to populate each field.** Changing the logic used to populate a field can introduce feature skew between model training and prediction or evaluation.\n- **The same selection of RECOMMENDED fields are populated.** For example, removing a field that was populated during model training can cause features that the model relies on to be skewed or missing during evaluation or prediction.\n- **The same logic is used to provide values.** In the\n [PartySupplementaryData](/financial-services/anti-money-laundering/docs/reference/schemas/aml-input-data-model#partysupplementarydata) table, the same logic is used to\n provide values for each `party_supplementary_data_id` field.\n\n - Using the same data, but with different `party_supplementary_data_id` values, causes the model to use data incorrectly. For example, a particular field uses ID `5` in the [PartySupplementaryData](/financial-services/anti-money-laundering/docs/reference/schemas/aml-input-data-model#partysupplementarydata) table for one dataset, but then uses ID `7` in another dataset.\n - Removing a `party_supplementary_data_id` value that a model relies on may have unpredictable effects. For example, ID `3` is used in the [PartySupplementaryData](/financial-services/anti-money-laundering/docs/reference/schemas/aml-input-data-model#partysupplementarydata) table in one dataset but is omitted from another dataset.\n\nNow you have a dataset ready for engine tuning, training, and evaluation. Note\nthat model operations **can take tens of hours** . For information on how to\ncheck if an operation is still running or has completed (failed or succeeded),\nsee\n[Manage long-running operations](/financial-services/anti-money-laundering/docs/manage-long-running-operations)."]]