Esta página se ha traducido con Cloud Translation API.

Descripción general de la preparación de modelos

En esta página se describen los pasos para preparar un modelo de IA de AML, suponiendo que ya has configurado una instancia y has preparado los conjuntos de datos necesarios.

Resumen de las fases

El proceso para preparar un modelo se divide en tres fases:

Fase 1: Configurar un buscador, lo que incluye seleccionar la fuente de los hiperparámetros:
- Ajuste: ajuste automático de hiperparámetros
- Heredar: hereda los hiperparámetros de una configuración de buscador anterior que se haya creado con una versión anterior del buscador en la misma versión de ajuste. Este ajuste te permite evitar tener que volver a configurar el modelo cada vez que adoptes una nueva versión del motor.
Crear una configuración de motor almacena los resultados de la optimización o la herencia en un recurso EngineConfig.
Fase 2: Generar un modelo

Crear un modelo activa el entrenamiento y almacena los resultados como un recurso Model.
Fase 3: Evaluar un modelo

Crear resultados de una prueba retrospectiva evalúa el rendimiento del modelo en un conjunto de meses especificado y almacena los resultados del resumen en un recurso BacktestResult. Si quieres, puedes crear resultados de predicción para evaluar los resultados de cada partido del modelo.

Una vez que haya completado las fases anteriores y el rendimiento del modelo se ajuste a sus necesidades, consulte las directrices de las secciones Generar puntuaciones de riesgo y explicabilidad y Prepararse para la gobernanza de modelos y riesgos.

Antes de empezar

Antes de empezar, necesitarás lo siguiente:

Uno o varios conjuntos de datos
Una versión del motor seleccionada

Requisitos de los conjuntos de datos

Para obtener instrucciones detalladas sobre el modelo de datos y el esquema, consulta las páginas de Preparar datos para AML AI. En esta sección se explica cómo asegurarse de que los conjuntos de datos utilizados en el ajuste, el entrenamiento y la evaluación del motor funcionen bien juntos.

Nota: La mayoría de las políticas de gobernanza de modelos definen un requisito para hacer un seguimiento del linaje de los datos utilizados en todas las operaciones de aprendizaje automático, desde la configuración del motor hasta el entrenamiento y la evaluación. Para asegurarte de que los datos no cambien, te recomendamos que crees una instantánea de tabla de BigQuery de tus tablas de BigQuery después de que superen la validación de datos y que hagas referencia a la instantánea en el conjunto de datos de IA de AML. Si haces referencia a tablas que se actualizan con regularidad, las operaciones de IA de AML leen las tablas de BigQuery cada vez que una operación usa el conjunto de datos de IA de AML, por lo que los cambios en las tablas de BigQuery subyacentes podrían afectar a la optimización, el entrenamiento, las pruebas retrospectivas y las predicciones.

Intervalos de tiempo de los conjuntos de datos

Cada conjunto de datos que se utilice para las operaciones de ajuste, entrenamiento, backtesting y predicción debe contener datos válidos de un periodo que finalice al final del último mes natural completo anterior a la hora de finalización especificada en la llamada a la API. La duración de este periodo depende de la tabla, la versión del buscador y la operación. El intervalo de tiempo mínimo se explica en detalle en el artículo Información sobre el ámbito y la duración de los datos.

Por ejemplo, para la optimización del motor con versiones de motor v004.004, la tabla Transaction debe cubrir al menos 30 meses.

Se puede configurar un motor, entrenarlo y evaluarlo (prueba retrospectiva) con un solo conjunto de datos. Consulta la siguiente imagen. Para asegurar un buen rendimiento de producción y evitar el sobreajuste, debe asegurarse de que el periodo utilizado para la evaluación (es decir, para crear resultados de prueba retrospectiva) sea posterior al periodo utilizado para el entrenamiento (es decir, para crear un modelo).

Por ejemplo, si usas 3 periodos para las pruebas retrospectivas y usas periodos hasta finales de febrero del 2024 para el entrenamiento (es decir, la hora de finalización es a principios de marzo del 2024), puedes usar periodos hasta finales de mayo del 2024 para las pruebas retrospectivas (es decir, la hora de finalización es a principios de junio del 2024).

Intervalos de tiempo de los conjuntos de datos para el ajuste, el entrenamiento y las pruebas retrospectivas

Coherencia del conjunto de datos

Cuando utilice diferentes conjuntos de datos para las fases de ajuste, entrenamiento y evaluación del buscador, asegúrese de que los conjuntos de datos sean coherentes en cuanto a los campos que se rellenan y a cómo se rellenan. Esto es importante para la estabilidad y el rendimiento del modelo de lucha contra el blanqueo de capitales.

Del mismo modo, para obtener una puntuación de riesgo de alta calidad, el conjunto de datos utilizado para crear resultados de predicción con un modelo debe ser coherente con el conjunto de datos utilizado para entrenar ese modelo.

En concreto, asegúrate de lo siguiente:

Se usa la misma lógica para rellenar cada campo. Si se cambia la lógica utilizada para rellenar un campo, se puede producir una asimetría de características entre el entrenamiento del modelo y la predicción o la evaluación.
Se rellenará la misma selección de campos RECOMENDADOS. Por ejemplo, si quitas un campo que se rellenó durante el entrenamiento del modelo, puede que las funciones en las que se basa el modelo se sesguen o falten durante la evaluación o la predicción.
Se usa la misma lógica para proporcionar valores. En la tabla PartySupplementaryData, se usa la misma lógica para proporcionar valores de cada campo party_supplementary_data_id.
- Si se usan los mismos datos, pero con valores de party_supplementary_data_id diferentes, el modelo usará los datos de forma incorrecta. Por ejemplo, un campo concreto usa el ID 5 en la tabla PartySupplementaryData de un conjunto de datos, pero usa el ID 7 en otro conjunto de datos.
- Si quitas un valor de party_supplementary_data_id del que depende un modelo, puede tener efectos impredecibles. Por ejemplo, el ID 3 se usa en la tabla PartySupplementaryData de un conjunto de datos, pero se omite en otro.

Ahora tienes un conjunto de datos listo para ajustar, entrenar y evaluar el motor. Ten en cuenta que las operaciones del modelo pueden tardar decenas de horas. Para obtener información sobre cómo comprobar si una operación sigue en curso o se ha completado (correctamente o no), consulta Gestionar operaciones de larga duración.

Descripción general de la preparación de modelos Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.