En esta página se describen los pasos para preparar un modelo de IA de AML, suponiendo que ya has configurado una instancia y has preparado los conjuntos de datos necesarios.
Resumen de las fases
El proceso para preparar un modelo se divide en tres fases:
Fase 1: Configurar un buscador, lo que incluye seleccionar la fuente de los hiperparámetros:
- Ajuste: ajuste automático de hiperparámetros
- Heredar: hereda los hiperparámetros de una configuración de buscador anterior que se haya creado con una versión anterior del buscador en la misma versión de ajuste. Este ajuste te permite evitar tener que volver a configurar el modelo cada vez que adoptes una nueva versión del motor.
Crear una configuración de motor almacena los resultados de la optimización o la herencia en un recurso EngineConfig.
Fase 2: Generar un modelo
Crear un modelo activa el entrenamiento y almacena los resultados como un recurso Model.
Fase 3: Evaluar un modelo
Crear resultados de una prueba retrospectiva evalúa el rendimiento del modelo en un conjunto de meses especificado y almacena los resultados del resumen en un recurso BacktestResult. Si quieres, puedes crear resultados de predicción para evaluar los resultados de cada partido del modelo.
Una vez que haya completado las fases anteriores y el rendimiento del modelo se ajuste a sus necesidades, consulte las directrices de las secciones Generar puntuaciones de riesgo y explicabilidad y Prepararse para la gobernanza de modelos y riesgos.
Antes de empezar
Antes de empezar, necesitarás lo siguiente:
- Uno o varios conjuntos de datos
- Una versión del motor seleccionada
Requisitos de los conjuntos de datos
Para obtener instrucciones detalladas sobre el modelo de datos y el esquema, consulta las páginas de Preparar datos para AML AI. En esta sección se explica cómo asegurarse de que los conjuntos de datos utilizados en el ajuste, el entrenamiento y la evaluación del motor funcionen bien juntos.
Intervalos de tiempo de los conjuntos de datos
Cada conjunto de datos que se utilice para las operaciones de ajuste, entrenamiento, backtesting y predicción debe contener datos válidos de un periodo que finalice al final del último mes natural completo anterior a la hora de finalización especificada en la llamada a la API. La duración de este periodo depende de la tabla, la versión del buscador y la operación. El intervalo de tiempo mínimo se explica en detalle en el artículo Información sobre el ámbito y la duración de los datos.
Por ejemplo, para la optimización del motor con versiones de motor v004.004, la tabla Transaction debe cubrir al menos 30 meses.
Se puede configurar un motor, entrenarlo y evaluarlo (prueba retrospectiva) con un solo conjunto de datos. Consulta la siguiente imagen. Para asegurar un buen rendimiento de producción y evitar el sobreajuste, debe asegurarse de que el periodo utilizado para la evaluación (es decir, para crear resultados de prueba retrospectiva) sea posterior al periodo utilizado para el entrenamiento (es decir, para crear un modelo).
Por ejemplo, si usas 3 periodos para las pruebas retrospectivas y usas periodos hasta finales de febrero del 2024 para el entrenamiento (es decir, la hora de finalización es a principios de marzo del 2024), puedes usar periodos hasta finales de mayo del 2024 para las pruebas retrospectivas (es decir, la hora de finalización es a principios de junio del 2024).
Coherencia del conjunto de datos
Cuando utilice diferentes conjuntos de datos para las fases de ajuste, entrenamiento y evaluación del buscador, asegúrese de que los conjuntos de datos sean coherentes en cuanto a los campos que se rellenan y a cómo se rellenan. Esto es importante para la estabilidad y el rendimiento del modelo de lucha contra el blanqueo de capitales.
Del mismo modo, para obtener una puntuación de riesgo de alta calidad, el conjunto de datos utilizado para crear resultados de predicción con un modelo debe ser coherente con el conjunto de datos utilizado para entrenar ese modelo.
En concreto, asegúrate de lo siguiente:
- Se usa la misma lógica para rellenar cada campo. Si se cambia la lógica utilizada para rellenar un campo, se puede producir una asimetría de características entre el entrenamiento del modelo y la predicción o la evaluación.
- Se rellenará la misma selección de campos RECOMENDADOS. Por ejemplo, si quitas un campo que se rellenó durante el entrenamiento del modelo, puede que las funciones en las que se basa el modelo se sesguen o falten durante la evaluación o la predicción.
Se usa la misma lógica para proporcionar valores. En la tabla PartySupplementaryData, se usa la misma lógica para proporcionar valores de cada campo
party_supplementary_data_id
.- Si se usan los mismos datos, pero con valores de
party_supplementary_data_id
diferentes, el modelo usará los datos de forma incorrecta. Por ejemplo, un campo concreto usa el ID5
en la tabla PartySupplementaryData de un conjunto de datos, pero usa el ID7
en otro conjunto de datos. - Si quitas un valor de
party_supplementary_data_id
del que depende un modelo, puede tener efectos impredecibles. Por ejemplo, el ID3
se usa en la tabla PartySupplementaryData de un conjunto de datos, pero se omite en otro.
- Si se usan los mismos datos, pero con valores de
Ahora tienes un conjunto de datos listo para ajustar, entrenar y evaluar el motor. Ten en cuenta que las operaciones del modelo pueden tardar decenas de horas. Para obtener información sobre cómo comprobar si una operación sigue en curso o se ha completado (correctamente o no), consulta Gestionar operaciones de larga duración.