Descripción general de la preparación de modelos

En esta página se describen los pasos para preparar un modelo de IA de AML, suponiendo que ya has configurado una instancia y has preparado los conjuntos de datos necesarios.

Resumen de las fases

El proceso para preparar un modelo se divide en tres fases:

Una vez que haya completado las fases anteriores y el rendimiento del modelo se ajuste a sus necesidades, consulte las directrices de las secciones Generar puntuaciones de riesgo y explicabilidad y Prepararse para la gobernanza de modelos y riesgos.

Antes de empezar

Antes de empezar, necesitarás lo siguiente:

Requisitos de los conjuntos de datos

Para obtener instrucciones detalladas sobre el modelo de datos y el esquema, consulta las páginas de Preparar datos para AML AI. En esta sección se explica cómo asegurarse de que los conjuntos de datos utilizados en el ajuste, el entrenamiento y la evaluación del motor funcionen bien juntos.

Intervalos de tiempo de los conjuntos de datos

Cada conjunto de datos que se utilice para las operaciones de ajuste, entrenamiento, backtesting y predicción debe contener datos válidos de un periodo que finalice al final del último mes natural completo anterior a la hora de finalización especificada en la llamada a la API. La duración de este periodo depende de la tabla, la versión del buscador y la operación. El intervalo de tiempo mínimo se explica en detalle en el artículo Información sobre el ámbito y la duración de los datos.

Por ejemplo, para la optimización del motor con versiones de motor v004.004, la tabla Transaction debe cubrir al menos 30 meses.

Se puede configurar un motor, entrenarlo y evaluarlo (prueba retrospectiva) con un solo conjunto de datos. Consulta la siguiente imagen. Para asegurar un buen rendimiento de producción y evitar el sobreajuste, debe asegurarse de que el periodo utilizado para la evaluación (es decir, para crear resultados de prueba retrospectiva) sea posterior al periodo utilizado para el entrenamiento (es decir, para crear un modelo).

Por ejemplo, si usas 3 periodos para las pruebas retrospectivas y usas periodos hasta finales de febrero del 2024 para el entrenamiento (es decir, la hora de finalización es a principios de marzo del 2024), puedes usar periodos hasta finales de mayo del 2024 para las pruebas retrospectivas (es decir, la hora de finalización es a principios de junio del 2024).

Intervalos de tiempo de los conjuntos de datos para el ajuste, el entrenamiento y las pruebas retrospectivas

Coherencia del conjunto de datos

Cuando utilice diferentes conjuntos de datos para las fases de ajuste, entrenamiento y evaluación del buscador, asegúrese de que los conjuntos de datos sean coherentes en cuanto a los campos que se rellenan y a cómo se rellenan. Esto es importante para la estabilidad y el rendimiento del modelo de lucha contra el blanqueo de capitales.

Del mismo modo, para obtener una puntuación de riesgo de alta calidad, el conjunto de datos utilizado para crear resultados de predicción con un modelo debe ser coherente con el conjunto de datos utilizado para entrenar ese modelo.

En concreto, asegúrate de lo siguiente:

  • Se usa la misma lógica para rellenar cada campo. Si se cambia la lógica utilizada para rellenar un campo, se puede producir una asimetría de características entre el entrenamiento del modelo y la predicción o la evaluación.
  • Se rellenará la misma selección de campos RECOMENDADOS. Por ejemplo, si quitas un campo que se rellenó durante el entrenamiento del modelo, puede que las funciones en las que se basa el modelo se sesguen o falten durante la evaluación o la predicción.
  • Se usa la misma lógica para proporcionar valores. En la tabla PartySupplementaryData, se usa la misma lógica para proporcionar valores de cada campo party_supplementary_data_id.

    • Si se usan los mismos datos, pero con valores de party_supplementary_data_id diferentes, el modelo usará los datos de forma incorrecta. Por ejemplo, un campo concreto usa el ID 5 en la tabla PartySupplementaryData de un conjunto de datos, pero usa el ID 7 en otro conjunto de datos.
    • Si quitas un valor de party_supplementary_data_id del que depende un modelo, puede tener efectos impredecibles. Por ejemplo, el ID 3 se usa en la tabla PartySupplementaryData de un conjunto de datos, pero se omite en otro.

Ahora tienes un conjunto de datos listo para ajustar, entrenar y evaluar el motor. Ten en cuenta que las operaciones del modelo pueden tardar decenas de horas. Para obtener información sobre cómo comprobar si una operación sigue en curso o se ha completado (correctamente o no), consulta Gestionar operaciones de larga duración.