Recital 67
Los datos de alta calidad y el acceso a datos de alta calidad desempeñan un papel vital a la hora de proporcionar estructura y garantizar el rendimiento de muchos sistemas de IA, especialmente cuando se utilizan técnicas que implican el entrenamiento de modelos, con vistas a garantizar que el sistema de IA de alto riesgo funcione según lo previsto y de forma segura y no se convierta en una fuente de discriminación prohibida por el Derecho de la Unión. Los conjuntos de datos de alta calidad para el entrenamiento, la validación y las pruebas requieren la aplicación de prácticas adecuadas de gobernanza y gestión de datos. Los conjuntos de datos para la formación, la validación y las pruebas, incluidas las etiquetas, deben ser pertinentes, suficientemente representativos y, en la medida de lo posible, libres de errores y completos en vista de la finalidad prevista del sistema. Para facilitar el cumplimiento de la legislación de la Unión en materia de protección de datos, como el Reglamento (UE) 2016/679, las prácticas de gobernanza y gestión de datos deben incluir, en el caso de los datos personales, la transparencia sobre la finalidad original de la recogida de datos. Los conjuntos de datos también deben tener las propiedades estadísticas adecuadas, incluso en lo que respecta a las personas o grupos de personas en relación con los cuales se pretende utilizar el sistema de IA de alto riesgo, con especial atención a la mitigación de posibles sesgos en los conjuntos de datos, que puedan afectar a la salud y la seguridad de las personas, tener un impacto negativo en los derechos fundamentales o dar lugar a discriminaciones prohibidas por el Derecho de la Unión, especialmente cuando las salidas de datos influyan en las entradas para futuras operaciones (bucles de retroalimentación). Los sesgos pueden, por ejemplo, ser inherentes a los conjuntos de datos subyacentes, especialmente cuando se utilizan datos históricos, o generarse cuando los sistemas se aplican en entornos del mundo real. Los resultados proporcionados por los sistemas de IA podrían verse influidos por estos sesgos inherentes, que tienden a aumentar gradualmente y, por tanto, a perpetuar y amplificar la discriminación existente, en particular para las personas pertenecientes a determinados grupos vulnerables, incluidos los grupos raciales o étnicos. El requisito de que los conjuntos de datos sean, en la medida de lo posible, completos y estén libres de errores no debe afectar al uso de técnicas de preservación de la intimidad en el contexto del desarrollo y las pruebas de los sistemas de IA. En particular, los conjuntos de datos deben tener en cuenta, en la medida en que lo exija su finalidad prevista, los rasgos, características o elementos propios del entorno geográfico, contextual, conductual o funcional específico en el que se pretende utilizar el sistema de IA. Los requisitos relativos a la gobernanza de los datos pueden cumplirse recurriendo a terceros que ofrezcan servicios certificados de conformidad, incluida la verificación de la gobernanza de los datos, la integridad de los conjuntos de datos y las prácticas de formación, validación y ensayo de datos, en la medida en que se garantice el cumplimiento de los requisitos relativos a los datos del presente Reglamento.