Erwägungsgrund 67
Qualitativ hochwertige Daten und der Zugang zu qualitativ hochwertigen Daten spielen eine entscheidende Rolle bei der Strukturierung und Sicherstellung der Leistung vieler KI-Systeme, insbesondere wenn Techniken verwendet werden, die das Training von Modellen beinhalten, um sicherzustellen, dass das risikoreiche KI-System wie beabsichtigt und sicher funktioniert und nicht zu einer nach Unionsrecht verbotenen Diskriminierung führt. Qualitativ hochwertige Datensätze für das Training, die Validierung und das Testen erfordern die Umsetzung geeigneter Datenverwaltungs- und -managementverfahren. Datensätze für Training, Validierung und Tests, einschließlich der Kennzeichnungen, sollten relevant, hinreichend repräsentativ und im Hinblick auf den beabsichtigten Zweck des Systems so weit wie möglich fehlerfrei und vollständig sein. Um die Einhaltung des Datenschutzrechts der Union, z. B. der Verordnung (EU) 2016/679, zu erleichtern, sollten die Verfahren zur Datenverwaltung und -kontrolle im Falle personenbezogener Daten Transparenz über den ursprünglichen Zweck der Datenerhebung beinhalten. Die Datensätze sollten auch die geeigneten statistischen Eigenschaften aufweisen, auch in Bezug auf die Personen oder Personengruppen, für die das Hochrisiko-KI-System verwendet werden soll, mit besonderem Augenmerk auf die Abschwächung möglicher Verzerrungen in den Datensätzen, die die Gesundheit und Sicherheit von Personen beeinträchtigen, sich negativ auf die Grundrechte auswirken oder zu einer nach dem Unionsrecht verbotenen Diskriminierung führen können, insbesondere wenn die Datenoutputs die Inputs für künftige Vorgänge beeinflussen (Feedback-Schleifen). Verzerrungen können beispielsweise in den zugrundeliegenden Datensätzen enthalten sein, insbesondere wenn historische Daten verwendet werden, oder entstehen, wenn die Systeme in realen Umgebungen eingesetzt werden. Die von KI-Systemen gelieferten Ergebnisse könnten durch solche inhärenten Verzerrungen beeinflusst werden, die dazu neigen, bestehende Diskriminierungen allmählich zu verstärken und dadurch fortzusetzen und zu verstärken, insbesondere für Personen, die bestimmten gefährdeten Gruppen angehören, einschließlich rassischer oder ethnischer Gruppen. Die Anforderung, dass die Datensätze so vollständig und fehlerfrei wie möglich sein müssen, sollte die Verwendung von Techniken zum Schutz der Privatsphäre im Zusammenhang mit der Entwicklung und Erprobung von KI-Systemen nicht beeinträchtigen. Insbesondere sollten die Datensätze in dem Maße, wie es ihr Verwendungszweck erfordert, die Merkmale, Eigenschaften oder Elemente berücksichtigen, die für das spezifische geografische, kontextuelle, verhaltensbezogene oder funktionale Umfeld, in dem das KI-System eingesetzt werden soll, von Bedeutung sind. Die Anforderungen an die Datenverwaltung können erfüllt werden, indem auf Dritte zurückgegriffen wird, die zertifizierte Konformitätsdienste anbieten, einschließlich der Überprüfung der Datenverwaltung, der Integrität der Datensätze und der Datenschulungs-, Validierungs- und Testverfahren, soweit die Einhaltung der Datenanforderungen dieser Verordnung gewährleistet ist.
