Fairness in Healthcare-ML hängt stärker vom Datensatz ab
Eine Studie zeigt: In der medizinischen Machine-Learning-Fairness bestimmen Datensätze den Ausschlag stärker als der verwendete Algorithmus.
Fairness-Ergebnisse in der Gesundheitsversorgung werden laut einer neuen Auswertung überwiegend durch die Eigenschaften des Datensatzes geprägt, nicht durch den Algorithmus.
Was passiert ist
Eine peer-reviewte Studie mit dem Titel „Dataset effects outweigh algorithmic effects in determining fairness of healthcare machine learning“ kommt zu dem Ergebnis, dass Unterschiede in den Daten deutlich stärker mit Fairness-Resultaten zusammenhängen als Unterschiede in den Modellierungsansätzen.
Die Arbeit ordnet damit praktische Bias- und Fairness-Audits neu: Die Auswahl, Aufbereitung und Zusammensetzung der Trainingsdaten gelten als entscheidender Hebel, um Ungleichbehandlungen in klinischen ML-Systemen zu reduzieren.
Warum das wichtig ist
Für das Gesundheitswesen heißt das: Fairness-Validierung darf sich nicht auf Modell-Parameter oder „Algorithmuswechsel“ verengen. Entscheidend ist, ob Datensätze repräsentativ, konsistent annotiert und so aufgebaut sind, dass relevante Patientengruppen vergleichbar abgebildet werden.
Damit verschiebt sich auch die regulatorische und dokumentationsseitige Erwartung: Klinische Nachweise und Fairness-Berichte müssen stärker darlegen, wie Datensatz-Eigenschaften getestet und adressiert wurden. Das betrifft insbesondere den Einsatz von KI-Systemen in Bereichen mit heterogenen Populationen, Versorgungssettings und Messmodalitäten.
Quellen: PubMed