Symbolbild Diagnostik
zurück zur Übersicht

Mensch-KI-Kollektive stark in der Diagnostik

Innovation & Forschung
International

Hybride Teams aus Ärzt*innen und KI stellen genauere Diagnosen als Menschen oder Maschinen allein, wie eine Studie des Max-Planck-Instituts für Bildungsforschung zeigt.

Diagnosefehler zählen zu den gravierenden Problemen im Gesundheitswesen. KI-Systeme wie ChatGPT-4, Gemini oder Claude 3 versprechen neue Möglichkeiten, die medizinische Diagnostik effizient zu unterstützen. Sie bergen aber auch erhebliche Risiken, denn sie können „halluzinieren“, falsche Informationen generieren oder bestehende Vorurteile reproduzieren. Zudem machen sie Fehler, die für Menschen oft nicht nachvollziehbar sind.

Ein internationales Forschungsteam unter Leitung des Max-Planck-Instituts für Bildungsforschung hat gemeinsam mit Partnern vom Human Diagnosis Project in San Francisco und dem Institute for Cognitive Sciences and Technologies des italienischen Nationalen Forschungsrats in Rom untersucht, wie Mensch und Maschine optimal zusammenarbeiten können. Hybride Diagnose-Kollektive aus menschlichen Fachkräften und KI-Systemen sind deutlich genauer als rein menschliche oder rein maschinelle Teams, wie die Untersuchung zeigt. Das gilt insbesondere bei komplexen diagnostischen Fragestellungen mit einer Vielzahl möglicher Lösungen.

Für ihre groß angelegte Studie griffen die Forschenden auf Daten des Human Diagnosis Project zurück, das klinische Fallvignetten und die zugehörigen korrekten Diagnosen bereitstellt. Mehr als 2.100 dieser Vignetten wurden von Mediziner*innen und fünf führenden KI-Modellen bearbeitet.

Cartoon MPI Bildungsfrischung

Im zentralen Experiment simulierten die Wissenschaftler*innen verschiedene Diagnosekollektive: Einzelpersonen, menschliche Kollektive, KI-Modelle, Kollektive von KI-Modellen und gemischte Mensch-KI-Kollektive. Insgesamt analysierten sie mehr als 40.000 Diagnosen, die alle nach internationalen medizinischen Standards (SNOMED CT) klassifiziert und bewertet wurden.

Die Ergebnisse zeigen ein differenziertes Bild: Wenn mehrere KI-Modelle kombiniert wurden, erhöhte sich die Diagnosequalität deutlich. Das KI-Kollektiv lag im Durchschnitt über dem Niveau von 85 Prozent der menschlichen Diagnostiker. Doch es gab zahlreiche Fälle, in denen Menschen besser abschnitten. Dies interessanterweise oft genau dann, wenn die KI versagte. Menschen kannten häufig die richtige Diagnose, wenn die Maschine scheiterte.

Zusammenarbeit übertrifft alles

Die größte Überraschung war die Kombination beider Welten. Selbst das Hinzufügen eines einzelnen KI-Modells zu einem Ärzt*innenteam – oder umgekehrt – verbesserte das Ergebnis erheblich. Die zuverlässigsten Diagnosen entstanden durch kollektive Entscheidungen, an denen mehrere Menschen und mehrere KI-Systeme beteiligt waren.

Der Grund für den Erfolg liegt in der sogenannten Fehlerkomplementarität: Mensch und KI machen systematisch unterschiedliche Fehler, die sich gegenseitig ausgleichen können. Wenn die KI in bestimmten Fällen versagt, kann eine menschliche Fachkraft den Fehler kompensieren – und umgekehrt. Diese komplementären Schwächen und Stärken machen hybride Kollektive besonders leistungsstark.

„Es geht nicht darum, den Menschen durch Maschinen zu ersetzen", betont der Co-Autor der Studie Stefan Herzog, Senior Research Scientist am Max-Planck-Institut. „Vielmehr sollten wir Künstliche Intelligenz als ergänzendes Werkzeug begreifen, das in der kollektiven Entscheidungsfindung sein volles Potenzial entfaltet."

Die Forschenden betonen auch die Grenzen ihrer Arbeit. Untersucht wurden ausschließlich textbasierte Fallvignetten, nicht echte Patient*innen in realen klinischen Situationen. Ob sich die Ergebnisse direkt auf die Praxis übertragen lassen, müssen Folgestudien zeigen. Zudem konzentrierte sich die Studie ausschließlich auf die Diagnose, nicht auf die Behandlung.

Auch andere wichtige Fragen bleiben offen: Wie werden KI-basierte Unterstützungssysteme in der Praxis von medizinischem Personal und Patient*innen angenommen? Auch potenziellen Risiken von Voreingenommenheit und Diskriminierung durch KI sowie durch menschliche Fachkräfte, insbesondere bezüglich ethnischer, sozialer oder geschlechtsspezifischer Unterschiede, bedürfen weiterer Forschung.

Die Studie ist Teil des EU-geförderten Projekts „Hybrid Human Artificial Collective Intelligence in Open-Ended Decision Making" (HACID), das die Entwicklung zukünftiger klinischer Entscheidungsunterstützungssysteme durch die intelligente Integration von menschlicher und künstlicher Intelligenz fördern soll. Die Forschenden sehen besonderes Potenzial in Regionen mit eingeschränktem Zugang zu medizinischer Versorgung.

Der Ansatz lasse sich auch auf andere kritische Bereiche übertragen, wie HACID-Projektkoordinator Vito Trianni erklärt: „Das gilt überall dort, wo komplexe, risikoreiche Entscheidungen getroffen werden müssen – im Rechtssystem, bei der Katastrophenhilfe oder in der Klimapolitik. Das HACID-Projekt entwickelt beispielsweise auch Instrumente zur Verbesserung der Entscheidungsfindung im Bereich der Klimaanpassung."

Publikation: Zöller, N., Berger, J., Lin, I., Fu, N., Komarneni, J., Barabucci, G., Laskowski, K., Shia, V., Harack, B., Chu, E. A., Trianni, V., Kurvers, R. H. J. M., & Herzog, S. M. (2025). Human-AI collectives most accurately diagnose clinical vignettes. Proceedings of the National Academy of Sciences of the United States of America, 122(24), Article e2426153122. https://doi.org/10.1073/pnas.2426153122

Bilder: Freepik (Titelbild); Kollektive Intelligenz in der Medizin © MPI für Bildungsforschung

Ähnliche Beiträge zu diesem Thema