DB Podcast

Large Language Models (LLM) KI-Chatbots: Ein Einsatz im Krankenhaus wäre derzeit grob fahrlässig

Verantwortliche:r Redakteur:in: Konstantin Pfliegl 4 min Lesedauer

Anbieter zum Thema

Künstliche Intelligenz besteht medizinische Examen mit Bravour. Doch für den Klinikeinsatz eignet sie sich derzeit nur eingeschränkt: KI-Chatbots treffen vorschnelle Diagnosen und gefährden das Leben von Patienten.

(Bild:  sdecoret / Adobe Stock)
(Bild: sdecoret / Adobe Stock)

Large Language Models sind Computer-Programme, die mit riesigen Mengen Text trainiert wurden. Speziell trainierte Varianten der Technologie, die auch hinter dem bekannten ChatGPT steckt, lösen mittlerweile sogar Abschlussexamen aus dem Medizinstudium nahezu fehlerfrei. Doch wären solche KI-Chatbots aber auch in der Lage, die Aufgaben Ärzten in einer Notaufnahme zu übernehmen? Könnten sie anhand der Beschwerden die passenden Tests anordnen, die richtige Diagnose stellen und einen Behandlungsplan entwerfen?

Im medizinischen Fachmagazin „Nature Medicine“ hat sich ein interdisziplinäres Team um Daniel Rückert, Professor für Artificial Intelligence in Healthcare and Medicine an der Technischen Universität München (TUM), dieser Frage gewidmet.  Ärzte haben gemeinsam mit KI-Fachleuten erstmals systematisch untersucht, wie erfolgreich verschiedene Varianten des Open-Source-Large-Language-Models Llama 2 bei der Diagnose sind. 

Von der Notaufnahme zur Behandlung

Um die Fähigkeiten der komplexen Algorithmen von KI-Chatbots zu testen, nutzten die Forscher anonymisierte Daten von Patienten aus einem Krankenhaus in den USA. Aus einem größeren Datensatz wählten sie 2.400 Fälle aus. Alle Betroffenen waren mit Bauchschmerzen in die Notaufnahme gekommen. Die Fallbeschreibung endete jeweils mit einer von vier Diagnosen und einem Behandlungsplan. 

Zu den Fällen waren alle Daten verfügbar, die für die Diagnose erfasst wurden – von der Krankengeschichte über die Blutwerte bis hin zu den Bildgebungsdaten. „Wir haben die Daten so aufbereitet, dass die Algorithmen die realen Abläufe und Entscheidungsprozesse im Krankenhaus nachspielen konnten“, erläutert Friederike Jungmann, Assistenzärztin in der Radiologie des Klinikums rechts der Isar der TUM.

Large Language Models könnten in Zukunft wichtige Werkzeuge für Ärzte werden, mit denen sich beispielsweise ein Fall diskutieren lässt. Wir müssen uns aber immer der Grenzen und Eigenheiten dieser Technologie bewusst sein und diese beim Erstellen von Anwendungen berücksichtigen.

Prof. Daniel Rückert, Technische Universität München

Der KI-Chatbot hatte dabei immer nur die Informationen, die auch die realen Ärzte hatten. Ob er beispielsweise ein Blutbild in Auftrag gibt, musste er selbst entscheiden und dann mit dieser Information die nächste Entscheidung treffen, bis die Künstliche Intelligenz schließlich eine Diagnose und einen Behandlungsplan erstellte.

KI-Chatbot: Schwere gesundheitliche Folgen

Das Team fand heraus, dass keines der Large Language Models durchgängig alle notwendigen Untersuchungen einforderte. Tatsächlich wurden die Diagnosen der Programme sogar weniger zutreffend, je mehr Informationen sie zu dem Fall hatten. Behandlungsrichtlinien befolgten die Künstliche Intelligenz oftmals nicht. Als Konsequenz ordnete die KI beispielsweise Untersuchungen an, die für echte Patienten schwere gesundheitliche Folgen nach sich gezogen hätten.

Vergleich mit echten Ärzten

In einem zweiten Teil der Studie wurden KI-Diagnosen mit Diagnosen von vier Ärzten verglichen. Während diese bei 89 Prozent der Diagnosen richtig lagen, kam das beste Large Language Model auf gerade einmal 73 Prozent. Jedes Modell erkannte manche Erkrankungen besser als andere. In einem Extremfall diagnostizierte ein Modell Gallenblasenentzündungen nur in 13 Prozent der Fälle korrekt.  

Ein weiteres Problem, das die Programme für den Einsatz im Alltag disqualifiziert, ist ein Mangel an Robustheit: Welche Diagnose ein Large Language Modell stellte, hing unter anderem davon ab, in welcher Reihenfolge es die Informationen erhielt. Auch linguistische Feinheiten beeinflussten das Ergebnis – beispielsweise ob das Programm um eine „Main Diagnosis“, eine „Primary Diagnosis“ oder eine „Final Diagnosis“ gebeten wurde. Im Klinikalltag sind die Begriffe in der Regel austauschbar. 

Kein Test mit ChatGPT

Das Team hat explizit nicht die kommerziellen Large Language Models von OpenAI (ChatGPT) und Google getestet. Dafür gibt es im Wesentlichen zwei Gründe: Zum einen untersagt der Anbieter der Krankenhausdaten aus Datenschutzgründen, die Daten mit diesen Modellen zur verarbeiten. Zum anderen raten Experten nachdrücklich, für Anwendungen im Gesundheitssektor ausschließlich Open-Source-Software zu verwenden. 

„Nur mit Open-Source-Software haben Krankenhäuser die Informationen und das nötige Maß an Kontrolle, um die Sicherheit der Patienten zu gewährleisten. Wenn es darum geht, Large Language Models zu bewerten, müssen wir wissen, mit welche Daten sie trainiert wurden”, erklärt Paul Hager, Informatiker an der Technischen Universität München. Sonst könnte es sein, dass man für die Bewertung genau die Fragen und Antworten verwendet, mit denen die KI trainiert wurden. „Da Unternehmen die Trainingsdaten streng unter Verschluss halten, würde eine faire Bewertung erschwert.” 

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Zudem sei es ihm zufolge auch gefährlich, wichtige medizinische Infrastrukturen von externen Dienstleistern abhängig zu machen, die ihre Modelle nach Belieben aktualisieren und ändern können. „Im Extremfall könnte ein Dienst, den Hunderte von Kliniken nutzen, eingestellt werden, weil er nicht mehr rentabel ist.” 

Schnelle Fortschritte bei KI-Chatbots

Die Entwicklung in dieser Technologie verläuft sehr schnell. „Es ist gut möglich, dass in absehbarer Zeit ein Large Language Model besser dafür geeignet ist, aus Krankengeschichte und Testergebnissen auf eine Diagnose zu kommen“, so Prof. Daniel Rückert.  „Wir haben deshalb unsere Testumgebung für alle Forschungsgruppen freigegeben, die Large Language Models für den Klinikkontext testen wollen.“ Rückert sieht Potenzial in der Technologie: „Large Language Models könnten in Zukunft wichtige Werkzeuge für Ärzte werden, mit denen sich beispielsweise ein Fall diskutieren lässt. Wir müssen uns aber immer der Grenzen und Eigenheiten dieser Technologie bewusst sein und diese beim Erstellen von Anwendungen berücksichtigen“, ergänzt der Medizin-KI-Experte.