Wissenswertes aus dem Gesundheitswesen: Nachrichten, Hintergründe, Interviews und mehr...
Branchenrelevante Informationen regelmäßig in Ihrem Postfach
Patienten greifen immer häufiger auf digitale Tools zurück, um Krankheiten zu erkennen und Handlungsempfehlungen zu erhalten. Zwei Studien der Technischen Universität (TU) Berlin haben nun die Qualität und Wirksamkeit solcher digitalen Gesundheitsempfehlungen untersucht. Die Ergebnisse zeigen sowohl Potenziale als auch Risiken auf. Die Studien sind in den Fachzeitschriften „Journal Scientific Reports“ und „npj Health Systems Journal“ erschienen.
In der ersten Studie entwickelte ein Team um Dr. Marvin Kopka aus dem Fachgebiet Arbeitswissenschaft der TU eine neue Testmethode, um die Genauigkeit von Gesundheitsempfehlungen durch ChatGPT und andere KI-Modelle wie Meta’s LLaMa sowie speziell entwickelte Symptom-Checker-Apps, die Symptome abfragen und darauf basierend Handlungsempfehlungen geben, zu bewerten. Während frühere Tests auf idealisierten Lehrbuchfällen basierten, die in der Realität so kaum vorkommen, setzt die neue Methode auf echte Patientenfälle, mit denen die Wissenschaftler verschiedene digitale Tools testeten. Dadurch lasse sich realistischer einschätzen, wie präzise und hilfreich die digitalen Tools in der Praxis seien, hieß es zu dem Ansatz. „Man kann unsere standardisierte Methode als eine Art ‚Stiftung Warentest‘ ansehen, da wir mit ihr die Genauigkeit von verschiedenen Apps vergleichen können, aber auch ihre Stärken und Schwächen finden“, so Kopka.
Hilfreicher sind Symptom-Checker-Apps
Laut der Forscher zeigen die Ergebnisse der neu entwickelten Bewertungsmethode, dass Symptom-Checker-Apps für Laien deutlich hilfreicher sind als ChatGPT, insbesondere wenn es um die Unterscheidung zwischen harmlosen und ernsten Symptomen geht. Während ChatGPT fast jeden Fall als Notfall oder hochdringlich einstufe, könnten die spezialisierten Apps in den meisten Fällen fundierte und angemessenere Empfehlungen geben. Was auch schon andere Studien belegen: ChatGPT kann Krankheiten gut diagnostizieren, wenn Laborwerte oder Untersuchungsergebnisse vorliegen. Da diese zu Hause meist fehlen, bleibe die Diagnose aber oft ungenau und die vom Modell vorgeschlagene Liste mit mehreren möglichen Erkrankungen helfe Laien wenig. Entscheidender seien Handlungsempfehlungen wie „Geh zum Arzt“ oder „Ruf die 112“ – hier schneide ChatGPT jedoch schlecht ab, da es fast jeden Fall als behandlungsbedürftig einstuft, selbst bei harmlosen Symptomen.
Laien erkennen Notfälle zuverlässig
Was die Forscher auch herausfanden: Laien erkennen medizinische Notfälle meist zuverlässig und rufen in ernsten Fällen, wie bei einer schweren Kopfverletzung mit Erbrechen und Schwindel, den Rettungsdienst. Schwerer fällt es ihnen jedoch, harmlose Symptome richtig einzuschätzen. So neigen viele dazu, bei leichten Beschwerden wie kurzfristigem Durchfall oder einer kleinen Hautveränderung vorschnell ärztliche Hilfe in Anspruch zu nehmen, obwohl dies oft nicht nötig wäre. „Dass immer mehr Menschen ChatGPT für medizinische Ratschläge nutzen, ist schädlich für das Gesundheitssystem. Die KI motiviert die Nutzer*innen häufig dazu, bei den kleinsten Symptomen sofort einen Arzt oder die Notaufnahme aufzusuchen. Das kann zu einer massiven Überlastung führen“, so Kopka.
Und stark in Anspruch genommen werden die Notaufnahmen sowieso schon: Laut Daten des Statistischen Bundesamts (Destatis) wurden in den Krankenhäusern in Deutschland 2023 rund 12,4 Millionen ambulante Notfälle behandelt – der höchste Wert seit Beginn der systematischen Erfassung im Jahr 2018. Eine Blitzumfrage der Deutschen Gesellschaft für interdisziplinäre Notfall- und Akutmedizin (DGINA) Ende 2023 ergab, dass über 75 Prozent der Notfallkliniken unbesetzte Stellen haben und die Personalengpässe anhaltend, extrem hoch und multifaktoriell begründet sind. Fast 60 Prozent der Notaufnahmen befanden sich im Befragungszeitraum zumindest zeitweise in einer sogenannten „Overcrowding“-Situation – fast 43 Prozent gaben an, es habe an ein sehr hohes Patientenaufkommen mit Überlastung gegeben, gut zwölf Prozent gaben sogar an, dass es ein extrem hohes Patientenaufkommen mit schwerwiegender Überlastung gegeben habe.
Nutzer übernehmen digitale Empfehlungen nicht unkritisch
Die zweite Studie verglich nicht nur Menschen und Technik, sondern untersuchte, wie genau Menschen die Empfehlungen von ChatGPT und Symptom-Checker-Apps in ihre eigenen Entscheidungen einbeziehen. Dabei zeigte sich, dass Nutzer die Empfehlungen nicht unkritisch übernehmen, sondern mit anderen Quellen wie Google-Suchen, dem Rat von Freunden oder weiteren Apps abgleichen. Auf der anderen Seite gebe es auch Fälle, in denen Patienten zu viele und teils unverständliche Informationen von den digitalen Tools bekommen, die sie nicht einordnen können, so Kopka. „Das erzeugt Angst und sie suchen dann den Expertenrat in der Notaufnahme oder beim Hausarzt – auch bei harmlosen Beschwerden, so wie es ihnen ChatGPT empfiehlt“.
Vor einer quantitativen Untersuchung mit 600 Probanden wurden in der zweiten Studie zunächst 24 Personen bei der Nutzung beobachtet und anschließend ein Modell aufgestellt, wie sie Entscheidungen mit Hilfe von ChatGPT und Apps treffen. Die Auswertung habe erneut ergeben, dass ChatGPT die Selbstversorgung erschwere und die Zahl unnötiger Arztbesuche erhöhe, so die Forscher. Demgegenüber hätten gut funktionierende Symptom-Checker-Apps dazu beitragen, dass Nutzer sich in passenden Fällen für die Selbstversorgung entschieden und so zur Entlastung des Gesundheitssystems beitrugen. „ChatGPT hat viele sinnvolle Anwendungsfälle, aber zur Entscheidung, ob ich zum Arzt gehen sollte, ist es nicht geeignet – dafür ist es viel zu ungenau", resümiert Kopka. „Wir sollten uns eher fragen, ob eine App uns hilft, gute Entscheidungen zu treffen, statt von ihr Perfektion zu erwarten. Denn Menschen treffen bereits jetzt in den meisten Fällen sichere und vernünftige Entscheidungen. In einigen Situationen können Sie jedoch von den Apps profitieren."
Die Studien verdeutlichen laut der Autoren, dass digitale Tools sinnvoll eingesetzt werden können, um Patienten in ihrer Entscheidungsfindung zu unterstützen. Speziell entwickelte Symptom-Checker-Apps hätten sich dabei aktuell als hilfreicher als generative KI-Modelle wie ChatGPT erwiesen. Dennoch bleibt laut der Wissenschaftler ein kritischer Umgang mit digitalen Empfehlungen entscheidend, um Fehleinschätzungen und eine unnötige Belastung des Gesundheitssystems zu vermeiden.
Publikationen:
npj Health Systems Journal: Technology-Supported Self-Triage Decision Making
Dieser Beitrag stammt aus dem medhochzwei Newsletter 8/2025. Abonnieren Sie hier kostenlos, um keine News aus der Branche mehr zu verpassen!