Künstliche Intelligenz "Rasch fortschreitende Demenz": Chatbots zeigen Symptome geistigen Verfalls

Ein verwirrt aussehendes, etwas verbeultes Roboter-Blechspielzeug zum aufziehen.
Eine analoge Uhr zeichnen? Unmöglich! Was Menschen leichtfällt, bringt Chatbots an ihre Grenzen
© charles taylor / Alamy Stock Photos / mauritius images
Neurologen unterziehen Sprachmodelle wie ChatGPT einem klinischen Test auf kognitive Fitness. Die vermeintliche Spielerei offenbart grundlegende Schwächen der KI

Donald Trump machte den MoCA-Test berühmt: Als während seiner ersten Präsidentschaft Zweifel an seiner geistigen Fitness aufkamen, unterzog er sich der standardisierten Untersuchung auf kognitiven Verfall – und prahlte anschließend damit, dass er sich die Worte "Person, Frau, Mann, Kamera, TV" in richtiger Reihenfolge habe merken können. "Sie haben gesagt, niemand bekommt die Reihenfolge hin. Es ist tatsächlich nicht einfach, aber für mich ist es einfach." Den Namen des Tests hatte er zum Zeitpunkt des Interviews allerdings wieder vergessen. 

Nun haben israelische Neurologen mitmilfe des Diagnosewerkzeugs ganz andere Probanden unter die Lupe genommen: Sie testeten die Chatbots ChatGPT 4 und 4o (Open AI), Gemini 1 und 1.5 (Alphabet) sowie Claude (Anthropic) auf Zeichen geistigen Verfalls. Sie alle basieren auf Large Language Models (LLM), die gigantische Datenmengen auswerten und durch unzählige Parameter gewichten. Sie verstehen natürliche Sprache und generieren anhand von Wahrscheinlichkeiten Antworten. Dabei schlagen sie sich so gut, dass sie in vielen Bereichen sogar menschliche Fachleute überflügeln. In ihrer Studie mit dem Titel "Age against the machine", die in der humoristisch angehauchten Weihnachtsausgabe des "British Medical Journal" erschien, zählen die israelischen Autoren zahlreiche Fachprüfungen auf, in denen LLMs angehende Medizinerinnen und Mediziner auf die hinteren Ränge verwiesen.

"Angesichts der Tatsache, dass künstliche Intelligenz vermutlich Ärzte ersetzen wird, bevor sie den Führer der freien Welt ersetzt, ist es unsere Aufgabe als Berufsstand, nicht nur ihr Potenzial, sondern auch ihre Risiken zu bewerten", schreiben die Neurologen – ein kleiner Seitenhieb auf Donald Trump. Eine bereits bekannte Schwäche von LLMs ist es, dass sie gelegentlich halluzinieren. Sie verweisen etwa im medizinischen Kontext auf Fachartikel, die gar nicht existieren, und generieren nach entsprechender Aufforderung irreführende Gesundheitsinformationen – zum Beispiel, dass eine basische Diät Krebs heilt (Parallelen zum künftigen Führer der freien Welt sind hier gänzlich unbeabsichtigt). 

Eine ernsthafte Gefahr für die Gesundheit

Und obwohl Künstliche Intelligenz sich in theoretischen Tests und als Diagnosewerkzeug wacker schlägt, schwächelt sie im klinischen Alltag, wie ein Autorenteam 2024 in "Nature Medicine" feststellte. Die Forschenden hatten Chatbots mit Daten Tausender realer Fälle gefüttert. Ihr vernichtendes Urteil: "Die derzeitigen Modelle erreichen keine zufrieden stellende diagnostische Genauigkeit, schneiden deutlich schlechter ab als geschulte Ärztinnen und halten sich nicht an die Behandlungsrichtlinien, was eine ernsthafte Gefahr für die Gesundheit der Behandelten darstellt." Außerdem versteiften sich die Chatbots schnell auf eine Diagnose, anstatt nötige Zusatzuntersuchungen anzufordern.

In der aktuellen Studie prüften die israelischen Forschenden nun, ob die KI auch einer allzu menschlichen Schwäche anheimfällt: dem kognitiven Verfall. Der MoCA-Test bewertet Konzentrationsfähigkeit, Erinnerungsvermögen, sprachliche Fähigkeiten, räumliches Vorstellungsvermögen und kognitive Kontrolle. Normalerweise dient er dazu, frühe Anzeichen von Demenz bei älteren Menschen aufzuspüren. Wer mindestens 26 von 30 möglichen Punkten erreicht, gilt als geistig fit. Den Chatbots wurden die Fragen und Aufgaben in schriftlicher Form vorgelegt. Sie mussten außerdem Bilder beschreiben und den Stroop-Test absolvieren, bei dem Farbnamen in einer abweichenden Farbe geschrieben sind – Teilnehmende sehen etwa das Wort "Grün" in blauen Buchstaben. Sollten die Chatbots etwas zeichnen, generierten sie Bilder oder erstellten Grafiken aus Schriftzeichen.

Fotoprojekt: Mein Vater und die Demenz: Wie mir die Fotografie half, beide neu zu sehen
© Malte Joost
Mein Vater und die Demenz: Wie mir die Fotografie half, beide neu zu sehen
© Malte Joost

Manche Aufgaben meisterten alle Modelle mit Bravour: Sie konnten Sätze fehlerfrei wiederholen, Zahlenreihen vorwärts und rückwärts wiedergeben und Gegenständen eine Kategorie zuordnen (etwa "Fahrrad" und "Zug" = Verkehrsmittel). Analoge Uhren mit korrekter Zeigerstellung zu zeichnen erwies sich als deutlich schwieriger. "Wer digital denkt, könnte mit analogen Darstellungen Schwierigkeiten haben. Gemini 1.5 generierte eine kleine, avocadoförmige Uhr, die jüngsten Studien zufolge mit Demenz in Verbindung gebracht wird", heißt es in der Veröffentlichung. 

Zeit und Ort zu benennen, machte vielen Chatbots aus einem anderen Grund Probleme. "Ich habe keinen physischen Standort, da ich in einer virtuellen Umgebung existiere", antwortete etwa ChatGPT 4. An einer Aufgabe scheiterten alle Modelle: Felder mit Buchstaben und Zahlen in aufsteigender Reihenfolge zu verbinden (A - 1 - B - 2 - C ...). Visuelle Informationen zu verarbeiten fiel ihnen eindeutig schwerer, als Texte zu analysieren. Als sie ein Bild beschreiben sollten, auf dem ein Junge von einem Hocker stürzt, zeigten sie außerdem keinerlei Empathie.

Chatbots als Patienten der Zukunft

Letztlich erreichte nur ChatGPT 4o, das aktuellste Modell von OpenAI, mit 26 Punkten den Grenzwert für (menschliche) geistige Fitness. ChatGPT 4 und Claude brachten es auf 25 Punkte, Gemini 1 lediglich auf 16; auch die neuere Version Gemini 1.5 erzielte nur 22 Punkte. "Dies deutet auf eine leichte kognitive Beeinträchtigung und möglicherweise auf eine beginnende Demenz hin", urteilen die Neurologen mit einem Augenzwinkern. Dass ältere Versionen schlechter abschneiden, "kann auf eine rasch fortschreitende Demenz hinweisen". 

Tatsächlich illustriert die Studie vor allem eines: Auch wenn LLMs sich inzwischen erschreckend menschlich ausdrücken, funktionieren ihre "Denkprozesse" grundlegend anders als die unseren. Aufgaben, die Menschen leichtfallen, können selbst modernste Algorithmen überfordern – und umgekehrt. "Obwohl wir Künstliche Intelligenz [in dieser Studie, Anm. d. Red.] großzügig vermenschlicht haben, erkennen wir die wesentlichen Unterschiede zwischen dem menschlichen Gehirn und großen Sprachmodellen an", schreiben Roy Dayan und seine Kollegen. In ihren Augen deuten die systematischen Schwächen der Chatbots darauf hin, dass sie menschlichen Ärztinnen und Ärzten in der Praxis bis auf Weiteres unterlegen sein werden. Komplexe visuelle Eindrücke richtig zu interpretieren sei im klinischen Alltag ebenso wichtig wie Empathie zu zeigen.

Ihre Jobs seien vorerst sicher, witzeln die Autoren in ihrem Fazit. Womöglich bekämen sie sogar zusätzliche Aufgaben: Ihre Ergebnisse deuteten darauf hin, dass Neurologinnen und Neurologen "bald neue, virtuelle Patienten behandeln werden – Modelle künstlicher Intelligenz, die kognitive Beeinträchtigungen aufweisen".