Logiktests Mehr als Fakten: KI-Systeme überschätzen die menschliche Rationalität

Seitenansicht eines KI Roboters mit Netzwerken
Wir Menschen treffen selten rein rationale Entscheidungen. Das stellt KI-Systeme vor Herausforderungen
© Yuichiro Chino / Getty Images
Hoffen wir, dass sie nicht so schnell hinter die Wahrheit kommt: KI hält die Menschheit derzeit wohl noch für weitaus rationaler und logischer denkend, als sie das tatsächlich ist

Aktuelle KI-Modelle wie ChatGPT überschätzen die strategische Denkfähigkeit von Menschen einer Studie zufolge - und verlieren darum in Logikspielen. Sie billigten Menschen ein höheres Maß an logischem Denken zu, als tatsächlich vorhanden ist, erläutern die Forschenden der HSE University in Moskau.

Das Team um Dmitry Dagaev bezog fünf führende KI-Modelle wie ChatGPT-4o und Claude-Sonnet-4 in ein klassisches Wirtschaftsforschungs-Experiment zum Veranschaulichen menschlicher Entscheidungen etwa an der Börse ein. Gespielt wurde "Guess the Number". Dabei müssen die Teilnehmer eine Zahl zwischen 0 und 100 wählen, von der sie annehmen, dass sie zwei Dritteln des Durchschnitts aller von den anderen Teilnehmern genannten Werte am nächsten kommt.

Menschen landen bei solchen Tests oft bei Werten um die 20 oder darüber. Zudem geben manche Teilnehmer gerne mal an, gar nicht erst den Versuch gemacht zu haben, durch rationale Analyse die mutmaßliche Gewinnzahl zu ermitteln. Sie wählten stattdessen Geburtstage oder Lieblingszahlen.

Könnte sie es, würde sich eine KI vermutlich an den Kopf fassen ob so viel menschlicher Unlogik. Denn eigentlich sollten Teilnehmer ihre Intelligenz auf die Frage verwenden, welche Meinungen die meisten Leute über die Meinungen der meisten Leute haben. Würden alle Teilnehmer vollkommen rational denken, wäre die von allen angegebene Zahl die Null.

Warum das?

  • Würden alle Spieler völlig zufällig und gedankenlos eine Zahl wählen, läge der Durchschnitt bei etwa 50 - und die Siegerlösung für die zu nennenden zwei Drittel des Durchschnitts würde ungefähr 33,3 lauten.
  • Denken alle anderen in einer ersten Stufe zumindest schon mal an die 50 als wahrscheinlichen Mittelwert, wählen also die 33,3 als Wert für die zwei Drittel. Liegt der Durchschnitt der angegebenen Werte aber bei ungefähr 33,3, ist ein Wert von etwa 22,2 der für den Sieg.
  • Angenommen, alle antizipieren das in einer weiteren Denkstufe, würden sie wiederum die 22,2 wählen - und der Siegerwert läge bei nur noch etwa 14,8.
  • Bei perfekter Rationalität setzt sich das Denken "Was denke ich, dass die anderen denken, dass die anderen denken...?" unendlich fort, der Durchschnitt sinkt immer mehr gegen null.

Die getesteten KI-Modelle erhielten neben der Anleitung für das Spiel eine Beschreibung ihrer menschlichen Mitspieler, darunter Wirtschaftsstudenten im ersten Jahr, Teilnehmer akademischer Konferenzen, Personen mit analytischem oder intuitivem Denkvermögen sowie solche, die Emotionen wie Wut oder Traurigkeit empfanden. Insgesamt wurden 16 Testreihen aus früheren Studien simuliert. Das Modell wurde jeweils gebeten, eine Zahl auszuwählen und seine Überlegungen zu erläutern.

Das im "Journal of Economic Behavior & Organization" vorgestellte Ergebnis: Die KI-Modelle passten ihren Wert zwar auf der Grundlage der sozialen, beruflichen und altersbezogenen Merkmale ihrer Gegner sowie deren Kenntnissen der Spieltheorie und kognitiven Fähigkeiten an. Gegen Erstsemester wählten sie höhere Zahlen, gegen Profis näherten sie sich null an, doch insgesamt gingen sie von zu rationalem Verhalten aus.

KI muss beachten, dass der Mensch nicht perfekt ist

"Wir befinden uns derzeit in einer Phase, in der KI-Modelle beginnen, den Menschen in vielen Bereichen zu ersetzen", so Dagaev. Bei bestimmten Entscheidungsaufgaben sei es wichtig, sicherzustellen, dass sich die KI wie ein Mensch verhält. Als ein Beispiel werden Entscheidungen an Finanzmärkten genannt: Rational agierende Broker stützten ihre Entscheidungen nicht darauf, was sie persönlich kaufen würden, sondern darauf, wie sie die Bewertung einer Aktie durch andere Marktteilnehmer einschätzen - aber bei weitem nicht jeder Broker handle rational.

Um in solchen und ähnlichen Bereichen gute Entscheidungen treffen zu können, sollten sich KI-Anwendungen nicht vertun mit ihrer Einschätzung, wie logisch und rational Menschen typischerweise agieren. Derzeit halten sie die Menschheit dem Ergebnis zufolge offenbar noch für cleverer als sie tatsächlich ist. Die KI-Modelle gegeneinander antreten ließen die Forscher übrigens nicht.

Ursprung von Tests wie "Guess the Number" ist der sogenannte Keynesianische Schönheitswettbewerb, der auf den britischen Ökonomen John Maynard Keynes zurückgeht. Eine klassische Umsetzung ist, Menschen zu bitten, aus hundert Fotos die fünf oder sechs attraktivsten Gesichter auszuwählen. Derjenige, dessen Auswahl am nächsten an der im Mittel beliebtesten Auswahl liegt, bekommt einen Preis. Verblüffenderweise neigen Menschen dennoch dazu, einfach die Fotos auszuwählen, die sie persönlich am attraktivsten finden. Logisch wäre hingegen, die Entscheidung auf der Grundlage verbreiteter Schönheitsvorstellungen anderer Menschen zu treffen.

Annett Stein, dpa