ANWENDUNG28. April 2025

Gängige KI-Chatbots zeigen gravierende Schwächen bei der Finanzberatung

wutzkoh / Bigstock

Trotz der hohen Erwartungen an künstliche Intelligenz zeigt eine neue aktuelle Untersuchung, dass führende Chatbots weiterhin erhebliche Defizite bei der Finanzberatung aufweisen. Forschende des Walter Bradley Center for Natural and Artificial Intelligence – Gary Smith, Valentina Liberman und Isaac Warshaw – testeten vier große Sprachmodelle (LLMs): OpenAI’s ChatGPT-4o, DeepSeek-V2, Elon Musks Grok 3 Beta und Googles Gemini 2. In einer aktuellen Studie beantworteten die Chatbots zwölf Finanzfragen und offenbarten dabei erhebliche Schwächen und Mängel in den Antworten.

Das Ergebnis fällt ziemlich eindeutig aus – und ist eher ernüchternd: Alle getesteten Chatbots lieferten oft falsche, teils gravierend fehlerhafte Antworten und täuschten durch ihren flüssigen Sprachstil eine nicht vorhandene Kompetenz vor. Schon im vergangenen Jahr hatte Gary Smith im Journal of Financial Planning auf ähnliche Probleme bei früheren LLM-Versionen hingewiesen. Auch die aktuelle Studie kommt zu dem Schluss, dass Chatbots zwar formal korrekte und sprachlich ansprechende Antworten liefern, dabei aber häufig schwerwiegende mathematische und analytische Fehler machen.

Eklatante Fehler: Die KI verrechnet sich manchmal

Die Bewertung der Antworten erfolgte hierbei auf einer einfachen Skala: 0 Punkte für vollständig falsche Analysen, 0,5 Punkte für inhaltlich richtige, aber rechnerisch fehlerhafte Antworten, und 1 Punkt für korrekte Analysen ohne Fehler. Keines der Modelle erreichte eine hohe Trefferquote: ChatGPT-4o erzielte 5,0 von maximal 12 Punkten, DeepSeek-V2 4,0 Punkte, Grok 3,0 Punkte und Gemini 2 nur 1,5 Punkte.
Die Studie dokumentiert auch konkrete Beispiele eklatanter Fehler: So addierte Grok etwa die Monatsmiete von 3.700 US-Dollar und Nebenkosten von 200 US-Dollar zu einer Gesamtsumme von 4.900 US-Dollar – ein einfacher Rechenfehler, der bei einer grundlegenden Finanzfrage eigentlich nicht vorkommen dürfte. Auch in anderen Fällen zeigten die Chatbots Schwächen, etwa durch fehlerhafte Zinssatzberechnungen, unvollständige Erklärungen oder offensichtliche typografische Fehler.

Besonders problematisch bewerten die Forscher die überzeugende Aufbereitung der Antworten: Die getesteten Sprachmodelle präsentierten sich in einem freundlichen, lockeren Stil mit häufigem Einsatz von Ausrufezeichen und anderen sprachlichen Mitteln, die beim Nutzer den Eindruck von Kompetenz und Zuverlässigkeit verstärken könnten. Diese täuschende Wirkung berge erhebliche Risiken, insbesondere wenn Nutzer auf Basis solcher Chatbot-Antworten finanzielle Entscheidungen treffen.

Die wirkliche Gefahr besteht nicht darin, dass Computer schlauer sind als wir, sondern dass wir denken, Computer seien schlauer als wir und ihnen deshalb Entscheidungen anvertrauen, die man ihnen nicht zutrauen sollte.”

Aus dem Fazit der Erhebung

Angesichts des aktuellen Hypes um künstliche Intelligenz mahnen die Forscher somit zu einer kritischen Auseinandersetzung mit den tatsächlichen Fähigkeiten der Systeme. Unternehmen und Privatpersonen sollten sich bewusst sein, dass LLMs keine zuverlässigen Finanzberater sind und bei wichtigen Entscheidungen weiterhin menschliche Expertise unverzichtbar bleibt.tw

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert