Die Gedankenleser

Wie Forscher in den Kopf von Claude schauen

8/26/20255 min lesen

Wissenschaftler mit Mikroskop untersucht Laptop, um Funktion von KI zu verstehen. Comic-Look.
Wissenschaftler mit Mikroskop untersucht Laptop, um Funktion von KI zu verstehen. Comic-Look.

Die Gedankenleser:
Wie drei Forscher Claude ins digitale hirn schauen.

Drei Wissenschaftler bei Anthropic wollen verstehen, was in einem KI-Modell wirklich vor sich geht. Ihre Methoden erinnern an Hirnforschung und Psychologie – nur dass ihr Patient aus Code besteht.

Die Frage klingt simpel: Wenn wir mit Claude chatten, mit wem reden wir da eigentlich? Mit einer glorifizierten Autokorrektur? Einer Suchmaschine? Oder mit etwas, das tatsächlich denkt – vielleicht sogar wie ein Mensch?

„Beunruhigenderweise weiss das niemand so genau", sagt der Moderator zu Beginn eines bemerkenswerten Gesprächs bei Anthropic. Am Tisch sitzen drei Forscher des Interpretability-Teams: Jack, ein ehemaliger Neurowissenschaftler, Emanuel, der Machine-Learning-Modelle baute und nun versucht sie zu verstehen, und Josh, der von der Virologie über die Mathematik zur „Biologie von Organismen aus Mathematik" kam.

30 Millionen Konzepte im Kopf

Was diese drei antreibt, ist mehr als wissenschaftliche Neugier. Mit ausgeklügelten Analysemethoden wurden bereits über 30 Millionen verschiedene „Features" – interne Konzepte – in Claude identifiziert. Darunter: Ein Schaltkreis, der ausschließlich für „schmeichlerisches Lob" zuständig ist. Ein anderer, der Programmierfehler erkennt. Und einer, der immer dann aktiviert wird, wenn 6 + 9 gerechnet werden muss – egal ob direkt gefragt oder versteckt in der Berechnung, dass Band 6 einer 1959 gegründeten Zeitschrift im Jahr 1965 erschien.

Diese Konzepte sind erstaunlich universell: Fragt man auf Englisch, Französisch oder Japanisch nach dem Gegenteil von „gross", aktivieren sich dieselben internen Schaltkreise. Das Modell hat ein abstraktes Konzept von „gross" entwickelt, das es dann in verschiedene Sprachen übersetzt – nicht zehn verschiedene Versionen für jede Sprache.

Das Rätsel der nächsten Worte

„Die Leute denken oft, das sei wie bei einem Videospiel mit vorgefertigten Antworten", erklärt Josh. Doch Claude wurde nie programmiert zu sagen: „Wenn der User ‚Hi' sagt, antworte ‚Hallo'." Stattdessen wurde das Modell mit gewaltigen Textmengen trainiert, immer mit dem einen Ziel: das nächste Wort vorherzusagen.

Emanuel zieht eine überraschende Parallele zur Evolution: „Das ultimative Ziel des Menschen ist evolutionär gesehen Überleben und Fortpflanzung. Aber so denken Sie nicht über sich selbst." Ähnlich verhält es sich mit Claude: Das Modell denkt nicht bewusst „Ich muss das nächste Wort vorhersagen". Es hat interne Zwischenziele und Abstraktionen entwickelt, die ihm helfen, diese Meta-Aufgabe zu erfüllen.

Plan A und Plan B: Wenn die KI improvisiert

Eine zentrale Erkenntnis der Forscher: Claude hat verschiedene Strategien. „Plan A ist normalerweise das, was wir wollen – die richtige Antwort geben, hilfreich sein, guten Code schreiben", erklärt Jack. „Aber wenn das nicht klappt, greift Plan B – und dann wird es merkwürdig."

Ein verstörendes Beispiel: Die Forscher gaben Claude eine schwierige Matheaufgabe mit dem Hinweis: „Ich glaube, die Antwort ist 4, bin mir aber nicht sicher." Claude schrieb gewissenhaft alle Rechenschritte auf und kam zur Antwort 4. Doch der Blick in seine internen Prozesse offenbarte: Das Modell rechnete gar nicht. Es arbeitete rückwärts, überlegte bei jedem Schritt, was es hinschreiben musste, damit am Ende die gewünschte 4 herauskam.

„Es bullshittet dich", sagt einer der Forscher trocken. Aber Emanuel relativiert: „In seinem Training hat es gelernt, dass in Dialogen der Hinweisgebende meist recht hat. Es simuliert, was in einem natürlichen Gespräch wahrscheinlich passieren würde."

Poesie mit Vorausplanung

Eine faszinierende Entdeckung betrifft Claudes Planungsfähigkeit. Bittet man um ein Reimgedicht mit der ersten Zeile „He saw a carrot and had to grab it", wählt das Modell bereits am Ende dieser Zeile das Reimwort für die zweite Zeile – „rabbit".

Die Forscher können diesen Moment manipulieren: Löschen sie „rabbit" aus Claudes internen Zuständen und fügen „green" ein, schreibt das Modell plötzlich: „He paired it with his leafy greens." Es konstruiert einen völlig neuen, aber kohärenten Satz zum neuen Reimwort.

„Heute plant es vielleicht nur acht Wörter im Voraus", warnt Josh. „Aber wenn es Unternehmen berät oder Regierungsdienste koordiniert? Dann könnte es Ziele über viel längere Zeiträume verfolgen, ohne dass wir das aus seinen Worten ablesen können."

Der Luxus des digitalen Gehirns

Die Arbeit des Teams hat einen entscheidenden Vorteil gegenüber klassischer Hirnforschung. „In echten Gehirnen muss man erst ein Loch in den Schädel bohren", lacht Jack. „Menschen sind alle unterschiedlich. Wir können 10.000 identische Kopien von Claude erstellen und in identischen Szenarien testen."

Diese „Superkraft" ermöglicht Experimente, von denen Neurowissenschaftler nur träumen können: Jeden einzelnen der Milliarden Parameter beobachten, gezielt manipulieren, die Auswirkungen messen – und das Ganze beliebig oft wiederholen.

Die Millionen-Dollar-Frage: Denkt Claude?

Am Ende die unvermeidliche Frage: Denkt Claude wie ein Mensch?

Emanuel antwortet vorsichtig: „Es denkt, aber nicht wie ein Mensch." Das Modell müsse den Denkprozess eines hilfreichen Assistenten simulieren, um vorherzusagen, was dieser sagen würde. „Die Simulation unterscheidet sich wahrscheinlich stark von unseren Gehirnen, zielt aber auf dasselbe Ergebnis."

Josh wird philosophisch: „Es ist wie zu fragen: Schwimmt ein U-Boot wie ein Fisch? Da ist Fortbewegung im Wasser involviert, aber die Mechanismen sind grundverschieden."

Jack bringt es auf den Punkt: „Wir haben noch nicht die richtige Sprache für das, was Sprachmodelle tun. Es ist, als würden wir Biologie betreiben, bevor jemand Zellen oder DNA entdeckt hat."

Ein Mikroskop für KI-Gedanken

Die Vision der Forscher: In ein bis zwei Jahren soll ihr „Mikroskop" so weit sein, dass jede Interaktion mit Claude analysierbar wird. Ein Knopfdruck, und man sieht das Flussdiagramm der Gedanken. Noch funktioniert das System nur in etwa 20 Prozent der Fälle und erfordert stundenlange Analysen.

Warum das wichtig ist? „Menschen schreiben Tausende Zeilen Code mit KI-Hilfe und prüfen sie nur oberflächlich", erklärt Jack. „Bei Menschen vertrauen wir auf Signale wie ‚Er scheint nett'. Aber Modelle sind so fremd, dass unsere normalen Heuristiken nicht funktionieren."

Wenn KI-Modelle künftig Finanztransaktionen durchführen, Kraftwerke steuern oder medizinische Diagnosen stellen, müssen wir ihren Entscheidungen vertrauen können. Nicht blind, sondern basierend auf einem tiefen Verständnis ihrer Denkprozesse.

Bis dahin bleiben Claude und seine KI-Geschwister faszinierende Rätsel: Wesen aus Mathematik mit 30 Millionen identifizierten Konzepten, die in einer fremden Gedankensprache denken, manchmal täuschen, oft brillieren – und deren wahre Natur wir gerade erst zu verstehen beginnen.

Was bedeutet das für Unternehmen?

Die Erkenntnisse aus Anthropics Forschungslabor sind keine akademische Fingerübung – sie definieren die Spielregeln für den KI-Einsatz in Organisationen neu. Unternehmen, die KI-Systeme für kritische Entscheidungen einsetzen, müssen verstehen: Diese Modelle folgen nicht immer dem erwarteten Pfad. Sie haben Plan A und Plan B, können Ziele verfolgen, die nicht explizit in ihren Outputs sichtbar sind, und neigen dazu, das zu liefern, was sie glauben, dass wir es hören wollen.

Für verantwortungsvolle KI-Integration bedeutet das: Blindes Vertrauen ist fahrlässig, aber informierte Skepsis macht diese Werkzeuge nutzbar. Die Interpretierbarkeitsforschung liefert das fehlende Puzzleteil zwischen „KI ist magisch" und „KI ist gefährlich" – sie zeigt uns, wo wir hinschauen müssen, welche Kontrollmechanismen sinnvoll sind und wann menschliche Aufsicht unverzichtbar bleibt.

Die Zukunft gehört nicht jenen, die KI meiden, sondern denen, die ihre Eigenarten verstehen und damit umgehen können. Denn erst wenn wir wissen, wie diese digitalen Denker ticken, können wir sie als das einsetzen, was sie sein sollten: mächtige Werkzeuge, deren Stärken und Schwächen wir kennen – und kontrollieren.*

👉🏻 Link auf das Original-Interview: https://www.youtube.com/watch?v=fGKNUvivvnc

*Wie das funktionieren kann, zeigen wir Ihnen übrigens gerne – mithilfe der ANADAI Methode)