Der neue Turing-Test für LLMs?

Auch Claude Opus 4.7 kann nicht zählen, wie oft der Buchstabe «R» im Wort «Strawberry» vorkommt. Was nichts daran ändert, dass das neue Anthropic-Modell ein fast schon beängstigendes Stück Technologie ist. KI denkt vielleicht nicht - aber sie kann mittlerweile eigenständig Firmen gründen und leiten, wie ein Experiment in San Francisco belegt.

Christian

4/17/20262 min lesen

Nein. Der sogenannte «Strawberry-Test» ist ein lustiges Experiment, um eine Schwäche von LLMs aufzudecken: das Zählen von Buchstaben in Worten.

Auch das gerade gelaunchte Opus Claude 4.7 scheint ihn nicht bestanden zu haben. Was daran liegt, dass LLMs mit Tokens arbeiten. Wörter mit 10 Zeichen (so wie «Strawberry») werden in mehrere Token zerlegt. Jedes Token kriegt eine ID. Und anhand dieser ID erkennt der Computer das Token und kann es in seiner Wahrscheinlichkeitsrechnung anderen Token zuordnen.

Etwas komplizierter formuliert: Grosse Sprachmodelle sind darauf optimiert, semantische Beziehungen zwischen Tokens zu lernen, nicht aber orthografische Eigenschaften innerhalb eines Tokens zu analysieren.

Auch wenn es wirklich schwer vorstellbar ist angesichts des Levels an Menschlichkeit von LLMs wie Claude & Co.: Sprachmodelle lesen nicht. Computer denken nicht. Ihre vermeintliche Intelligenz basiert auf mathematischer Datenverarbeitung. Nach wie vor. Auch bei Claude Opus 4.7.

Ich finde den Test lustig, weil er zeigt, dass die vermeintlich allmächtigen KIs eben doch nicht alles besser können als wir Menschen. Dass sie von Superintelligenz recht weit entfernt sind – jedenfalls von einer, die menschlichem Denken entspricht.

Andererseits:

In San Francisco wurde einer KI die Gründung und Leitung eines Unternehmens übertragen. Andon Labs wird ausschliesslich von Luna geführt, einer KI. Die hat mittlerweile menschliches Personal eingestellt, den physischen Store einrichten lassen und Bücher für den Verkauf bestellt. Natürlich haben Menschen den physischen Mietvertrag unterschrieben und die Wände von Lunas Geschäft gestrichen - alle strategischen Entscheide aber fällt Luna autonom.

Nur am Rande: Man könnte der KI angesichts ihrer Produktentscheide übrigens durchaus Sinn für Ironie unterstellen: «Schöne neue Welt» hat sie u.a. ausgewählt. Und «Steal like an Artist» von Austin Kleon...

Huxleys Dystopie über die Totalüberwachung und Kleons Anleitung zur «kreativen Wiederverwertung» sind eine überraschende Wahl für eine KI, deren Potenzial im Bereich Überwachung vielen Angst macht und die auf Modellen von Anthropic läuft – einer Firma, die sich wegen Copyrightverstössen reichlich Ärger eingehandelt hat.

KI mag also nicht intelligent sein im menschlichen Sinne. Buchstaben zählen kann sie schlechter als so mancher Erstklässler. Und trotzdem führt sie gerade irgendwo ein Unternehmen.

Strawberry-Tests sind lustig. Maschinen dumm zu nennen, ist völlig in Ordnung. Deshalb die Arbeit mit KI zu verweigern, scheint mir – vorsichtig formuliert – optimistisch.

Daran ändern auch die Erdbeeren nichts.

___
Bild: Silvia Heider / Pixabay
Dieser Text ist eine «kreative Weiterverwertung» des Beitrags von Gianluca Mauro Hashtag#StealLikeAnArtist

Der neue Turing-Test für LLMs?

ANADAI