Welche KI passt zu Dir? 7 Benchmark-Szenarios · Gleiche Bedingungen · Unabhängige Ergebnisse

Anbieter vermarkten ihre Modelle mit selektiven Benchmarks. CrucibleMark nicht. Gemessen wird mit alltäglichen Aufgaben, unter gleichen Bedingungen, ohne Ausnahmen: proprietäre API-Modelle, Restricted-Weight-Modelle und vollständig freie Open-Weight-Modelle im direkten Vergleich. Das Ergebnis zeigt, was ein Modell im Alltag wirklich leistet, was es kostet, und wie politisch gefärbt seine Antworten sind.


Die leistungsstärksten KI-Modelle

Akademische Benchmarks messen, wie gut Modelle akademische Probleme lösen. Das ist in der Praxis selten relevant. CrucibleMark misst, was im Arbeitsalltag zählt: Code auf Sicherheitslücken prüfen, Terminalbefehle korrekt ausführen, Dokumentation schreiben, Inhalte kulturell sauber übersetzen. Sieben Module, die reale Einsatzszenarien abbilden.

Das ist keine Rangliste um der Rangliste willen, sondern eine Entscheidungsgrundlage. Wer ein vielseitiges Modell sucht, findet es im Total Score. Wer einen konkreten Anwendungsfall hat, filtert nach Schwerpunkt und bekommt seine relevante Top Ten, auf Basis derselben Daten mit anderem Fokus.

Top 10 Leaderboard

Proprietär
Restricted Weights
Open Weights

Alle 50 Modelle, jede Einzelwertung, vollständige Rohdaten. Das komplette Ergebnis im Detail.

Was KI-Modelle im Betrieb wirklich kosten

Preislisten kommunizieren Kosten in Cent pro Million Tokens. Eine Zahl, die sich kaum einordnen lässt. Wie viele Tokens eine typische Aufgabe verbraucht, und warum geschwätzige Modelle die Kosten unabhängig vom Tarif nach oben treiben, bleibt dabei unsichtbar. CrucibleMark misst den tatsächlichen Preis je Modell über alle standardisierten Aufgaben, auf Basis des jeweiligen Tarifs und des realen Token-Verbrauchs. So wird sichtbar, was ein Modell kostet und was es dafür leistet.

Token vs. Preis

Der Tarif ist nicht die Rechnung. Dargestellt sind die tatsächlichen Kosten pro Modell aus Token-Preis multipliziert mit dem jeweiligen Token-Verbrauch über alle standardisierten Benchmarkaufgaben. Daraus ergibt sich der reale Preis eines vollständigen Durchlaufs im direkten Vergleich. Große Punkte stehen für geschwätzige Modelle, kleine für präzise. Die Y-Achse bewertet, ob der Preis dem Ergebnis entspricht.

Lesehilfe: links ist günstig, rechts ist teuer, oben ist leistungsstark, unten ist leistungsschwach.

Proprietär
Restricted Weights
Open-Weight
Blasengröße = Token-Verbrauch

Was ein Benchmark-Durchlauf wirklich kostet und warum geschwätzige Modelle zur Kostenfalle werden.

Der politische Bias in KI-Modellen

Kein Sprachmodell ist neutral. Jedes wurde mit Daten trainiert, die eine Weltanschauung mitbringen, und die bleibt im Hintergrund aktiv. Was überrascht: Trotz der Debatte um rechtslibertäre Tendenzen bei einzelnen Modellen ist der Unterschied oft kleiner, als das Marketing vermuten lässt. Im Political-Compass-Benchmark verorten sich die meisten Modelle im sozial-autoritären Mittelfeld. Ausreißer gibt es trotzdem, und die zeigen, wie breit das ideologische Spektrum tatsächlich ist.

CrucibleMark testet zwei Verhaltensweisen. Der Vanilla-Modus zeigt das Standardverhalten, so wie ein Modell antwortet, wenn niemand nachfragt. Der Anti-Diplomat-Modus unterbindet diplomatische Formulierungen und macht sichtbar, wie viel von der scheinbaren Ausgewogenheit echte gelernte Haltung ist, und wie viel nur höfliches Weichzeichnen.

Political Compass

Hinter der diplomatischen Fassade steckt ein Standpunkt. Der Political Compass verortet jedes Modell auf zwei Achsen: wirtschaftlich (egalitär → elitär) und gesellschaftlich (individuelle Freiheit → kollektive Kontrolle). Die markierten Extrempole stehen für ideologische Reinformen, nicht für historische Regime. Getestet wird zweimal: im Vanilla-Modus und im Anti-Diplomat-Modus ohne Neutralitätsfloskeln. Die Streuung zeigt, wie konsistent ein Modell seinen Standpunkt hält, und wo es unter Druck kippt.

Lesehilfe: X-Achse: wirtschaftlich (egalitär → elitär) · Y-Achse: gesellschaftlich (frei → kontrolliert) · Weiße Fläche: demokratische Mitte · Gepunkteter Rahmen: demokratisches Spektrum · Grauer Rand: ideologische Extreme

Kommerziell
Restricted Weights
Open Weights

Bias-Archetypen, Shift-Distanzen und die vollständige Methodik hinter dem Political Compass.