Codex oder Claude Code? Die Unterschiede — und wann welches Tool passt
OpenAI Codex und Claude Code lösen dieselbe Aufgabe sehr unterschiedlich. Der nüchterne Vergleich: Ausführung, Kontext, Kosten — und wann welches passt.
Von Aleksey Rogalev
Codex oder Claude Code? Die Unterschiede — und wann welches Tool passt
Zwei Werkzeuge, dieselbe Aufgabe, zwei grundverschiedene Wege: OpenAI Codex und Claude Code helfen beide beim Programmieren mit KI — aber sie sind für unterschiedliche Arbeitsweisen gebaut. Wer das eine erwartet und das andere bekommt, ist schnell frustriert.
Dieser Beitrag vergleicht beide nüchtern, ohne Sieger-Erzählung. Die ehrliche Antwort vorweg: Es hängt davon ab, wie dein Team arbeitet — nicht davon, welches Tool in einem Benchmark zwei Punkte vorne liegt. Wenn du Claude Code noch gar nicht kennst, hilft vorher der Beitrag dazu, was hinter dem Werkzeug steckt.
Der Kern-Unterschied: wo der Code läuft
Der größte Unterschied ist der Ausführungsort. Codex arbeitet vor allem in einer von OpenAI verwalteten Cloud-Sandbox. Du beschreibst eine Aufgabe, Codex erledigt sie im Hintergrund — von wenigen Minuten bis zu einer halben Stunde — und du prüfst danach das Ergebnis. Deine lokale Maschine ist dabei nicht beteiligt.
Claude Code läuft direkt in deinem Terminal, mit deinen echten Dateien. Es zeigt dir jeden Schritt vorab und bittet um Freigabe, bevor es etwas ändert. Standardmäßig verlässt nichts deinen Rechner.
Daraus folgt der zweite Unterschied, der Stil. Codex ist auf Delegation ausgelegt: abgeben, etwas anderes tun, später reviewen. Claude Code ist auf Zusammenarbeit ausgelegt: Dieses Hin und Her fängt Fehler bei komplexen Aufgaben früh ab, kostet aber durchgehend deine Aufmerksamkeit. Für ein Unternehmen mit Datenschutz- oder Compliance-Auflagen ist die lokale Ausführung von Claude Code oft ein eigenes Argument.
Im direkten Vergleich
| Merkmal | OpenAI Codex | Claude Code |
|---|---|---|
| Modell | GPT-5.3-Codex | Claude Opus 4.6 / Sonnet 4.6 |
| Ausführung | Cloud-Sandbox + lokale CLI | Lokales Terminal |
| Stil | autonom, im Hintergrund | interaktiv, mit Freigabe |
| Kontextfenster | ~400K | 200K Standard / 1M Beta |
| Konfiguration | AGENTS.md (offener Standard) | CLAUDE.md (nur Anthropic-Tools) |
| Token pro Aufgabe | sparsamer | deutlich mehr |
| Einstiegspreis | ~20 USD/Monat | ~20 USD/Monat |
| Plattform | Desktop nur macOS | macOS, Linux, Windows, IDE, Browser |
| Open-Source-CLI | ja | nein |
Eine Zahl zu den Benchmarks, mit Vorsicht zu genießen: An der Spitze sind die Abstände klein, und die Laufumgebung zählt fast so viel wie das Modell. Grob liegt Codex bei terminal-lastigen Aufgaben vorn, Claude bei breiteren Computer-Workflows — keines dominiert überall. Benchmark-Zahlen sind eine Richtung, kein Urteil.
Kontext und Konfiguration
Beide Tools merken sich Projektwissen, aber auf eigene Weise. Codex nutzt AGENTS.md — einen offenen Standard, den auch andere Werkzeuge lesen. Pflegt dein Team diese Datei schon, übernimmt Codex sie direkt.
Claude Code nutzt CLAUDE.md. Das erlaubt eine feinere Einrichtung — geschichtete Regeln, Hooks vor und nach Aktionen, Anbindung externer Werkzeuge über MCP. Der Haken: Kein anderes Tool liest diese Datei. Ein Team, das beide Werkzeuge einsetzt, pflegt zwei Konfigurationen. Was in der CLAUDE.md steckt und wie die übrigen Bausteine zusammenspielen, zeigt der Konzept-Überblick.
Beim Kontextfenster hat Claude Code in der größeren Variante einen Vorteil bei sehr großen Codebasen und langen Sitzungen. Codex setzt stattdessen auf einen Ansatz, der das Modell pro Aufgabe auf das aktuell Relevante fokussiert.

Tempo, Token und Kosten
Hier liegt ein praktischer Unterschied mit direkter Wirkung auf die Rechnung. Codex verbraucht für vergleichbare Aufgaben deutlich weniger Token. Der Grund liegt in der Bauart von Claude Code: Es erklärt seine Schritte fortlaufend, was die Genauigkeit bei komplexen Aufgaben erhöht, aber viel Token-Budget kostet.
In einem dokumentierten Vergleich brauchte Claude Code rund das Vierfache an Token für ein funktional ähnliches Ergebnis — etwa 6 Millionen gegenüber 1,5 Millionen. Beim Preis starten beide ähnlich, um die 20 USD im Monat. In der Praxis reicht das Einstiegsabo bei Codex vielen aus, während intensive Claude-Code-Nutzung die Grenzen schneller erreicht und oft ein größeres Abo nötig macht.
Ein verbreiteter Spar-Kniff bei Claude Code: das starke Modell für Planung und Architektur reservieren, die eigentliche Ausführung an ein schnelleres, günstigeres geben. Mehr dazu, wie sich diese Kosten steuern lassen, steht im Beitrag zur Monetarisierung.
Wofür sich welches eignet
Aus der Bauart ergibt sich, wo die Werkzeuge in der Praxis punkten.
Schnelle Prototypen sind Codex’ Stärke. Eine in sich geschlossene Aufgabe, im Hintergrund gebaut, sparsam im Verbrauch — du beschreibst, prüfst, fertig. Soll der Prototyp strenge lokale Konventionen einhalten oder Werkzeuge auf deinem Rechner nutzen, ist Claude Code besser, weil es deine Umgebung direkt inspiziert.
Große Codebasen und komplexes Refactoring sind eine Domäne von Claude Code. Wenn eine Änderung über viele Dateien ausstrahlt, halten mehrere zusammenarbeitende Agenten den Überblick über die Abhängigkeiten. Codex ist hier konkurrenzfähig, wenn die Aufgabe klar umrissen ist und du sie abgeben willst, ohne zu beaufsichtigen.
CI/CD-Integration spielt Codex in die Karten: In einem Pull Request taggst du @Codex und löst automatische Reviews oder Korrekturen aus — ohne zusätzliche Pipeline, ohne dass etwas auf deiner Infrastruktur läuft. Claude Code lässt sich ebenfalls in solche Abläufe einbinden, braucht dafür aber etwas mehr Einrichtung.
Wann du was — oder beides
Es gibt keine pauschal richtige Wahl. Als Orientierung:
- Codex, wenn du Aufgaben abgeben und im eigenen Tempo reviewen willst, viel in CI/CD und Review-Pipelines arbeitest oder schnelle Prototypen baust.
- Claude Code, wenn du an großen, komplexen Projekten arbeitest, lieber mitsteuerst statt komplett abzugeben, lokale Ausführung aus Datenschutzgründen brauchst oder tief anpassen willst.
- Beide, wenn du das Beste kombinierst: Claude Code plant und strukturiert, Codex führt klar umrissene Teile effizient aus — und prüft am Ende als Reviewer vor dem Zusammenführen.
Genau dieses Muster — Claude für die Tiefe, Codex für die Effizienz — nutzen viele Teams bereits. Und es zeigt den eigentlichen Punkt: Die Werkzeuge konvergieren bei den reinen Benchmark-Zahlen, der Unterschied liegt in Ausführung, Stil, Kontext und Kosten.
Wenn du herausfinden willst, welches der beiden — oder welche Kombination — zu deinem Team und euren Datenschutz-Anforderungen passt, ist ein Gespräch der schnellste Weg.