2026-04-24·5 Min. Lesezeit·GXAI Studio

Step 6 — Der Test

Vor Release spielen automatische Tests das Spiel wie Roboter. Failt einer, blockiert das deploy.

ProzessTest

Code ohne Tests ist Vermutung.

Vor Release läuft ein automatischer Playthrough — ein Roboter spielt das Spiel und gleicht Ergebnisse mit dem Plan aus Step 3 ab.

Ein einziges Fail → kein Release. Erst fixen.

Was der Roboter tut

tests-running

▶ tap-bounce-survives-spike PASS ▶ no-input-loses-energy PASS ▶ combo-resets-on-late-tap PASS ▶ boss-wall-defeats-ball FAIL ✗

Erwartet: an Wand abprallen Tatsächlich: durch Wand

✗ 1 Fail → deploy blockiert

/test

Roboter spielt.

Echtes Tippen. Echte Physik. Echter Score. Kein Mensch schaut zu.

Jeder Test maps auf 1 Plan-Regel. Regel #6 fail = sofort klar, was kaputt ist.

Warum KI sich nicht selbst benotet

Wichtigste Regel.

KI hat beim Code helfen dürfen. Und ein anderes System lässt Tests laufen. KI entscheidet nicht "Test bestanden". Computer vergleicht echten Output mit Erwartetem. Reine Zahlen.

how-grading-works

# Plan sagt: 5 perfekte Taps = Combo 5

# Roboter macht 5 perfekte Taps. # Liest Combo-Zahl auf Screen.

Tatsächlich: 5 Erwartet: 5

✓ Match → PASS

# Wäre es 4: Tatsächlich: 4 Erwartet: 5

✗ Mismatch → FAIL "Sieht richtig aus" zählt nicht.

/no-vibes

Zahlen lügen nicht.

Check ist nicht "sieht richtig aus", sondern "5 == 5". Stimmen Zahlen nicht überein, ist es Fail.

Deshalb landen Bugs aus Vibe-coded Apps nicht in unseren Spielen.

Häufige Fallen

✗ KI sich selbst benoten lassen (vibes scoring)
✗ Performance-Test überspringen ("auf meinem Mac läuft's")
✗ Nur Happy Path testen
✗ Failed Tests nicht fixen, sondern abschalten
✗ Flaky Tests als "ab und zu" abtun — das sind echte Bugs

← Step 5 — Code · Step 7 — Launch →

← Vorheriger

Step 5 — Der Code (wo KI glänzt)

Step 7 — Der Launch