Step 6 — Der Test
Vor Release spielen automatische Tests das Spiel wie Roboter. Failt einer, blockiert das deploy.
Code ohne Tests ist Vermutung.
Vor Release läuft ein automatischer Playthrough — ein Roboter spielt das Spiel und gleicht Ergebnisse mit dem Plan aus Step 3 ab.
Ein einziges Fail → kein Release. Erst fixen.
Was der Roboter tut
Erwartet: an Wand abprallen Tatsächlich: durch Wand
✗ 1 Fail → deploy blockiert
/test
Roboter spielt.
Echtes Tippen. Echte Physik. Echter Score. Kein Mensch schaut zu.
Jeder Test maps auf 1 Plan-Regel. Regel #6 fail = sofort klar, was kaputt ist.
Warum KI sich nicht selbst benotet
Wichtigste Regel.
KI hat beim Code helfen dürfen. Und ein anderes System lässt Tests laufen. KI entscheidet nicht "Test bestanden". Computer vergleicht echten Output mit Erwartetem. Reine Zahlen.
# Roboter macht 5 perfekte Taps. # Liest Combo-Zahl auf Screen.
Tatsächlich: 5 Erwartet: 5
✓ Match → PASS
# Wäre es 4: Tatsächlich: 4 Erwartet: 5
✗ Mismatch → FAIL "Sieht richtig aus" zählt nicht.
/no-vibes
Zahlen lügen nicht.
Check ist nicht "sieht richtig aus", sondern "5 == 5". Stimmen Zahlen nicht überein, ist es Fail.
Deshalb landen Bugs aus Vibe-coded Apps nicht in unseren Spielen.
Häufige Fallen
✗ KI sich selbst benoten lassen (vibes scoring)
✗ Performance-Test überspringen ("auf meinem Mac läuft's")
✗ Nur Happy Path testen
✗ Failed Tests nicht fixen, sondern abschalten
✗ Flaky Tests als "ab und zu" abtun — das sind echte Bugs