Dragon Labyrinth Benchmark — Structure vs Compute
Pendant 45 ans on a confondu tricherie d'information et intelligence. Quand la triche est retirée, la structure bat le compute d'un ordre de grandeur. Cette page publie les preuves, la méthode et les données brutes — reproductible et CC-BY.
L'expérience en un paragraphe
En 1980 Mattel sort un handheld nommé Dragon Labyrinth Game. Un TMS1100 4-bit, 64 bytes de ROM, 16 instructions. Il faisait tourner un dragon qui pourchassait un joueur dans un labyrinthe. Le dragon gagnait 85% des parties contre les humains — pas parce qu'il était smart, mais parce qu'il avait l'état complet du jeu (toutes les cases), pendant que le joueur n'avait que la vision ligne-de-vue. On a reproduit le jeu fidèlement en 2026 et retiré la triche : chaque agent a la même observabilité partielle. Puis on a testé 5 catégories d'IA sur 14 580 essais.
Résultats — win rates classés
| Approche | Win rate | Notes |
|---|---|---|
| 🎰 TMS1100 (1980, cheating) | 85% | Accès état complet du jeu |
| 👤 Humain entraîné | 20% | 20/80 cohort reference |
| 🧠 Oracle-X1 (M1+M3 code) | 15% | Meilleur code-seul · 7.5× MCTS |
| 🔬 MCTS 300K sims/decision | 2% | Plateau — compute seul insuffisant |
| 🤖 LLM nu (Claude/Grok/GPT/Gemini) | 1% | Cécité spatiale, pas de world model |
Étude d'ablation — 800 parties, seeds fixés
On a isolé 4 modules cognitifs et testé chacun seul, puis par paires. Intervalle de confiance 95%.
Deux modules, chacun valant ~7% seul, se combinent à 15% — une synergie non-additive de 2.5×. M1 dit où chercher. M3 dit comment ne pas boucler. Ensemble ils forment une architecture de décision, pas juste une pile d'heuristiques.
Pourquoi c'est important pour l'IA trading
Si la structure bat le compute sur un POMDP bien défini comme la poursuite en labyrinthe, la même thèse s'applique aux marchés crypto — observabilité partielle, signaux bruités, agents adverses. Notre arena sur /bot-arena applique le principe de décomposition d'Oracle-X1 : chaque stratégie est une pile de règles, pas un modèle monolithique. Chimera (1 221 patterns), Invictus (2 000+ contextes de mort), Leviathan (8 couches cognitives) — toutes sont des décompositions structurelles.
Reproduire ou étendre
- Jouer au jeu en live — outilsia.fr/games/dnd-labyrinth
- Classement public — outilsia.fr/dnd-challenge
- Dataset JSON — /api/data/dlb-summary
- Contexte scientifique complet — /scientific-foundation