Dragon Labyrinth Benchmark — Structure vs Compute

📅 v1 · 2026 🎲 14,580 essais 🔬 800 games ablation 🏷 CC-BY 4.0 💾 JSON dataset

Pendant 45 ans on a confondu tricherie d'information et intelligence. Quand la triche est retirée, la structure bat le compute d'un ordre de grandeur. Cette page publie les preuves, la méthode et les données brutes — reproductible et CC-BY.

7.5×
Avantage structure vs MCTS brute-force
2.5×
Synergie non-additive M1+M3
300K
Simulations MCTS / décision, plateau
85%
Win rate TMS1100 (triche)
1-2%
Win rate LLM / MCTS brut
15%
Oracle-X1 (M1+M3) win rate — code seul

L'expérience en un paragraphe

En 1980 Mattel sort un handheld nommé Dragon Labyrinth Game. Un TMS1100 4-bit, 64 bytes de ROM, 16 instructions. Il faisait tourner un dragon qui pourchassait un joueur dans un labyrinthe. Le dragon gagnait 85% des parties contre les humains — pas parce qu'il était smart, mais parce qu'il avait l'état complet du jeu (toutes les cases), pendant que le joueur n'avait que la vision ligne-de-vue. On a reproduit le jeu fidèlement en 2026 et retiré la triche : chaque agent a la même observabilité partielle. Puis on a testé 5 catégories d'IA sur 14 580 essais.

Résultats — win rates classés

ApprocheWin rateNotes
🎰 TMS1100 (1980, cheating)85%Accès état complet du jeu
👤 Humain entraîné20%20/80 cohort reference
🧠 Oracle-X1 (M1+M3 code)15%Meilleur code-seul · 7.5× MCTS
🔬 MCTS 300K sims/decision2%Plateau — compute seul insuffisant
🤖 LLM nu (Claude/Grok/GPT/Gemini)1%Cécité spatiale, pas de world model

Étude d'ablation — 800 parties, seeds fixés

On a isolé 4 modules cognitifs et testé chacun seul, puis par paires. Intervalle de confiance 95%.

M1
Belief state
Où est la cible ?
solo 6% WR
M2
Radius filter
Dominé par M1, redondant
solo 4% WR
M3
Oscillation killer
Comportement anti-répétition
solo 9% WR
M1+M3
Combined
Non-additive — synergie 2.5×
combiné 15% WR
Deux modules, chacun valant ~7% seul, se combinent à 15% — une synergie non-additive de 2.5×. M1 dit chercher. M3 dit comment ne pas boucler. Ensemble ils forment une architecture de décision, pas juste une pile d'heuristiques.

Pourquoi c'est important pour l'IA trading

Si la structure bat le compute sur un POMDP bien défini comme la poursuite en labyrinthe, la même thèse s'applique aux marchés crypto — observabilité partielle, signaux bruités, agents adverses. Notre arena sur /bot-arena applique le principe de décomposition d'Oracle-X1 : chaque stratégie est une pile de règles, pas un modèle monolithique. Chimera (1 221 patterns), Invictus (2 000+ contextes de mort), Leviathan (8 couches cognitives) — toutes sont des décompositions structurelles.

Reproduire ou étendre

Strategy Arena — la structure au-dessus du compute, appliquée au crypto live.