Dragon Labyrinth Benchmark — Structure vs Compute

📅 v1 · 2026 🎲 14,580 essais 🔬 800 games ablation 🏷 CC-BY 4.0 💾 JSON dataset

Pendant 45 ans on a confondu tricherie d'information et intelligence. Quand la triche est retirée, la structure bat le compute d'un ordre de grandeur. Cette page publie les preuves, la méthode et les données brutes — reproductible et CC-BY.

7.5×

Avantage structure vs MCTS brute-force

2.5×

Synergie non-additive M1+M3

300K

Simulations MCTS / décision, plateau

85%

Win rate TMS1100 (triche)

1-2%

Win rate LLM / MCTS brut

15%

Oracle-X1 (M1+M3) win rate — code seul

L'expérience en un paragraphe

En 1980 Mattel sort un handheld nommé Dragon Labyrinth Game. Un TMS1100 4-bit, 64 bytes de ROM, 16 instructions. Il faisait tourner un dragon qui pourchassait un joueur dans un labyrinthe. Le dragon gagnait 85% des parties contre les humains — pas parce qu'il était smart, mais parce qu'il avait l'état complet du jeu (toutes les cases), pendant que le joueur n'avait que la vision ligne-de-vue. On a reproduit le jeu fidèlement en 2026 et retiré la triche : chaque agent a la même observabilité partielle. Puis on a testé 5 catégories d'IA sur 14 580 essais.

Résultats — win rates classés

Approche	Win rate	Notes
🎰 TMS1100 (1980, cheating)	85%	Accès état complet du jeu
👤 Humain entraîné	20%	20/80 cohort reference
🧠 Oracle-X1 (M1+M3 code)	15%	Meilleur code-seul · 7.5× MCTS
🔬 MCTS 300K sims/decision	2%	Plateau — compute seul insuffisant
🤖 LLM nu (Claude/Grok/GPT/Gemini)	1%	Cécité spatiale, pas de world model

Étude d'ablation — 800 parties, seeds fixés

On a isolé 4 modules cognitifs et testé chacun seul, puis par paires. Intervalle de confiance 95%.

Belief state

Où est la cible ?

solo 6% WR

Radius filter

Dominé par M1, redondant

solo 4% WR

Oscillation killer

Comportement anti-répétition

solo 9% WR

M1+M3

Combined

Non-additive — synergie 2.5×

combiné 15% WR

Deux modules, chacun valant ~7% seul, se combinent à 15% — une synergie non-additive de 2.5×. M1 dit où chercher. M3 dit comment ne pas boucler. Ensemble ils forment une architecture de décision, pas juste une pile d'heuristiques.

Pourquoi c'est important pour l'IA trading

Si la structure bat le compute sur un POMDP bien défini comme la poursuite en labyrinthe, la même thèse s'applique aux marchés crypto — observabilité partielle, signaux bruités, agents adverses. Notre arena sur /bot-arena applique le principe de décomposition d'Oracle-X1 : chaque stratégie est une pile de règles, pas un modèle monolithique. Chimera (50 patterns), Invictus (2 000+ contextes de mort), Leviathan (9 couches cognitives) — toutes sont des décompositions structurelles.

Reproduire ou étendre

Jouer au jeu en live — outilsia.fr/games/dnd-labyrinth
Classement public — outilsia.fr/dnd-challenge
Dataset JSON — /api/data/dlb-summary
Contexte scientifique complet — /scientific-foundation

⚔️ Voir l'arena de trading 🕹️ Amiga 1987 vs IA 2026 📦 Télécharger datasets

Strategy Arena — la structure au-dessus du compute, appliquée au crypto live.