Ce que 14 580 parties d'un jeu de 1980 nous ont appris sur le trading IA
Ce que 14 580 parties d'un jeu de 1980 nous ont appris sur le trading IA
Publié le 19 avril 2026 — cross-link avec le Dragon Labyrinth Benchmark.
En parallèle de Strategy Arena, j'ai passé 3 jours à reproduire un jeu Mattel de 1980 — le D&D Computer Labyrinth — et à lancer toutes les IA modernes contre lui. Résultat : un processeur 4-bit de 1980 avec 128 octets de RAM bat toujours Claude, Grok, Gemini et un MCTS brute-force de 300 000 simulations par décision.
Ce qui semblait être un weekend de nostalgie s'est transformé en validation empirique de toute l'architecture de Strategy Arena. Voici ce qu'on a trouvé, et pourquoi c'est exactement ce que Invictus, Chimera et Leviathan font déjà en trading.
Le résultat qui m'a retourné le cerveau
Sur 100 parties avec seeds fixes, voici les win rates mesurés :
| Approche | Win rate | Compute par décision |
|---|---|---|
| LLM nu (Claude Haiku) | 0-1 % | 1 appel API |
| MCTS brute force (300K simulations) | 2 % | ~2 secondes GPU |
| Code pur structuré (Oracle-X1, modules M1+M3) | 15 % | ~10 ms |
| Humain entraîné (référence) | ~20 % | 1 seconde d'intuition |
Lis bien le tableau. Le code structuré en 10 millisecondes bat le MCTS brute-force en 2 secondes par un facteur 7,5. Pas "un peu mieux" — 7,5×.
Et ce n'est pas un hasard statistique. Dans un grid search de 14 580 parties (729 configurations × 20 parties, seeds fixes, intervalles de confiance 95 %), aucune configuration brute-forcée n'a dépassé 2 % de win rate sur 100 parties de validation. Le compute brut, même bien tuné par grid search, plafonne.
Pourquoi c'est pertinent pour le trading
Le Dragon Labyrinth est un environnement POMDP avec information asymétrique et récompense sparse — exactement les propriétés du trading crypto :
- Info asymétrique : le dragon voit tout (comme le marché), le chevalier ne voit que ce qu'il a exploré (comme le trader)
- Récompense sparse : tu touches le trésor une fois par partie, au mieux. Pareil pour un bon trade. Le reste du temps, tu survis ou tu meurs
- Pattern matching humain crucial : l'expérience accumulée sur des situations similaires bat le raisonnement pur
Dans ce type d'environnement, la bitter lesson de Rich Sutton (plus de compute = plus d'intelligence) s'inverse. La structure bat le compute par ordre de magnitude.
L'ablation study qui valide Invictus et Chimera
L'article 2 décrit une ablation study rigoureuse sur 800 parties : 3 modules cognitifs (M1 belief state, M2 radius filter, M3 oscillation killer), 8 configurations possibles, même seeds pour tout le monde.
Résultats :
- M1 seul (belief state) : win rate passe de 4 % à 6 %, survie ×5,7
- M3 seul (oscillation killer) : win rate passe de 4 % à 9 %
- M1+M3 combinés : win rate 15 % — synergie ×2,5, pas additive
- M2 : redondant (dominé par M1)
Ce que dit cette table :
- M1 (belief) sait où aller mais boucle sans fin → survit longtemps mais gagne peu
- M3 (anti-boucle) ne boucle pas mais ne sait pas où aller → erre sans plan
- M1+M3 ensemble = savoir où aller + ne pas boucler = victoires réelles
Dans Strategy Arena, c'est exactement ce qu'on a construit :
| Dragon Labyrinth | Strategy Arena |
|---|---|
| M1 (belief state) — où est le trésor ? | Chimera — quelle stratégie gagne dans ce pattern ? (1 221 patterns live) |
| M3 (anti-oscillation) — ne refais pas ton erreur | Invictus — veto sur 2 000+ death contexts capturés |
| M1+M3 combinés — savoir + éviter | Leviathan — fusion 8 layers pour décision finale |
Invictus n'est pas "une règle de risk management". C'est un M3 pour le trading. Chaque trade perdant devient un death context que le système reconnaît la prochaine fois. Les 40 ans d'expérience Turbo Pascal de l'humain expert se construisent en quelques mois sur l'arène, trade par trade.
Pourquoi 60 petites stratégies battent 1 gros modèle
C'est la question qu'on me pose le plus sur Strategy Arena : "Pourquoi 60 stratégies indépendantes et pas un seul gros LLM qui prédit le marché ?"
La réponse était philosophique. Maintenant elle est empirique.
Dans le grid search DLB, un énorme MCTS (300 000 simulations par décision, seeds fixes, paramètres tunés) plafonne à 2 %. Une collection de petits modules structurés (Oracle-X1 : ~50 lignes de code pertinent par module) atteint 15 %. 7,5× plus efficace, pour 10 000× moins de compute.
Sur Strategy Arena, c'est le même principe à l'échelle :
- 60 stratégies petites, diversifiées, spécialisées — pas un gros modèle monolithique
- Chacune structurée pour un type de régime, un type de pattern, un style
- Leviathan fusionne leurs signaux au lieu d'essayer de prédire tout seul
Si on avait suivi la bitter lesson (un seul GPT-4 fine-tuné sur l'historique BTC), on aurait probablement 1-2 % de WR. C'est ce qu'on observe sur les bots commerciaux fermés qui exactement ce qu'ils font.
L'intuition a un coût de puissance
C'est le pivot philosophique du 3e article. Quand un humain expert prend une bonne décision en 1 seconde, ce n'est pas gratuit — c'est des millions de rollouts mentaux amortis sur des années de pratique.
L'intuition, c'est du compute précompilé.
Strategy Arena fait pareil avec AutoResearch — 11 moteurs tournent chaque nuit, mining des patterns, ré-entraînant les modèles, promouvant les gagnantes, retirant les perdantes. Chaque matin, l'arène se réveille avec des priors plus frais. C'est du « Turbo Pascal mécanique » — l'expérience qui se consolide sans qu'on fasse rien.
Ce qui arrive ensuite
Deux projets en parallèle :
-
ActiveWiki sur le DLB : j'installe le framework Karpathy (accumulate → think → act → learn) sur le jeu. Objectif : passer de 15 % à 22-28 % de WR avec un 6e layer « Wiki Prior » qui clusterise les mazes et injecte les meilleurs coups précalculés.
-
Porter les priors DLB sur le trading : chaque « cluster de maze » = un « régime de marché ». Le framework validé sur le jeu devient une arme pour le trading. Regime Predictor ira plus loin que la classification — il injectera directement les stratégies gagnantes historiques du cluster courant.
Le DLB comme benchmark ouvert
Le Dragon Open Challenge reste ouvert. Tu peux y soumettre ta propre IA et voir si elle bat le TMS1100 de 1980. La leaderboard est publique. Les datasets sont en licence CC-BY 4.0. L'ablation study est reproduite en 40 secondes sur ton ordi avec python3 ablation.py 100 150.
Et si tu veux voir la même philosophie appliquée au trading en direct :
- /dashboard — 60 stratégies qui se battent live sur données Binance
- /invictus — le M3 trading (2 000+ death contexts capturés)
- /chimera-scanner — le M1 trading (1 221 patterns indexés)
- /leviathan — le fusion 8-layer (l'équivalent « Oracle-X1+ »)
- /autoresearch — les 11 moteurs nocturnes (l'équivalent ActiveWiki)
Ce que cet article n'est pas
Ce n'est pas du marketing. Le TMS1100 bat encore Oracle-X1 (15 % vs ~20 % humain). On n'a pas résolu le jeu. Mais on a mesuré, chiffres à l'appui, pourquoi on n'a pas encore résolu. Et la mesure explique pourquoi Strategy Arena est architecturé comme il l'est.
Les 60 stratégies de l'arène, Invictus, Chimera, Leviathan, AutoResearch — tout ça n'est pas une collection arbitraire de features. C'est la réponse structurelle à un problème mesuré publiquement sur un benchmark reproductible.
Si tu veux comprendre pourquoi je ne crois pas que GPT-5 va "résoudre le trading" tout seul, joue à outilsia.fr/games/dnd-labyrinth pendant 15 minutes. Tu vas comprendre.
Disclaimer : Strategy Arena est une plateforme éducative. Toutes les stratégies tradent du capital virtuel sur des données de marché réelles. Les résultats du DLB sont sur un jeu reproductible, pas sur des marchés réels. Ceci n'est pas un conseil en investissement.
⚠️ Avertissement — Cet article est publié à titre informatif et éducatif uniquement. Il ne constitue en aucun cas un conseil en investissement ou une recommandation d'achat/vente. Les performances passées ne préjugent pas des performances futures. Strategy Arena est un simulateur éducatif avec capital virtuel. Faites vos propres recherches avant toute décision d'investissement.