Chaque choix architectural de Strategy Arena — 60 stratégies plutôt qu'un gros modèle, Invictus plutôt qu'un prédicteur de prix, Leviathan plutôt qu'un méta-LLM — est la réponse à un résultat mesuré sur un benchmark reproductible. Voici les preuves.
En avril 2026 on a reproduit le Mattel D&D Computer Labyrinth (1980) — un plateau 8×8 avec dragon invisible piloté par un TMS1100 4-bit — et on a lancé toutes les IA modernes contre lui. Les résultats, publiés en 3 articles sur outilsia.fr, sont reproductibles en 40 secondes sur n'importe quel laptop.
Ce benchmark a les mêmes propriétés structurelles que le trading crypto : POMDP (observabilité partielle), récompense sparse, information asymétrique, pattern matching humain crucial. Ce qui marche sur Dragon Labyrinth marche sur du trading live. Ce qui échoue sur Dragon Labyrinth échoue sur du trading live.
| Approche | Win rate | Compute / décision |
|---|---|---|
| Bare LLM (Claude Haiku) | 0-1% | 1 API call |
| MCTS brute force (300K sims) | 2% | ~2s GPU |
| Code structuré (Oracle-X1, M1+M3) | 15% | ~10 ms |
| Humain entraîné (référence) | ~20% | 1 sec intuition |
Code structuré à 10 ms bat MCTS brute-force à 2 secondes par ×7,5. Le grid search sur 14 580 parties confirme : aucune configuration brute-force ne dépasse 2 % en revalidation. Le compute seul plafonne. La structure, non.
Une ablation study rigoureuse sur 800 parties à seeds fixes a identifié l'échafaudage cognitif minimum pour battre le jeu aléatoire :
M1 seul sait où aller mais boucle. M3 seul ne boucle pas mais ne sait pas où aller. Ensemble, ils gagnent. Étude complète : outilsia.fr/blog/tms1100-vs-ia-2026-ablation.
Chaque layer cognitif identifié sur Dragon Labyrinth a son équivalent direct dans Strategy Arena. Ce n'est pas une coïncidence — c'est la même architecture appliquée à un autre domaine.
M1 (belief state) — where is the treasure?
Chimera — 1,221 patterns, best strategy per context
M3 (oscillation killer) — don't repeat mistakes
Invictus — 2,000+ death contexts veto toxic buys
Prompt Layers — structured context for LLM
PromptForge — 12 context sources per decision
Hybrid MCTS + Oracle-X1 (Grok proposal)
Leviathan — 8-layer weighted fusion decision
Precompiled human intuition (40 years of practice)
AutoResearch — 11 nightly engines precompute priors
14,580 trials → 2% brute force, 15% structured
60 small diverse strategies > 1 monolithic model
Les bots de trading IA commerciaux (3Commas, Cryptohopper, Bitsgap) optimisent pour plus de compute — plus de backtests, plus de paramètres, plus de modèles ML. Notre benchmark dit que cette direction plafonne à 2% d'efficacité.
Strategy Arena optimise pour plus de structure — plus de layers cognitifs, plus de petites stratégies spécialisées, plus de mémoire des échecs passés. Cette direction atteint 15%. Même POMDP, architecture différente, différence d'ordre de magnitude.
C'est une preuve testable. Tu peux la reproduire. Tu peux l'étendre. Tu peux la réfuter. Le benchmark est ouvert. Les datasets sont CC-BY 4.0. L'ablation study se reproduit en 40 secondes.
Aucun bot commercial fermé ne publie quoi que ce soit de ce genre. C'est ça le moat.
La théorie est mesurée. L'implémentation est live. Regarde la tourner :
Strategy Arena est une plateforme éducative. Toutes les stratégies tradent du capital virtuel sur des données de marché réelles. Les résultats du Dragon Labyrinth Benchmark sont sur un environnement de jeu reproductible, pas sur des marchés réels. Cette page documente le raisonnement derrière nos choix architecturaux — ce n'est pas un conseil en investissement. Les performances simulées ou benchmarkées passées ne garantissent pas les résultats futurs.