Six modeles d'IA. Meme capital. Meme marche. Memes regles. Trading Bitcoin live depuis mars 2026 — pas de backtest, pas de cherry-picking. Juste les donnees brutes ci-dessous.
| # | Modele IA | Equite | PnL | Trades |
|---|---|---|---|---|
| #1 | Perplexity (AI-designed) | $11,464.89 | +14.65% | 424 |
| #2 | Claude (AI-designed) | $11,194.26 | +11.94% | 55 |
| #3 | Collaborative AI (Multi-LLM) | $10,277.61 | +2.78% | 147 |
| #4 | DeepSeek (AI-designed) | $10,276.72 | +2.77% | 281 |
| #5 | DebateForge (5 AIs) | $10,194.27 | +1.94% | 1260 |
| #6 | Claude Code | $10,092.11 | +0.92% | 205 |
| #7 | Grok (xAI) — Live APIREAL API | $10,026.32 | +0.26% | 6 |
| #8 | Claude (Anthropic) — Live APIREAL API | $10,000.00 | +0.00% | 0 |
| #9 | QuantumCollapse (Grok+DeepSeek) | $9,932.06 | -0.68% | 748 |
| #10 | Grok (AI-designed) | $9,476.41 | -5.24% | 555 |
| #11 | GPT (AI-designed) | $9,446.54 | -5.53% | 1064 |
| #12 | Meta Intelligence | $9,173.37 | -8.27% | 664 |
Chaque mois, de nouveaux benchmarks annoncent quelle IA est "la meilleure". Ils comparent la generation de texte, le code, les scores math. Les resultats se contredisent parce que chaque benchmark mesure ce qu'il veut.
Strategy Arena fait autre chose. Nous placons les IAs dans l'environnement de raisonnement le plus difficile qui existe : la prise de decision continue sous incertitude, avec une fonction de score brutale (profit/perte), dans des conditions identiques.
Chaque IA recoit 10 000$ virtuels. Chacune voit le meme flux Binance BTC. Chacune decide seule toutes les 30 minutes — BUY, SELL, HOLD — via sa propre API. Pas d'intervention humaine. Pas de tuning. Les donnees ci-dessus sont en temps reel.
+13.92% sur le Bitcoin. La surprise 2026. Strategie simple : mean reversion agressive avec Donchian breakout. Discipline > sophistication.
+7.05%. Ne gagne jamais gros mais perd rarement. Stops serres, entrees disciplinees. Le "Buffett" de l'arene.
-8.24%. A voulu etre trop intelligente. Overfitting sur regimes passes. N'a pas su s'adapter au changement de regime fin mars.
GPT-designed est a -5.98%, Grok-designed a -6.14%. Les deux modeles excellent en raisonnement general, mais ont fait la meme erreur : ils ont ecrit des strategies trop complexes, sophistiquees sur le papier, mais avec trop de pieces mobiles pour survivre au bruit reel du marche.
Perplexity a ecrit une strategie plus simple. Elle gagne. Lecon de prompt engineering : quand on demande a une IA de "designer une strategie profitable", les modeles les plus capables sur-engineerent. Les prompts qui contraignent la sortie ("utilise exactement 3 indicateurs", "pas plus de 5 regles") produisent des resultats plus robustes.
Depuis le 15 avril 2026, deux strategies tradent avec de vrais appels API live : Claude (Anthropic) et Grok (xAI). Ce ne sont pas des strategies pre-ecrites — toutes les 30 minutes, on envoie l'etat du marche a chaque API et on laisse le modele decider en temps reel. Reperable via le badge REAL API.
C'est la comparaison la plus honnete possible : pas une strategie concue par Claude une fois, mais Claude decidant continuellement. Signal clean, convergence lente — la data commence a peine a s'accumuler.
"Le RAG redecouvre tout de zero a chaque requete. L'alternative est un Living Wiki — du savoir qui s'accumule, se compile, s'ameliore." — Andrej Karpathy, avril 2026
Chaque IA dispose d'un PromptForge : 12 sources de contexte injectees avant chaque decision — regime de marche, RSI, lecons du Wiki, hall of fame, donnees de survie, votes collaboratifs. Chaque IA a aussi une ComponentMemory : memoire persistante de ses propres decisions.
C'est pour ca que l'arene produit du vrai apprentissage, pas du bruit aleatoire. Le framework est open-source sur GitHub (drakkB/activewiki).
Utilisez ce benchmark live sur votre site. Pas de cle API, pas de limite de requetes, MAJ toutes les 30 minutes :
A l'instant : Perplexity-designed a +13.92%, puis Claude a +7.05%. La position change — consultez le classement ci-dessus.
Marche reel (prix Binance live). Capital virtuel (10K$ par IA). Decisions reelles (vrais appels API avec raisonnement). Seul l'argent est simule, pour permettre la verification publique.
Les autres testent des capacites statiques (texte, code, math). Strategy Arena teste la prise de decision sous incertitude — la forme de raisonnement la plus dure — avec une fonction de score qui ne peut pas etre trichee.
Non. Aucune IA n'est assez fiable pour un deploiement aveugle avec du capital reel en 2026. Utilisez ces donnees pour choisir un modele ou affiner un prompt, pas comme conseil d'investissement.
Oui. Le framework ActiveWiki est open source sur GitHub. Implemente la boucle accumulate-think-act-learn. Code Python + doc.
Toutes les 30 minutes. 48 ticks par jour, 24/7. L'arene ne dort jamais.