Méthodologie & Transparence
| Domaine | Preuve | Gate | Statut |
|---|---|---|---|
| Strategies live | arena_state_*_v5.json | Comptage public | 72 |
| ML / Brier | brier_autopsy_*.json | anti-leak OOF | published |
| Monte Carlo CV | live_mc_results_snapshot.json | Sharpe_p5 | 7 |
| Strategy Hospital | JSON | triage | PASS/WATCHLIST |
| Mode | paper trading | Aucun ordre reel | paper-trading |
Comment fonctionnent vraiment les couches ML et statistiques de Strategy Arena. Nous avons mesuré chaque Brier. Nous avons corrigé chaque leak. Voici l'architecture réelle.
Atlas Edge Allocator · Live MC Results · ML Edge Report · Portfolio MC · Strategy Lifecycle · Edge Radar
Les 4 monstres actifs + 1 finding archive
| Monstre | Architecture | Métrique réelle | Status |
|---|---|---|---|
| Invictus ML Ultimate | LightGBM with isotonic calibration, OOF validation and monotonic constraints | Brier OOS expected ~0.22 (calibré) | Real ML Audité 8/10 par DeepSeek |
| Chimera Scanner + CNN | 17 statistical patterns + PyTorch CNN, 108 OHLCV/pattern channels | Brier OOS 0.2512 9,356 samples |
Hybrid Rules + vrai ML |
| Leviathan 9-Layer Ensemble | 8 heuristic layers + 1 PyTorch MLP as Layer 9 | Brier OOS 0.2589 10,758 samples, post-leak-fix |
Hybrid Heuristiques + vrai ML |
| Hydra ML V5 + LSTM | XGBoost ranking for PnL + PyTorch LSTM for direction | Brier OOS 0.2480 51,718 samples |
Real dual ML |
| Maelstrom family | Contextual bandit + strategy embeddings (V1, Gated, Minimal) | Finding negatif publie RF -0.26%, Hydra -2.25%, Ensemble +0.02% Brier |
Archive scientifique Pas de promotion live |
| Meta Intelligence v3 | Strategy analytics: bootstrap CI, Bonferroni multi-compare, performance snapshots | Pas de prédiction Moteur analytique |
Dashboard honnête |
Brier 0.25: ce que cela veut dire
Les modèles directionnels 5m plafonnent autour de 0.25. C'est une limite mesuree, pas un claim de victoire ML.
Le vrai gate d'edge reste Monte Carlo CV: Sharpe_p5, frais, embargo et suivi live cellule par cellule.
Méthodologie de validation des stratégies
30 splits temporels aléatoires, ancre entre 20% et 70%.
Sharpe_p5 > 0.5 sur le 5e percentile des 30 splits.
n_trades_mean > 20 par fenêtre OOS, et au moins 10 splits valides.
- Frais inclus: 0.20% round-trip.
- Les validations single-split sont considérées comme faibles tant qu'elles ne survivent pas au MC CV.
- Exemple: Wyckoff Evolved avait un Sharpe OOS 1.85 single-split, puis MC mean Sharpe 0.73 sur PUMP, -0.04 sur INJ, -0.36 sur FLOKI. Il a été rejeté.
Stratégies validées par Monte Carlo
| Strategy | Assets validés | Best Sharpe_p5 | Rejeté sur |
|---|---|---|---|
| Smart Money Evolved | BTC, ETH, SOL, BNB | 1.22 (BTC) | - |
| Mean Rev Pro Evolved | NEAR, SNX, CHZ, TIA | 1.189 (SNX) | TRB |
| Capitulation Rebound Evolved | BTC, SOL, BNB, NEAR, SNX, CHZ, TIA | 1.526 (SNX) | - |
| Deep Freeze Evolved | SNX, CHZ | 0.884 (CHZ) | BTC, ETH, SOL, BNB, NEAR, TIA, AVAX |
| Sly Fox Evolved | BNB | 0.599 | 8 autres |
| Deep Shadow Evolved | BTC | 0.851 | 8 autres |
| Wyckoff Evolved | aucun | - | PUMP, INJ, COMP, FLOKI |
| Darvas | aucun | - | BTC, ETH, SOL, BNB, TRB |
Voir les resultats live Monte Carlo
Leaks de données corrigés
Target leakage: avg_pnl servait à la fois de feature et de label. Supprimé le 2026-05-15.
3 look-ahead bugs: news future, régime utilisant la bougie courante, one-hot futur. Corrigé le 2026-05-15.
Conséquence honnête: le Brier de Leviathan NN est passé de 0.244 avec leak à 0.2589 sans leak. Nous publions le vrai chiffre.
Pourquoi certaines stratégies IA ne sont pas du vrai ML
- Leviathan 9-Layer Ensemble Brain était 9 couches heuristiques et du storytelling. Depuis la greffe, c'est un 9-Layer Ensemble: 8 heuristiques + 1 PyTorch MLP.
- l'ancien total Chimera était un nombre exagéré issu d'un gros JSON accumulé live. Nous affichons désormais 50 patterns peer-reviewed, filtrés Bonferroni-Hochberg FDR alpha 0.05.
- ML Arena V3 était isolée des monstres principaux. Les modèles ont été migrés in-place dans backend/: chimera_cnn.py, leviathan_nn.py, hydra_lstm.py.
Ce que nous ne prétendons pas
Editorial Newsjacker
Le Newsjacker connecte chaque jour une source d'actualite finance, crypto ou IA a une finding Strategy Arena precise. C'est un système editorial assiste, pas une machine a publier du contenu marketing: source originale obligatoire, lien interne vers une finding mesuree, caveat obligatoire, et queue de validation owner par defaut.
Distributed Research Network
Strategy Arena évolué vers une couche de citizen science quantitative: backtests personnels locaux, benchmarks hardware publics, puis raids thematiques cooperatifs. Le point important: chaque raid devra partir d'une hypothese pre-enregistree, avec quorum, replication et publication des resultats positifs comme negatifs.
Backtest personnel local. Compute cote client, sauvegarde optionnelle si connecte.
Contest GPU standardise: vitesse, stabilite, reproductibilite, leaderboard public.
Raids de recherche: 10-50 GPUs pour valider une hypothese et produire un papier ouvert.
Strategy Arena Research Network
Limites connues
- Brier ~0.25 sur crypto 5m : plafond pratique, pas un edge directionnel standalone.
- Monte Carlo CV ne garantit pas la performance live future.
- Feeds metaux : re-validation MC apres migration Yahoo GC=F/SI=F.
- Couches IA heterogenes (heuristiques + ML) explicitement etiquetees.
- Snapshots /facts/*.json = etat VPS a la generation, pas flux HFT.
Cette page valide les claims de:
Open Research Dataset
Strategy Arena publishes an anonymized public dataset of AI, ML, GPU, futures, and classic strategy paper-trading events for independent research.
Download the public dataset