Skip to main content
Recherche publique

Méthodologie & Transparence

Synthese d'autorite — Derniere verification: 2026-06-11
DomainePreuveGateStatut
Strategies livearena_state_*_v5.jsonComptage public72
ML / Brierbrier_autopsy_*.jsonanti-leak OOFpublished
Monte Carlo CVlive_mc_results_snapshot.jsonSharpe_p57
Strategy HospitalJSONtriagePASS/WATCHLIST
Modepaper tradingAucun ordre reelpaper-trading

Comment fonctionnent vraiment les couches ML et statistiques de Strategy Arena. Nous avons mesuré chaque Brier. Nous avons corrigé chaque leak. Voici l'architecture réelle.

Anti-marketing: si une couche est analytique, nous l'appelons analytique. Si elle est rules-based, nous l'appelons rules-based. Si elle est ML, nous publions son vrai Brier mesuré.
Atlas Edge Allocator · Live MC Results · ML Edge Report · Portfolio MC · Strategy Lifecycle · Edge Radar
Nouveau: le Strategy Hospital publie le triage live, et Strategy Lifecycle archive l'historique public des changements.

Les 4 monstres actifs + 1 finding archive

Monstre Architecture Métrique réelle Status
Invictus ML Ultimate LightGBM with isotonic calibration, OOF validation and monotonic constraints Brier OOS expected ~0.22 (calibré) Real ML
Audité 8/10 par DeepSeek
Chimera Scanner + CNN 17 statistical patterns + PyTorch CNN, 108 OHLCV/pattern channels Brier OOS 0.2512
9,356 samples
Hybrid
Rules + vrai ML
Leviathan 9-Layer Ensemble 8 heuristic layers + 1 PyTorch MLP as Layer 9 Brier OOS 0.2589
10,758 samples, post-leak-fix
Hybrid
Heuristiques + vrai ML
Hydra ML V5 + LSTM XGBoost ranking for PnL + PyTorch LSTM for direction Brier OOS 0.2480
51,718 samples
Real dual ML
Maelstrom family Contextual bandit + strategy embeddings (V1, Gated, Minimal) Finding negatif publie
RF -0.26%, Hydra -2.25%, Ensemble +0.02% Brier
Archive scientifique
Pas de promotion live
Meta Intelligence v3 Strategy analytics: bootstrap CI, Bonferroni multi-compare, performance snapshots Pas de prédiction
Moteur analytique
Dashboard honnête
Brier > 0.25 = a peine exploitable. Brier 0.25 est proche du plafond pratique pour predire la direction crypto 5 minutes. Ce n'est pas un edge directionnel autonome; c'est une limite negative que nous publions.

Brier 0.25: ce que cela veut dire

Sur la direction binaire crypto a 5 minutes, un Brier proche de 0.25 est proche d'une baseline random equilibree. Nous ne traitons donc pas ChimeraCNN, LeviathanNN ou HydraLSTM comme des predicteurs directionnels autonomes. Ils servent de couches de diagnostic: regime, calibration, filtrage de signal, ranking secondaire et detection de conditions ou une strategie MC-validee merite d'etre suivie.
Resultat negatif publie
Les modèles directionnels 5m plafonnent autour de 0.25. C'est une limite mesuree, pas un claim de victoire ML.
Usage reel
Le vrai gate d'edge reste Monte Carlo CV: Sharpe_p5, frais, embargo et suivi live cellule par cellule.
Mesure empirique 2026-05-17. 660 configurations GPU ont teste architectures, targets, timeframes et features. La direction 5 minutes reste au plancher random walk (Brier 0.2474 vs baseline 0.2463). En revanche, la prediction de regime de volatilite montre un edge mesurable: FLOKI 15min Brier 0.1215 vs baseline 0.2500. Lire le rapport complet.

Méthodologie de validation des stratégies

Monte Carlo CV
30 splits temporels aléatoires, ancre entre 20% et 70%.
Robustness gate
Sharpe_p5 > 0.5 sur le 5e percentile des 30 splits.
Trade count
n_trades_mean > 20 par fenêtre OOS, et au moins 10 splits valides.

Stratégies validées par Monte Carlo

Strategy Assets validés Best Sharpe_p5 Rejeté sur
Smart Money EvolvedBTC, ETH, SOL, BNB1.22 (BTC)-
Mean Rev Pro EvolvedNEAR, SNX, CHZ, TIA1.189 (SNX)TRB
Capitulation Rebound EvolvedBTC, SOL, BNB, NEAR, SNX, CHZ, TIA1.526 (SNX)-
Deep Freeze EvolvedSNX, CHZ0.884 (CHZ)BTC, ETH, SOL, BNB, NEAR, TIA, AVAX
Sly Fox EvolvedBNB0.5998 autres
Deep Shadow EvolvedBTC0.8518 autres
Wyckoff Evolvedaucun-PUMP, INJ, COMP, FLOKI
Darvasaucun-BTC, ETH, SOL, BNB, TRB
Les validations MC sont maintenant suivies en live, cellule par cellule, pour mesurer la derive entre Sharpe_p5 theorique et performance reelle.
Voir les resultats live Monte Carlo

Leaks de données corrigés

Metaux, note 2026-05-17. L'audit interne a trouve un feed live Gold/Silver incoherent: ticks dupliques, fallback PAXG et ratio synthetique 82.5. Le feed live a ete migre vers Yahoo Finance futures (GC=F, SI=F). Les validations MC metals restent caveatees jusqu'a re-validation post-fix; la cellule SILVER Smart Money utilisait bien un parquet historique Yahoo SI=F, mais son tracking live est suspendu pendant la revalidation.
chimera_ml.py

Target leakage: avg_pnl servait à la fois de feature et de label. Supprimé le 2026-05-15.

leviathan_data_merger.py

3 look-ahead bugs: news future, régime utilisant la bougie courante, one-hot futur. Corrigé le 2026-05-15.

Conséquence honnête: le Brier de Leviathan NN est passé de 0.244 avec leak à 0.2589 sans leak. Nous publions le vrai chiffre.

Pourquoi certaines stratégies IA ne sont pas du vrai ML

Ce que nous ne prétendons pas

Nous ne prétendons pas prédire la direction crypto de façon fiable.
Nous ne prétendons pas avoir un Brier < 0.20. Ce serait suspect sur ce framing.
Nous ne prétendons pas dépasser 1-3 de Sharpe sans validation longue.
Nous ne prétendons pas avoir un cerveau IA unifié magique.
Ce que nous revendiquons: un laboratoire transparent qui mesure tout, corrige publiquement ses leaks, et refuse de publier comme "edge" ce qui ne survit pas à une validation Monte Carlo CV stricte.

Editorial Newsjacker

Le Newsjacker connecte chaque jour une source d'actualite finance, crypto ou IA a une finding Strategy Arena precise. C'est un système editorial assiste, pas une machine a publier du contenu marketing: source originale obligatoire, lien interne vers une finding mesuree, caveat obligatoire, et queue de validation owner par defaut.

Articles bases sur backtesting, paper trading, Monte Carlo CV ou rapports de calibration; jamais une promesse de profit reel.
Claims interdites: superlatifs non prouves, garanties, "10x/100x", hype crypto et storytelling IA sans chiffres.
Voir la timeline publique: Newsjacker anti-2CV. Les brouillons restent en review tant qu'ils ne passent pas les gates automatiques.

Distributed Research Network

Strategy Arena évolué vers une couche de citizen science quantitative: backtests personnels locaux, benchmarks hardware publics, puis raids thematiques cooperatifs. Le point important: chaque raid devra partir d'une hypothese pre-enregistree, avec quorum, replication et publication des resultats positifs comme negatifs.

V1
Backtest personnel local. Compute cote client, sauvegarde optionnelle si connecte.
V2
Contest GPU standardise: vitesse, stabilite, reproductibilite, leaderboard public.
V3
Raids de recherche: 10-50 GPUs pour valider une hypothese et produire un papier ouvert.
Roadmap seulement: les phases V2/V3 ne sont pas actives aujourd'hui. La page publique sert a collecter feedback et contributeurs avant activation.
Strategy Arena Research Network

Limites connues

Cette page valide les claims de:

Open Research Dataset

Strategy Arena publishes an anonymized public dataset of AI, ML, GPU, futures, and classic strategy paper-trading events for independent research.

Download the public dataset
Couche d'evolution privee

Construire, evoluer, verifier et exporter

Les liens TradingView publics restent ouverts. Builder (9€/mois) debloque la creation ArenaScript privee et l'export Pine; Operator (29€/mois) ajoute MCP/API, evolution CUDA et verification avancee. Aucune promesse de gains, jamais.

Voir les offres
Gratuit · Builder 9€ · Operator 29€