Recherche publique

Méthodologie & Transparence

Synthese d'autorite — Derniere verification: 2026-06-11
Domaine	Preuve	Gate	Statut
Strategies live	arena_state_*_v5.json	Comptage public	72
ML / Brier	brier_autopsy_*.json	anti-leak OOF	published
Monte Carlo CV	live_mc_results_snapshot.json	Sharpe_p5	7
Strategy Hospital	JSON	triage	PASS/WATCHLIST
Mode	paper trading	Aucun ordre reel	paper-trading

Comment fonctionnent vraiment les couches ML et statistiques de Strategy Arena. Nous avons mesuré chaque Brier. Nous avons corrigé chaque leak. Voici l'architecture réelle.

Anti-marketing: si une couche est analytique, nous l'appelons analytique. Si elle est rules-based, nous l'appelons rules-based. Si elle est ML, nous publions son vrai Brier mesuré.
Atlas Edge Allocator · Live MC Results · ML Edge Report · Portfolio MC · Strategy Lifecycle · Edge Radar

Nouveau: le Strategy Hospital publie le triage live, et Strategy Lifecycle archive l'historique public des changements.

Les 4 monstres actifs + 1 finding archive

Monstre	Architecture	Métrique réelle	Status
Invictus ML Ultimate	LightGBM with isotonic calibration, OOF validation and monotonic constraints	Brier OOS expected ~0.22 (calibré)	Real ML Audité 8/10 par DeepSeek
Chimera Scanner + CNN	17 statistical patterns + PyTorch CNN, 108 OHLCV/pattern channels	Brier OOS 0.2512 9,356 samples	Hybrid Rules + vrai ML
Leviathan 9-Layer Ensemble	8 heuristic layers + 1 PyTorch MLP as Layer 9	Brier OOS 0.2589 10,758 samples, post-leak-fix	Hybrid Heuristiques + vrai ML
Hydra ML V5 + LSTM	XGBoost ranking for PnL + PyTorch LSTM for direction	Brier OOS 0.2480 51,718 samples	Real dual ML
Maelstrom family	Contextual bandit + strategy embeddings (V1, Gated, Minimal)	Finding negatif publie RF -0.26%, Hydra -2.25%, Ensemble +0.02% Brier	Archive scientifique Pas de promotion live
Meta Intelligence v3	Strategy analytics: bootstrap CI, Bonferroni multi-compare, performance snapshots	Pas de prédiction Moteur analytique	Dashboard honnête

Brier > 0.25 = a peine exploitable. Brier 0.25 est proche du plafond pratique pour predire la direction crypto 5 minutes. Ce n'est pas un edge directionnel autonome; c'est une limite negative que nous publions.

Brier 0.25: ce que cela veut dire

Sur la direction binaire crypto a 5 minutes, un Brier proche de 0.25 est proche d'une baseline random equilibree. Nous ne traitons donc pas ChimeraCNN, LeviathanNN ou HydraLSTM comme des predicteurs directionnels autonomes. Ils servent de couches de diagnostic: regime, calibration, filtrage de signal, ranking secondaire et detection de conditions ou une strategie MC-validee merite d'etre suivie.

Resultat negatif publie
Les modèles directionnels 5m plafonnent autour de 0.25. C'est une limite mesuree, pas un claim de victoire ML.

Usage reel
Le vrai gate d'edge reste Monte Carlo CV: Sharpe_p5, frais, embargo et suivi live cellule par cellule.

Mesure empirique 2026-05-17. 660 configurations GPU ont teste architectures, targets, timeframes et features. La direction 5 minutes reste au plancher random walk (Brier 0.2474 vs baseline 0.2463). En revanche, la prediction de regime de volatilite montre un edge mesurable: FLOKI 15min Brier 0.1215 vs baseline 0.2500. Lire le rapport complet.

Méthodologie de validation des stratégies

Monte Carlo CV
30 splits temporels aléatoires, ancre entre 20% et 70%.

Robustness gate
Sharpe_p5 > 0.5 sur le 5e percentile des 30 splits.

Trade count
n_trades_mean > 20 par fenêtre OOS, et au moins 10 splits valides.

Frais inclus: 0.20% round-trip.
Les validations single-split sont considérées comme faibles tant qu'elles ne survivent pas au MC CV.
Exemple: Wyckoff Evolved avait un Sharpe OOS 1.85 single-split, puis MC mean Sharpe 0.73 sur PUMP, -0.04 sur INJ, -0.36 sur FLOKI. Il a été rejeté.

Stratégies validées par Monte Carlo

Strategy	Assets validés	Best Sharpe_p5	Rejeté sur
Smart Money Evolved	BTC, ETH, SOL, BNB	1.22 (BTC)	-
Mean Rev Pro Evolved	NEAR, SNX, CHZ, TIA	1.189 (SNX)	TRB
Capitulation Rebound Evolved	BTC, SOL, BNB, NEAR, SNX, CHZ, TIA	1.526 (SNX)	-
Deep Freeze Evolved	SNX, CHZ	0.884 (CHZ)	BTC, ETH, SOL, BNB, NEAR, TIA, AVAX
Sly Fox Evolved	BNB	0.599	8 autres
Deep Shadow Evolved	BTC	0.851	8 autres
Wyckoff Evolved	aucun	-	PUMP, INJ, COMP, FLOKI
Darvas	aucun	-	BTC, ETH, SOL, BNB, TRB

Les validations MC sont maintenant suivies en live, cellule par cellule, pour mesurer la derive entre Sharpe_p5 theorique et performance reelle.
Voir les resultats live Monte Carlo

Leaks de données corrigés

Metaux, note 2026-05-17. L'audit interne a trouve un feed live Gold/Silver incoherent: ticks dupliques, fallback PAXG et ratio synthetique 82.5. Le feed live a ete migre vers Yahoo Finance futures (GC=F, SI=F). Les validations MC metals restent caveatees jusqu'a re-validation post-fix; la cellule SILVER Smart Money utilisait bien un parquet historique Yahoo SI=F, mais son tracking live est suspendu pendant la revalidation.

chimera_ml.py

Target leakage: avg_pnl servait à la fois de feature et de label. Supprimé le 2026-05-15.

leviathan_data_merger.py

3 look-ahead bugs: news future, régime utilisant la bougie courante, one-hot futur. Corrigé le 2026-05-15.

Conséquence honnête: le Brier de Leviathan NN est passé de 0.244 avec leak à 0.2589 sans leak. Nous publions le vrai chiffre.

Pourquoi certaines stratégies IA ne sont pas du vrai ML

Leviathan 9-Layer Ensemble Brain était 9 couches heuristiques et du storytelling. Depuis la greffe, c'est un 9-Layer Ensemble: 8 heuristiques + 1 PyTorch MLP.
l'ancien total Chimera était un nombre exagéré issu d'un gros JSON accumulé live. Nous affichons désormais 50 patterns peer-reviewed, filtrés Bonferroni-Hochberg FDR alpha 0.05.
ML Arena V3 était isolée des monstres principaux. Les modèles ont été migrés in-place dans backend/: chimera_cnn.py, leviathan_nn.py, hydra_lstm.py.

Ce que nous ne prétendons pas

Nous ne prétendons pas prédire la direction crypto de façon fiable.

Nous ne prétendons pas avoir un Brier < 0.20. Ce serait suspect sur ce framing.

Nous ne prétendons pas dépasser 1-3 de Sharpe sans validation longue.

Nous ne prétendons pas avoir un cerveau IA unifié magique.

Ce que nous revendiquons: un laboratoire transparent qui mesure tout, corrige publiquement ses leaks, et refuse de publier comme "edge" ce qui ne survit pas à une validation Monte Carlo CV stricte.

Editorial Newsjacker

Le Newsjacker connecte chaque jour une source d'actualite finance, crypto ou IA a une finding Strategy Arena precise. C'est un système editorial assiste, pas une machine a publier du contenu marketing: source originale obligatoire, lien interne vers une finding mesuree, caveat obligatoire, et queue de validation owner par defaut.

Articles bases sur backtesting, paper trading, Monte Carlo CV ou rapports de calibration; jamais une promesse de profit reel.

Claims interdites: superlatifs non prouves, garanties, "10x/100x", hype crypto et storytelling IA sans chiffres.

Voir la timeline publique: Newsjacker anti-2CV. Les brouillons restent en review tant qu'ils ne passent pas les gates automatiques.

Distributed Research Network

Strategy Arena évolué vers une couche de citizen science quantitative: backtests personnels locaux, benchmarks hardware publics, puis raids thematiques cooperatifs. Le point important: chaque raid devra partir d'une hypothese pre-enregistree, avec quorum, replication et publication des resultats positifs comme negatifs.

V1
Backtest personnel local. Compute cote client, sauvegarde optionnelle si connecte.

V2
Contest GPU standardise: vitesse, stabilite, reproductibilite, leaderboard public.

V3
Raids de recherche: 10-50 GPUs pour valider une hypothese et produire un papier ouvert.

Roadmap seulement: les phases V2/V3 ne sont pas actives aujourd'hui. La page publique sert a collecter feedback et contributeurs avant activation.
Strategy Arena Research Network

Limites connues

Brier ~0.25 sur crypto 5m : plafond pratique, pas un edge directionnel standalone.
Monte Carlo CV ne garantit pas la performance live future.
Feeds metaux : re-validation MC apres migration Yahoo GC=F/SI=F.
Couches IA heterogenes (heuristiques + ML) explicitement etiquetees.
Snapshots /facts/*.json = etat VPS a la generation, pas flux HFT.

Cette page valide les claims de:

/facts/strategy-arena

/facts/monte-carlo

/facts/ml-edge

/facts/strategy-hospital

Open Research Dataset

Strategy Arena publishes an anonymized public dataset of AI, ML, GPU, futures, and classic strategy paper-trading events for independent research.

Download the public dataset

Méthodologie & Transparence

Les 4 monstres actifs + 1 finding archive

Brier 0.25: ce que cela veut dire

Méthodologie de validation des stratégies

Stratégies validées par Monte Carlo

Leaks de données corrigés

Pourquoi certaines stratégies IA ne sont pas du vrai ML

Ce que nous ne prétendons pas

Editorial Newsjacker

Distributed Research Network

Limites connues

Cette page valide les claims de:

Open Research Dataset

Construire, evoluer, verifier et exporter