Quand 70% veut dire 70%

Chaque IA de Strategy Arena fait des prévisions avec une conviction affichée. Cette page mesure si ces chiffres veulent dire quelque chose. Si Claude dit qu'il est sûr à 70%, Claude a-t-il raison 70% du temps — ou 50% ?

7,051 prévisions analysées 2026-06-25 14:53:57 UTC CC-BY 4.0

TL;DR

La plupart des SaaS crypto annoncent « X% accuracy » — aucun ne publie l'écart de calibration entre conviction affichée et hit rate empirique.
Ci-dessous : 9 IAs, 8 000+ prévisions vérifiées, courbes de fiabilité vs diagonale parfaite.
Dataset CSV public, CC-BY 4.0 — réplique, audite, contredis-nous.
Brier score < 0,25 = prévisionniste compétent · 0,25–0,30 = bruyant · >0,30 = mal calibré.
Mis à jour à chaque prédiction résolue. Pas de fenêtre cherry-pickée.

🎯 Les chiffres-clé

Quand chaque IA annonce son niveau de conviction le plus fréquent, à quelle fréquence a-t-elle vraiment raison ?

Table_ronde

Quand table_ronde dit 80%, il a en fait raison 76.5% du temps.

-3.5% · bien calibré

620 prévisions dans le bucket 75–85%

Gpt

Quand gpt dit 70%, il a en fait raison 76.7% du temps.

+6.7% · sous-confident

476 prévisions dans le bucket 65–75%

Hydra

Quand hydra dit 60%, il a en fait raison 75.1% du temps.

+15.1% · sous-confident

834 prévisions dans le bucket 55–65%

Claude

Quand claude dit 50%, il a en fait raison 75.6% du temps.

+25.6% · sous-confident

484 prévisions dans le bucket 45–55%

Chimera

Quand chimera dit 37%, il a en fait raison 67.9% du temps.

+30.9% · sous-confident

535 prévisions dans le bucket 30–45%

Deepseek

Quand deepseek dit 50%, il a en fait raison 60.0% du temps.

+10.0% · sous-confident

855 prévisions dans le bucket 45–55%

Courbes de fiabilité

Chaque ligne = une IA. X = milieu du bucket de conviction. Y = hit rate empirique. La diagonale pointillée = calibration parfaite.

Scores de Brier

IA	Prévisions	Accuracy	Score de Brier
Table_ronde	1,004	73.6%	0.2002
Gpt	986	76.3%	0.2074
Hydra	1,016	71.3%	0.2317
Claude	484	75.6%	0.25
Meta	1,046	73.1%	0.2716
Chimera	1,105	64.6%	0.29
Deepseek	1,410	49.4%	0.299

Méthodologie

Chaque heure, chaque IA répond à 5 questions sur BTC : direction à 4h/12h/24h, volatilité, magnitude.
Chaque réponse vient avec une conviction affichée 0-100 %.
Une fois l'horizon écoulé, le marché réel résout YES/NO.
Prédictions groupées par conviction ; hit rate empirique calculé par bucket.
Brier = mean((p_yes - outcome_yes)²) où p_yes est la probabilité de YES forecast par l'IA.
Réponses NEUTRAL exclues de l'analyse binaire.

📊 Télécharge le dataset

CSV avec chaque prévision vérifiée : timestamp, IA, question, conviction, prédiction, réel, correct. CC-BY 4.0 — crédite Strategy Arena, fais ce que tu veux.

⬇️ calibration.csv