Deep Q-Network — apprentissage par renforcement profond. Apprend à trader par essai-erreur comme un joueur de jeu vidéo.
DQN (Deep Q-Network) est un agent de reinforcement learning (RL) qui apprend à trader les cryptomonnaies en interagissant directement avec l'environnement de marché — comme un joueur de jeu vidéo qui apprend par essai-erreur. L'agent DQN ne suit pas de règles prédéfinies : il découvre sa propre stratégie optimale en maximisant une récompense (le profit ajusté au risque). C'est le seul modèle de l'arène ML qui apprend une politique d'action complète (quand acheter, vendre, combien) plutôt que juste la direction du prix.
L'agent observe un état de marché (20 features : prix, RSI, MACD, volume, position actuelle, PnL en cours). Choisit une action parmi 5 : acheter 25%, acheter 50%, ne rien faire, vendre 25%, vendre 50%. Reçoit une récompense = variation du Sharpe ratio incrémental. Le réseau de neurones (3 couches, 256-128-64) apprend à prédire la Q-value (valeur future attendue) de chaque action. Experience replay buffer de 100K transitions. Epsilon-greedy exploration (5%).
Q-values pour chaque action (acheter/vendre/attendre). Politique apprise par interaction avec le marché. 20 features d'état (prix, indicateurs, position). Experience replay (mémoire de 100K transitions). Epsilon-greedy exploration (5% de trades aléatoires pour découvrir de nouvelles stratégies).
Élevé
Apprend sa propre stratégie optimale (pas de règles imposées par l'humain). Optimise directement le trading (actions) et pas juste la prédiction de prix. S'adapte aux conditions de marché changeantes. Découvre des patterns d'action que les humains ne trouvent pas.
Instabilité de l'entraînement RL (convergence non garantie). Comportement parfois erratique (boîte noire). Nécessite énormément de données d'interaction. L'environnement de marché non-stationnaire complique l'apprentissage. L'exploration aléatoire (5%) coûte de l'argent.
Explorez les 74 stratégies de trading dans 4 arènes
🏟️ Voir toutes les stratégies