Глубокое Q-обучение с подкреплением. DQN обучается торговой стратегии через прямое взаимодействие с рыночной средой.
DQN (Deep Q-Network) — алгоритм глубокого обучения с подкреплением, обучающийся оптимальной торговой политике через прямое взаимодействие со средой. Вместо предсказания направления цены (как XGBoost или LSTM), DQN обучается принимать решения (купить, продать, держать) максимизирующие долгосрочное вознаграждение. Агент исследует рыночные состояния, совершает действия и получает вознаграждение (+1 за прибыльные сделки, -1 за убыточные), постепенно изучая оптимальную стратегию.
Состояние = вектор признаков рынка (OHLCV + индикаторы последних 50 свечей). Действие = {купить, продать, держать}. Вознаграждение = взвешенная реализованная прибыль. DQN обучается через Q-обучение с нейросетью аппроксимации Q-функции. Experience Replay буфер для стабилизации обучения. Политика ε-greedy: исследование vs эксплуатация. 100 000+ шагов симуляции для обучения.
Q-значения для каждого действия (ожидаемая будущая прибыль). Политика ε-greedy (исследование vs эксплуатация). История наград (сходимость стратегии). Пространство рыночных состояний в 50-шаговом окне.
Высокий
Обучается напрямую оптимизировать доходность (не промежуточные метрики). Захватывает долгосрочные взаимодействия рынка. Адаптивна к стилю торговли (фреймворк обучения с подкреплением). Не требует разметки (самообучение через награды).
Сложная настройка и нестабильное обучение. Требует миллионов симуляций для схождения. Может изучать несостоятельные политики без правильной функции наград. Плохо обобщается на «непросмотренные» рыночные режимы. Переобучение на среде симуляции vs реальный рынок.
Изучите все 74 торговые стратегии на 4 аренах
🏟️ Все стратегии