PPO 다음은 DQN! AI 강화학습, 이번엔 더 나은 결과일까?
지난 실험에서는 PPO(Proximal Policy Optimization) 에이전트를 활용해 AI 강화학습 기반 로또 번호 예측을 시도했습니다. 수십만 번의 학습을 반복하며 AI가 조금씩 당첨에 가까운 번호를 고르도록 유도했죠.이번에는 또 다른 방식의 강화학습 알고리즘, DQN(Deep Q-Network) 을 도입해 같은 문제에 도전해보았습니다. 과연 어떤 결과가 나왔을까요? 🧠 DQN은 어떤 방식인가요?강화학습 알고리즘은 크게 두 가지로 나뉩니다.PPO: 정책 기반(policy-based) 방식으로, 확률을 바탕으로 행동을 선택합니다.DQN: 가치 기반(value-based) 방식으로, 각 행동의 예상 보상(Q-value)을 계산해 가장 좋은 선택을 합니다.즉, DQN은 "가능한 행동 중 보상이 가..