PPO 다음은 DQN! AI 강화학습, 이번엔 더 나은 결과일까?

지난 실험에서는 PPO(Proximal Policy Optimization) 에이전트를 활용해 AI 강화학습 기반 로또 번호 예측을 시도했습니다. 수십만 번의 학습을 반복하며 AI가 조금씩 당첨에 가까운 번호를 고르도록 유도했죠.

이번에는 또 다른 방식의 강화학습 알고리즘, DQN(Deep Q-Network) 을 도입해 같은 문제에 도전해보았습니다. 과연 어떤 결과가 나왔을까요?

🧠 DQN은 어떤 방식인가요?

강화학습 알고리즘은 크게 두 가지로 나뉩니다.

PPO: 정책 기반(policy-based) 방식으로, 확률을 바탕으로 행동을 선택합니다.
DQN: 가치 기반(value-based) 방식으로, 각 행동의 예상 보상(Q-value)을 계산해 가장 좋은 선택을 합니다.

즉, DQN은 "가능한 행동 중 보상이 가장 높은 것 하나를 고르는" 데 중점을 둡니다. 이런 구조는 보통 게임처럼 단일 선택 환경에 강점을 보입니다.

🏗️ 실험 환경 설정

기본 실험 환경은 이전과 동일합니다.

상태 (State): 과거 로또 당첨 번호
행동 (Action): 1~45 중 6개 번호 선택 (MultiBinary 구조)
보상 (Reward): 선택한 번호와 실제 당첨 번호의 일치 개수에 따라 점수 부여

보상은 다음 기준으로 설계했습니다:

6개 맞춤 → +1000
5개 맞춤 → +200
4개 맞춤 → +50
3개 맞춤 → +10
2개 맞춤 → +3
1개 맞춤 → +1
0개 또는 미만 → -1

이 구조는 AI가 작은 성공에도 점진적으로 학습할 수 있도록 돕습니다.

⚙️ DQN의 구조적 한계

하지만 실험 도중 중요한 한계를 확인할 수 있었습니다.
DQN은 '단일 선택'에 최적화된 구조입니다. 예를 들어, '점프'나 '왼쪽으로 이동' 등 하나의 행동을 선택해야 하는 게임 환경에서는 뛰어난 성능을 보이지만, 동시에 여러 선택을 해야 하는 문제에는 맞지 않습니다.

로또 번호 선택처럼 여러 개의 행동을 동시에 결정(MultiBinary) 해야 하는 상황에서는, DQN의 기본 설계로는 한계가 있습니다. 이는 Q-네트워크가 각 행동을 개별적으로 평가하는 데 초점이 맞춰져 있기 때문입니다.

📊 학습 결과 분석

아래 그래프는 DQN 에이전트가 학습한 결과입니다.
X축은 에피소드(학습 회차), Y축은 해당 회차에서의 보상 점수를 나타냅니다.

📈 전반적 경향

대부분의 에피소드에서 평균 보상은 약 2점 수준에 머물렀습니다.
간혹 4개 번호 이상을 맞춰 50점 이상의 보상을 받은 경우도 있었지만, 매우 드물었습니다.
전반적인 보상 패턴은 일정한 상승세 없이 들쭉날쭉한 양상을 보였습니다.

📌 해석

DQN은 이 실험에서 안정적인 학습 흐름을 보이지 못했습니다.
로또 예측처럼 복합적인 선택을 요구하는 문제에서는 구조적인 한계가 존재한다는 사실을 확인할 수 있었습니다.

이 그래프는 DQN (Deep Q-Network) 에이전트를 이용해 로또 예측 강화를 학습시킨 후, 각 에피소드(학습 단계)에서 얻은 보상을 기록한 결과입니다.
그래프의 x축은 에피소드(0 ~ 200), y축은 해당 에피소드에서 AI가 받은 보상 점수입니다.

평균 보상 수준
대부분의 에피소드에서 보상은 2개였다는 의미입니다.
→ 즉, 학습 중인 AI가 아직 고난도의 패턴을 제대로 찾지 못하고 있는 상태로 해석할 수 있어요.
특이치 (Outlier)
중간중간 10 그리고 최대 50까지 치솟은 점들이 보입니다.
→ 이건 특정 에피소드에서 AI가 운 좋게 4개 이상 맞추거나 (보상 체계상 4개: 50점, 5개: 200점, 6개: 1000점) 높은 보상을 얻었다는 신호예요. 다만 여기선 50이 최고라 4개 일치가 최대치였던 것으로 보입니다.
전반적 안정성
그래프의 보상 패턴은 들쭉날쭉, 뾰족한 스파이크가 있긴 하지만 전반적으로는 낮은 수준에서 유지됩니다.
→ DQN은 일반적으로 이산적(discrete) 행동 공간에 강점을 가지는데, 로또처럼 동시에 6개의 번호를 선택해야 하는 문제(MultiBinary 또는 MultiDiscrete 액션 공간) 에는 최적화되어 있지 않다는 한계가 여기서 드러납니다.

📚 용어 정리

강화학습 (Reinforcement Learning, RL) → AI가 시행착오로 학습하는 방식
환경 (Environment) → AI가 상호작용하는 공간, 예: 로또 데이터
에이전트 (Agent) → 환경을 관찰하고 행동하며 보상을 받는 AI
상태 (State) → 현재 환경 정보, 예: 과거 당첨 번호
행동 (Action) → AI가 선택하는 움직임, 예: 1~45 중 6개 번호 고르기
보상 (Reward) → 행동 후 AI가 받는 점수, 맞춘 개수에 따라 부여
정책 (Policy) → 어떤 상태에서 어떤 행동을 할지 결정하는 전략
PPO (Proximal Policy Optimization) → 안정적인 강화학습 알고리즘
DQN (Deep Q-Network) → Q-learning에 딥러닝을 결합한 알고리즘
A2C (Advantage Actor Critic) → 정책·가치 기반 학습을 동시에 수행
GPU (Graphics Processing Unit) → 대규모 계산을 빠르게 처리하는 장치

다음 실험 계획

다음 블로그에서는 다음 내용을 다룰 예정입니다:

DQN 외의 알고리즘인 A2C(Advantage Actor Critic) 활용
각 알고리즘별 보상 비교 및 성능 분석
AI가 예측한 번호 샘플 소개

마무리하며

강화학습은 단기간의 실험으로 완성되는 분야가 아닙니다.
정교한 환경 설계, 섬세한 보상 시스템, 그리고 적절한 알고리즘 선택이 함께 작용해야 의미 있는 결과를 얻을 수 있습니다.

이번 실험은 DQN의 한계를 확인하는 데 의의가 있었습니다. 앞으로 더 발전된 방식으로 AI가 예측 정확도를 높여가는 모습을 기대해봅니다.

지속적인 실험과 개선을 통해, 언젠가는 보다 정확한 로또 예측 모델을 만드는 것도 불가능하지만은 않을지도 모릅니다.

감사합니다.

저작자표시 비영리 변경금지 (새창열림)

티스토리툴바