지난 글에서는 PPO, DQN 같은 강화학습 알고리즘을 활용해 로또 번호 예측 실험을 진행했지만, 아직 "확실한 전략"을 발견하진 못했습니다.
그래서 이번에는 A2C(Advantage Actor Critic) 알고리즘을 실험에 투입해 보았습니다.
이번엔 과연 AI가 한 단계 더 진화한 모습을 보여줄 수 있었을까요?
🧪 실험 환경은 동일하게 유지!
이번 실험도 지난 실험과 마찬가지로 다음과 같은 환경을 기반으로 진행했습니다:
- 환경: 실제 로또 회차 데이터 (번호, 빈도 등)
- 행동: 1~45번 중 6개의 번호 선택
- 보상: 선택한 번호와 실제 당첨 번호의 일치도에 따라 점수 부여
보상 체계는 다음과 같습니다:
맞춘 개수 | 보상 점수 |
6개 (1등) | +1000 |
5개 | +200 |
4개 | +50 |
3개 | +10 |
2개 | +3 |
1개 | +1 |
0개 | -1 |
이러한 보상 체계 덕분에 AI는 작은 성공을 반복하며 점차 전략을 개선해 나갈 수 있습니다.
🤖 A2C 알고리즘이란?
A2C는 정책 기반과 가치 기반을 결합한 강화학습 알고리즘입니다.
- Actor(행동자): 어떤 행동을 할지 결정
- Critic(비평가): 그 행동이 얼마나 좋은지 평가
두 구성 요소가 협력하여 보다 안정적이고 효율적인 학습을 가능하게 합니다.
이는 기존에 사용한 PPO, DQN과는 다른 강점을 가집니다.
📊 학습 과정과 성과
A2C 에이전트는 수십만 회의 시뮬레이션을 통해 로또 번호 선택 전략을 탐색했습니다.
학습 반복(에피소드)마다 평균 보상을 기록해 결과를 분석했습니다.
🔍 주요 관찰 결과
- MultiDiscrete 환경에서 A2C는 DQN보다 더 안정적으로 작동했습니다.
- 다만, 여전히 6개 번호를 모두 맞춘 사례는 없었습니다.
- 평균 보상은 꾸준히 증가했지만, 특정 수준에서 성능 정체가 나타났습니다.
요약하자면, A2C는 안정적인 학습을 보여주었지만 로또 1등 조합을 찾아내기엔 아직 역부족이었습니다.
🎯 “AI가 실제로 선택한 번호는?”
학습이 끝난 뒤 A2C가 선택한 예측 번호들은 다음과 같았습니다:
AI는 무작위보다는 약간 빈도가 높은 번호 쪽으로 편향된 선택을 보였으며, 특정 패턴을 학습하는 경향이 관찰되었습니다.
하지만 아직까지는 "이 번호를 고르면 반드시 당첨된다"는 결정적인 전략은 없었습니다.
📘 실험을 통해 얻은 인사이트
이번 실험은 단순한 예측 성능 이상의 의미를 가졌습니다.
- MultiDiscrete 환경에서는 A2C가 DQN보다 효과적
- 보상 설계와 환경 구성의 정교함이 결과에 큰 영향
- 알고리즘만 바꾼다고 해서 기적적인 성능이 나오는 것은 아님
AI도 결국 정확하고 풍부한 데이터, 잘 설계된 환경, 명확한 목표가 있을 때 더 뛰어난 성과를 낼 수 있다는 점을 다시 한번 느꼈습니다.
📚 용어 정리
- 강화학습 (Reinforcement Learning, RL) → 시행착오로 최적 전략을 학습하는 AI 방식
- 환경 (Environment) → AI가 상호작용하는 공간, 여기선 로또 데이터와 규칙
- 에이전트 (Agent) → 학습을 수행하는 AI 주체
- 보상 (Reward) → 행동 결과로 받는 점수, 잘하면 +, 못하면 -
- 상태 (State) → 현재 환경 정보, 예: 과거 당첨 번호, 번호 빈도
- 행동 (Action) → AI가 선택하는 결정, 예: 1~45 중 6개 번호 선택
- 정책 (Policy) → 상태에 따라 어떤 행동을 할지 결정하는 전략
- A2C (Advantage Actor Critic) → 정책(Actor)과 가치(Critic)를 결합한 강화학습 알고리즘
- MultiDiscrete → 여러 개의 개별 선택을 동시에 다루는 액션 공간
- 에피소드 (Episode) → 한 번의 시뮬레이션 학습 단위
🔭 다음 실험 계획은?
다음 블로그에서는 다음과 같은 주제를 다룰 예정입니다:
- AI가 학습한 번호 선택 패턴 분석
- 더 정교한 보상 체계 및 환경 구성
- 여러 에이전트를 조합한 앙상블 방식 실험
AI가 로또 번호를 예측하는 여정은 계속됩니다.
언젠가 로또 전략도 AI가 밝혀낼 수 있을까요?
다음 실험도 기대해 주세요!
💡 참고로
- 본 실험은 연구 및 교육 목적이며, 로또와 같은 확률 게임의 특성상 결과를 과신하면 안 됩니다.