AI가 로또 번호 예측에 도전한다면? A2C 알고리즘 실험기

지난 글에서는 PPO, DQN 같은 강화학습 알고리즘을 활용해 로또 번호 예측 실험을 진행했지만, 아직 "확실한 전략"을 발견하진 못했습니다.

그래서 이번에는 A2C(Advantage Actor Critic) 알고리즘을 실험에 투입해 보았습니다.
이번엔 과연 AI가 한 단계 더 진화한 모습을 보여줄 수 있었을까요?


🧪 실험 환경은 동일하게 유지!


이번 실험도 지난 실험과 마찬가지로 다음과 같은 환경을 기반으로 진행했습니다:

  • 환경: 실제 로또 회차 데이터 (번호, 빈도 등)
  • 행동: 1~45번 중 6개의 번호 선택
  • 보상: 선택한 번호와 실제 당첨 번호의 일치도에 따라 점수 부여

 

보상 체계는 다음과 같습니다:

맞춘 개수 보상 점수
6개 (1등) +1000
5개 +200
4개 +50
3개 +10
2개 +3
1개 +1
0개 -1
 

이러한 보상 체계 덕분에 AI는 작은 성공을 반복하며 점차 전략을 개선해 나갈 수 있습니다.


🤖 A2C 알고리즘이란?

A2C는 정책 기반가치 기반을 결합한 강화학습 알고리즘입니다.

  • Actor(행동자): 어떤 행동을 할지 결정
  • Critic(비평가): 그 행동이 얼마나 좋은지 평가

두 구성 요소가 협력하여 보다 안정적이고 효율적인 학습을 가능하게 합니다.
이는 기존에 사용한 PPO, DQN과는 다른 강점을 가집니다.


📊 학습 과정과 성과

A2C 에이전트는 수십만 회의 시뮬레이션을 통해 로또 번호 선택 전략을 탐색했습니다.
학습 반복(에피소드)마다 평균 보상을 기록해 결과를 분석했습니다.

🔍 주요 관찰 결과

  • MultiDiscrete 환경에서 A2C는 DQN보다 더 안정적으로 작동했습니다.
  • 다만, 여전히 6개 번호를 모두 맞춘 사례는 없었습니다.
  • 평균 보상은 꾸준히 증가했지만, 특정 수준에서 성능 정체가 나타났습니다.

요약하자면, A2C는 안정적인 학습을 보여주었지만 로또 1등 조합을 찾아내기엔 아직 역부족이었습니다.


🎯 “AI가 실제로 선택한 번호는?”

학습이 끝난 뒤 A2C가 선택한 예측 번호들은 다음과 같았습니다:

 

 

AI는 무작위보다는 약간 빈도가 높은 번호 쪽으로 편향된 선택을 보였으며, 특정 패턴을 학습하는 경향이 관찰되었습니다.
하지만 아직까지는 "이 번호를 고르면 반드시 당첨된다"는 결정적인 전략은 없었습니다.


📘 실험을 통해 얻은 인사이트

이번 실험은 단순한 예측 성능 이상의 의미를 가졌습니다.

  • MultiDiscrete 환경에서는 A2C가 DQN보다 효과적
  • 보상 설계와 환경 구성의 정교함이 결과에 큰 영향
  • 알고리즘만 바꾼다고 해서 기적적인 성능이 나오는 것은 아님

AI도 결국 정확하고 풍부한 데이터, 잘 설계된 환경, 명확한 목표가 있을 때 더 뛰어난 성과를 낼 수 있다는 점을 다시 한번 느꼈습니다.

 


📚 용어 정리

  • 강화학습 (Reinforcement Learning, RL) → 시행착오로 최적 전략을 학습하는 AI 방식
  • 환경 (Environment) → AI가 상호작용하는 공간, 여기선 로또 데이터와 규칙
  • 에이전트 (Agent) → 학습을 수행하는 AI 주체
  • 보상 (Reward) → 행동 결과로 받는 점수, 잘하면 +, 못하면 -
  • 상태 (State) → 현재 환경 정보, 예: 과거 당첨 번호, 번호 빈도
  • 행동 (Action) → AI가 선택하는 결정, 예: 1~45 중 6개 번호 선택
  • 정책 (Policy) → 상태에 따라 어떤 행동을 할지 결정하는 전략
  • A2C (Advantage Actor Critic) → 정책(Actor)과 가치(Critic)를 결합한 강화학습 알고리즘
  • MultiDiscrete → 여러 개의 개별 선택을 동시에 다루는 액션 공간
  • 에피소드 (Episode) → 한 번의 시뮬레이션 학습 단위

 

🔭 다음 실험 계획은?

 

다음 블로그에서는 다음과 같은 주제를 다룰 예정입니다:

  • AI가 학습한 번호 선택 패턴 분석
  • 더 정교한 보상 체계 및 환경 구성
  • 여러 에이전트를 조합한 앙상블 방식 실험

AI가 로또 번호를 예측하는 여정은 계속됩니다.
언젠가 로또 전략도 AI가 밝혀낼 수 있을까요?

다음 실험도 기대해 주세요!

 

 

💡 참고로

  • 본 실험은 연구 및 교육 목적이며, 로또와 같은 확률 게임의 특성상 결과를 과신하면 안 됩니다.