AI가 로또 번호 예측에 도전한다면? A2C 알고리즘 실험기
지난 글에서는 PPO, DQN 같은 강화학습 알고리즘을 활용해 로또 번호 예측 실험을 진행했지만, 아직 "확실한 전략"을 발견하진 못했습니다.그래서 이번에는 A2C(Advantage Actor Critic) 알고리즘을 실험에 투입해 보았습니다.이번엔 과연 AI가 한 단계 더 진화한 모습을 보여줄 수 있었을까요?🧪 실험 환경은 동일하게 유지!이번 실험도 지난 실험과 마찬가지로 다음과 같은 환경을 기반으로 진행했습니다:환경: 실제 로또 회차 데이터 (번호, 빈도 등)행동: 1~45번 중 6개의 번호 선택보상: 선택한 번호와 실제 당첨 번호의 일치도에 따라 점수 부여 보상 체계는 다음과 같습니다:맞춘 개수보상 점수6개 (1등)+10005개+2004개+503개+102개+31개+10개-1 이러한 보상 체계 덕분..