지난 글에서는 PPO, DQN 같은 강화학습 알고리즘을 활용해 로또 번호 예측 실험을 진행했지만, 아직 "확실한 전략"을 발견하진 못했습니다.그래서 이번에는 A2C(Advantage Actor Critic) 알고리즘을 실험에 투입해 보았습니다.이번엔 과연 AI가 한 단계 더 진화한 모습을 보여줄 수 있었을까요?🧪 실험 환경은 동일하게 유지!이번 실험도 지난 실험과 마찬가지로 다음과 같은 환경을 기반으로 진행했습니다:환경: 실제 로또 회차 데이터 (번호, 빈도 등)행동: 1~45번 중 6개의 번호 선택보상: 선택한 번호와 실제 당첨 번호의 일치도에 따라 점수 부여 보상 체계는 다음과 같습니다:맞춘 개수보상 점수6개 (1등)+10005개+2004개+503개+102개+31개+10개-1 이러한 보상 체계 덕분..
지난 실험에서는 PPO(Proximal Policy Optimization) 에이전트를 활용해 AI 강화학습 기반 로또 번호 예측을 시도했습니다. 수십만 번의 학습을 반복하며 AI가 조금씩 당첨에 가까운 번호를 고르도록 유도했죠.이번에는 또 다른 방식의 강화학습 알고리즘, DQN(Deep Q-Network) 을 도입해 같은 문제에 도전해보았습니다. 과연 어떤 결과가 나왔을까요? 🧠 DQN은 어떤 방식인가요?강화학습 알고리즘은 크게 두 가지로 나뉩니다.PPO: 정책 기반(policy-based) 방식으로, 확률을 바탕으로 행동을 선택합니다.DQN: 가치 기반(value-based) 방식으로, 각 행동의 예상 보상(Q-value)을 계산해 가장 좋은 선택을 합니다.즉, DQN은 "가능한 행동 중 보상이 가..
AI가 로또 번호를 예측할 수 있을까요?강화학습이라는 기술을 활용해, 이 흥미로운 질문에 답을 찾아보기 위한 실험을 진행했습니다.이번 글에서는 복잡한 수식이나 이론 없이, AI가 실제로 어떻게 학습하고 어떤 결과를 도출했는지 설명드리겠습니다.🚀 실험에 사용된 방법이번 실험의 핵심은 강화학습(🤖 Reinforcement Learning) 입니다.그중에서도 'PPO(Proximal Policy Optimization)'라는 알고리즘을 중심으로 진행했습니다.AI가 로또 환경에서 수십만 번의 시뮬레이션을 통해 어떻게 학습하는지를 관찰하는 방식입니다.학습 환경 구성:환경: 과거 로또 회차 데이터행동: 1~45 중 6개 번호 선택보상: 맞춘 번호 개수에 따라 점수 부여맞춘 번호 수보상 점수1개+12개+33개 (..
지난번에는 앙상블(ensemble) 전략으로 여러 AI가 협업해 로또 번호를 예측해보았지만, 결과는 아쉽게도 2개 적중에 그쳤습니다.이제는 새로운 접근이 필요할 때입니다. 그래서 이번에는 강화학습(Reinforcement Learning) 이라는 방법을 사용해 AI의 학습 방식을 바꿔보았습니다.과연 이 방법으로 AI는 더 나은 예측을 할 수 있을까요?🚀 “강화학습이 뭐길래?”강화학습은 간단히 말하면,AI가 환경에서 시행착오를 통해 스스로 학습하는 방법이에요. 예를 들어, 로또 번호 예측에서는 이렇게 작동합니다:✅ 환경 → 이전 로또 회차 데이터✅ 행동 → 1~45 중 6개 번호 고르기✅ 보상 → 실제 당첨 번호와의 일치 정도에 따라 점수 주기 즉, AI는 “이 번호를 고르면 몇 개 맞췄는지”를 보상으로..
AI는 수백 회차에 이르는 로또 데이터를 바탕으로 다양한 패턴을 학습했습니다.데이터 전처리와 모델 훈련을 거쳐, 실제 번호와 얼마나 가까운 결과를 낼 수 있는지 실험을 진행해봤습니다.🤖 실험 모델 및 예측 결과우리는 머신러닝의 대표적인 알고리즘 중 하나인 Random Forest Classifier를 사용해 학습을 시도했습니다.입력은 지난 10회차 로또 번호, 출력은 다음 회차의 번호 6개입니다. 이 숫자, 과연 실제 로또 번호와 얼마나 일치할까요?결과는 보시는 것과 같이 하나도 맞지 않았습니다. 그래프를 설명하면 파란색은 훈련 정확도(Training Accuracy), 빨간색은 검증 정확도(Validation Accuracy)로 모델이 훈련 데이터는 완벽하게 학습했지만, 검증 데이터에서는 거의 맞추..