AI가 로또 번호를 예측하려면 반드시 거쳐야 할 과정

🎲 "AI도 로또를 못 맞춘다고?"

AI가 세상을 뒤흔들고 있는 시대입니다.
이미 사람보다 바둑도, 체스도, 스타크래프트도 잘하는 AI가 등장했죠.

그런데, 왜 로또 번호는 제대로 예측하지 못할까요?

단순히 "운이라서"라고 치부하기에는, 뭔가 찜찜하지 않나요?
AI는 '운'까지 학습할 수 없는 걸까요?

 


🤔 "문제는... 데이터야!"

AI는 데이터를 기반으로 학습합니다.
우리가 2일차에서 열심히 모은 로또 데이터도 마찬가지죠.

하지만 아무 데이터나 가져다가 넣는다고 AI가 똑똑해지진 않습니다.
'더러운 데이터(Dirty Data)' 가 들어가면,
'더러운 결과(Trash Result)' 가 나올 뿐입니다.

이걸 우리는 이렇게 부릅니다:

Garbage In, Garbage Out (쓰레기가 들어가면 쓰레기가 나온다)

 

 


📊 "좋은 데이터 vs 나쁜 데이터"

그럼, 어떤 데이터가 '좋은 데이터'일까요?
AI가 잘 학습하려면 이런 특징이 필요합니다:

✔️ 결측값이 없어야 해요

  • 누락된 번호가 있으면 AI는 혼란에 빠집니다.
    (예: 3개만 있는 데이터 → "어? 번호가 왜 이래?")

✔️ 포맷이 통일되어야 해요

  • 날짜, 회차, 번호 순서 등이 제멋대로라면 AI는 일관된 패턴을 찾지 못합니다.

✔️ 중복이 없어야 해요

  • 같은 데이터가 두 번씩 있으면, AI는 잘못된 가중치를 부여할 수 있어요.

✔️ 쓸데없는 정보는 제거해야 해요

  • 보너스 번호처럼 이번 프로젝트에서 필요 없는 데이터는 아예 빼야 합니다.

👀 "깨끗한 데이터는 이런 모습!"

예시로 볼게요:

회차 추첨얼자 번호1 번호2 번호3 번호4 번호5 번호6
1회 2002-12-07 10 23 29 33 37 40
2회 2002-12-14 9 13 21 25 32 42
... ... ... ... ... ... ... ...
               
  • 규칙적인 포맷
  • 번호 6개만
  • 날짜와 회차 정보 명확

이런 형태라야 AI가 제대로 패턴을 찾아낼 수 있습니다.

 


⚡ "왜 전처리가 중요한 걸까?"

간단합니다.

AI는 바보예요.
인간처럼 눈치채거나 유추하지 못합니다.

 

"이 번호는 빠졌네?", "이건 중복이네?" 같은 걸 스스로 판단 못 해요.
우리가 미리 정리해줘야, AI가 '정상적인 세계'라고 인식하고 학습을 시작합니다.

결국, 데이터 전처리는
AI에게 '깨끗한 세상'을 만들어주는 일입니다.

 


🔧 "전처리에서 하는 일"

정리하면 전처리에서는 이런 작업을 합니다:

  • 결측값 채우기(또는 삭제)
  • 필요 없는 열 제거 (예: 보너스 번호 제거)
  • 번호 타입 통일 (모두 숫자 형태로)
  • 날짜 형식 통일 (YYYY-MM-DD)
  • 중복 데이터 제거

이 과정을 거쳐야
AI가 올바른 출발선에 서게 됩니다.

 


🧹 로또 데이터 전처리 하면,

  1. 보너스번호 제거하기
    • 이번 프로젝트에서는 보너스 번호를 사용하지 않기 때문이에요.
  2. 번호를 모두 숫자형(Numeric)으로 통일하기
    • 혹시 문자열로 저장된 번호가 있다면 숫자로 바꿔야 합니다.
  3. 날짜 포맷 통일하기
    • YYYY-MM-DD 형태로 깔끔하게.
  4. 결측값 확인하고 채우거나 제거하기
    • 빠진 번호가 없는지 확인!

 

데이터 전처리를 하기 위해 2일차 데이터로 작업을 진행 

전처리 프로그램
데이터 전처리 결과


📚 용어 정리

  • 데이터 전처리(Preprocessing) : AI 학습 전에 데이터를 깨끗하게 정리하는 과정
  • 결측값(Missing Value) : 빠지거나 비어 있는 데이터 값
  • 중복 데이터(Duplicate Data) : 동일한 데이터가 여러 번 기록된 것
  • Garbage In, Garbage Out : 잘못된 입력이 잘못된 결과를 만든다는 원칙

 

🚀 이렇게 정리된 데이터는 이제 AI가 학습할 수 있는 상태가 되었습니다.
다음 단계에서는 이 데이터를 기반으로 AI 모델을 설계하고, 실제 예측을 수행할 수 있습니다.
데이터 전처리는 단순한 정리가 아니라, AI의 예측 성능을 좌우하는 핵심 과정입니다.
이를 통해 로또 번호 예측 프로젝트의 정확도를 더욱 높일 수 있게 됩니다.