본문 바로가기

도서,강의 요약/모두를 위한 머신러닝

lec 07-2: Training/Testing 데이타 셋

해당 자료는 "모두를 위한 머신러닝/딥러닝 강의"를 보고 개인적으로 정리한 내용입니다.

http://hunkim.github.io/ml/

 

모두를 위한 머신러닝/딥러닝 강의

 

hunkim.github.io

 

Evaluation을 잘 하는 방법

  • 전체 데이터셋 중 70% 정도만 학습에 사용
  • 나머지 30%는 테스트 셋으로 구성하여 품질 평가

 

Validation set

  • training set으로 학습한 모델에서 조금 더 정교하게 튜닝하기 위한 data set
  • cost 함수 등에서 사용되는 상수(람다, learning rate 등)을 튜닝

 

Online learning

  • training set이 큰 경우 한번에 학습할 경우 메모리 등 리소스가 많이 필요
  • training set을 여러개로 분리하여 학습
  • 한번 학습한 결과는 유지하고, 새로운 데이터를 입력하여 추가 학습