-
딥러닝 이론-7-2 : Learning and test data sets딥러닝 2023. 7. 7. 23:00
1. Training and test sets
- 앞선 포스팅에서도 말했듯이, training set의 정확도를 100%로 model을 학습시키는 것은, model이 memorize 할 수 있기 때문에 좋은 방법이 아니라고 하였다. 그럼 어떻게 setting을 해야할까?
data set이 train data와 test data로 나누어져 있는 경우도 있지만, 그렇지 않은 경우도 있다. 이러한 경우, 보통 전체 data set의 80%를 train data로 사용하고 나머지 20% 를 test data로 사용하게 된다. train data의 경우, 실제 값(Y)를 보면서 예측 값과 비교하지만, test data에서는 실제 값이 숨겨져서 볼 수 없어야 한다. (시험보는데 답지 보면 무슨 의미가 있겠는가.)
위와 같이 전체 data set이 train data와 test data로 나눌 수 있지만, 여기서 validation이라는 것을 넣어줄 수 있다. 쉽게 말해 모의고사로 생각하면 된다. train data로 학습을 한 뒤, validation data를 통해 tuning을 하는 것이다.
2. Online learning
- 100만개의 데이터에 대해서 학습한 model이 있다고 하자. 이 model에 새로운 데이터 10만개가 들어온다면, 다시 110만개의 데이터에 대해서 학습하는 것은 상당히 비효율적이다. 이러한 경우 online learning이 굉장히 유용하게 사용된다.
100만개의 데이터에 대해서 학습을 한 결과가 model에 남아있고, 새로운 데이터 10만개가 들어오면 새로운 데이터에 대한 학습 결과만 추가시키면 되기 때문에 굉장히 효율적으로 model을 학습할 수가 있다.
'딥러닝' 카테고리의 다른 글
딥러닝 이론-8-2 : 딥러닝의 기본 개념2 (1) 2023.07.10 딥러닝 이론-8-1 : 딥러닝 기본 개념 1 (0) 2023.07.09 딥러닝 이론-7-1 : Learning rate, data preprocessing, overfitting (0) 2023.07.06 딥러닝 이론-6 : Softmax Classification (0) 2023.07.05 딥러닝 이론-5 : Logistic regression classification (0) 2023.07.04