4-1. 머신러닝 기본 개념 소개
1. Underfitting & Overfitting
1-1. What is Underfitting & Overfitting
용어 정리
- Fit: 데이터를 "잘" 설명할 수 있는 능력을 말한다.
- Underfitting: 데이터를 설명하지 못하는 것
- Overfitting: 데이터를 과하게 설명하는 것
알아야 할 점
- 우리의 데이터 셋은 전체의 일부분이다.
- Our dataset = Full dataset일 경우 Overfitting이 좋아 보일 수는 있지만, 실제로는 샘플 데이터가 전체 데이터에 비해 엄청 작다.
(기억이 안 난다면 화장품의 sample을 빗대어 생각해 보자)
- 데이터로 모든 것을 잘 설명할 수 있어야 한다.
주의점
- 원본 데이터는 특별한 이유가 없는 한 훼손해서는 안된다.
- 우리의 데이터셋이 전체를 잘 설명하도록 데이터를 선별하는 것이 매우 중요하다.
1-2. How to monitoring Underfitting & Overfitting
→ 나중에 Validation에서 추가로 설명 진행
1-3. Regularization(Overfitting을 제어하는 방법)
- Early stopping
- Parameter norm penalty
- Data augmentation
- Noise robustness
- Label smoothing
- Dropout
- Batch normalization
볼드 처리된 것들은 정형 데이터 분석에서도 사용할 수 있는 것이다.
Early stopping
- Validation Error는 줄어들다가 증가한다.
- Training Error는 지속적으로 줄어든다.
- 그래서 적정선을 선택하는 것을 Early Stopping이라고 한다.
- Validation Error와 Early stop point는 Trade-off 관계에 있다.
Parameter norm penalty
- 페널티를 적절하게 설정하여 모델을 학습시키는 방법이다.
Data augmentation
- 딥러닝에서 이미지를 처리할 때 많이 사용한다.
- 데이터를 의도적으로 증강시켜 머신러닝 시키는 데 유리하게 하는 방법이다.
SMOTE(정형 데이터에서 이미지 처리 시 사용하는 방법)
- 주로 Imbalanced 한 데이터를 처리하는데 많이 사용하는 기법이다.
- 기준으로 설정된 데이터 주변에서 근처 데이터를 찾은 후 그 사이 데이터를 생성하는 방법으로 데이터를 증강시킨다.
Dropout
- 원본 데이터에서 무작위로 데이터 간의 연결(노드 간 연결)을 끊어버림으로써 최적화시키는 기법이다.
- 예: Column sample by tree
© NAVER Connect Foundation. All Rights Reserved
'취업준비 > 인공지능' 카테고리의 다른 글
[AI Tech] 1주차 5-1차시 트리 모델 (2) | 2024.01.21 |
---|---|
[AI Tech] 1주차 4-2차시 머신러닝 기본 개념 소개 (2) (3) | 2024.01.21 |
[AI Tech] 1주차 3-4차시 Quiz 2 (0) | 2024.01.20 |
[AI Tech] 1주차 3-3차시 데이터 전처리 연습 (0) | 2024.01.20 |
[AI Tech] 1주차 3-2차시 데이터 전처리 (2) (0) | 2024.01.20 |