본문 바로가기

취업준비/인공지능

[AI Tech] 1주차 4-1차시 머신러닝 기본 개념 소개 (1)

4-1. 머신러닝 기본 개념 소개

1. Underfitting & Overfitting

1-1. What is Underfitting & Overfitting

용어 정리

- Fit: 데이터를 "잘" 설명할 수 있는 능력을 말한다.

- Underfitting: 데이터를 설명하지 못하는 것

- Overfitting: 데이터를 과하게 설명하는 것

알아야 할 점

- 우리의 데이터 셋은 전체의 일부분이다.

- Our dataset = Full dataset일 경우 Overfitting이 좋아 보일 수는 있지만, 실제로는 샘플 데이터가 전체 데이터에 비해 엄청 작다.

(기억이 안 난다면 화장품의 sample을 빗대어 생각해 보자)

- 데이터로 모든 것을 잘 설명할 수 있어야 한다.

주의점

- 원본 데이터는 특별한 이유가 없는 한 훼손해서는 안된다.

- 우리의 데이터셋이 전체를 잘 설명하도록 데이터를 선별하는 것이 매우 중요하다.

 

1-2. How to monitoring Underfitting & Overfitting

→ 나중에 Validation에서 추가로 설명 진행

 

1-3. Regularization(Overfitting을 제어하는 방법)

- Early stopping

- Parameter norm penalty

- Data augmentation

- Noise robustness

- Label smoothing

- Dropout

- Batch normalization

볼드 처리된 것들은 정형 데이터 분석에서도 사용할 수 있는 것이다.

Early stopping

- Validation Error는 줄어들다가 증가한다.

- Training Error는 지속적으로 줄어든다.

- 그래서 적정선을 선택하는 것을 Early Stopping이라고 한다.

- Validation Error와 Early stop point는 Trade-off 관계에 있다.

Parameter norm penalty

- 페널티를 적절하게 설정하여 모델을 학습시키는 방법이다.

Data augmentation

- 딥러닝에서 이미지를 처리할 때 많이 사용한다.

- 데이터를 의도적으로 증강시켜 머신러닝 시키는 데 유리하게 하는 방법이다.

SMOTE(정형 데이터에서 이미지 처리 시 사용하는 방법)

- 주로 Imbalanced 한 데이터를 처리하는데 많이 사용하는 기법이다.

- 기준으로 설정된 데이터 주변에서 근처 데이터를 찾은 후 그 사이 데이터를 생성하는 방법으로 데이터를 증강시킨다.

Dropout

- 원본 데이터에서 무작위로 데이터 간의 연결(노드 간 연결)을 끊어버림으로써 최적화시키는 기법이다.

- 예: Column sample by tree

 

 

 

 

 

© NAVER Connect Foundation. All Rights Reserved