본문 바로가기

취업준비/인공지능

[AI Tech] 1주차 3-1차시 데이터 전처리 (1)

3-1. 데이터 전처리 (1)

데이터 전처리(Preprocessing)

머신러닝 모델에 데이터를 입력하기 위해 데이터를 처리하는 과정

→ EDA에 따라 달라지는 데이터 전처리

→ 모델, 목적에 따라 달라지는 데이터 전처리

선형? 트리? 딥러닝? 정해져 있지는 않지만, 어느 정도 분류는 되어 있다.

- 연속형, 범주형 처리

- 결축치 처리

- 이상치 처리

Sklearn의 Boston Dataset*을 사용한다.

 

 

1. 연속형, 범주형 처리

1-1. 연속형

Scaling

데이터의 단위 혹은 분포를 변경한다.

- 선형 기반의 모델(선형회귀, 딥러닝 등)인 경우 변수들 간의 스케일을 맞추는 것이 필수적이다.

1. Scale

2. Scale + Distribution

+ Binning

방법

1. Min Max Scling

X_new = (X_i - min(x))/(max(x)-min(x))

2. Standard Scaling

3. Robust Scaling

값의 변화

값의 스케일링 → 분포의 변화

★ 스케일링을 잘못하면 잘못된 해석과 잘못된 결과를 불러온다.

Scaling + Distribuition

1. Log Transformation: 정규분포로 맞춰줌

2. Quantitle Transformation: 어떤 분포라도 정규분포로 맞춰줌

★ 타깃과 관계가 더 깊어질 수 있다.

Binning

- 넓고 얇은 다봉분포

- Overfitting을 방지

 

1-2. 범주형

Encoding

1. One hot encoding

- 변수를 1(Yes)과 0(No)으로 나누는 방법

- 장점: 모델이 변수의 값을 원의미 그대로 이해한다.

- 단점: 변수의 종이 많을 때 "차원의 저주 문제"가 생긴다.

2. Lable encoding

- 장점: 종마다 다른 번호를 부여한다면, 한 개의 Column만으로 표현할 수 있다.

- 단점: 숫자를 특징으로 이해할 수 있다.

3. Frequency encoding

- 해당 변수의 값이 몇 번 나오는지 빈도수를 변수로 사용

4. Target encoding

- 타깃 변수의 평균으로 인코딩을 한다.

- 장점: 각각의 값을 수치로 바꿈으로써 하나의 컬럼으로 모든 값 표현 가능

- 장점: 순수한 값을 갖는다.

- 단점: 종이 겹칠 수도 있다.

- 단점: 미래 새로운 종을 표현할 수 없다.

- 단점: Overfitting이 발생할 수 있다.

5. Embedding

- 4 Entity Embedding

- Word2Vec

 

 

 

 

 

© NAVER Connect Foundation. All Rights Reserved