3-1. 데이터 전처리 (1)
데이터 전처리(Preprocessing)
머신러닝 모델에 데이터를 입력하기 위해 데이터를 처리하는 과정
→ EDA에 따라 달라지는 데이터 전처리
→ 모델, 목적에 따라 달라지는 데이터 전처리
선형? 트리? 딥러닝? 정해져 있지는 않지만, 어느 정도 분류는 되어 있다.
- 연속형, 범주형 처리
- 결축치 처리
- 이상치 처리
Sklearn의 Boston Dataset*을 사용한다.
1. 연속형, 범주형 처리
1-1. 연속형
Scaling
데이터의 단위 혹은 분포를 변경한다.
- 선형 기반의 모델(선형회귀, 딥러닝 등)인 경우 변수들 간의 스케일을 맞추는 것이 필수적이다.
1. Scale
2. Scale + Distribution
+ Binning
방법
1. Min Max Scling
X_new = (X_i - min(x))/(max(x)-min(x))
2. Standard Scaling
3. Robust Scaling
값의 변화
값의 스케일링 → 분포의 변화
★ 스케일링을 잘못하면 잘못된 해석과 잘못된 결과를 불러온다.
Scaling + Distribuition
1. Log Transformation: 정규분포로 맞춰줌
2. Quantitle Transformation: 어떤 분포라도 정규분포로 맞춰줌
★ 타깃과 관계가 더 깊어질 수 있다.
Binning
- 넓고 얇은 다봉분포
- Overfitting을 방지
1-2. 범주형
Encoding
1. One hot encoding
- 변수를 1(Yes)과 0(No)으로 나누는 방법
- 장점: 모델이 변수의 값을 원의미 그대로 이해한다.
- 단점: 변수의 종이 많을 때 "차원의 저주 문제"가 생긴다.
2. Lable encoding
- 장점: 종마다 다른 번호를 부여한다면, 한 개의 Column만으로 표현할 수 있다.
- 단점: 숫자를 특징으로 이해할 수 있다.
3. Frequency encoding
- 해당 변수의 값이 몇 번 나오는지 빈도수를 변수로 사용
4. Target encoding
- 타깃 변수의 평균으로 인코딩을 한다.
- 장점: 각각의 값을 수치로 바꿈으로써 하나의 컬럼으로 모든 값 표현 가능
- 장점: 순수한 값을 갖는다.
- 단점: 종이 겹칠 수도 있다.
- 단점: 미래 새로운 종을 표현할 수 없다.
- 단점: Overfitting이 발생할 수 있다.
5. Embedding
- 4 Entity Embedding
- Word2Vec
© NAVER Connect Foundation. All Rights Reserved
'취업준비 > 인공지능' 카테고리의 다른 글
[AI Tech] 1주차 3-3차시 데이터 전처리 연습 (0) | 2024.01.20 |
---|---|
[AI Tech] 1주차 3-2차시 데이터 전처리 (2) (0) | 2024.01.20 |
[AI Tech] 1주차 1-Appendix2차시 Pandas (0) | 2024.01.20 |
[AI Tech] 1주차 1-Appendix1차시 Numpy (0) | 2024.01.20 |
[AI Tech] 1주차 2-4차시 Quiz 1 (0) | 2024.01.20 |