본문 바로가기

취업준비/인공지능

[AI Tech] 1주차 3-2차시 데이터 전처리 (2)

3-2. 데이터 전처리 (2)

2. 결측치 처리

2-1. Pattern

Missing data patterns

1. Random

2. Rule

 

2-2. Univariate

1. 제거

1) 해당 포인트 제거

- 데이터가 충분히 많다면 좋지 않음

2) 해당 변수를 제거

- 모델에 도움이 안 되는 변수를 제거

2. 평균값 삽입

3. 중위값 삽입

4. 상수값 삽입

→ 2~4처럼 값을 삽입하는 것은 분포를 무너뜨린다.

 

2-3. Multivariate

Model

1. 회귀분석

- X1을 X2,..., Xn으로 예측하고, X2로 X1,..., Xn을 예측한다.

- 이 과정을 반복한다.

2. KNN nearest

- Missing values are imputed with observed values randomly chosen from "similar" responding units.

Multivariate(합리적 접근법)

- 행정구역인구, 관할소방서인원

- 강수량

- 토지이용상황명, 도로측연명, 용도지역지구명

- 온도, 습도, 풍속

- 풍량

 

 

3. 이상치 처리

3-1. 이상치란?

데이터중 일반적인 데이터와 크게 다른 것을 말한다.

 

3-2. 이상치 탐색

1. Z-Score

2. IQR

 

3-3. 이상치 처리 관점

1. 정성적인 측면

- 이상치 발생 이유

- 이상치 의미

등을 알아봐야 한다.

2. 성능적인 측면

- Train Test Distribution

- 이상치를 제거함으로써 성능이 향상됨을 살펴보는 것이다.

 

 

 

 

 

© NAVER Connect Foundation. All Rights Reserved